Luận văn thạc sĩ: Áp dụng máy học để tối ưu hóa đặc trưng trong xử lý số liệu lớn

Luận văn thạc sĩ khám phá ứng dụng máy học trong việc xác định đặc trưng tối ưu cho bài toán xử lý số liệu lớn trong công nghệ thông tin.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2011

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN CẦN GIẢI QUYẾT

1.1. Giới thiệu

1.2. Khai phá dữ liệu và trích chọn thuộc tính

1.3. Lựa chọn thuộc tính và bài toán phân lớp

1.4. Phương pháp dự kiến thực hiện

2. CHƯƠNG 2: MỘT SỐ KỸ THUẬT LỰA CHỌN THUỘC TÍNH

2.1. Phương pháp lựa chọn thuộc tính là gì?

2.2. Chiến lược tìm kiếm

2.3. Tiêu chuẩn lựa chọn

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT THUẬT GIẢI DI TRUYỀN VÀ MẠNG NƠRON NHÂN TẠO

3.1. Thuật toán di truyền

3.2. Mạng nơron nhân tạo

3.2.1. Mô hình phân lớp tổng quát

3.2.2. Mạng Back propagation

4. CHƯƠNG 4: KẾT HỢP GIẢI THUẬT DI TRUYỀN VÀ MẠNG NƠRON ĐỂ GIẢM CHIỀU SỐ LIỆU

4.1. Kiến trúc hệ thống

4.2. Hoạt động của hệ thống

4.3. Sơ đồ khối phương pháp học máy

4.4. Phương pháp đề xuất tìm bộ thuộc tính tối ưu nhất

5. CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM

5.1. Môi trường thực nghiệm

5.2. Bộ dữ liệu Stomach Cancer

5.2.1. Mô tả bộ dữ liệu

5.2.2. Kết quả thực nghiệm

5.3. Bộ dữ liệu Lung Cancer

5.3.1. Mô tả bộ dữ liệu Lung Cancer

5.3.2. Kết quả thực nghiệm

Tài liệu tham khảo

Tóm tắt

I. Tổng quan về máy học trong xử lý số liệu lớn

Máy học đã trở thành một công cụ quan trọng trong việc xử lý số liệu lớn. Sự phát triển của công nghệ thông tin đã dẫn đến việc tạo ra khối lượng dữ liệu khổng lồ, đòi hỏi các phương pháp hiệu quả để khai thác và phân tích. Khai thác dữ liệu và trích chọn thuộc tính là hai khía cạnh quan trọng trong quá trình này. Việc tìm kiếm đặc trưng tối ưu cho các bài toán phân lớp là một thách thức lớn, đặc biệt khi số lượng thuộc tính có thể rất lớn. Nghiên cứu này nhằm mục đích tìm ra các thuộc tính hữu ích nhất, từ đó cải thiện hiệu suất của các thuật toán phân lớp.

1.1 Khái niệm về khai phá dữ liệu

Khai phá dữ liệu là quá trình phát hiện thông tin có giá trị từ các tập dữ liệu lớn. Nó bao gồm nhiều kỹ thuật khác nhau nhằm tìm ra các mẫu hình có tính quy luật. Phân tích dữ liệu và trích chọn thuộc tính là những bước quan trọng trong quá trình này. Việc giảm chiều dữ liệu thông qua lựa chọn thuộc tính giúp loại bỏ những thuộc tính không liên quan, từ đó nâng cao hiệu quả của các thuật toán. Các phương pháp như Linear Discriminant Analysis (LDA) và Principal Components Analysis (PCA) thường được sử dụng để thực hiện việc này.

II. Kỹ thuật lựa chọn thuộc tính

Lựa chọn thuộc tính là một bước quan trọng trong việc xử lý dữ liệu, giúp giảm bớt số chiều của mẫu mà không làm giảm chất lượng thông tin. Có nhiều phương pháp lựa chọn thuộc tính, bao gồm Filter, Wrapper, và Embedded. Mỗi phương pháp có những ưu điểm và nhược điểm riêng. Việc lựa chọn thuộc tính không chỉ giúp cải thiện hiệu suất của các thuật toán mà còn giúp đơn giản hóa kết quả phân tích. Chiến lược tìm kiếm trong lựa chọn thuộc tính cũng rất quan trọng, vì nó ảnh hưởng đến khả năng tìm ra tập con tối ưu trong không gian tìm kiếm lớn.

2.1 Phương pháp lựa chọn thuộc tính

Phương pháp lựa chọn thuộc tính có thể được chia thành hai loại chính: lựa chọn theo ngưỡng và lựa chọn tự động. Lựa chọn theo ngưỡng dựa trên việc xếp loại các thuộc tính theo một tiêu chuẩn nhất định, trong khi lựa chọn tự động tìm ra tập con nhỏ nhất mà không làm giảm hiệu suất học. Việc lựa chọn thuộc tính có thể được thực hiện thông qua các mô hình khác nhau và các chiến lược tìm kiếm như forward, backward, và floating. Mỗi phương pháp đều có những ứng dụng cụ thể trong việc xử lý dữ liệu lớn.

III. Ứng dụng máy học trong luận văn thạc sĩ

Luận văn thạc sĩ này tập trung vào việc áp dụng máy học để tìm ra các đặc trưng tối ưu trong các bài toán xử lý số liệu lớn. Nghiên cứu sử dụng các thuật toán như giải thuật di truyền và mạng nơron nhân tạo để tối ưu hóa quá trình lựa chọn thuộc tính. Kết quả thực nghiệm cho thấy rằng việc áp dụng các phương pháp này không chỉ giúp cải thiện độ chính xác của các mô hình phân lớp mà còn giảm thiểu thời gian xử lý. Điều này chứng tỏ rằng máy học có thể mang lại giá trị thực tiễn cao trong việc xử lý và phân tích dữ liệu lớn.

3.1 Kết quả thực nghiệm

Kết quả thực nghiệm từ các bộ dữ liệu như Stomach Cancer và Lung Cancer cho thấy rằng việc áp dụng các phương pháp lựa chọn thuộc tính đã giúp cải thiện đáng kể độ chính xác của các mô hình phân lớp. Các số liệu thu được từ các thử nghiệm cho thấy rằng việc giảm chiều dữ liệu không chỉ giúp tiết kiệm tài nguyên mà còn nâng cao hiệu suất của các thuật toán. Điều này khẳng định rằng việc áp dụng máy học trong xử lý số liệu lớn là một hướng đi đúng đắn và có tiềm năng lớn trong nghiên cứu và ứng dụng thực tiễn.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ áp dụng máy học để tìm ra các đặc trưng tối ưu trong các bài toán xử lý số liệu lớn luận văn ths công nghệ thông tin 60 48 05

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của khoa học kỹ thuật, khối lượng dữ liệu thu thập được ngày càng lớn, có thể lên tới hàng nghìn tỷ đối tượng với hàng nghìn thuộc tính. Tuy nhiên, việc xử lý và khai thác hiệu quả các dữ liệu này vẫn là thách thức lớn do sự phức tạp và kích thước khổng lồ của chúng. Việc lựa chọn các thuộc tính tối ưu trong bộ dữ liệu lớn trở thành một vấn đề quan trọng nhằm giảm chiều dữ liệu, loại bỏ các thuộc tính không liên quan hoặc nhiễu, từ đó nâng cao hiệu quả của các thuật toán phân lớp và khai phá dữ liệu. Mục tiêu nghiên cứu của luận văn là phát triển phương pháp học máy kết hợp giải thuật di truyền và mạng nơron nhân tạo để tìm ra bộ thuộc tính tối ưu trong các bài toán xử lý số liệu lớn, đảm bảo độ chính xác phân lớp cao và giảm thiểu số lượng thuộc tính cần thiết.

Phạm vi nghiên cứu tập trung vào các bộ dữ liệu thực tế về bệnh ung thư dạ dày và ung thư phổi, với thời gian thực hiện nghiên cứu vào năm 2011 tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số như độ chính xác phân lớp, giảm chiều dữ liệu từ hàng nghìn thuộc tính xuống còn khoảng 50-60 thuộc tính, đồng thời giảm thời gian xử lý và tăng tính ổn định của mô hình. Kết quả nghiên cứu góp phần nâng cao hiệu quả khai phá dữ liệu trong lĩnh vực y sinh và các ứng dụng xử lý dữ liệu lớn khác.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: giải thuật di truyền (Genetic Algorithm - GA) và mạng nơron nhân tạo (Neural Network - NN). Giải thuật di truyền là phương pháp tối ưu hóa dựa trên nguyên lý chọn lọc tự nhiên và di truyền, sử dụng các toán tử chọn lọc, lai ghép và đột biến để tìm kiếm bộ thuộc tính tối ưu trong không gian lớn các tập con thuộc tính. Mạng nơron nhân tạo, đặc biệt là mạng Back Propagation ba lớp, được sử dụng để đánh giá độ thích nghi của từng bộ thuộc tính thông qua khả năng phân lớp chính xác các mẫu dữ liệu.

Ba khái niệm chính trong nghiên cứu bao gồm:

Lựa chọn thuộc tính (Feature Selection): Quá trình chọn ra tập con thuộc tính từ tập thuộc tính ban đầu nhằm giảm chiều dữ liệu và nâng cao hiệu quả phân lớp.
Mô hình Wrapper: Phương pháp lựa chọn thuộc tính kết hợp chặt chẽ với thuật toán học máy, sử dụng độ chính xác phân lớp làm tiêu chí đánh giá.
Kiểm chứng chéo (Cross Validation): Kỹ thuật đánh giá mô hình bằng cách chia dữ liệu thành nhiều phần để huấn luyện và kiểm thử nhằm đảm bảo tính ổn định và chính xác của kết quả.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng gồm hai bộ dữ liệu thực tế: bộ dữ liệu Stomach Cancer với 137 mẫu và 119 thuộc tính, và bộ dữ liệu Lung Cancer với 181 mẫu và hơn 12.000 thuộc tính. Phương pháp nghiên cứu bao gồm các bước:

Khởi tạo quần thể: Sinh các nhiễm sắc thể đại diện cho các tập con thuộc tính bằng chuỗi nhị phân.
Đánh giá độ thích nghi: Sử dụng mạng nơron Back Propagation ba lớp để huấn luyện và kiểm thử các bộ thuộc tính, áp dụng kỹ thuật kiểm chứng chéo 5 lần để tính độ chính xác trung bình.
Chọn lọc, lai ghép và đột biến: Áp dụng các toán tử di truyền để tạo ra thế hệ mới các bộ thuộc tính, duy trì cỡ quần thể cố định (10 cá thể) và lặp lại quá trình trong 30 thế hệ.
Kiểm chứng kết quả: Chia dữ liệu thành 70% huấn luyện và 30% kiểm thử, thực hiện 10 lần kiểm tra ngẫu nhiên để đánh giá độ tin cậy của bộ thuộc tính tối ưu.
Cải tiến phương pháp: Tính trọng số cho từng thuộc tính dựa trên tần suất xuất hiện trong các bộ thuộc tính tốt nhất, sắp xếp và lựa chọn các tập con nhỏ hơn để tối ưu hóa thêm.

Phương pháp phân tích sử dụng ngôn ngữ lập trình C++ Builder 6.0, thực hiện trên máy tính cấu hình Intel Core i7, RAM 4GB. Thời gian thực hiện mỗi lần chạy khoảng 30 phút do tính toán phức tạp của mạng nơron và số lần kiểm chứng chéo.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Giảm chiều dữ liệu hiệu quả: Từ bộ dữ liệu Stomach Cancer ban đầu với 119 thuộc tính, phương pháp học máy đã chọn lọc được bộ thuộc tính gồm 60 thuộc tính với độ phù hợp cao nhất, giảm gần 50% số thuộc tính ban đầu.
Độ chính xác phân lớp cao và ổn định: Qua 10 lần kiểm tra ngẫu nhiên, bộ thuộc tính 60 cột đạt độ chính xác trung bình 82.3% với độ lệch chuẩn thấp, thời gian kiểm tra khoảng 1-2 phút.
Cải tiến phương pháp nâng cao hiệu quả: Bằng cách tính trọng số và lựa chọn bộ thuộc tính nhỏ hơn (50 cột), độ chính xác phân lớp tăng lên 90.42% với độ lệch chuẩn chỉ 2%, cho thấy sự ổn định và hiệu quả vượt trội so với bộ 60 cột ban đầu.
So sánh với phương pháp gốc: Phương pháp cải tiến cho kết quả dự đoán đúng 90.6%, cao hơn đáng kể so với 82.91% của phương pháp GA/NN nguyên gốc, chứng tỏ tính khả thi và ưu việt của đề xuất.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc kết hợp giải thuật di truyền với mạng nơron nhân tạo giúp tìm kiếm bộ thuộc tính tối ưu trong không gian lớn một cách hiệu quả, đồng thời mạng nơron đánh giá chính xác khả năng phân lớp của từng bộ thuộc tính. Việc áp dụng kỹ thuật kiểm chứng chéo đảm bảo tính khách quan và ổn định của kết quả. So với các nghiên cứu trước đây chỉ sử dụng một trong hai phương pháp, sự kết hợp này mang lại hiệu quả cao hơn rõ rệt.

Kết quả cũng cho thấy việc giảm chiều dữ liệu không chỉ giúp giảm thời gian huấn luyện và kiểm thử mà còn làm giảm hiện tượng overfitting, nâng cao khả năng tổng quát hóa của mô hình. Biểu đồ so sánh độ chính xác qua các lần kiểm tra minh họa rõ sự ổn định và hiệu quả của bộ thuộc tính tối ưu. Kết quả này phù hợp với các nghiên cứu trong lĩnh vực khai phá dữ liệu và học máy, đồng thời có ý nghĩa thực tiễn lớn trong xử lý dữ liệu y sinh và các lĩnh vực tương tự.

Đề xuất và khuyến nghị

Áp dụng rộng rãi phương pháp GA kết hợp NN: Khuyến nghị các nhà nghiên cứu và chuyên gia dữ liệu sử dụng phương pháp này để xử lý các bộ dữ liệu lớn, đặc biệt trong lĩnh vực y sinh và phân tích gen nhằm nâng cao hiệu quả phân lớp và giảm chiều dữ liệu.
Tối ưu tham số thuật toán: Đề xuất điều chỉnh các tham số như số nơron lớp ẩn, cỡ quần thể, số vòng lặp mạng nơron và số thế hệ giải thuật di truyền để phù hợp với từng bộ dữ liệu cụ thể, nhằm đạt hiệu quả tối ưu trong thời gian hợp lý.
Phát triển công cụ phần mềm hỗ trợ: Khuyến khích xây dựng các phần mềm tích hợp giải thuật di truyền và mạng nơron nhân tạo với giao diện thân thiện, hỗ trợ kiểm chứng chéo tự động để người dùng dễ dàng áp dụng trong thực tế.
Mở rộng nghiên cứu với dữ liệu đa dạng: Đề xuất nghiên cứu thêm trên các bộ dữ liệu có kích thước và đặc điểm khác nhau, bao gồm dữ liệu văn bản, hình ảnh và dữ liệu thời gian thực để đánh giá tính tổng quát và khả năng ứng dụng của phương pháp.
Thời gian thực hiện: Khuyến nghị sử dụng các hệ thống tính toán song song hoặc đám mây để giảm thời gian huấn luyện và kiểm thử, đặc biệt với các bộ dữ liệu có số lượng thuộc tính rất lớn như bộ Lung Cancer.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Học máy: Luận văn cung cấp kiến thức sâu về lựa chọn thuộc tính, giải thuật di truyền và mạng nơron, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phân tích dữ liệu y sinh: Phương pháp và kết quả nghiên cứu giúp cải thiện hiệu quả phân tích dữ liệu gen, hỗ trợ chẩn đoán và nghiên cứu bệnh lý.
Nhà phát triển phần mềm khai phá dữ liệu: Cung cấp cơ sở lý thuyết và thuật toán để xây dựng các công cụ khai phá dữ liệu có khả năng xử lý dữ liệu lớn hiệu quả.
Các tổ chức nghiên cứu và ứng dụng trí tuệ nhân tạo: Giúp nâng cao năng lực xử lý dữ liệu lớn, tối ưu hóa mô hình phân lớp trong các dự án thực tế.

Câu hỏi thường gặp

Phương pháp học máy kết hợp giải thuật di truyền và mạng nơron có ưu điểm gì?
Phương pháp này tận dụng khả năng tìm kiếm tối ưu của giải thuật di truyền và khả năng phân lớp chính xác của mạng nơron, giúp chọn ra bộ thuộc tính tối ưu, giảm chiều dữ liệu và nâng cao độ chính xác phân lớp.
Làm thế nào để đánh giá độ phù hợp của bộ thuộc tính?
Độ phù hợp được đánh giá bằng độ chính xác phân lớp của mạng nơron trên bộ thuộc tính đó, sử dụng kỹ thuật kiểm chứng chéo để đảm bảo tính ổn định và khách quan.
Tại sao cần giảm chiều dữ liệu trong khai phá dữ liệu?
Giảm chiều dữ liệu giúp giảm chi phí tính toán, tránh hiện tượng overfitting, tăng tốc độ huấn luyện và kiểm thử, đồng thời làm cho kết quả dễ hiểu và dễ áp dụng hơn.
Phương pháp này có thể áp dụng cho các loại dữ liệu khác ngoài y sinh không?
Có, phương pháp có thể áp dụng cho nhiều loại dữ liệu lớn khác như văn bản, hình ảnh, tín hiệu thời gian, miễn là dữ liệu có thể biểu diễn dưới dạng các thuộc tính số.
Thời gian thực hiện phương pháp có lâu không?
Thời gian thực hiện phụ thuộc vào kích thước dữ liệu và tham số thuật toán, với bộ dữ liệu Stomach Cancer mất khoảng 30 phút cho quá trình tìm bộ thuộc tính tối ưu, có thể giảm bằng cách sử dụng phần cứng mạnh hoặc kỹ thuật tính toán song song.

Kết luận

Phương pháp kết hợp giải thuật di truyền và mạng nơron nhân tạo hiệu quả trong việc lựa chọn bộ thuộc tính tối ưu cho bài toán xử lý số liệu lớn.
Giảm chiều dữ liệu từ 119 xuống còn khoảng 50-60 thuộc tính mà vẫn đảm bảo độ chính xác phân lớp trên 90%, tăng tính ổn định và giảm thời gian xử lý.
Kỹ thuật kiểm chứng chéo giúp đánh giá chính xác và khách quan độ phù hợp của bộ thuộc tính.
Hướng cải tiến đề xuất trong luận văn đã chứng minh tính khả thi và nâng cao hiệu quả so với phương pháp nguyên gốc.
Đề xuất tiếp tục mở rộng nghiên cứu, tối ưu tham số và phát triển công cụ hỗ trợ để ứng dụng rộng rãi trong các lĩnh vực xử lý dữ liệu lớn.

Áp dụng phương pháp này cho các bộ dữ liệu thực tế khác, đồng thời phát triển phần mềm hỗ trợ để tăng cường khả năng ứng dụng trong nghiên cứu và công nghiệp.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về bài toán cần giải quyết 1.1 Giới thiệu Ngày nay nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật mà chúng ta phải tiếp nhận và giải quyết với khối dữ liệu ngày càng lớn, có thể lên tới hàng nghìn tỷ các đối tượng và hàng nghìn các thuộc tính. Câu hỏi đặt ra ở đây là liệu có phải “càng nhiều có nghĩa là càng tốt?”. Câu trả lời cũng có thể là “Đúng” và cũng có thể là “Sai”. Trả lời là “Đúng” là vì ít nhất thì chúng ta cũng có thể nhận được những gì mà chúng ta mong muốn.

Còn câu trả lời là “Sai” vì khi có sự hiện diện của quá nhiều dữ liệu thì cũng tương đương với việc là “không có dữ liệu” nếu việc truy nhập dữ liệu không hiệu quả. Như vậy thì “nhiều” cũng có thể là “ít”. Dữ liệu trong mọi lĩnh vực như kinh tế, xã hội. sẽ trở thành vô nghĩa nếu không có phương pháp xử lý đồng nghĩa với không khai thác được các thông tin quan trọng của nó.

Bởi vì sự tích lũy dữ liệu đã trở thành thói quen nên phải có kỹ thuật lựa chọn dữ liệu phù hợp với tốc độ thu thập dữ liệu. Hơn thế nữa, với khối lượng lớn dữ liệu được sinh ra từ các máy tính hoặc từ các thiết bị khác tương đương, phải được xử lý một cách tự động để chúng ta có thể kiểm soát và chế ngự được chúng. Số lượng bản ghi cũng như kích thước của từng bản ghi được lưu trữ rất nhanh và lớn gây khó khăn trong việc lưu trữ và xử lý,… nên người ta đã đưa ra một số giải pháp như: xử lý song song, tìm ra các mẫu đặc trưng, tìm ra các thuộc tính đặc trưng. Hướng nghiên cứu của luận văn là tìm ra các thuộc tính đặc trưng hay còn gọi là lựa chọn thuộc tính (feature selection).

Phương pháp này được giới thiệu từ những năm 1970 trong các tài liệu về xác suất thống kê, học máy và khai phá dữ liệu, trong cả bài toán nhận dạng mẫu. Những năm trở lại đây, do nhu cầu giảm chiều số liệu ngày càng cao nên có rất nhiều các nghiên cứu về lựa chọn thuộc tính, lĩnh vực này phát triển mạnh mẽ cả về chiều rộng lẫn chiều sâu. Bằng chứng là chúng ta có thể tìm thấy trong rất nhiều bài báo, tạp chí hoặc trong các hội thảo gần đây. Các nghiên cứu bắt đầu từ lựa chọn thuộc tính giám sát cổ điển mở rộng đến lựa chọn thuộc tính không giám sát và bán giám sát, cả đến việc lựa chọn các kiểu thuộc tính khác như thuộc tính “nguyên nhân” và “cấu trúc”.

Một số nghiên cứu xét đến các loại dữ liệu khác như high-throughput, văn bản hoặc ảnh và có cả ước lượng lựa chọn thuộc tính… [1].2 Khai phá dữ liệu và trích chọn thuộc tính Khai phá dữ liệu là một khái niệm ra đời từ những cuối những năm 80 của thế kỷ trước. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện các thông tin có giá trị tiềm ẩn trong tập các dữ liệu lớn. Về bản chất, khai phá dữ liệu liên quan đến việc phân tích 7 z các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn.

Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữ liệu. Trong khai phá dữ liệu thì phương pháp trích chọn thuộc tính đóng một vai trò quan trọng trong tiền xử lý số liệu. Phương pháp trích chọn sẽ giúp giảm kích cỡ của không gian dữ liệu đặc trưng, loại bỏ những thuộc tính không liên quan và những thuộc tính nhiễu. Phưong pháp này có ảnh hưởng ngay lập tức đến các ứng dụng như thuật toán tăng tốc độ khai phá dữ liệu, cải thiện chất lượng dữ liệu và vì vậy tăng hiệu suất khai phá dữ liệu, kiểm soát được kết quả của thuật toán.

Khai phá dữ liệu chủ yếu tập trung vào 3 nhiệm vụ chính sau: Giảm chiều dữ liệu: Giảm chiều dữ liệu là việc làm giảm chiều của không gian tìm kiếm dữ liệu, giảm chi phí thu thập và lưu trữ dữ liệu, nâng cao hiệu quả của việc khai phá dữ liệu và làm đơn giản hóa các kết quả khai phá dữ liệu. Trong nhiệm vụ làm giảm chiều dữ liệu chúng ta cần phân biệt hai khái nhiệm sau: Trích chọn thuộc tính (Feature Extraction): Trích chọn thuộc tính là việc tìm ra một tập thuộc tính mới từ tập thuộc tính ban đầu nhằm nâng cao hiệu suất tính toán và độ chính xác phân lớp. Các kỹ thuật trích chọn thuộc tính thường liên quan đến các phép biến đổi phi tuyến (non-linear). Linear discriminant analysis (LDA) và principal components analysis (PCA) là hai kỹ thuật phổ biến dùng trong trích chọn thuộc tính.

Chọn lựa thuộc tính (Feature Selection): Chọn lựa thuộc tính là việc chọn ra một tập thuộc tính con từ tập thuộc tính ban đầu sao cho các tập thuộc tính con này thể thể hiện tốt nhất chức năng của một hệ thống quy nạp, chẳng hạn như một hệ thống phân lớp. Việc tìm kiếm một tập con thuộc tính tối ưu thường là rất khó và rất nhiều các vấn đề của chọn lựa thuộc tính là thuộc về lớp các bài toán NP-hard. Tuy nhiên, chọn lựa thuộc tính lại được sử dụng rộng rãi trong giảm chiều dữ liệu vì các kết quả dựa trên các thuộc tính được chọn lựa từ tập thuộc tính ban đầu thường dễ dàng lý giải hơn so với một tập các thuộc tính được biến đổi từ tập thuộc tính ban đầu. Phân cụm và phân lớp: Phân lớp và phân cụm là hai nhiệm vụ có mối quan hệ tương đối gần nhau trong khai phá dữ liệu.

Một lớp là một tập các đối tượng có cùng một số đặc điểm hoặc mối quan hệ nào đó, tất cả các đối tượng trong lớp này được 8 z phân vào trong cùng một lớp tên nhằm mục đích là để phân biệt với các lớp khác. Một cụm là một tập các đối tượng tương tự nhau về mặt vị trí. Các cụm thường được tạo ra nhằm mục đích để sau đó tiến hành phân lớp các đối tượng. Trích chọn luật: Trích chọn luật tìm kiếm và đưa ra dữ liệu bằng cách tất cả các dữ liệu được đưa ra dựa trên các suy diễn/các quyết định mà các suy diễn/quyết định này được xây dựng từ các tri thức thu thập được từ dữ liệu đó.

Đối với người sử dụng các kết quả của khai phá dữ liệu họ chỉ mong muốn có một cách giải thích đơn giản là tại sao có các kết quả phân lớp đó, thuộc tính nào ảnh hưởng đến kết quả khai phá dữ liệu…Tuy nhiên, bằng các tham số phân lớp rất khó để có thể diễn giải các tri thức đó theo cách mà người sử dụng có thể dễ dàng hiểu được. Do đó, trích chọn ra các luật IF-THEN để đưa ra các thông tin có giá trị là một cách diễn giải đơn giản và dễ hiểu nhất đối với người sử dụng. Lựa chọn thuộc tính và bài toán phân lớp Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối tượng thành n-hữu hạn lớp đã biết trước. Tập đối tượng cần phân lớp được đặc trưng bởi một tập các thuộc tính chứa các thông tin cần thiết liên quan đến các lớp, trong đó mỗi tập các thuộc tính được đại diện bởi một tập các thuộc tính – giá trị.

Với một tập dữ liệu bao gồm một tập các đối tượng đã được phân lớp (thường gọi là tập tập huấn) nhiệm vụ đặt ra là từ tập huấn luyện cho trước xây dựng một bộ phân lớp cho các dữ liệu tương tự. Vấn đề đặt ra đối với bài toán phân lớp là số lượng các thuộc tính có thể rất lớn do những lý do sau: Dữ liệu được thu thập không đơn giản chỉ phục vụ cho một tác nghiệp cụ thể chẳng hạn như khai phá dữ liệu. Do đó, đối với một ứng dụng cụ thể bộ dữ liệu có thể có rất nhiều các thuộc tính thừa hoặc không phù hợp. Đôi khi thậm chí nếu chúng ta biết các thuộc tính được thiết kế cho một tác nghiệp cụ thể thì thuộc tính nào là thuộc tính có liên quan thường không được biết.

Điều này là do bản chất của nghiên cứu. Chúng ta tiến hành thực nghiệm và thu thập số liệu vì chúng ta muốn biết nhiều hơn lĩnh vực mà chúng ta muốn tìm hiểu và chúng ta thông thường không có một ý niệm chính xác về các thuộc tính cần thiết. Do đó, chúng ta phải tìm các thuộc tính cần thiết nhiều nhất mà chúng ta có thể nghĩ đến thậm chí chúng có thể là các thuộc tính dư thừa hoặc không liên quan. Chúng ta chỉ có thể biết được thuộc tính nào là liên quan sau khi chúng ta nghiên cứu bộ số liệu đã được thu thập.

Một tác nghiệp có thể yêu cầu dữ liệu từ nhiều nguồn khác nhau. Nếu dữ liệu từ mỗi nguồn là lớn thì sau khi nối các nguồn dữ liệu trên chúng ta sẽ có một bộ dữ 9 z liệu khổng lồ. Nếu chúng ta biết được các thuộc tính liên quan thì chúng ta có thể giải quyết được vấn đề trên nhưng trên thực tế chúng ta thường không biết trước các thuộc tính nào là thuộc tính liên quan. Các thuộc tính không liên quan hoặc thừa có thể có những ảnh hưởng tiêu cực đối với các giải thuật phân lớp: Có nhiều thuộc tính thông thường có nghĩa là cần nhiều thực thể, vì vậy chúng ta cần đảm bảo các ràng buộc thống kê giữa các thực thể trong các lớp khác nhau, Các thuộc tính/dữ liệu thừa hoặc không liên quan có thể là nguyên nhân dẫn đến việc học của giải thuật không được chính xác hoặc dẫn đến hiện tượng overfitting trong mô hình, Thêm vào đó với sự có mặt của dữ liệu thừa hoặc dữ liệu không liên quan có thể làm cho bộ phân lớp trở lên phức tạp hơn.

Điều này là gây ra những khó khăn không cần thiết cho chúng ta trong việc diễn giải các kết quả học được từ tập huấn luyện.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Áp dụng máy học để tối ưu hóa đặc trưng trong xử lý số liệu lớn" của tác giả Ngô Thùy Linh, dưới sự hướng dẫn của TS. Nguyễn Hà Nam tại Đại học Quốc gia Hà Nội, tập trung vào việc ứng dụng các kỹ thuật máy học nhằm tìm ra các đặc trưng tối ưu trong các bài toán xử lý số liệu lớn. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách thức máy học có thể cải thiện hiệu suất xử lý dữ liệu mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực công nghệ thông tin. Độc giả sẽ tìm thấy nhiều lợi ích từ việc hiểu rõ hơn về cách tối ưu hóa dữ liệu, từ đó áp dụng vào thực tiễn trong các dự án công nghệ.

Nếu bạn quan tâm đến các khía cạnh khác của máy học và công nghệ thông tin, hãy khám phá thêm về Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi mà các phương pháp học máy được áp dụng để cải thiện độ chính xác trong nhận diện giọng nói. Bên cạnh đó, bạn cũng có thể tìm hiểu về Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép, một ứng dụng thực tiễn khác của máy học trong lĩnh vực an ninh mạng. Cuối cùng, bài viết Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ cũng sẽ giúp bạn hiểu rõ hơn về cách mà máy học có thể được áp dụng trong ngôn ngữ tự nhiên. Những tài liệu này sẽ mở rộng kiến thức của bạn về ứng dụng máy học trong nhiều lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khai thác dữ liệu

#thuật toán máy học

#xử lý số liệu lớn

#tối ưu hóa đặc trưng

Chủ đề