I. Giới thiệu
Luận văn thạc sĩ này tập trung vào lĩnh vực Khoa học máy tính, cụ thể là Khai thác tập hiếm từ Phát hiện tập hiếm đến Mở rộng tập hiếm. Nghiên cứu này nhằm mục đích phát triển các thuật toán khai thác dữ liệu hiệu quả để phát hiện và mở rộng các tập dữ liệu hiếm, đặc biệt trong bối cảnh xử lý dữ liệu lớn và tối ưu hóa thuật toán. Phương pháp khai thác được đề xuất kết hợp các kỹ thuật như biclustering, time series, và tìm kiếm k-NN trên kd-tree để đạt được độ phức tạp thời gian thấp.
1.1 Lý do chọn đề tài
Phát hiện thể loại hiếm là một lĩnh vực mới nổi trong khai phá dữ liệu, với ứng dụng rộng rãi trong các lĩnh vực như y tế, tài chính, và an ninh. Các thể loại hiếm thường xuất hiện trong các dữ liệu bất thường, và việc phát hiện chúng có thể dẫn đến những khám phá quan trọng. Ví dụ, trong y tế, việc phát hiện các triệu chứng hiếm gặp có thể giúp chẩn đoán bệnh hiếm. Trong tài chính, phát hiện các giao dịch gian lận là một ứng dụng thiết thực của khai thác tập hiếm.
1.2 Mục tiêu và giới hạn của đề tài
Mục tiêu chính của nghiên cứu là phát triển một thuật toán prior-free để phát hiện các thể loại hiếm mà không cần biết trước thông tin về tập dữ liệu. Điều này đặc biệt hữu ích trong các ứng dụng thực tế, nơi thông tin về dữ liệu thường không đầy đủ. Nghiên cứu cũng hướng đến việc mở rộng thuật toán để khám phá tất cả các mẫu dữ liệu thuộc về một thể loại hiếm đã được phát hiện.
II. Tổng quan
Chương này khảo sát các công trình nghiên cứu liên quan đến phát hiện thể loại hiếm và khai thác dữ liệu. Các mô hình học tích cực và học máy có tương tác được đề cập như những phương pháp hiệu quả để xử lý các dữ liệu bất thường. Các mô hình này yêu cầu sự tham gia của con người để phân loại dữ liệu, giúp tăng độ chính xác trong việc phát hiện các thể loại hiếm.
2.1 Mô hình học tích cực và học máy có tương tác
Mô hình học tích cực của D. Moore [10] đề xuất việc sử dụng chuyên gia để phân loại các dữ liệu bất thường, giúp loại bỏ các sai sót do nhiễu dữ liệu. Mô hình học máy có tương tác của Theiler [3] cũng tương tự, nhưng tập trung vào việc tối ưu hóa mô hình dữ liệu thông qua sự tương tác của người dùng. Cả hai mô hình đều nhấn mạnh tầm quan trọng của việc tích hợp tri thức con người vào quá trình phân tích dữ liệu.
III. Các kỹ thuật được sử dụng
Chương này đi sâu vào các kỹ thuật được sử dụng trong nghiên cứu, bao gồm biclustering, time series, và tìm kiếm k-NN trên kd-tree. Biclustering là một phương pháp hiệu quả để phân cụm dữ liệu đa chiều, trong khi time series giúp xử lý các dữ liệu có yếu tố thời gian. Tìm kiếm k-NN trên kd-tree được sử dụng để tối ưu hóa quá trình tìm kiếm các mẫu dữ liệu tương tự.
3.1 Giải thuật Biclustering
Biclustering là một kỹ thuật quan trọng trong phân tích dữ liệu, đặc biệt là trong việc phát hiện các thể loại hiếm. Tuy nhiên, các giải thuật biclustering hiện tại thường có độ phức tạp cao và kết quả không chính xác. Nghiên cứu này đề xuất việc kết hợp biclustering với tìm kiếm k-NN trên kd-tree để cải thiện độ chính xác và hiệu quả.
3.2 Tìm kiếm k NN trên kd tree
Tìm kiếm k-NN trên kd-tree là một phương pháp hiệu quả để tìm các mẫu dữ liệu tương tự trong không gian đa chiều. Kỹ thuật này giúp giảm độ phức tạp thời gian và tăng tốc độ xử lý dữ liệu, đặc biệt trong các tập dữ liệu lớn.
IV. Mô hình khai thác các tập hiếm
Chương này trình bày mô hình khai thác các tập hiếm được đề xuất, từ phát hiện đến mở rộng. Mô hình này kết hợp các kỹ thuật biclustering, time series, và tìm kiếm k-NN trên kd-tree để đạt được độ phức tạp thời gian thấp và hiệu quả cao. Một case study được đưa ra để minh họa cho mô hình này.
4.1 Ý tưởng xây dựng mô hình
Mô hình được xây dựng dựa trên ý tưởng kết hợp các kỹ thuật biclustering và tìm kiếm k-NN trên kd-tree để phát hiện và mở rộng các thể loại hiếm. Biclustering giúp phát hiện các cụm dữ liệu bất thường, trong khi tìm kiếm k-NN trên kd-tree giúp khám phá tất cả các mẫu dữ liệu thuộc về một thể loại hiếm đã được phát hiện.
V. Thực nghiệm
Chương này trình bày các kết quả thực nghiệm của mô hình được đề xuất. Các thí nghiệm được thực hiện trên các tập dữ liệu biểu diễn gen, và kết quả cho thấy mô hình đạt được độ chính xác cao và thời gian xử lý thấp. Các đánh giá về độ chính xác và tốc độ của hệ thống cũng được đưa ra.
5.1 Kết quả thí nghiệm
Các thí nghiệm cho thấy mô hình đề xuất đạt được độ chính xác cao trong việc phát hiện và mở rộng các thể loại hiếm. Thời gian xử lý cũng được tối ưu hóa đáng kể nhờ việc sử dụng tìm kiếm k-NN trên kd-tree.
VI. Kết luận và hướng phát triển
Nghiên cứu này đã đề xuất một mô hình hiệu quả để khai thác các tập hiếm từ phát hiện đến mở rộng. Mô hình kết hợp các kỹ thuật biclustering, time series, và tìm kiếm k-NN trên kd-tree để đạt được độ phức tạp thời gian thấp và hiệu quả cao. Các hướng phát triển trong tương lai bao gồm việc áp dụng mô hình này vào các lĩnh vực khác như phân tích thống kê và quản lý dữ liệu.
6.1 Hướng phát triển
Trong tương lai, nghiên cứu có thể mở rộng bằng cách áp dụng mô hình này vào các lĩnh vực khác như phân tích thống kê và quản lý dữ liệu. Việc tích hợp thêm các kỹ thuật học máy và trí tuệ nhân tạo cũng là một hướng phát triển tiềm năng.