Luận án TS Nguyễn Văn Thiện: Rút gọn thuộc tính theo tiếp cận tập thô mờ

Luận án tiến sĩ khám phá các phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ trong lĩnh vực máy tính và công nghệ thông tin.

Trường đại học

Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Án

121

Phí lưu trữ

35 Point

Tóm tắt

I. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô mờ

Trong kỷ nguyên dữ liệu lớn, việc xử lý và khai thác thông tin từ các tập dữ liệu có số chiều cao là một thách thức lớn. Luận án tiến sĩ máy tính và công nghệ thông tin với chủ đề "Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ" của tác giả Nguyễn Văn Thiện đã giải quyết bài toán này một cách hiệu quả. Rút gọn thuộc tính, hay còn gọi là feature selection hoặc trích chọn đặc trưng, là một bước tiền xử lý quan trọng trong khai phá dữ liệu (data mining) và học máy (machine learning). Mục tiêu chính là loại bỏ các thuộc tính không liên quan hoặc dư thừa, từ đó giảm độ phức tạp tính toán, tăng tốc độ huấn luyện mô hình và cải thiện độ chính xác phân lớp. Tuy nhiên, các phương pháp truyền thống thường yêu cầu rời rạc hóa dữ liệu, một quá trình có thể làm mất mát thông tin quan trọng. Để khắc phục nhược điểm này, lý thuyết tập thô mờ (fuzzy rough set theory) đã được ứng dụng. Đây là sự kết hợp giữa lý thuyết tập thô và lý thuyết tập mờ, cho phép xử lý trực tiếp dữ liệu số và các loại dữ liệu không chắc chắn mà không cần rời rạc hóa. Luận án tập trung vào việc phát triển các phương pháp lai ghép, kết hợp ưu điểm của nhiều kỹ thuật để tối ưu hóa quá trình giảm chiều dữ liệu (dimensionality reduction), mang lại những đóng góp giá trị cả về mặt lý thuyết và thực tiễn.

1.1. Vai trò của feature selection trong khai phá dữ liệu hiện đại

Trong bối cảnh các cơ sở dữ liệu ngày càng phình to, feature selection đóng vai trò then chốt. Việc lựa chọn một tập con thuộc tính tối ưu không chỉ giúp giảm chiều dữ liệu mà còn loại bỏ nhiễu, giúp các thuật toán học máy tập trung vào những thông tin cốt lõi nhất. Một mô hình được xây dựng trên tập thuộc tính đã được rút gọn thường có khả năng khái quát hóa tốt hơn, tránh hiện tượng overfitting (quá khớp). Hơn nữa, thời gian tính toán cho cả quá trình huấn luyện và dự đoán đều được giảm đáng kể. Điều này đặc biệt quan trọng đối với các ứng dụng thời gian thực hoặc các hệ thống xử lý dữ liệu quy mô lớn. Luận án đã nhấn mạnh rằng, một quá trình rút gọn thuộc tính hiệu quả là nền tảng để xây dựng các mô hình phân lớp dữ liệu chính xác và đáng tin cậy, đặc biệt khi làm việc với các bộ dữ liệu phức tạp từ kho UCI.

1.2. Giới thiệu lý thuyết tập thô mờ fuzzy rough set theory

Lý thuyết tập thô mờ, do Dubois và Prade đề xuất, là một công cụ mạnh mẽ để xử lý sự không chắc chắn và mơ hồ trong dữ liệu. Khác với lý thuyết tập thô cổ điển dựa trên quan hệ tương đương rõ ràng, fuzzy rough set theory sử dụng quan hệ tương đương mờ. Điều này cho phép mô hình hóa mức độ tương đồng giữa các đối tượng một cách linh hoạt hơn, đặc biệt với các thuộc tính có giá trị liên tục. Thay vì phân chia các đối tượng vào các lớp tương đương một cách cứng nhắc, lý thuyết này sử dụng các lớp tương đương mờ và các khái niệm như xấp xỉ dưới mờ và xấp xỉ trên mờ. Nhờ đó, nó có khả năng bảo toàn thông tin gốc của dữ liệu tốt hơn, tránh được các sai sót phát sinh từ quá trình rời rạc hóa. Luận án đã tận dụng nền tảng này để xây dựng các độ đo mới như độ phụ thuộc mờ và khoảng cách mờ, làm cơ sở cho các thuật toán lai ghép tiên tiến.

II. Thách thức của rút gọn thuộc tính hạn chế tiếp cận Filter

Mặc dù rút gọn thuộc tính mang lại nhiều lợi ích, việc tìm ra tập con thuộc tính tối ưu là một bài toán NP-khó. Các phương pháp tiếp cận truyền thống thường được chia thành hai nhóm chính: Filter (lọc) và Wrapper (đóng gói). Phương pháp Filter đánh giá và xếp hạng các thuộc tính dựa trên các đặc tính nội tại của dữ liệu, chẳng hạn như độ tương quan hoặc độ đo entropy trong tập thô mờ, mà không cần đến một thuật toán học máy cụ thể. Ưu điểm của phương pháp này là tốc độ nhanh và độc lập với mô hình phân lớp. Tuy nhiên, đây cũng chính là nhược điểm lớn nhất. Vì không xem xét đến sự tương tác giữa tập thuộc tính được chọn và thuật toán học, tập rút gọn thu được từ phương pháp Filter thường không đảm bảo mang lại độ chính xác phân lớp cao nhất. Luận án đã chỉ ra rằng, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ trước đây phần lớn đều theo hướng Filter, do đó tập rút gọn tìm được "chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp". Đây chính là động lực để nghiên cứu và đề xuất các giải pháp lai ghép hiệu quả hơn, giải quyết bài toán lựa chọn thuộc tính một cách toàn diện.

2.1. Vấn đề giảm chiều dữ liệu và xử lý dữ liệu không chắc chắn

Bài toán giảm chiều dữ liệu (dimensionality reduction) trở nên đặc biệt phức tạp khi phải đối mặt với dữ liệu không chắc chắn. Dữ liệu trong thế giới thực hiếm khi hoàn hảo; chúng có thể chứa giá trị nhiễu, không đầy đủ hoặc mơ hồ. Các phương pháp dựa trên tập thô truyền thống gặp khó khăn trong việc xử lý các loại dữ liệu này. Lý thuyết tập thô mờ ra đời như một giải pháp, cho phép định lượng mức độ không chắc chắn thông qua các hàm phụ thuộc. Tuy nhiên, việc áp dụng lý thuyết này vào rút gọn thuộc tính vẫn còn nhiều thách thức, chẳng hạn như việc lựa chọn quan hệ tương đương mờ phù hợp và xây dựng các độ đo hiệu quả để đánh giá tầm quan trọng của thuộc tính. Luận án đã đi sâu vào việc xây dựng các độ đo mới, có khả năng phản ánh chính xác hơn mối quan hệ giữa các thuộc tính trong môi trường dữ liệu phức tạp và không chắc chắn.

2.2. Nhược điểm của phương pháp Filter trong bài toán lựa chọn thuộc tính

Hạn chế cốt lõi của phương pháp Filter nằm ở việc nó bỏ qua "thiên kiến quy nạp" (inductive bias) của thuật toán học máy sẽ được sử dụng sau đó. Một tập thuộc tính có thể được đánh giá là tốt dựa trên một độ đo thống kê (như information gain), nhưng lại không mang lại hiệu suất cao khi kết hợp với một bộ phân lớp cụ thể (ví dụ như SVM hay K-NN). Kết quả là, tập thuộc tính được chọn có thể chứa các thuộc tính dư thừa hoặc bỏ sót những thuộc tính có tính tương tác cao. Luận án trích dẫn rằng, "tập rút gọn của các phương pháp filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp". Điều này dẫn đến nhu cầu về một cách tiếp cận tinh vi hơn, có khả năng kết hợp tốc độ của Filter và độ chính xác của Wrapper để giải quyết bài toán lựa chọn thuộc tính một cách tối ưu.

III. Cách tiếp cận lai ghép Filter Wrapper trong rút gọn thuộc tính

Để khắc phục những hạn chế của phương pháp Filter, luận án đã đề xuất một thuật toán lai ghép theo hướng tiếp cận Filter-Wrapper. Cách tiếp cận này là sự kết hợp thông minh giữa hai phương pháp, nhằm tận dụng ưu điểm của cả hai. Quy trình gồm hai giai đoạn chính. Giai đoạn Filter: Sử dụng một độ đo hiệu quả (như độ phụ thuộc mờ hoặc khoảng cách mờ) để nhanh chóng tạo ra một danh sách các "ứng viên" tập rút gọn tiềm năng. Các ứng viên này là các tập thuộc tính nhỏ, thỏa mãn một ngưỡng tiêu chuẩn nhất định, giúp thu hẹp không gian tìm kiếm một cách đáng kể. Giai đoạn Wrapper: Các tập rút gọn ứng viên từ giai đoạn Filter sẽ được đánh giá bằng một thuật toán học máy cụ thể (ví dụ: K-NN). Độ chính xác phân lớp dữ liệu của từng ứng viên sẽ được tính toán. Tập ứng viên nào cho độ chính xác cao nhất sẽ được chọn làm tập rút gọn cuối cùng. Phương pháp hybrid algorithm này không chỉ cải thiện đáng kể độ chính xác so với phương pháp Filter thuần túy mà còn hiệu quả về mặt tính toán hơn so với phương pháp Wrapper, vì nó không phải duyệt qua toàn bộ không gian thuộc tính.

3.1. Phân tích thuật toán lai ghép sử dụng độ phụ thuộc mờ

Một trong hai đóng góp chính của luận án ở chương 2 là thuật toán filter-wrapper dựa trên độ phụ thuộc mờ. Độ phụ thuộc mờ là một độ đo trong lý thuyết tập thô mờ dùng để định lượng mức độ mà tập thuộc tính quyết định phụ thuộc vào một tập thuộc tính điều kiện. Trong giai đoạn Filter, thuật toán F_FRSAR được đề xuất để tìm các tập rút gọn xấp xỉ bằng cách thêm dần các thuộc tính có độ quan trọng lớn nhất cho đến khi đạt các ngưỡng phụ thuộc khác nhau. Giai đoạn Wrapper sau đó sẽ sử dụng các tập rút gọn xấp xỉ này để huấn luyện một bộ phân lớp và chọn ra tập có hiệu suất tốt nhất. Cách tiếp cận này giải quyết được vấn đề của các thuật toán Filter truyền thống, vốn chỉ dừng lại khi bảo toàn hoàn toàn độ đo, có thể dẫn đến một tập thuộc tính lớn hơn mức cần thiết và chưa chắc đã tối ưu cho việc phân lớp dữ liệu.

3.2. Xây dựng độ đo khoảng cách mờ cho phân lớp dữ liệu

Đóng góp quan trọng thứ hai là việc xây dựng một độ đo khoảng cách mờ mới và đề xuất thuật toán filter-wrapper tương ứng. Độ đo này được phát triển dựa trên khoảng cách giữa các phân hoạch mờ, là một cách để đo lường sự khác biệt về khả năng phân chia đối tượng của hai tập thuộc tính. Luận án khẳng định độ đo khoảng cách mờ được xây dựng là "mở rộng của độ đo khoảng cách trong công trình [48]". Công thức tính toán của độ đo này được thiết kế đơn giản nhưng hiệu quả, giúp giảm thời gian thực thi. Tương tự như thuật toán trên, giai đoạn Filter sử dụng khoảng cách mờ để tìm các tập rút gọn ứng viên. Giai đoạn Wrapper sẽ kiểm chứng hiệu quả của chúng. Việc giới thiệu một độ đo mới cho thấy sự sâu sắc trong nghiên cứu lý thuyết và nỗ lực tìm kiếm các công cụ toán học hiệu quả hơn cho bài toán trích chọn đặc trưng.

IV. Phương pháp gia tăng xử lý bảng quyết định thay đổi hiệu quả

Trong thực tế, dữ liệu không tĩnh mà thường xuyên thay đổi: các đối tượng mới được thêm vào, các đối tượng cũ bị loại bỏ. Việc chạy lại toàn bộ thuật toán rút gọn thuộc tính mỗi khi có sự thay đổi là cực kỳ tốn kém và không hiệu quả. Để giải quyết vấn đề này, chương 3 của luận án đề xuất các thuật toán gia tăng (incremental algorithms) theo tiếp cận filter-wrapper. Thay vì tính toán lại từ đầu, các thuật toán này chỉ cập nhật kết quả dựa trên những thay đổi trong dữ liệu. Cụ thể, luận án đã xây dựng các công thức gia tăng để tính toán lại giá trị khoảng cách mờ một cách nhanh chóng khi có sự bổ sung hoặc loại bỏ một tập đối tượng. Nhờ đó, tập rút gọn có thể được cập nhật hiệu quả mà không cần xử lý lại toàn bộ bảng quyết định. Cách tiếp cận này không chỉ giúp giảm thiểu đáng kể thời gian thực hiện mà còn cho phép áp dụng các phương pháp rút gọn thuộc tính trên các hệ thống dữ liệu động và quy mô lớn, một yêu cầu cấp thiết trong nhiều ứng dụng data mining hiện nay.

4.1. Công thức gia tăng cho việc bổ sung loại bỏ đối tượng

Cốt lõi của các thuật toán gia tăng là các công thức toán học cho phép cập nhật các độ đo một cách hiệu quả. Luận án đã thành công trong việc xây dựng các công thức gia tăng cho độ đo khoảng cách mờ đã đề xuất ở chương 2. Khi một tập đối tượng mới được thêm vào, thay vì tính lại ma trận tương đương mờ và các phân hoạch mờ cho toàn bộ tập dữ liệu mới, thuật toán chỉ cần tính toán các giá trị liên quan đến các đối tượng mới và cập nhật vào kết quả đã có. Tương tự, khi một tập đối tượng bị loại bỏ, các giá trị tương ứng sẽ được trừ đi. Các công thức này được chứng minh chặt chẽ về mặt lý thuyết, đảm bảo rằng kết quả cập nhật là chính xác. Đây là một đóng góp quan trọng, giúp các phương pháp rút gọn thuộc tính trở nên linh hoạt và thích ứng tốt hơn với sự biến đổi của dữ liệu.

4.2. Ứng dụng học máy cho dimensionality reduction động

Việc kết hợp phương pháp gia tăng với cách tiếp cận filter-wrapper tạo ra một giải pháp toàn diện cho dimensionality reduction động. Trong các hệ thống học máy trực tuyến (online learning), nơi dữ liệu liên tục được cập nhật, việc duy trì một tập thuộc tính tối ưu là rất quan trọng. Các thuật toán gia tăng do luận án đề xuất cho phép hệ thống cập nhật tập rút gọn một cách nhanh chóng. Sau đó, giai đoạn Wrapper có thể được kích hoạt định kỳ để kiểm tra và tinh chỉnh lại tập thuộc tính, đảm bảo mô hình phân lớp luôn hoạt động với hiệu suất cao nhất. Sự kết hợp này mang lại khả năng ứng dụng thực tiễn cao, đặc biệt trong các lĩnh vực như phát hiện gian lận, phân tích thị trường chứng khoán, hay hệ thống gợi ý, nơi dữ liệu luôn thay đổi và quyết định cần được đưa ra nhanh chóng.

V. Ứng dụng thực tiễn và kết quả nổi bật từ luận án tiến sĩ

Một luận án khoa học không chỉ có giá trị về mặt lý thuyết mà còn phải được chứng minh hiệu quả qua thực nghiệm. Tác giả đã tiến hành các thực nghiệm chi tiết để đánh giá các thuật toán đề xuất. Các thuật toán filter-wrapper và thuật toán gia tăng được cài đặt và so sánh với nhiều phương pháp rút gọn thuộc tính tiên tiến khác đã được công bố. Các bộ dữ liệu được sử dụng trong thực nghiệm được lấy từ kho dữ liệu uy tín UCI Machine Learning Repository, bao gồm nhiều loại dữ liệu với số lượng thuộc tính và đối tượng khác nhau. Kết quả cho thấy các thuật toán đề xuất của luận án vượt trội hơn ở nhiều khía cạnh. Cụ thể, các thuật toán lai ghép filter-wrapper không chỉ tạo ra các tập rút gọn có số lượng thuộc tính ít hơn mà còn đạt được độ chính xác phân lớp dữ liệu cao hơn so với các phương pháp filter truyền thống. Đồng thời, các thuật toán gia tăng đã chứng tỏ khả năng giảm thiểu đáng kể thời gian thực hiện khi xử lý các bảng quyết định thay đổi, khẳng định tính hiệu quả và tiềm năng ứng dụng rộng rãi của các nghiên cứu trong luận án.

5.1. So sánh hiệu quả với các thuật toán trích chọn đặc trưng khác

Luận án đã thực hiện các so sánh đối chứng một cách khoa học. Ví dụ, thuật toán FW_FDAR (sử dụng khoảng cách mờ) được so sánh với các thuật toán FEBAR và FPDAR. Kết quả thực nghiệm cho thấy FW_FDAR thường cho độ chính xác phân lớp cao hơn trong khi thời gian thực hiện vẫn cạnh tranh. Tương tự, thuật toán gia tăng IFW_FDAR_AdObj được so sánh với thuật toán không gia tăng FW_FDAR và các thuật toán gia tăng khác như IV-FS-FRS-2 và IARM. Kết quả ghi nhận trong "Bảng 13" và "Bảng 14" của luận án cho thấy thời gian thực hiện của thuật toán gia tăng đề xuất "nhỏ hơn đáng kể" so với các thuật toán không gia tăng và vẫn duy trì được độ chính xác phân lớp ở mức cao. Những so sánh này cung cấp bằng chứng xác thực về sự ưu việt của các phương pháp được đề xuất trong việc giải quyết bài toán trích chọn đặc trưng.

5.2. Cải thiện độ chính xác phân lớp dữ liệu trên tập UCI

Mục tiêu cuối cùng của rút gọn thuộc tính là cải thiện hiệu suất của các mô hình học máy. Các kết quả thực nghiệm trong luận án đã chứng minh rõ ràng điều này. Trên nhiều bộ dữ liệu từ kho UCI, tập thuộc tính rút gọn do các thuật toán filter-wrapper tìm ra khi được sử dụng để huấn luyện các bộ phân lớp (như K-NN) đã cho độ chính xác cao hơn so với việc sử dụng toàn bộ thuộc tính ban đầu hoặc tập thuộc tính rút gọn từ các phương pháp khác. Ví dụ, "Độ chính xác phân lớp của FW_FDAR, FEBAR, FPDAR" được trình bày trong luận án cho thấy sự cải thiện rõ rệt. Điều này khẳng định rằng các thuật toán lai ghép không chỉ giảm được số chiều mà còn có khả năng loại bỏ nhiễu và giữ lại những đặc trưng quan trọng nhất, giúp mô hình phân lớp dữ liệu hoạt động hiệu quả hơn.

VI. Kết luận và định hướng tương lai cho rút gọn thuộc tính mờ

Luận án "Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ" đã thành công trong việc giải quyết những vấn đề còn tồn tại của các phương pháp trước đây. Bằng cách đề xuất các thuật toán filter-wrapper, luận án đã tìm ra cách cân bằng giữa hiệu quả tính toán và độ chính xác phân lớp, tạo ra các tập rút gọn tối ưu hơn. Thêm vào đó, việc phát triển các thuật toán gia tăng đã mở ra khả năng áp dụng các kỹ thuật này cho các bài toán dữ liệu động trong thế giới thực. Các đóng góp này không chỉ có ý nghĩa trong lĩnh vực khai phá dữ liệu mà còn có thể ứng dụng trong nhiều ngành khoa học khác. Hướng phát triển trong tương lai có thể tập trung vào việc tích hợp các kỹ thuật tối ưu hóa bầy đàn (particle swarm optimization) hoặc giải thuật di truyền (genetic algorithm) vào giai đoạn Filter để tìm kiếm không gian thuộc tính hiệu quả hơn. Bên cạnh đó, việc xây dựng các hệ mờ nơron (neuro-fuzzy system) dựa trên các tập thuộc tính rút gọn cũng là một hướng đi đầy hứa hẹn, kết hợp sức mạnh của mạng nơron và logic mờ để tạo ra các mô hình thông minh và giải thích được.

6.1. Tóm tắt các đóng góp chính của luận án tiến sĩ máy tính

Luận án đã đạt được hai kết quả chính nổi bật. Thứ nhất, đề xuất thành công hai thuật toán lai ghép filter-wrapper, một dựa trên độ phụ thuộc mờ và một dựa trên độ đo khoảng cách mờ mới, giúp cải thiện cả về số lượng thuộc tính và độ chính xác phân lớp. Thứ hai, phát triển hai thuật toán gia tăng filter-wrapper cho trường hợp bổ sung và loại bỏ đối tượng, giúp giảm đáng kể thời gian tính toán trên các bảng quyết định thay đổi. Những đóng góp của luận án tiến sĩ máy tính này đã được công bố trên các tạp chí và hội thảo khoa học uy tín, khẳng định giá trị khoa học và tính mới của nghiên cứu. Đây là một nền tảng vững chắc cho các nghiên cứu tiếp theo trong lĩnh vực rút gọn thuộc tính và học máy.

6.2. Hướng phát triển Tích hợp giải thuật di truyền và hệ mờ nơron

Để tiếp tục nâng cao hiệu quả, các nghiên cứu trong tương lai có thể khám phá việc tích hợp các thuật toán tối ưu hóa metaheuristic. Ví dụ, giải thuật di truyền có thể được sử dụng để tìm kiếm tập con thuộc tính tối ưu trong giai đoạn Wrapper thay vì chỉ đánh giá các ứng viên từ Filter. Tối ưu hóa bầy đàn cũng là một lựa chọn mạnh mẽ để giải quyết bài toán lựa chọn thuộc tính phức tạp. Một hướng đi khác là xây dựng các hệ mờ nơron mà cấu trúc của nó được quyết định bởi tập thuộc tính rút gọn. Điều này không chỉ tạo ra một mô hình phân lớp mạnh mẽ mà còn giúp giải thích các quyết định của mô hình dựa trên các thuộc tính quan trọng đã được chọn lọc, giải quyết bài toán về tính minh bạch trong học máy.

22/07/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ máy tính và công nghệ thông tin một số phƣơng pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 cũng trình bày các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần đây. Trêm cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết quả đạt được. Các đóng góp chính của luận án được trình bày trong chương 2, chương 3. Chương 2 trình bày hai kết quả nghiên cứu: thứ nhất là đề xuất thuật toán filter- wrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ; thứ hai là xây 6 dựng một độ đo khoảng cách mờ và đề xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ được xây dựng theo tiếp cận tập thô mờ.

Cả hai đề xuất đều nhằm mục tiêu giảm thiểu số thuộc tính của tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình so với các phương pháp filter trước đây. Chương 3 đề xuất hai thuật toán gia tăng filter-wrapper; thuật toán gia tăng filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập thuộc tính; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập thuộc tính. Cả hai thuật toán đề xuất đều sử dụng độ đo khoảng cách mờ đề xuất ở chương 2 và đều có mục tiêu là giảm thiểu thời gian thực hiện so với thuật toán không gia tăng và giảm thiểu số thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình so với các thuật toán gia tăng khác đã công bố. Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của tác giả.

TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ 1. Một số khái niệm trong lý thuyết tập thô Lý thuyết tập thô truyền thống do Z.Pawlak [101] đề xuất là công cụ toán học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn. Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương đương (hay quan hệ không phân biệt được) để xấp xỉ tập hợp. Khi đó, mọi tập đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó.

Mỗi tập xấp xỉ được hợp thành bởi một hoặc nhiều lớp tương đương, là cơ sở để xây dựng các thuật toán rút gọn thuộc tính và khai phá tri thức từ dữ liệu. Trong phần này, luận án trình bày một số khái niệm cơ bản trong lý thuyết tập thô truyền thống của Z.Pawlak [101], là cơ sở nền tảng cho lý thuyết tập thô mờ được trình bày ở phần 1. Hệ thông tin và bảng quyết định Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm n cột ứng với n thuộc tính và m hàng ứng với m đối tượng. Một cách hình thức, hệ thông tin là một cặp IS U , A  trong đó U là tập hữu hạn, khác rỗng các đối tượng, gọi là tập vũ trụ; A là tập hữu hạn, khác rỗng các thuộc tính.

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định. Bảng quyết định DS U,C D   là một dạng đặc biệt của hệ thông tin, trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: Tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D với C D . Quan hệ tương đương Xét hệ thông tin IS  U , A, mỗi tập con thuộc tính P A xác định một quan hệ hai ngôi trên U, ký hiệu IND  P, xác định bởi là IND  P  u, v  U Ua P, a  ua  v.1) 8 Với a  u là giá trị thuộc tính a tại đối tượng u. IND  Pgọi là quan hệ P-không phân biệt được trên U.

Dễ thấy rằng IND  Plà một quan hệ tương đương trên U. Nếu  u,v  IND   Pthì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương IND  P xác định một phân hoạch trên U, ký hiệu là U / IND  P hay U / P , trong đó mỗi thành phần trong phân hoạch U / P là một lớp tương đương. Ký P hiệu lớp tương đương trong phân hoạch U / P chứa đối tượng u là  u, khi đó  uP v U u, v IND P .

Ký hiệu phân hoạch sinh bởi thuộc tính a P  là U /  a , khi đó ta có:  U / P a P :U /  a vớ AB XY : XA, YB ,X  Y  i 1. Các tập xấp xỉ và tập thô Cho hệ thông tin IS  U , Avà tập đối tượng X U. Với một tập thuộc tính P A cho trước, ta thu được các lớp tương đương sinh bởi phân hoạch U / P. Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương của U / P , người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U / P.

Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính P, được gọi là P- xấp xỉ dưới và P-xấp xỉ trên của X, ký hiệu lần lượt là PX và PX , được xác định như sau:  U  PX u  uP   U X , PX u  u P  X  (1.2) Tập PX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập PX bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính P. Từ hai tập xấp xỉ nêu trên, ta định nghĩa P-miền biên của X là tập PNP  X  PX và P-miền ngoài của X là tập U PX. Dễ thấy, P-miền PX biên của X là tập chứa các đối tượng có thể thuộc X, còn P-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các lớp của phân hoạch U / P , các xấp xỉ dưới và trên của X có thể viết lại 9 PX  Y U/ P Y X  , PX  PY X   (1.3)  YU/ Trong trường hợp PNP Xthì X được gọi là tập rõ, ngược lại X được  gọi là tập thô.

Xét hệ thông tin IS  U , Avới P,Q A , ta gọi tập POS (Q)  P PX  là P-miền dương của Q. Dễ thấy POSP (Q) là tập các đối tượng trong U đượcX Uphân /Q lớp đúng vào các lớp của U / Q sử dụng tập thuộc tính P. Rõ ràng, POSP (Q) là tập tất cả các đối tượng u sao cho với mọi v  U mà u  Pv  Pta đều có u  Qv  Q. Nói  Q một cách hình POSP (Q) u  U  uP  u.

Một số khái niệm trong lý thuyết tập thô mờ Lý thuyết tập thô truyền thống của Pawlak [101] sử dụng quan hệ tương đương để xấp xỉ tập hợp. Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D. Dubois và các cộng sự [22, 23] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ tập mờ. Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng quyết định.

Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các bảng quyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp. Luận án nghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm cơ bản về mô hình tập thô mờ trên bảng quyết định. Các khái niệm này được sử dụng trong các chương sau của luận án. Quan hệ tương đương mờ Định nghĩa 1.

[32, 71] Cho bảng quyết định DS  U,C D, một quan hệ R xác định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn các điều kiện sau với x, y, z  U mọi 10 1) Tính phản xạ (reflexive): R x, x1; 2) Tính đối xứng (symetric): R x, yR y, x; 3)Tính bắc cầu max-min (max-min transitive): Rx, z   min R x, y  ,R  y, z ; vớ R x, y là giá trị quan hệ giữa hai đối tương x và y. [72] Cho bảng quyết định DS  U,C D và quan hệ tương đương mờ R. Ký hiệu RP , RQ tương ứng là quan hệ R xác định trên tập thuộc tính P, Q. Khi đó, với x, y  U ta có: mọi 1) RP RQ RP x, y RQ x, y  2) R PQ  RP  R x, y  RQ   max R P x, y   , RQ x, y  3) R PQ R   R  P Q min  R x, y  R x, y  P  , R x, y  Q 4) RP RQ RP x, y RQ x, y  1.

Ma trận tương đương mờ Ma trận tương đương mờ là công cụ biểu diễn giá trị quan hệ tương đương mờ giữa các đối tượng của bảng quyết định và được định nghĩa như sau: Định nghĩa 1. Cho bảng quyết định DS  U,C D với U  x1, x2,., xnvà RP là quan hệ tương đương mờ xác định trên tập thuộc tính P C. Khi đó, ma trận tương đương mờ biểu diễn RP , ký hiệu là M R P  pij  n n , được định nghĩa như sau:   p11 p12. p n1 n2 nn  11 vớ RP  pij  xi , x j là giá trị của quan hệ giữa hai đối tượng xi và x j trên tập thuộc i tính P,  pij 0,1, xi , x j  U,1 i, j n.

Như vậy, giá trị các phần tử của ma trận tương đương mờ  phụ thuộc M RP vào quan hệ tương đương mờ RP được chọn. Mặt khác, ma trận tương đương mờ là cơ sở để xây dựng các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khoa học máy tính và công nghệ thông tin

Tối ưu hóa thuộc tính dữ liệu

Khai phá dữ liệu và học máy

lý thuyết tập thô và tập mờ

Luận án TS Nguyễn Văn Thiện: Rút gọn thuộc tính theo tiếp cận tập thô mờ

I. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô mờ

1.1. Vai trò của feature selection trong khai phá dữ liệu hiện đại

1.2. Giới thiệu lý thuyết tập thô mờ fuzzy rough set theory

II. Thách thức của rút gọn thuộc tính hạn chế tiếp cận Filter

2.1. Vấn đề giảm chiều dữ liệu và xử lý dữ liệu không chắc chắn

2.2. Nhược điểm của phương pháp Filter trong bài toán lựa chọn thuộc tính

III. Cách tiếp cận lai ghép Filter Wrapper trong rút gọn thuộc tính

3.1. Phân tích thuật toán lai ghép sử dụng độ phụ thuộc mờ

3.2. Xây dựng độ đo khoảng cách mờ cho phân lớp dữ liệu

IV. Phương pháp gia tăng xử lý bảng quyết định thay đổi hiệu quả

4.1. Công thức gia tăng cho việc bổ sung loại bỏ đối tượng

4.2. Ứng dụng học máy cho dimensionality reduction động

V. Ứng dụng thực tiễn và kết quả nổi bật từ luận án tiến sĩ

5.1. So sánh hiệu quả với các thuật toán trích chọn đặc trưng khác

5.2. Cải thiện độ chính xác phân lớp dữ liệu trên tập UCI

VI. Kết luận và định hướng tương lai cho rút gọn thuộc tính mờ

6.1. Tóm tắt các đóng góp chính của luận án tiến sĩ máy tính

6.2. Hướng phát triển Tích hợp giải thuật di truyền và hệ mờ nơron

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Luận Án Tiến Sĩ Máy Tính Và Công Nghệ Thông Tin Một Số Phương Pháp Lai Ghép Trong Rút Gọn Thuộc Tính Theo Tiếp Cận Tập Thô Mờ

Loại tài liệu: Luận Án

Địa điểm: Hồ Chí Minh

Luận án TS Nguyễn Văn Thiện: Rút gọn thuộc tính theo tiếp cận tập thô mờ

I. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô mờ

1.1. Vai trò của feature selection trong khai phá dữ liệu hiện đại

1.2. Giới thiệu lý thuyết tập thô mờ fuzzy rough set theory

II. Thách thức của rút gọn thuộc tính hạn chế tiếp cận Filter

2.1. Vấn đề giảm chiều dữ liệu và xử lý dữ liệu không chắc chắn

2.2. Nhược điểm của phương pháp Filter trong bài toán lựa chọn thuộc tính

III. Cách tiếp cận lai ghép Filter Wrapper trong rút gọn thuộc tính

3.1. Phân tích thuật toán lai ghép sử dụng độ phụ thuộc mờ

3.2. Xây dựng độ đo khoảng cách mờ cho phân lớp dữ liệu

IV. Phương pháp gia tăng xử lý bảng quyết định thay đổi hiệu quả

4.1. Công thức gia tăng cho việc bổ sung loại bỏ đối tượng

4.2. Ứng dụng học máy cho dimensionality reduction động

V. Ứng dụng thực tiễn và kết quả nổi bật từ luận án tiến sĩ

5.1. So sánh hiệu quả với các thuật toán trích chọn đặc trưng khác

5.2. Cải thiện độ chính xác phân lớp dữ liệu trên tập UCI

VI. Kết luận và định hướng tương lai cho rút gọn thuộc tính mờ

6.1. Tóm tắt các đóng góp chính của luận án tiến sĩ máy tính

6.2. Hướng phát triển Tích hợp giải thuật di truyền và hệ mờ nơron

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Luận Án Tiến Sĩ Máy Tính Và Công Nghệ Thông Tin Một Số Phương Pháp Lai Ghép Trong Rút Gọn Thuộc Tính Theo Tiếp Cận Tập Thô Mờ

Loại tài liệu: Luận Án

Địa điểm: Hồ Chí Minh

Có thể bạn quan tâm