I. Tổng Quan Về Nghiên Cứu Hệ Phân Lớp Dựa Trên Luật Mờ
Phân lớp là một công việc ra quyết định phổ biến. Bài toán phân lớp các đối tượng nhằm gán các đối tượng vào các lớp đã được xác định trước dựa trên một số thuộc tính quan sát được của các đối tượng đó. Bài toán này đòi hỏi tiêu chuẩn quyết định một đối tượng cần phân lớp thuộc vào lớp đang xét hay không. Bài toán phân lớp thường gặp trong các lĩnh vực khác nhau của đời sống kinh tế xã hội, như y tế, kinh tế, nhận dạng lỗi, xử lý ảnh, năng lượng hạt nhân, xử lý dữ liệu văn bản, lọc dữ liệu Web, loại bỏ thư rác. Trong kỷ nguyên thông tin số hiện nay, các kho dữ liệu khổng lồ ẩn chứa rất nhiều thông tin hữu ích mà con người cần khai phá và trích rút thông tin, phục vụ cho quá trình ra quyết định.
1.1. Bài Toán Phân Lớp Dữ Liệu và Ứng Dụng Thực Tế
Phân lớp là quá trình phân tích dữ liệu nhằm trích rút các mô hình biểu diễn các lớp dữ liệu, giúp chúng ta hiểu được các kho dữ liệu và dự đoán các dữ liệu phát sinh trong tương lai. Để nâng cao độ chính xác của hệ phân lớp, nhiều phương pháp đã được nghiên cứu và phát triển, từ đó nhiều hệ phân lớp quan trọng đã được đề xuất như hệ phân lớp thống kê, mạng nơ-ron, phân lớp dựa trên luật mờ. Các hệ phân lớp thống kê bao gồm giản đồ bầu cử có trọng số, Naive Bayes, phân lớp theo láng giềng gần nhất, cây quyết định. Hầu hết các kỹ thuật phân lớp thống kê truyền thống đều dựa trên lý thuyết quyết định Bayesian, trong đó một mô hình xác suất được giả định, nhằm tính toán xác suất hậu nghiệm. Quyết định phân lớp được thực hiện dựa vào xác suất này. Các tiếp cận này chỉ cho kết quả tốt khi mô hình xác suất được chọn phù hợp với dữ liệu và do đó, cần đến các chuyên gia hiểu về dữ liệu.
1.2. Ưu Điểm Của Hệ Phân Lớp Dựa Trên Luật Ngôn Ngữ Mờ
Các hệ dựa trên luật mờ (fuzzy rule-based systems - FГЬS) được sử dụng rộng rãi trong các lĩnh vực khác nhau trong đời sống xã hội như điều khiển tối ưu và tự động hóa, khai phá tri thức từ dữ liệu do hệ này mô hình hóa được các hệ thống phức tạp, có thể được ứng dụng để giải quyết những bài toán, trong đó tri thức được biểu diễn trong môi trường có tính không chắc chắn và không chính xác. Mô hình dễ hiểu đối với người dùng. Mô hình dựa trên luật mờ cho phép mô tả các hiện tượng trong thế giới thực gần giống với cách tư duy của con người. Ta biết rằng, con người nhận thức thế giới thông qua ngôn ngữ tự nhiên. Do đó, với mong muốn các hệ thống thông minh phục vụ, hỗ trợ con người trong cuộc sống hàng ngày có những hành xử như con người và có thể thay thế con người trong quá tình ra quyết định, chúng phải được trang bị cơ sở tri thức và khả năng lập luận trên ngôn ngữ.
II. Thách Thức Trong Thiết Kế Hệ Phân Lớp Luật Mờ
Để đáp ứng các yêu cầu trên, cần có một phương pháp hình thức để mô hình hóa và xử lý thông tin ngôn ngữ. Đây là một thách thức đối với cộng đồng nghiên cứu, do ngữ nghĩa của ngôn ngữ mang tính mờ. Nhằm biến các từ ngôn ngữ thành các đối tượng có thể tính toán được, năm 1965 Zadeh đã đề xuất gán cho ngữ nghĩa của mỗi từ ngôn ngữ (linguistic term) một cấu trúc hàm chỉ mức độ thuộc của một phần tử vào một tập các phần tử được gọi là tập mờ. Khi đó, các thao tác trên cấu trúc hàm được xem là các thao tác trên ngữ nghĩa của các từ ngôn ngữ.
2.1. Tính Mờ và Biểu Diễn Tri Thức Trong Hệ Thống Mờ
Năm 1975, Zadeh đưa ra khái niệm biến ngôn ngữ với miền giá trị của biến là các từ trong ngôn ngữ tự nhiên và ngữ nghĩa của mỗi từ ngôn ngữ được biểu diễn bởi một tập mờ, gọi là ngữ nghĩa tính toán dựa trên tập mờ. Vì vậy, miền giá trị của biến ngôn ngữ trở nên tính toán được. Một FГЬS cơ bản bao gồm cơ sở tri thức (knowledge base - KЬ) và hệ suy luận (inference system). Cơ sở tri thức bao gồm cơ sở dữ liệu (database – DЬ) và cơ sở luật (rule base – ГЬ). Cơ sở dữ liệu bao gồm tập các giá trị ngôn ngữ được dùng trong biểu diễn cơ sở luật và các hàm thuộc biểu diễn ngữ nghĩa của các giá trị ngôn ngữ.
2.2. Cơ Sở Luật và Biểu Diễn Tri Thức Dạng Ngôn Ngữ
Cơ sở luật biểu diễn tri thức liên quan đến bài toán cần giải quyết dưới dạng các luật mờ if-then với các từ ngôn ngữ (như “chậm”, “nhanh”, “thấp”, “cao”, “xấu”, “tốt”, .) được sử dụng thường xuyên trong cuộc sống hàng ngày của chúng ta. Do đó, việc sử dụng các luật mờ là cách tự nhiên biểu diễn tri thức dạng ngôn ngữ. FГЬS được thiết kế dựa vào tri thức chuyên gia và được ứng dụng thành công trong điều khiển tự động vào năm 1974 bởi Mamdani.
III. Phương Pháp Thiết Kế Hệ Phân Lớp Dựa Trên Luật Mờ
Tuy nhiên, không phải lúc nào cũng có sẵn các chuyên gia và tri thức của họ thường không đầy đủ. Vì vậy, bài toán thiết kế tự động các FГЬS từ dữ liệu được phát sinh từ các sự kiện trong thế giới thực được đặt ra và thu hút nhiều nhà khoa học quan tâm nghiên cứu. Đây là một lĩnh vực rộng lớn và có nhiều ứng dụng thực tiễn. Khi FГЬS được ứng dụng để giải bài toán phân lớp thì được gọi là hệ phân lớp dựa trên luật mờ (fuzzy rule-based classifier - FГЬເ).
3.1. Ưu Điểm Của Hệ Phân Lớp Dựa Trên Luật Mờ Fuzzy Rule
Ưu điểm của hệ phân lớp loại này là: 1) Lợi dụng tính xấp xỉ vạn năng của các hệ dựa trên luật mờ; 2) Người dùng cuối có thể sử dụng những tri thức dạng luật, được trích rút từ dữ liệu có tính dễ hiểu, dễ sử dụng đối với con người, như là những tri thức của họ. Dựa trên quan điểm người dùng là trọng tâm, việc giải bài toán phân lớp dựa trên luật mờ là xây dựng bài toán trích rút tự động hệ luật mờ từ dữ liệu cho bài toán phân lớp sao cho hệ luật thu được có tính
3.2. Yêu Cầu Về Tính Dễ Hiểu và Độ Chính Xác Của Hệ Thống
dễ hiểu (interpretability), tức là số luật và số điều kiện tạo nên luật phải đủ nhỏ; ngữ nghĩa tính toán của các từ ngôn ngữ (linguistic terms) hay nhãn ngôn ngữ (linguistic labels) xuất hiện trong cơ sở luật phản ánh được đúng ngữ nghĩa vốn có của chúng trong ngôn ngữ tự nhiên, nhưng vẫn đạt độ chính xác (accuracy) cao. Với các yêu cầu về FГЬເ được đặt ra ở trên, việc trích rút hệ luật mờ từ dữ liệu cho FГЬເ là một nhiệm vụ nghiên cứu phức tạp với các mục tiêu của bài toán (độ chính xác và tính dễ hiểu) xung khắc nhau, tức muốn tăng mục tiêu này thì phải giảm mục tiêu kia.
IV. Các Yếu Tố Ảnh Hưởng Độ Chính Xác Phân Lớp Mờ
Độ chính xác của FГЬເ phụ thuộc vào các yếu tố như: 1) Các nhãn ngôn ngữ là cơ sở ngữ nghĩa của các luật ngôn ngữ mờ; 2) Việc biểu diễn ngữ nghĩa của các nhãn ngôn ngữ; 3) Dạng của các luật ngôn ngữ mờ và ngữ nghĩa của chúng; 4) Phương pháp suy luận mờ được lựa chọn.
4.1. Ảnh Hưởng Của Nhãn Ngôn Ngữ và Biểu Diễn Ngữ Nghĩa
Các nhãn ngôn ngữ đóng vai trò quan trọng trong việc xác định độ chính xác của hệ phân lớp mờ. Việc lựa chọn và biểu diễn ngữ nghĩa của các nhãn này cần được thực hiện cẩn thận để đảm bảo tính chính xác và dễ hiểu của hệ thống. Các phương pháp biểu diễn ngữ nghĩa khác nhau có thể ảnh hưởng đến hiệu suất của hệ thống.
4.2. Vai Trò Của Luật Ngôn Ngữ Mờ và Phương Pháp Suy Luận
Dạng của các luật ngôn ngữ mờ và phương pháp suy luận được sử dụng cũng ảnh hưởng đến độ chính xác của hệ thống. Việc lựa chọn các luật và phương pháp suy luận phù hợp có thể cải thiện hiệu suất của hệ thống. Các phương pháp suy luận khác nhau có thể dẫn đến các kết quả khác nhau.
V. Ứng Dụng Đại Số Gia Tử Trong Thiết Kế Hệ Phân Lớp Mờ
Luận án này tập trung vào việc phát triển một số phương pháp thiết kế hệ phân lớp trên cơ sở lý thuyết tập mờ và đại số gia tử. Đại số gia tử cung cấp một công cụ mạnh mẽ để biểu diễn và xử lý thông tin không chắc chắn và không chính xác, điều này rất hữu ích trong việc thiết kế các hệ phân lớp mờ.
5.1. Biểu Diễn Tri Thức Bằng Đại Số Gia Tử Mở Rộng
Luận án mở rộng khái niệm đại số gia tử để mô hình hóa lõi ngữ nghĩa của các từ ngôn ngữ. Điều này cho phép biểu diễn tri thức một cách linh hoạt và chính xác hơn. Các khái niệm về độ đo tính mờ và hệ khoảng tính mờ cũng được mở rộng để phù hợp với đại số gia tử mở rộng.
5.2. Thiết Kế Hệ Phân Lớp Dựa Trên Ngữ Nghĩa Hình Thang
Luận án đề xuất một phương pháp thiết kế hệ phân lớp dựa trên ngữ nghĩa hình thang của khung nhận thức ngôn ngữ. Phương pháp này đảm bảo tính giải nghĩa được của khung nhận thức ngôn ngữ và cải thiện hiệu suất của hệ thống.
VI. Tối Ưu Hóa Hệ Phân Lớp Mờ Bằng Thuật Toán Mềm
Luận án cũng tập trung vào việc thiết kế hiệu quả hệ phân lớp dựa trên luật ngôn ngữ mờ sử dụng kỹ thuật tính toán mềm. Các thuật toán tối ưu hóa như M0ΡS0 và M0ΡS0-SA được sử dụng để tối ưu hóa các tham số ngữ nghĩa và tìm kiếm hệ luật tối ưu.
6.1. So Sánh Thuật Toán Tối Ưu Bầy Đàn Đa Mục Tiêu
Luận án so sánh hiệu quả của thuật toán M0ΡS0 với thuật toán GSA trong việc tối ưu hóa hệ phân lớp mờ. Kết quả thực nghiệm cho thấy thuật toán M0ΡS0 có hiệu suất tốt hơn so với thuật toán GSA.
6.2. Nâng Cao Hiệu Quả Sinh Luật Mờ Bằng Kỹ Thuật Chọn Đặc Trưng
Luận án đề xuất một phương pháp nâng cao hiệu quả sinh luật mờ với ngữ nghĩa dựa trên đại số gia tử sử dụng kỹ thuật lựa chọn đặc trưng. Kỹ thuật này giúp giảm độ phức tạp của hệ thống và cải thiện hiệu suất phân lớp.