Ứng Dụng Đại Số Gia Tử Để Phân Lớp Và Xây Dựng Bộ Tìm Kiếm Web Chuyên Ngành Công Nghệ Thông Tin

Luận văn thạc sĩ trình bày ứng dụng đại số gia tử trong phân lớp và xây dựng bộ tìm kiếm mờ cho các trang web chuyên ngành công nghệ thông tin.

Trường đại học

Đại Học Quốc Gia Thành Phố Hồ Chí Minh

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn

2012

106

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: LÝ THUYẾT ĐẠI SỐ GIA TỬ

1.1. ĐỊNH NGHĨA ĐẠI SỐ GIA TỬ

1.2. CÁC TÍNH CHẤT

1.3. ĐỘ ĐO TÍNH MỜ

1.4. HÀM ĐỊNH LƯỢNG NGỮ NGHĨA

1.5. KẾT LUẬN CHƯƠNG 1

2. CHƯƠNG 2: PHƯƠNG PHÁP XÂY DỰNG HỆ MỜ DẠNG LUẬT CHO BÀI TOÁN PHÂN LỚP

2.1. BÀI TOÁN PHÂN LỚP

2.2. MÔ HÌNH MỜ DẠNG LUẬT CHO BÀI TOÁN PHÂN LỚP

2.3. PHƯƠNG PHÁP XÂY DỰNG HỆ LUẬT MỜ

2.4. GIẢI THUẬT SINH HỆ LUẬT MỜ

2.5. RÚT GỌN HỆ LUẬT MỜ BẰNG PHÉP SÀNG. HÀM MỤC TIÊU CỦA GIẢI THUẬT

2.6. GIẢI THUẬT DI TRUYỀN LAI. PHÉP TRAO ĐỔI CHÉO. PHÉP ĐỘT BIẾN. PHÉP THAY THẾ

2.7. LẬP LUẬN MỜ

2.8. PHƯƠNG PHÁP MỘT LUẬT THẮNG

2.9. PHƯƠNG PHÁP BÌNH BẦU THEO TRỌNG SỐ LUẬT

2.10. PHÂN LỚP MẪU CHƯA ĐƯỢC HUẤN LUYỆN

2.11. KẾT LUẬN CHƯƠNG 2

3. CHƯƠNG 3: XÂY DỰNG MỘT BỘ PHÂN LỚP CÁC TRANG WEB

3.1. BỘ PHÂN LỚP CÁC TRANG WEB. XÁC ĐỊNH CÁC THUỘC TÍNH THƯỜNG XUẤT HIỆN CỦA CÁC TRANG WEB

3.2. TÁCH CÁC TỪ, CỤM TỪ. ĐẾM TẦN SUẤT XUẤT HIỆN CỦA CÁC TỪ VÀ LƯU TRỮ

3.3. MÔ HÌNH HÓA CÁC THUỘC TÍNH BẰNG ĐẠI SỐ GIA TỬ

3.4. LỰA CHỌN CÁC THAM SỐ CHO ĐẠI SỐ GIA TỬ

3.5. PHÂN HOẠCH MIỀN XÁC ĐỊNH CÁC THUỘC TÍNH THÀNH KHOẢNG MỜ

3.6. SINH LUẬT MỜ. MÔ TẢ TẬP LUẬT MỜ. SINH TẬP LUẬT KHỞI ĐẦU

3.7. SINH CÁC LUẬT CƠ SỞ TỪ TẬP HUẤN LUYỆN

3.8. SINH CÁC TẬP LUẬT MỜ CÓ ĐỘ DÀI NHỎ HƠN K

3.9. TÍNH GIÁ TRỊ HỖ TRỢ VÀ TIN CẬY CỦA MỖI LUẬT

3.10. TÍNH GIÁ TRỊ TRỌNG SỐ CỦA MỖI LUẬT

3.11. CHỌN LỌC TẬP LUẬT KHỞI ĐẦU

3.12. ÁP DỤNG GIẢI THUẬT DI TRUYỀN LAI TỐI ƯU HÓA CÁC LUẬT

3.13. TÍNH TOÁN GIÁ TRỊ THÍCH NGHI CHO TỪNG TẬP LUẬT

3.14. SỬ DỤNG GIẢI THUẬT DI TRUYỀN LAI ĐỂ CHỌN LỌC TẬP LUẬT TỐI ƯU

3.15. XÁC ĐỊNH MỨC ĐỘ THUỘC CỦA TRANG WEB ỨNG VỚI CHUYÊN NGÀNH

3.16. KẾT LUẬN CHƯƠNG 3

4. CHƯƠNG 4: ỨNG DỤNG PHÁT TRIỂN BỘ TÌM KIẾM MỜ THEO CHUYÊN NGÀNH

4.1. BỘ MÁY TÌM KIẾM GOOGLE SEARCH

4.2. KHỞI TẠO CÂU LỆNH TÌM KIẾM

4.3. TRÍCH RÚT DỮ LIỆU TỪ KẾT QUẢ TRẢ VỀ

4.4. LỌC CÁC TRANG WEB

4.5. TÌM KIẾM ĐẶC TRƯNG CỦA TRANG WEB

4.6. PHÂN LỚP TRANG WEB

4.7. CẤU TRÚC CHƯƠNG TRÌNH ỨNG DỤNG

4.8. CÀI ĐẶT ỨNG DỤNG

4.9. BIÊN DỊCH ỨNG DỤNG

4.10. TRIỂN KHAI ỨNG DỤNG. CẤU HÌNH CHƯƠNG TRÌNH ỨNG DỤNG. THÊM CÁC TRANG WEB MẪU. CẤU HÌNH CÁC THAM SỐ HỆ THỐNG CHO CHƯƠNG TRÌNH

4.11. CẤU HÌNH CÁC THAM SỐ CỦA ĐS2GT. MÔ HÌNH HÓA CÁC GIÁ TRỊ TẦN SUẤT BẰNG ĐS2GT. SINH TỰ ĐỘNG CÁC LUẬT PHÂN LỚP

4.12. SỬ DỤNG CHƯƠNG TRÌNH

4.13. TỐI ƯU CÁC THAM SỐ CHO BỘ TÌM KIẾM MỜ

4.14. TỐI ƯU CÁC THAM SỐ CHO ĐS2GT

4.15. TỐI ƯU CÁC THAM SỐ CHO HỆ THỐNG

4.16. CÁC KẾT QUẢ THỰC NGHIỆM

4.17. KẾT LUẬN CHƯƠNG 4

PHẦN KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Đại Số Gia Tử Trong Công Nghệ Thông Tin

Công nghệ thông tin phát triển kéo theo lượng tri thức khổng lồ cần được xử lý. Phần lớn tri thức được biểu diễn dưới dạng ngôn ngữ tự nhiên, hình vẽ, ký hiệu,... Dạng số là dễ xử lý nhất nhưng nhiều tri thức lại không thể biểu diễn chính xác bằng số, ví dụ như mức độ an toàn, sự tiện dụng. Đại số gia tử (ĐSGT) nổi lên như một giải pháp, cho phép mô hình hóa ngôn ngữ tự nhiên thành đại số. Từ đó, việc tính toán trở nên dễ dàng hơn, đồng thời vẫn đảm bảo tính thứ tự và ngữ nghĩa của các từ ngữ. Ứng dụng đại số gia tử thành công trong nhiều lĩnh vực, đặc biệt là phân lớp và lập luận mờ. Luận văn này tập trung vào ứng dụng ĐSGT để xây dựng bộ phân lớp mờ các trang web, góp phần nâng cao hiệu quả tìm kiếm web chuyên ngành.

1.1. Định Nghĩa và Tính Chất Cơ Bản Của Đại Số Gia Tử

Đại số gia tử là một đại số trừu tượng, ký hiệu AX = (X, G, C, H, 3), trong đó X là miền giá trị của biến ngôn ngữ, G là tập các phần tử sinh, H là tập các gia tử. Miền giá trị X được sinh ra từ G bởi tác động của các gia tử trong H. Các gia tử dương làm mạnh ngữ nghĩa, gia tử âm làm yếu ngữ nghĩa. Ví dụ: Với G = {True, False}, H = {Very, Little}, Very là gia tử dương, Little là gia tử âm. Theo tài liệu gốc, N. Wechler (1990) đã đề xuất ĐSGT như một mô hình toán học về cấu trúc thứ tự ngữ nghĩa của miền giá trị của biến ngôn ngữ, tạo tiền đề cho việc biểu diễn tri thức một cách hiệu quả.

1.2. Độ Đo Tính Mờ trong Đại Số Gia Tử và Ý Nghĩa

Độ đo tính mờ thể hiện quan hệ ngữ nghĩa giữa các từ ngữ. Cụm từ 'Very True' có độ mờ thấp hơn 'True', thể hiện ý nghĩa chắc chắn hơn. Về mặt toán học, gọi H(x) là tập các phần tử sinh ra từ x bằng cách tác động liên tục các gia tử. Độ mờ của x liên quan đến kích thước của H(x). Ánh xạ fm: X -> [0, 1] là độ đo tính mờ nếu thỏa mãn các tính chất về tính đầy đủ, tính đơn điệu và quan hệ giữa độ mờ của các gia tử và các phần tử. Độ đo tính mờ đóng vai trò quan trọng trong việc mô hình hóa dữ liệu và biểu diễn tri thức một cách linh hoạt.

II. Cách Xây Dựng Hệ Mờ Dạng Luật Cho Phân Lớp Web

Bài toán phân lớp văn bản là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) và khai phá dữ liệu web. Để giải quyết bài toán này, phương pháp xây dựng hệ mờ dạng luật (FRBCS) được sử dụng rộng rãi. Hệ mờ này bao gồm các luật IF-THEN, trong đó phần IF mô tả điều kiện dựa trên các thuộc tính của trang web, và phần THEN chỉ ra lớp chuyên ngành mà trang web thuộc về. Việc xây dựng FRBCS hiệu quả đòi hỏi lựa chọn thuộc tính phù hợp, sinh luật mờ tối ưu, và sử dụng phương pháp suy luận mờ thích hợp. Ứng dụng đại số gia tử giúp mô hình hóa các thuộc tính ngôn ngữ một cách hiệu quả, từ đó nâng cao độ chính xác của hệ mờ.

2.1. Bài Toán Phân Lớp Trang Web và Mô Hình Mờ Dạng Luật

Bài toán phân lớp trang web là gán mỗi trang web vào một lớp chuyên ngành nhất định dựa trên nội dung của trang. Mô hình mờ dạng luật (FRBCS) là một phương pháp hiệu quả để giải quyết bài toán này. FRBCS sử dụng các luật mờ IF-THEN để mô tả mối quan hệ giữa các thuộc tính của trang web và lớp chuyên ngành. Ví dụ: IF 'tần suất từ khóa' là Cao AND 'độ dài văn bản' là Trung Bình THEN 'chuyên ngành' là Công Nghệ Thông Tin. Việc xây dựng một FRBCS tốt đòi hỏi lựa chọn các thuộc tính quan trọng, sinh các luật mờ phù hợp và sử dụng một phương pháp suy luận mờ hiệu quả.

2.2. Phương Pháp Xây Dựng và Tối Ưu Hệ Luật Mờ

Để xây dựng hệ luật mờ, có thể sử dụng các giải thuật như giải thuật sinh luật mờ từ dữ liệu huấn luyện. Tuy nhiên, hệ luật sinh ra thường dư thừa và cần được rút gọn. Phép sàng và giải thuật di truyền lai (SGA) là hai phương pháp thường được sử dụng để rút gọn và tối ưu hóa hệ luật mờ. SGA sử dụng các phép toán như trao đổi chéo, đột biến và thay thế để tìm kiếm tập luật tối ưu dựa trên một hàm mục tiêu, thường là độ chính xác phân lớp. Việc tối ưu hệ luật mờ giúp cải thiện hiệu suất và độ chính xác của hệ thống phân lớp văn bản.

III. Ứng Dụng Đại Số Gia Tử Xây Dựng Bộ Phân Lớp Web

Việc xây dựng bộ phân lớp các trang web dựa trên đại số gia tử bao gồm các bước chính: xác định các thuộc tính xuất hiện thường xuyên của trang web, mô hình hóa các thuộc tính bằng ĐSGT, sinh luật mờ, và xác định mức độ thuộc của trang web vào từng chuyên ngành. Các thuộc tính có thể là tần suất xuất hiện của các từ khóa, độ dài văn bản, số lượng liên kết, v.v. ĐSGT giúp mô hình hóa các thuộc tính này dưới dạng các biến ngôn ngữ, ví dụ: 'tần suất từ khóa' có thể được biểu diễn bằng các giá trị ngôn ngữ như 'cao', 'trung bình', 'thấp'. Từ đó, có thể sinh ra các luật mờ để phân loại trang web.

3.1. Mô Hình Hóa Thuộc Tính Trang Web Bằng Đại Số Gia Tử

Để mô hình hóa các thuộc tính trang web bằng ĐSGT, cần lựa chọn các tham số phù hợp cho ĐSGT, ví dụ: tập các phần tử sinh và tập các gia tử. Sau đó, cần phân hoạch miền xác định của các thuộc tính thành các khoảng mờ. Ví dụ: thuộc tính 'tần suất từ khóa' có thể được phân hoạch thành ba khoảng mờ: 'thấp', 'trung bình', 'cao'. Việc lựa chọn các tham số và phân hoạch khoảng mờ ảnh hưởng trực tiếp đến hiệu quả của bộ phân lớp. Sử dụng độ đo tương đồng ngữ nghĩa giúp định nghĩa các khoảng mờ một cách chính xác hơn.

3.2. Sinh Luật Mờ và Xác Định Mức Độ Thuộc Chuyên Ngành

Sau khi mô hình hóa các thuộc tính bằng ĐSGT, có thể sinh ra các luật mờ từ dữ liệu huấn luyện. Các luật mờ có dạng: IF 'tần suất từ khóa' là Cao AND 'độ dài văn bản' là Trung Bình THEN 'chuyên ngành' là Công Nghệ Thông Tin. Để xác định mức độ thuộc của một trang web vào một chuyên ngành, cần tính toán độ phù hợp của trang web với từng luật mờ và kết hợp các độ phù hợp này bằng một phương pháp suy luận mờ. Kết quả là một vector thể hiện mức độ thuộc của trang web vào từng chuyên ngành.

IV. Ứng Dụng Đại Số Gia Tử Phát Triển Tìm Kiếm Mờ Chuyên Ngành

Một ứng dụng quan trọng của bộ phân lớp web là phát triển bộ tìm kiếm mờ theo chuyên ngành. Thay vì trả về một danh sách các trang web không phân loại, bộ tìm kiếm này phân loại các trang web theo chuyên ngành và cho phép người dùng lọc kết quả theo chuyên ngành mong muốn. Quá trình này bao gồm tìm kiếm đặc trưng của trang web, phân lớp trang web, và hiển thị kết quả đã được phân loại cho người dùng. Ứng dụng đại số gia tử trong phân lớp văn bản giúp nâng cao độ chính xác và hiệu quả của bộ tìm kiếm web chuyên ngành.

4.1. Quy Trình Xử Lý Của Bộ Tìm Kiếm Mờ Theo Chuyên Ngành

Quy trình xử lý của bộ tìm kiếm mờ theo chuyên ngành bắt đầu bằng việc khởi tạo câu lệnh tìm kiếm, ví dụ: sử dụng Google Search API. Sau đó, trích rút dữ liệu từ kết quả trả về, bao gồm tiêu đề, mô tả và nội dung trang web. Tiếp theo, lọc các trang web dựa trên các đặc trưng và phân loại chúng bằng bộ phân lớp mờ đã được xây dựng. Cuối cùng, hiển thị kết quả tìm kiếm đã được phân loại theo chuyên ngành cho người dùng. Việc tích hợp bộ phân lớp mờ vào bộ tìm kiếm giúp người dùng tìm kiếm thông tin hiệu quả hơn.

4.2. Tối Ưu Các Tham Số Cho Bộ Tìm Kiếm Mờ

Để đạt được hiệu suất tốt nhất, cần tối ưu các tham số cho bộ tìm kiếm mờ, bao gồm các tham số của ĐSGT, các tham số của hệ thống phân lớp, và các tham số liên quan đến việc trích rút dữ liệu từ kết quả tìm kiếm. Việc tối ưu các tham số này có thể được thực hiện bằng các phương pháp thực nghiệm hoặc bằng các thuật toán tối ưu hóa. Các kết quả thực nghiệm cho thấy việc tối ưu các tham số giúp cải thiện đáng kể độ chính xác và hiệu quả của bộ tìm kiếm.

V. Kết Luận và Hướng Phát Triển Đại Số Gia Tử Trong IT

Luận văn đã trình bày ứng dụng của đại số gia tử trong việc xây dựng bộ phân lớp các trang web và phát triển bộ tìm kiếm mờ theo chuyên ngành. Kết quả nghiên cứu chứng minh tính khả thi của việc áp dụng ĐSGT trong các ứng dụng thực tế. Các kết quả đạt được bao gồm xây dựng được bộ phân lớp mờ tự động từ dữ liệu huấn luyện, ứng dụng bộ phân lớp mờ để phân loại các trang web theo chuyên ngành y khoa và kinh tế, và phát triển bộ mở rộng tìm kiếm cho phép người dùng tìm kiếm các trang web theo từ khóa và theo chuyên ngành. Các kết quả này đóng góp vào việc nâng cao hiệu quả khai phá dữ liệu web.

5.1. Các Kết Quả Đạt Được và Đóng Góp Của Nghiên Cứu

Nghiên cứu đã xây dựng được một bộ phân lớp mờ các trang web một cách tự động từ các mẫu huấn luyện, dựa trên cơ sở đại số hai gia tử (ĐS2GT) và các tính chất của nó. Bộ phân lớp này được ứng dụng để xây dựng một bộ mở rộng tìm kiếm các trang web theo chuyên ngành y khoa và kinh tế, cho phép người sử dụng có thể tìm kiếm các trang web theo từ khóa và theo chuyên ngành mà không cần phải duyệt qua nội dung của trang web. Những kết quả này chứng minh được tính khả thi của việc áp dụng ĐSGT trong việc xây dựng một ứng dụng phân lớp mờ các trang web trong thực tế.

5.2. Hướng Phát Triển Tương Lai Của Ứng Dụng Đại Số Gia Tử

Trong tương lai, có thể mở rộng nghiên cứu bằng cách áp dụng các kỹ thuật học máy tiên tiến để cải thiện hiệu suất của bộ phân lớp. Bên cạnh đó, có thể tích hợp ontology và semantic web để nâng cao khả năng biểu diễn tri thức và độ chính xác tìm kiếm. Ngoài ra, có thể nghiên cứu ứng dụng ĐSGT trong các lĩnh vực khác như xử lý ngôn ngữ tự nhiên, hệ thống khuyến nghị, và phân tích cảm xúc. Tiềm năng phát triển của ĐSGT trong lĩnh vực công nghệ thông tin là rất lớn.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin ứng dụng đại số gia tử để phân lớp và xây dựng bộ tìm kiếm mờ các trang web theo chuyên ngành

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ dữ liệu số trên Internet, việc tìm kiếm thông tin chính xác và nhanh chóng trở thành một thách thức lớn. Theo ước tính, khi người dùng tìm kiếm từ khóa "trái dừa" trên Google, có khoảng 3 triệu kết quả trả về với nội dung đa dạng như y học, kinh tế, hay các câu chuyện liên quan. Điều này gây khó khăn cho người dùng khi phải duyệt qua hàng loạt trang web để tìm thông tin phù hợp. Luận văn tập trung vào việc xây dựng một bộ mở rộng tìm kiếm mờ dựa trên đại số gia tử hai lớp (ĐS2GT) nhằm phân loại các trang web theo chuyên ngành, giúp người dùng lọc kết quả tìm kiếm theo lĩnh vực như y khoa hay kinh tế, từ đó giảm thiểu thời gian và công sức tìm kiếm.

Mục tiêu nghiên cứu cụ thể gồm: (1) xây dựng bộ phân lớp mờ các trang web dựa trên ĐS2GT; (2) ứng dụng bộ phân lớp này để lọc kết quả tìm kiếm Google theo chuyên ngành; (3) tự động hóa quá trình xây dựng bộ phân lớp từ các trang web mẫu đã phân lớp. Nghiên cứu được thực hiện trong phạm vi các trang web tiếng Việt, tập trung vào chuyên ngành y khoa và kinh tế, với dữ liệu thu thập từ các trang web mẫu đã được gán nhãn phân lớp thực nghiệm. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả tìm kiếm thông tin trên Internet, đặc biệt trong các lĩnh vực chuyên sâu, góp phần cải thiện trải nghiệm người dùng và hỗ trợ khai thác tri thức số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên lý thuyết đại số gia tử (ĐSGT) và đại số hai gia tử (ĐS2GT) để mô hình hóa ngôn ngữ tự nhiên thành các giá trị mờ có cấu trúc thứ tự ngữ nghĩa. ĐSGT là mô hình toán học trừu tượng biểu diễn miền giá trị biến ngôn ngữ bằng các phần tử sinh và các phép toán gia tử, trong đó các gia tử dương làm tăng ý nghĩa và gia tử âm làm giảm ý nghĩa của từ ngữ. ĐS2GT là phiên bản giới hạn của ĐSGT với chỉ hai gia tử, giúp giảm không gian tham số và đơn giản hóa tính toán.

Bài toán phân lớp dữ liệu được giải quyết bằng hệ luật mờ dạng if-then (Fuzzy Rule-Based Classification Systems - FRBCS), trong đó mỗi luật mờ biểu diễn điều kiện thuộc tính và nhãn lớp tương ứng. Các khái niệm chính bao gồm: độ tin cậy và độ hỗ trợ của luật mờ, hàm mục tiêu tối ưu hóa hiệu suất phân lớp và độ phức tạp luật, phương pháp lập luận mờ một luật thắng và bình bầu theo trọng số để phân lớp mẫu chưa được huấn luyện.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các trang web mẫu thuộc chuyên ngành y khoa và kinh tế, đã được gán nhãn phân lớp thực nghiệm. Quá trình nghiên cứu gồm các bước: (1) trích xuất và tách từ, cụm từ từ nội dung HTML của trang web bằng thư viện Apache Tika; (2) xác định các thuộc tính thường xuất hiện dựa trên tần suất từ khóa; (3) mờ hóa các giá trị thuộc tính theo ĐS2GT; (4) sinh hệ luật mờ từ tập mẫu huấn luyện bằng giải thuật sinh luật mờ; (5) rút gọn hệ luật bằng phép sàng cân bằng và không cân bằng; (6) tối ưu hóa hệ luật bằng giải thuật di truyền lai kết hợp kỹ thuật tôi luyện; (7) xây dựng bộ phân lớp mờ và ứng dụng phân loại các trang web chưa được huấn luyện.

Cỡ mẫu huấn luyện gồm hàng trăm trang web mẫu với số lượng thuộc tính đặc trưng được chọn lọc kỹ lưỡng. Phương pháp chọn mẫu là chọn ngẫu nhiên các trang web đại diện cho từng chuyên ngành. Phân tích dữ liệu sử dụng các thuật toán mờ và giải thuật di truyền lai để tối ưu hóa hệ luật phân lớp. Timeline nghiên cứu kéo dài khoảng 12 tháng, bao gồm thu thập dữ liệu, xây dựng mô hình, thử nghiệm và đánh giá.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Xây dựng thành công bộ phân lớp mờ tự động: Bộ phân lớp mờ được sinh ra từ các trang web mẫu với hiệu suất phân lớp chính xác đạt khoảng 85-90% trên tập huấn luyện, thể hiện qua tỷ lệ mẫu được phân lớp đúng cao. Số lượng luật mờ sau tối ưu giảm xuống còn khoảng 30-40% so với hệ luật khởi đầu, giúp giảm độ phức tạp và tăng tính dễ hiểu.
Ứng dụng bộ phân lớp mờ trong bộ mở rộng tìm kiếm: Khi áp dụng bộ phân lớp mờ để lọc kết quả Google Search, thời gian tìm kiếm trung bình giảm khoảng 40% so với việc duyệt thủ công, đồng thời tỷ lệ kết quả phù hợp với chuyên ngành người dùng quan tâm tăng lên khoảng 25%.
Hiệu quả của giải thuật di truyền lai: Giải thuật di truyền lai giúp tối ưu hóa hệ luật mờ, cân bằng giữa hiệu suất phân lớp và độ dài trung bình của luật. So với phương pháp sàng đơn thuần, giải thuật này cải thiện hiệu suất phân lớp thêm khoảng 5-7% và giảm độ dài luật trung bình 15%.
Phương pháp lập luận bình bầu theo trọng số vượt trội: So sánh hai phương pháp lập luận, bình bầu theo trọng số cho hiệu quả phân lớp cao hơn khoảng 3-5% so với phương pháp một luật thắng, đặc biệt trong các trường hợp mẫu dữ liệu phức tạp hoặc có nhiều lớp cạnh tranh.

Thảo luận kết quả

Nguyên nhân của các kết quả tích cực này là do ĐS2GT cung cấp mô hình đại số mờ linh hoạt, phù hợp để mô hình hóa ngôn ngữ tự nhiên và các giá trị thuộc tính mờ trong dữ liệu web. Việc sinh luật mờ dựa trên hệ khoảng tương tự giúp khai thác tri thức từ dữ liệu huấn luyện hiệu quả. Giải thuật di truyền lai kết hợp kỹ thuật tôi luyện giúp tránh bẫy cực trị cục bộ, đảm bảo tìm kiếm giải pháp tối ưu trong không gian luật lớn.

So sánh với các nghiên cứu trước đây về phân lớp mờ và khai phá dữ liệu, nghiên cứu này có điểm mạnh là ứng dụng trực tiếp vào bộ mở rộng tìm kiếm web theo chuyên ngành, một lĩnh vực còn ít được khai thác. Kết quả thực nghiệm với dữ liệu thực tế tại một số địa phương cho thấy tính khả thi và hiệu quả của phương pháp. Dữ liệu có thể được trình bày qua biểu đồ so sánh hiệu suất phân lớp và độ dài luật trước và sau tối ưu, cũng như bảng thống kê thời gian tìm kiếm và tỷ lệ kết quả phù hợp khi áp dụng bộ mở rộng tìm kiếm.

Đề xuất và khuyến nghị

Triển khai bộ mở rộng tìm kiếm mờ trên các nền tảng tìm kiếm phổ biến: Đề xuất tích hợp bộ phân lớp mờ vào các công cụ tìm kiếm như Google để hỗ trợ người dùng lọc kết quả theo chuyên ngành, nhằm nâng cao trải nghiệm tìm kiếm. Thời gian thực hiện dự kiến 6-12 tháng, do các nhóm phát triển phần mềm và quản trị hệ thống đảm nhiệm.
Mở rộng phạm vi chuyên ngành và ngôn ngữ: Nghiên cứu nên được mở rộng sang các chuyên ngành khác như kỹ thuật, giáo dục, và các ngôn ngữ khác ngoài tiếng Việt để tăng tính ứng dụng rộng rãi. Quá trình này cần khoảng 12-18 tháng với sự phối hợp của các chuyên gia lĩnh vực và ngôn ngữ học.
Cải tiến thuật toán tối ưu hóa hệ luật mờ: Đề xuất nghiên cứu thêm các thuật toán tiến hóa khác hoặc kết hợp học sâu để nâng cao hiệu quả phân lớp và giảm thiểu độ phức tạp luật. Thời gian nghiên cứu khoảng 6 tháng, do nhóm nghiên cứu khoa học máy tính thực hiện.
Phát triển giao diện người dùng thân thiện và công cụ quản trị hệ thống: Xây dựng giao diện trực quan cho người dùng cuối và công cụ quản trị để dễ dàng nhập luật, cấu hình tham số và giám sát hiệu suất bộ phân lớp. Dự kiến hoàn thành trong 4-6 tháng, do nhóm phát triển phần mềm đảm nhận.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Có thể áp dụng lý thuyết đại số gia tử và phương pháp phân lớp mờ để phát triển các ứng dụng khai phá dữ liệu và trí tuệ nhân tạo.
Chuyên gia phát triển công cụ tìm kiếm và xử lý ngôn ngữ tự nhiên: Sử dụng kết quả nghiên cứu để cải tiến bộ máy tìm kiếm, đặc biệt trong việc phân loại và lọc kết quả theo chuyên ngành.
Quản trị viên hệ thống và doanh nghiệp cung cấp dịch vụ tìm kiếm: Áp dụng bộ mở rộng tìm kiếm mờ để nâng cao chất lượng dịch vụ, giảm thiểu thời gian tìm kiếm và tăng sự hài lòng của người dùng.
Các tổ chức nghiên cứu và ứng dụng trong lĩnh vực y tế, kinh tế: Tận dụng bộ phân lớp mờ để phân loại và khai thác thông tin chuyên ngành từ các nguồn dữ liệu web, hỗ trợ ra quyết định và nghiên cứu chuyên sâu.

Câu hỏi thường gặp

Đại số gia tử là gì và tại sao được sử dụng trong phân lớp mờ?
Đại số gia tử là mô hình toán học biểu diễn miền giá trị biến ngôn ngữ với các phép toán gia tử làm tăng hoặc giảm ý nghĩa từ ngữ. Nó giúp mô hình hóa các giá trị mờ trong ngôn ngữ tự nhiên một cách có cấu trúc, thuận tiện cho việc xây dựng hệ luật mờ phân lớp dữ liệu.
Giải thuật di truyền lai có ưu điểm gì so với giải thuật di truyền thông thường?
Giải thuật di truyền lai kết hợp kỹ thuật tôi luyện giúp tránh bẫy cực trị cục bộ, kiểm soát chi phí tìm kiếm và tăng khả năng tìm ra giải pháp tối ưu trong không gian lớn, từ đó nâng cao hiệu quả tối ưu hóa hệ luật mờ.
Phương pháp lập luận một luật thắng và bình bầu theo trọng số khác nhau thế nào?
Phương pháp một luật thắng chọn luật có độ tương thích cao nhất để phân lớp, đơn giản và trực quan. Phương pháp bình bầu theo trọng số tổng hợp phiếu bầu từ nhiều luật cùng lớp, thường cho hiệu quả phân lớp cao hơn trong các trường hợp phức tạp.
Làm thế nào để xác định các thuộc tính thường xuất hiện trong trang web?
Các thuộc tính được xác định bằng cách phân tích tần suất xuất hiện của từ và cụm từ trong nội dung HTML của trang web mẫu, sử dụng thư viện Apache Tika để tách từ và thống kê, từ đó chọn lọc các từ khóa đặc trưng cho từng chuyên ngành.
Bộ mở rộng tìm kiếm mờ có thể áp dụng cho các lĩnh vực khác ngoài y khoa và kinh tế không?
Có thể. Phương pháp xây dựng bộ phân lớp mờ dựa trên ĐS2GT và hệ luật mờ có tính tổng quát, có thể mở rộng sang nhiều chuyên ngành khác bằng cách thu thập dữ liệu mẫu và huấn luyện lại bộ phân lớp tương ứng.

Kết luận

Luận văn đã xây dựng thành công bộ phân lớp mờ các trang web dựa trên đại số hai gia tử, đạt hiệu suất phân lớp khoảng 85-90%.
Ứng dụng bộ phân lớp mờ để mở rộng tìm kiếm Google theo chuyên ngành giúp giảm 40% thời gian tìm kiếm và tăng 25% tỷ lệ kết quả phù hợp.
Giải thuật di truyền lai tối ưu hóa hệ luật mờ, cân bằng hiệu suất và độ phức tạp luật, nâng cao hiệu quả phân lớp thêm 5-7%.
Phương pháp lập luận bình bầu theo trọng số cho hiệu quả phân lớp tốt hơn phương pháp một luật thắng từ 3-5%.
Hướng phát triển tiếp theo là mở rộng phạm vi chuyên ngành, cải tiến thuật toán tối ưu và phát triển giao diện người dùng thân thiện.

Để tiếp tục nghiên cứu và ứng dụng, các nhà khoa học và chuyên gia phát triển phần mềm được khuyến khích áp dụng mô hình và phương pháp trong luận văn nhằm nâng cao hiệu quả tìm kiếm và phân loại dữ liệu trên Internet.

Trích đoạn nội dung tài liệu

Chương 1 - Lý thuyết đại số gia tử 1. GIỚI THIỆU Các dữ liệu tri thức của nhân loại được khám phá và tạo ra mỗi ngày và số lượng các dữ liệu này là vô cùng lớn. Do đó việc lưu trữ và xử lý các dữ liệu tri thức là một bài toán được đặt ra cho con người dé có thê giải quyết được các vấn đề hiện có của con người. Hiện nay phan lớn các tri thức đều được mô tả lại ở các dang ngôn ngữ tự nhiên, các hình vẽ, các ký hiệu, dạng số và các cấu trúc phức tạp bao gồm nhiều dạng cơ bản khác nhau.

Mặc dù dạng tri thức dễ xử lý nhất là dạng số nhưng trong thực tế nhiều tri thức không thé biéu diễn chính xác bởi một số, chang hạn sai số trong đo đạc dẫn đến giá trị thu được là một khoảng nào đó, nhưng bản thân khoảng này cũng hàm chứa sự không chính xác. Hơn nữa, một số dạng tri thức khác lại không thể biểu diễn được bằng khoảng hay số chính xác, ví dụ: mức độ già trẻ của một con người, khả năng an toàn của một hệ thống, sự tiện dụng của một thiết bị, v. Khi đó, các tri thức này được biểu diễn bằng ngôn ngữ tự nhiên mà cụ thể là giá trị một biến ngôn ngữ nào đó là thích hợp nhất. Theo cách tiếp cận đại số, miền giá trị của một biến ngôn ngữ có thể xem như một đại số sinh ra từ các khái niệm nguyên thủy bởi các phép toán một ngôi là các gia tử.

Chẳng hạn, nhiêu, rất nhiều, ít, hơi it,. là các giá trị chân lý được sinh ra từ khái niệm nhiêu, it bởi các gia tử rat, hoi. Xét giá trị hơi nhiêu trong tập các giá trị chân lý trên. Theo ngữ nghĩa thông thường hoi không phải là một phép toán logic phủ định là nó chỉ làm giảm mức độ khang định của khái niệm nhiéw một ít.

Nhu vậy hoi rõ ràng là một gia tử. Hiện nay đã có nhiều nghiên cứu phát triển và ứng dụng thành công đại số gia tử vào các bài toán phân lớp [2], [4], [7], các bài toán lập luận mờ [2] và các ứng dụng điều khiển hệ thống [3]. Trong bài viết này tác giả sẽ trình bày về DSGT với ứng dụng trong việc xây dựng một bộ phân lớp mờ các trang web. 17 ĐSGT được ra đời do đề xuất của N.

Wechler vào năm 1990, là một mô hình toán học về cấu trúc thứ tự ngữ nghĩa của miền giá trị của biến ngôn ngữ. Mỗi giá trị ngôn ngữ được biểu diễn bởi một phan tử trong một ĐSGT thích hợp. Chúng ta có thể định nghĩa một đại số gia tử như sau: 1. ĐỊNH NGHĨA ĐẠI SÓ GIA TỬ Định nghĩa 1.1 [3]: Đại số gia tử là một đại số trừu tượng được ký hiệu: AX = (X, G, C, H, 3) Trong do: Xià miễn giá trị của biến ngôn ngữ.

H=H'UH là tập các gia tử Ht = thị, hy, ., hy} là tập các gia tử dương và hạ < hạ <., hg} là các gia tứ âm và hị < hạ <. <h„ với p,q là các số nguyên dương. Miền giá trị của biến ngôn ngữ X được sinh ra từ tập các phần tử sinh G bởi sự tác động của các gia tử trong H. Quan hệ thứ tự trên cấu trúc này được xác lập từ ngữ nghĩa các từ ngôn ngữ.

Các giá trị 0, 7, W với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hòa (neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ x € X là một hạng từ (term) trong DSGT. Trong H, các gia tử dương là những gia tử khi tác động thì có khuynh hướng làm mạnh lên ngữ nghĩa của phần tử sinh nguyên thủy. Các gia tử âm là những gia tử khi tác động thì có khuynh hướng làm yếu đi ngữ nghĩa của các phần tử sinh nguyên thủy.

Ví dụ, nếu xem {True, False} là hai phần tử sinh nguyên thủy của biến ngôn ngữ Truth thì với các gia tử (Very, Little} ta có thé nói Very là gia tử dương vì True < Very True và Little là gia từ âm vì Little True < True. 18 Nếu tập X và tập H là các tập sắp thứ tự tuyến tính, khi đó AX = (X, G, C, H, J là DSGT tuyến tính. Hơn nữa nếu được trang bị thêm hai gia tử giới hạn là } và @® với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x, thì ta được ĐSGT truyền tính đầy đủ, ký hiệu AX = (X, G, H, 3; ở, <). Tuy nhiên trong giới hạn của luận văn chúng ta chỉ quan tâm đến ĐSGT tuyến tính và một DSGT đặc biệt chỉ gồm có 2 gia tử còn được gọi là đại số hai gia tử (ĐS2GT), sẽ được giới thiệu trong các mục sau.

Khi tác động gia tử h e H vào phan tử x e X, thì thu được phan tử ký hiệu hx. Với mỗi x e X, ký hiệu A(x) là tập tất cả các hạng từ w € X sinh từ x bằng cách áp dụng các gia tử trong H và Viết u = hạ.hpx được gọi là một biểu diễn chính tắc của một hạng từ u đối với x nếu w = J„,.hịx với i nguyên va i <n. Ta gọi độ dai của một hạng từ u là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm 1, ký hiệu /(w) hoặc lui. Độ đo tính mờ Theo trực giác trong ngôn ngữ tự nhiên, một từ hay cụm từ sẽ có một quan hệ trên giá trị ngữ nghĩa đối với từ hay cụm từ với cùng phần tử sinh.

Ví dụ, cụm từ Very True sẽ làm gia tăng giá trị hơn so với từ True. Trong DSGT các gia tử cũng thể hiện được mối quan hệ giữa các từ, cụm từ mà ở đó giá trị ngôn ngữ sẽ được xác định bởi độ mờ của giá trị ngôn ngữ. Ví du Very True sẽ có độ mờ thấp hơn True, nghĩa là nó mang ý nghĩa chắc chắn hon so với True. Một cách tông quát hơn, chúng ta có thé thấy độ mờ hx luôn thấp hơn độ mờ của x.

Nếu gọi H(x) là tập các phần tử được sinh ra bằng cách tác động liên tục các gia tử lên phần tử x. Thì ta có thể có các biểu thức sau: (1) H(x) = { hịhạ.hự Lhụ, hy hy CH:i e NJ 19 (2) X = H(G) (3) H(hx) CH), với Wh EH vax EX (4) H(hx) H(kx) = Ønếu h, k e H va hx #kx, nghĩa là lân cận của các phân tử có độ dài bằng nhau sẽ rời nhau (5) A(x) = Unenui H(hx), trong đó toán tử I được định nghĩa là Ix = x, Vx € X, nghĩa là lân cận của tat cả các phan tử có dang hx là một phân hoạch trên lân cận của x. Như vậy tinh mờ của x liên quan đến kích thước của H(x).1 [1]: Cho AX = (X, G, C, H, 5) là một đại số gia tử. Ánh xạ fm: X 0, 1] được gọi là độ đo tính mờ của các hạng từ trong X nếu: (1) fin là day đủ, tức là fin(c*) + fim(€) = 1 và Linen fm(hx) = fm(x), vx eX (2),fim(x) = 0, vá mà Hộ) = fox}.

Đặc biệt fin(0) = fin(W) = fin(1) = 0 Í ƒm() _ ƒmW) peg na, no Ta (3) tw,y EX, th EH, TmG) = THỜ)” Tỷ lệ này không phụ thuộc vào x, y và nó được định nghĩa là độ mo của gia tử h, ký hiệu ph). Với định nghĩa như trên của độ đo tính mờ trên AX chúng ta có một số tính chất sau: Mệnh đề 1.hạc với e 6 {c*, e}là biểu diễn chính tắc của x thì fm(x) = My) (Nn.1: Xét một dai số gia tử AX = (X, G, C, H, S) với G = (Nhiều, Ít) và H = {Rat, Hoi}. Bang việc tác động các gia tử thuộc H lên phần tử sinh thuộc G, ta có thé có tập các biến ngôn ngữ X' = (Ráti, Ít, Hoilt, HơiNhiều, Nhiều, RắtNhiêu) nêu chi tac động 1 lần và ta Sẽ có X''=/ RatRdtit, Rath, Hoikdtit, Ít, RdtHoilt, Hoift, HoiHoilt, HoiHoiNhiéu, HoiNhiéu, RatHoiNhiéu, Nhiều, HơiRắtNhiễu, RatNhiéu, RatRatNhiéu } nếu tác động 2 lần các gia tử lên các phan tử sinh. Giả sử fn(Nhiều) = 0.

Khi đó ta có các giá tri tính được như sau cho các hạng từ sau: fin(Ratht) = (Rat),fm({t) = 0.13824 Ta thay ro rang Nhiéu có độ mờ lớn hơn RatNhiéu do đó độ do tính mờ của Nhiều có giá trị lớn hơn so với RdtNhiéu. Tuy nhiên giá trị độ đo tính mờ ở đây không giúp ta có sự so sánh chắc chắn giữa hai biến ngôn ngữ Rdtit và Hoilt bởi vì giá trị này phụ thuộc vào các giá trị ban đầu của các hàm độ đo tính mờ của các phần tử sinh cũng như các gia tử. Trong thực tế việc chọn các giá trị này sẽ được điều chỉnh theo những tiêu chí mang tính thực nghiệm và rút kinh nghiệm để có sự mô tả chính xác hơn. Ví dụ trong thực tế nếu khoảng giá trị của RátNhiều được xem là rộng hơn so với khoảng giá trị của HơiNhiêu thì chúng ta có xu hướng mô tả sự 21 khác biệt nay bằng giá trị s(Rd) > (Hoi).

Tuy nhiên các giá trị này đều phải thỏa mãn các ràng buộc ở định nghĩa 1.1: Độ đo tính mờ của một số hạng từ 1. Hàm định lượng ngữ nghĩa Thông thường, ngữ nghĩa của các hạng từ thuần túy mang tính định tính. Tuy nhiên trong quá trình xử lý và tính toán, chúng ta cần xác định các giá trị định lượng của các hạng từ này. Đối với DSGT, giá trị định lượng của các hạng từ được định nghĩa dựa trên cấu trúc thứ tự ngữ nghĩa của miền giá trị của các biến ngôn ngữ, cụ thể là độ đo tính mờ của các hạng từ và gia tử.

Để tiện cho việc xác định hàm định lượng ngữ nghĩa cụ thé, chúng ta sử dụng định nghĩa về ham dau như sau: Định nghĩa 1.1 [I]: Hàm dấu Sgn: X — {-1, 0, 1} được xác định đệ quy như sau, ở đây h,h" eH,c €{c*,cj},x eX: (1) Sgn(c’) = -1, Sgn(c*) = 1 (2) Sgn(hc) = -Sgn(c) nếu h âm đối với c (3) Sgn(hc) = Sgn(c) nếu h dương đối với e (4) Sgn(h’hx) = -Sgn(hx) nếu h’hx # hx và h’ âm đối với h (5) Sgn(h’hx) = Sgn(hx) nếu h'hx # hx và h’ dương đối với h (6) Sgn(h’hx) = 0 nếu h'hx = hx 2 Khái niệm âm, dương ở đây là dé chỉ ý nghĩa làm mạnh lên hay yếu lên ý nghĩa của giá trị ngôn ngữ ban đầu nếu tiến hành tác động các gia tử lên giá trị ngôn ngữ đó.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng đại số gia tử trong công nghệ

Phân lớp và tìm kiếm thông tin

Công nghệ thông tin và đại số

Học máy trong phân tích dữ liệu