I. Tổng Quan Về Tìm Kiếm Web Hiệu Quả Tại ĐHQGHN
Ngày nay, việc khai thác và tìm kiếm thông tin trên Internet là vấn đề được nhiều nhà nghiên cứu quan tâm. Khối lượng thông tin trên web khổng lồ, câu hỏi truy vấn của người sử dụng thường ít chính xác, nên số kết quả trả về từ các máy tìm kiếm có thể lên đến hàng trăm hay hàng ngàn tài liệu. Việc tìm được chính xác tài liệu mình quan tâm là rất khó và đôi lúc là không thể. Một trong những cách tiếp cận để giải quyết vấn đề này là sử dụng kỹ thuật phân cụm tài liệu theo chủ đề tạo nên cách biểu diễn kết quả tìm kiếm web cô đọng và rõ ràng. Luận văn này đề xuất giải thuật Phân cụm kết quả tìm kiếm Web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) và FisHerg Kernel.
1.1. Động Lực Phát Triển Tìm Kiếm Web Tại ĐHQGHN
Cùng với sự bùng nổ thông tin và sự phát triển của mạng truyền thông, World Wide Web trở thành nguồn tài nguyên thông tin khổng lồ và quý giá, luôn sẵn sàng phục vụ tất cả mọi người. Nếu không có nó mọi hoạt động diễn ra hằng ngày sẽ kém hiệu quả. Tuy nhiên làm thế nào sử dụng nguồn tài nguyên ấy hiệu quả là vấn đề không đơn giản. Điều này phụ thuộc vào nhiều yếu tố như kinh nghiệm tìm kiếm, kiến thức cơ bản liên quan đến lĩnh vực cần nghiên cứu, hoặc là sự thành thạo về ngôn ngữ. Mặc dù hiện nay đã có rất nhiều máy tìm kiếm như Google, Altavista, HotBot, Lycos, AllTheWeb giúp chúng ta rất nhiều trong việc tìm kiếm thông tin.
1.2. Phạm Vi Nghiên Cứu FisHerg Kernel Tại ĐHQGHN
Để đạt được mục đích trên, cần thực hiện những công việc sau: Tìm hiểu hướng nghiên cứu hiện tại đối với bài toán tìm kiếm thông tin, đặc biệt tập trung vào khai phá nội dung trang Web và tối ưu kết quả trả về; Vận dụng lý thuyết đại số tuyến tính và kỹ thuật phân tích ma trận để rút gọn số chiều của vector biểu diễn nội dung tài liệu, từ đó xây dựng cách biểu diễn tài liệu theo các khái niệm ngữ nghĩa ẩn bên trong tập tài liệu; Vận dụng lý thuyết xác suất, thống kê toán học và Kernel Method để xây dựng hàm FisHerg Kernel đo độ tương tự giữa các tài liệu.
II. Vấn Đề Tìm Kiếm Web Và Phân Cụm Tài Liệu Nghiên Cứu
Máy tìm kiếm web là một loại chương trình tiện ích hỗ trợ nhằm giúp người sử dụng tìm kiếm thông tin một cách nhanh chóng và đầy đủ. Giao diện tương tác giữa người và máy khá đơn giản và thân thiện. Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề quan tâm, sau đó lập tức máy trả về tập kết quả tìm kiếm (snippets). Mỗi snippet bao gồm tựa đề, địa chỉ web của tài liệu (được gọi là URL) và miêu tả ngắn gọn nội dung chính tài liệu Web.
2.1. Cấu Trúc Bên Trong Của Máy Tìm Kiếm Web
Web crawler là một trong hai thành phần tương tác trực tiếp với Internet, còn được gọi là Web Spider hoặc Robot. Công việc chính của Web crawler phát hiện những nguồn tài nguyên mới trên Web. Để thực hiện công việc này, Web crawler tìm kiếm đệ quy trên các đường link của tất cả các trang đã được duyệt. Đồng thời, trong khi khai phá các nguồn tài nguyên mới trên Internet, Web crawler kiểm tra liệu rằng các trang có còn giá trị sử dụng hay không và liệu chúng đã được cập nhật hay chưa. Với chức năng này nó giúp cho máy tìm kiếm cập nhật được nguồn tài nguyên mới và xóa bỏ tài nguyên không còn giá trị sử dụng trong World Wide Web.
2.2. Biểu Diễn Kết Quả Tìm Kiếm Web Hiệu Quả
Như trên đã thảo luận, giao diện đóng vai trò vô cùng quan trọng, thông qua nó người dùng có thể xác định được những thứ họ cần và các bước thực hiện tiếp theo. Hầu hết hiện nay các máy tìm kiếm đều thực hiện việc tìm kiếm dựa trên phương pháp tính hạng liên quan (Document Ranking) và biểu diễn kết quả tìm kiếm theo thứ tự hạng xuất hiện. Nhưng vì số lượng kết quả tìm kiếm có thể lên đến hàng ngàn tài liệu, nên người sử dụng không đủ thời gian và kiên nhẫn đọc toàn bộ lượng tài liệu này để xác định các tài liệu cần thiết. Do vậy cần có một kỹ thuật mới để nâng cao hiệu quả trong việc duyệt tìm tài liệu.
2.3. Ứng Dụng Phân Cụm Tài Liệu Web Tại ĐHQGHN
Trong khi phương pháp phân cụm được sử dụng để thực hiện nhiều tác vụ khác nhau trong lĩnh vực thu thập thông tin, phương pháp phân cụm tài liệu chỉ tập trung vào hai hướng nghiên cứu chính. Thứ nhất, là công cụ cải tiến hiệu năng thu thập thông tin và là cách thức tổ chức kho tài liệu. Ý tưởng phân cụm tài liệu áp dụng cho việc thu thập thông tin xuất phát từ lý thuyết nhóm, kết hợp các tài liệu liên quan theo yêu cầu lại với nhau. Bằng việc nhóm các tài liệu theo từng cụm khi đó ta dễ dàng phân biệt được tài liệu nào là liên quan và không liên quan với nhau, vì vậy hiệu quả thu thập tài liệu theo không gian nhóm được cải tiến đáng kể.
III. Phân Tích Ngữ Nghĩa Tiềm Ẩn Và FisHerg Kernel
Độ đo tương tự giữa các tài liệu. Mục tiêu LSA. Biểu diễn tập tài liệu dưới dạng bảng co-occurrence. Xây dựng FisHerg Kernel dựa trên LSA.
3.1. Mục Tiêu Của Phân Tích Ngữ Nghĩa Tiềm Ẩn LSA
Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, sử dụng các kỹ thuật đại số tuyến tính để phân tích quan hệ giữa một tập các tài liệu và các thuật ngữ chứa trong chúng bằng cách xây dựng một không gian ngữ nghĩa. LSA giả định rằng có một cấu trúc ngữ nghĩa tiềm ẩn trong việc sử dụng ngôn ngữ, và cấu trúc này có thể được trích xuất bằng cách phân tích thống kê các văn bản.
3.2. Xây Dựng FisHerg Kernel Dựa Trên LSA
Để xây dựng FisHerg Kernel dựa trên LSA, trước tiên cần biểu diễn các tài liệu trong không gian ngữ nghĩa giảm chiều do LSA tạo ra. Sau đó, sử dụng các kỹ thuật của Kernel Methods để định nghĩa một hàm kernel đo độ tương tự giữa các tài liệu. FisHerg Kernel kết hợp thông tin ngữ nghĩa từ LSA với khả năng của kernel methods để tạo ra một độ đo tương tự mạnh mẽ và hiệu quả.
IV. Giải Thuật Phân Cụm Kết Quả Tìm Kiếm Web LSA FK
Phân cụm tài liệu theo cách tiếp cận LSA và FisHerg Kernel. Giải thuật phân cụm phân hoạch theo LSA và FisHerg Kernel (LSA-FK). Phân cụm kết quả tìm kiếm Web theo cách tiếp cận LSA và FisHerg Kernel.
4.1. Giải Thuật Phân Cụm Phân Hoạch LSA FK Chi Tiết
Giải thuật LSA-FK bao gồm các bước chính sau: (1) Biểu diễn tập tài liệu dưới dạng ma trận thuật ngữ-tài liệu. (2) Áp dụng LSA để giảm chiều dữ liệu và trích xuất các khái niệm ngữ nghĩa tiềm ẩn. (3) Tính toán độ tương tự giữa các tài liệu bằng FisHerg Kernel. (4) Sử dụng thuật toán phân cụm (ví dụ: K-means) để nhóm các tài liệu dựa trên độ tương tự.
4.2. Đánh Giá Mức Độ Quan Trọng Của Từ Thông Qua Trọng Số
Đánh giá mức độ quan trọng của từ thông qua phương pháp trọng số từ là một bước quan trọng trong quá trình phân cụm. Các phương pháp phổ biến bao gồm TF-IDF (Term Frequency-Inverse Document Frequency), giúp xác định các từ khóa quan trọng nhất trong mỗi tài liệu và trong toàn bộ tập tài liệu.
4.3. Khai Phá Khái Niệm Ẩn Theo Phương Pháp LSA
Khai phá các khái niệm ẩn bên trong tập tài liệu theo phương pháp LSA và tính độ tương tự giữa các tài liệu theo hàm đo độ tương tự FisHerg Kernel. Ý kiến người sử dụng. Đánh giá giải thuật LSA-FK.
V. Ứng Dụng Thực Tế Và Đánh Giá Hiệu Năng LSA FK
Chương này trình bày các phương pháp đánh giá kết quả thực nghiệm, sau đó thực hiện đánh giá giải thuật LSA-FK.
5.1. Phương Pháp Đánh Giá Kết Quả Thực Nghiệm
Các phương pháp đánh giá kết quả thực nghiệm bao gồm sử dụng các độ đo như độ chính xác (precision), độ phủ (recall), F-score, và Normalized Mutual Information (NMI). Các độ đo này giúp đánh giá chất lượng của các cụm được tạo ra bởi giải thuật LSA-FK so với các cụm tham chiếu (ground truth).
5.2. Đánh Giá Giải Thuật LSA FK Trong Thực Tế
Việc đánh giá giải thuật LSA-FK trong thực tế bao gồm việc thử nghiệm trên các tập dữ liệu tìm kiếm web thực tế và so sánh hiệu năng của nó với các giải thuật phân cụm khác. Các tiêu chí so sánh bao gồm độ chính xác, tốc độ xử lý, và khả năng mở rộng.
VI. Kết Luận Và Hướng Phát Triển Tìm Kiếm Web Tại ĐHQGHN
Tóm tắt mô hình Carrot2 cài đặt giải thuật LSA-FK.
6.1. Tóm Tắt Các Kết Quả Nghiên Cứu Chính
Luận văn đã trình bày một giải thuật phân cụm kết quả tìm kiếm web dựa trên LSA và FisHerg Kernel, kết hợp các ưu điểm của cả hai phương pháp để cải thiện chất lượng phân cụm. Các kết quả thực nghiệm cho thấy giải thuật LSA-FK có tiềm năng cải thiện hiệu quả tìm kiếm thông tin trên web.
6.2. Hướng Phát Triển Trong Tương Lai
Các hướng phát triển trong tương lai bao gồm nghiên cứu các phương pháp tối ưu hóa giải thuật LSA-FK để cải thiện tốc độ xử lý, thử nghiệm trên các tập dữ liệu lớn hơn, và tích hợp với các kỹ thuật xử lý ngôn ngữ tự nhiên khác để cải thiện độ chính xác.