Trường đại học
Đại Học Quốc Gia Hà NộiChuyên ngành
Công Nghệ Thông TinNgười đăng
Ẩn danhThể loại
luận văn2023
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Ngày nay, việc khai thác và tìm kiếm thông tin trên Internet là vấn đề được nhiều nhà nghiên cứu quan tâm. Khối lượng thông tin trên web khổng lồ, câu hỏi truy vấn của người sử dụng thường ít chính xác, nên số kết quả trả về từ các máy tìm kiếm có thể lên đến hàng trăm hay hàng ngàn tài liệu. Việc tìm được chính xác tài liệu mình quan tâm là rất khó và đôi lúc là không thể. Một trong những cách tiếp cận để giải quyết vấn đề này là sử dụng kỹ thuật phân cụm tài liệu theo chủ đề tạo nên cách biểu diễn kết quả tìm kiếm web cô đọng và rõ ràng. Luận văn này đề xuất giải thuật Phân cụm kết quả tìm kiếm Web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis) và FisHerg Kernel.
Cùng với sự bùng nổ thông tin và sự phát triển của mạng truyền thông, World Wide Web trở thành nguồn tài nguyên thông tin khổng lồ và quý giá, luôn sẵn sàng phục vụ tất cả mọi người. Nếu không có nó mọi hoạt động diễn ra hằng ngày sẽ kém hiệu quả. Tuy nhiên làm thế nào sử dụng nguồn tài nguyên ấy hiệu quả là vấn đề không đơn giản. Điều này phụ thuộc vào nhiều yếu tố như kinh nghiệm tìm kiếm, kiến thức cơ bản liên quan đến lĩnh vực cần nghiên cứu, hoặc là sự thành thạo về ngôn ngữ. Mặc dù hiện nay đã có rất nhiều máy tìm kiếm như Google, Altavista, HotBot, Lycos, AllTheWeb giúp chúng ta rất nhiều trong việc tìm kiếm thông tin.
Để đạt được mục đích trên, cần thực hiện những công việc sau: Tìm hiểu hướng nghiên cứu hiện tại đối với bài toán tìm kiếm thông tin, đặc biệt tập trung vào khai phá nội dung trang Web và tối ưu kết quả trả về; Vận dụng lý thuyết đại số tuyến tính và kỹ thuật phân tích ma trận để rút gọn số chiều của vector biểu diễn nội dung tài liệu, từ đó xây dựng cách biểu diễn tài liệu theo các khái niệm ngữ nghĩa ẩn bên trong tập tài liệu; Vận dụng lý thuyết xác suất, thống kê toán học và Kernel Method để xây dựng hàm FisHerg Kernel đo độ tương tự giữa các tài liệu.
Máy tìm kiếm web là một loại chương trình tiện ích hỗ trợ nhằm giúp người sử dụng tìm kiếm thông tin một cách nhanh chóng và đầy đủ. Giao diện tương tác giữa người và máy khá đơn giản và thân thiện. Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề quan tâm, sau đó lập tức máy trả về tập kết quả tìm kiếm (snippets). Mỗi snippet bao gồm tựa đề, địa chỉ web của tài liệu (được gọi là URL) và miêu tả ngắn gọn nội dung chính tài liệu Web.
Web crawler là một trong hai thành phần tương tác trực tiếp với Internet, còn được gọi là Web Spider hoặc Robot. Công việc chính của Web crawler phát hiện những nguồn tài nguyên mới trên Web. Để thực hiện công việc này, Web crawler tìm kiếm đệ quy trên các đường link của tất cả các trang đã được duyệt. Đồng thời, trong khi khai phá các nguồn tài nguyên mới trên Internet, Web crawler kiểm tra liệu rằng các trang có còn giá trị sử dụng hay không và liệu chúng đã được cập nhật hay chưa. Với chức năng này nó giúp cho máy tìm kiếm cập nhật được nguồn tài nguyên mới và xóa bỏ tài nguyên không còn giá trị sử dụng trong World Wide Web.
Như trên đã thảo luận, giao diện đóng vai trò vô cùng quan trọng, thông qua nó người dùng có thể xác định được những thứ họ cần và các bước thực hiện tiếp theo. Hầu hết hiện nay các máy tìm kiếm đều thực hiện việc tìm kiếm dựa trên phương pháp tính hạng liên quan (Document Ranking) và biểu diễn kết quả tìm kiếm theo thứ tự hạng xuất hiện. Nhưng vì số lượng kết quả tìm kiếm có thể lên đến hàng ngàn tài liệu, nên người sử dụng không đủ thời gian và kiên nhẫn đọc toàn bộ lượng tài liệu này để xác định các tài liệu cần thiết. Do vậy cần có một kỹ thuật mới để nâng cao hiệu quả trong việc duyệt tìm tài liệu.
Trong khi phương pháp phân cụm được sử dụng để thực hiện nhiều tác vụ khác nhau trong lĩnh vực thu thập thông tin, phương pháp phân cụm tài liệu chỉ tập trung vào hai hướng nghiên cứu chính. Thứ nhất, là công cụ cải tiến hiệu năng thu thập thông tin và là cách thức tổ chức kho tài liệu. Ý tưởng phân cụm tài liệu áp dụng cho việc thu thập thông tin xuất phát từ lý thuyết nhóm, kết hợp các tài liệu liên quan theo yêu cầu lại với nhau. Bằng việc nhóm các tài liệu theo từng cụm khi đó ta dễ dàng phân biệt được tài liệu nào là liên quan và không liên quan với nhau, vì vậy hiệu quả thu thập tài liệu theo không gian nhóm được cải tiến đáng kể.
Độ đo tương tự giữa các tài liệu. Mục tiêu LSA. Biểu diễn tập tài liệu dưới dạng bảng co-occurrence. Xây dựng FisHerg Kernel dựa trên LSA.
Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, sử dụng các kỹ thuật đại số tuyến tính để phân tích quan hệ giữa một tập các tài liệu và các thuật ngữ chứa trong chúng bằng cách xây dựng một không gian ngữ nghĩa. LSA giả định rằng có một cấu trúc ngữ nghĩa tiềm ẩn trong việc sử dụng ngôn ngữ, và cấu trúc này có thể được trích xuất bằng cách phân tích thống kê các văn bản.
Để xây dựng FisHerg Kernel dựa trên LSA, trước tiên cần biểu diễn các tài liệu trong không gian ngữ nghĩa giảm chiều do LSA tạo ra. Sau đó, sử dụng các kỹ thuật của Kernel Methods để định nghĩa một hàm kernel đo độ tương tự giữa các tài liệu. FisHerg Kernel kết hợp thông tin ngữ nghĩa từ LSA với khả năng của kernel methods để tạo ra một độ đo tương tự mạnh mẽ và hiệu quả.
Phân cụm tài liệu theo cách tiếp cận LSA và FisHerg Kernel. Giải thuật phân cụm phân hoạch theo LSA và FisHerg Kernel (LSA-FK). Phân cụm kết quả tìm kiếm Web theo cách tiếp cận LSA và FisHerg Kernel.
Giải thuật LSA-FK bao gồm các bước chính sau: (1) Biểu diễn tập tài liệu dưới dạng ma trận thuật ngữ-tài liệu. (2) Áp dụng LSA để giảm chiều dữ liệu và trích xuất các khái niệm ngữ nghĩa tiềm ẩn. (3) Tính toán độ tương tự giữa các tài liệu bằng FisHerg Kernel. (4) Sử dụng thuật toán phân cụm (ví dụ: K-means) để nhóm các tài liệu dựa trên độ tương tự.
Đánh giá mức độ quan trọng của từ thông qua phương pháp trọng số từ là một bước quan trọng trong quá trình phân cụm. Các phương pháp phổ biến bao gồm TF-IDF (Term Frequency-Inverse Document Frequency), giúp xác định các từ khóa quan trọng nhất trong mỗi tài liệu và trong toàn bộ tập tài liệu.
Khai phá các khái niệm ẩn bên trong tập tài liệu theo phương pháp LSA và tính độ tương tự giữa các tài liệu theo hàm đo độ tương tự FisHerg Kernel. Ý kiến người sử dụng. Đánh giá giải thuật LSA-FK.
Chương này trình bày các phương pháp đánh giá kết quả thực nghiệm, sau đó thực hiện đánh giá giải thuật LSA-FK.
Các phương pháp đánh giá kết quả thực nghiệm bao gồm sử dụng các độ đo như độ chính xác (precision), độ phủ (recall), F-score, và Normalized Mutual Information (NMI). Các độ đo này giúp đánh giá chất lượng của các cụm được tạo ra bởi giải thuật LSA-FK so với các cụm tham chiếu (ground truth).
Việc đánh giá giải thuật LSA-FK trong thực tế bao gồm việc thử nghiệm trên các tập dữ liệu tìm kiếm web thực tế và so sánh hiệu năng của nó với các giải thuật phân cụm khác. Các tiêu chí so sánh bao gồm độ chính xác, tốc độ xử lý, và khả năng mở rộng.
Tóm tắt mô hình Carrot2 cài đặt giải thuật LSA-FK.
Luận văn đã trình bày một giải thuật phân cụm kết quả tìm kiếm web dựa trên LSA và FisHerg Kernel, kết hợp các ưu điểm của cả hai phương pháp để cải thiện chất lượng phân cụm. Các kết quả thực nghiệm cho thấy giải thuật LSA-FK có tiềm năng cải thiện hiệu quả tìm kiếm thông tin trên web.
Các hướng phát triển trong tương lai bao gồm nghiên cứu các phương pháp tối ưu hóa giải thuật LSA-FK để cải thiện tốc độ xử lý, thử nghiệm trên các tập dữ liệu lớn hơn, và tích hợp với các kỹ thuật xử lý ngôn ngữ tự nhiên khác để cải thiện độ chính xác.
Bạn đang xem trước tài liệu:
Luận văn phân cụm tập kết quả tìm kiếm web theo cách tiếp cận phân tích ngữ nghĩa tiềm ẩn và fisher kernel
Tài liệu "Tìm Kiếm Web Hiệu Quả Với FisHerg Kernel Tại Đại Học Quốc Gia Hà Nội" cung cấp cái nhìn sâu sắc về cách tối ưu hóa quá trình tìm kiếm trên web thông qua việc áp dụng công nghệ FisHerg Kernel. Bài viết nhấn mạnh tầm quan trọng của việc cải thiện hiệu suất tìm kiếm, giúp người dùng dễ dàng truy cập thông tin cần thiết một cách nhanh chóng và hiệu quả. Độc giả sẽ được khám phá các phương pháp và kỹ thuật tiên tiến, từ đó nâng cao khả năng tìm kiếm và quản lý thông tin trong môi trường số.
Để mở rộng kiến thức về các chủ đề liên quan, bạn có thể tham khảo thêm tài liệu Luận văn các vấn đề xử lý tiếng việt để nâng cao hiệu năng của công cụ tìm kiếm, nơi cung cấp cái nhìn chi tiết về cách xử lý ngôn ngữ Việt Nam trong các công cụ tìm kiếm. Ngoài ra, tài liệu Đề tài nghiên cứu khoa học cấp trường nghiên cứu xây dựng quy chế quản lý khai thác và bảo vệ quyền sở hữu trí tuệ của trường đại học luật hà nội cũng có thể cung cấp thông tin hữu ích về quản lý và bảo vệ thông tin trong lĩnh vực trí tuệ. Cuối cùng, bạn có thể tìm hiểu thêm về các giải pháp nghiên cứu tại Luận văn nghiên cứu tính đa dạng của thực vật có mạch và đề xuất giải pháp bảo tồn tại khu bảo tồn thiên nhiên nà hẩu huyện văn yên tỉnh yên bái, giúp bạn có cái nhìn tổng quát hơn về các nghiên cứu ứng dụng trong các lĩnh vực khác nhau.