I. Giới thiệu tổng quan về vấn đề nghiên cứu
Luận văn tập trung vào việc nâng cao hiệu quả tra cứu sách tại Thư viện Cao đẳng Kinh tế Công nghệ TP.HCM thông qua việc áp dụng các kỹ thuật tìm kiếm ngữ nghĩa. Vấn đề chính được đặt ra là làm thế nào để cải thiện khả năng tìm kiếm thông tin trong kho tài liệu, đặc biệt là trong lĩnh vực Công nghệ Thông tin (CNTT). Hiện nay, các hệ thống tìm kiếm truyền thống dựa trên từ khóa đang bộc lộ nhiều hạn chế, đặc biệt là trong việc xử lý các truy vấn phức tạp và đa nghĩa. Luận văn đề xuất một giải pháp mới dựa trên Ontology và Latent Semantic Indexing (LSI) để tăng cường hiệu quả tìm kiếm.
1.1. Nhu cầu và thực trạng tìm kiếm theo ngữ nghĩa trên kho tài liệu
Hiện nay, việc tổ chức một kho tài liệu học tập về CNTT với chức năng tìm kiếm liên quan đến thông tin tri thức hay nội dung tài liệu là một nhu cầu cấp thiết. Các hệ thống tìm kiếm truyền thống dựa trên từ khóa như Google hay Yahoo thường không đáp ứng được yêu cầu tìm kiếm chính xác, đặc biệt là khi người dùng không biết rõ từ khóa cần tìm. Các hệ thống này cũng gặp khó khăn trong việc xử lý các từ đồng nghĩa hoặc gần nghĩa, dẫn đến kết quả tìm kiếm không chính xác. Do đó, việc phát triển các hệ thống tìm kiếm dựa trên ngữ nghĩa đang trở thành xu hướng mới trong lĩnh vực khoa học máy tính.
1.2. Khảo sát một số giải pháp và ứng dụng tìm kiếm ngữ nghĩa hiện nay
Các công cụ tìm kiếm ngữ nghĩa như Lexxe, Factbites, và Wolfram Alpha đang được phát triển để cải thiện khả năng hiểu và xử lý các truy vấn phức tạp. Những công cụ này sử dụng các công nghệ ngữ nghĩa để hiểu rõ hơn mối quan hệ giữa các thông tin khác nhau, từ đó cung cấp kết quả tìm kiếm chính xác hơn. Tuy nhiên, các giải pháp này vẫn còn hạn chế trong việc áp dụng vào các kho tài liệu chuyên ngành như CNTT. Luận văn đề xuất một mô hình Ontology dựa trên keyphrase để biểu diễn nội dung tài liệu và tính toán độ tương đồng ngữ nghĩa giữa các truy vấn và tài liệu.
II. Mô hình và giải pháp
Luận văn đề xuất một mô hình Ontology để biểu diễn tri thức về lĩnh vực CNTT, trong đó keyphrase là thành phần chính để hình thành các khái niệm. Mô hình này bao gồm việc xây dựng đồ thị keyphrase biểu diễn nội dung tài liệu và tính toán độ tương đồng ngữ nghĩa giữa các keyphrase. Đồng thời, luận văn cũng đề xuất phương pháp đánh trọng số cho đồ thị keyphrase để tăng độ chính xác của kết quả tìm kiếm.
2.1. Xây dựng mô hình Ontology dựa trên keyphrase
Mô hình Ontology được xây dựng dựa trên keyphrase để biểu diễn các khái niệm trong lĩnh vực CNTT. Mỗi keyphrase được gán trọng số dựa trên tần suất xuất hiện và mức độ quan trọng trong tài liệu. Đồ thị keyphrase được sử dụng để biểu diễn mối quan hệ giữa các khái niệm, từ đó tính toán độ tương đồng ngữ nghĩa giữa các tài liệu và truy vấn. Phương pháp này giúp cải thiện đáng kể hiệu quả tìm kiếm, đặc biệt là trong việc xử lý các truy vấn phức tạp.
2.2. Tính toán độ tương đồng ngữ nghĩa
Luận văn đề xuất phương pháp tính toán độ tương đồng ngữ nghĩa giữa hai keyphrase và giữa hai đồ thị keyphrase. Công thức tính trọng số được điều chỉnh dựa trên kết quả khảo sát từ thực tiễn, giúp tăng độ chính xác của kết quả tìm kiếm. Phương pháp này không chỉ cải thiện hiệu quả tìm kiếm mà còn giúp sắp xếp các kết quả tìm kiếm một cách hợp lý, gần với yêu cầu của người dùng hơn.
III. Cài đặt thử nghiệm và đánh giá
Hệ thống được cài đặt và thử nghiệm tại Thư viện Cao đẳng Kinh tế Công nghệ TP.HCM. Kết quả thử nghiệm cho thấy giải pháp đề xuất có khả năng ứng dụng tốt trong thực tế. Hệ thống cho phép tra cứu, tìm kiếm tài liệu theo nhiều chức năng, bao gồm tìm kiếm dựa trên từ khóa, tìm kiếm theo hệ thống thư mục, và tìm kiếm dựa trên tri thức của lĩnh vực hoặc theo ngữ nghĩa.
3.1. Thiết kế hệ thống thử nghiệm
Hệ thống thử nghiệm được thiết kế để quản lý kho tài nguyên học tập về CNTT, bao gồm các tác vụ chính như tổ chức lưu trữ, quản lý và tìm kiếm. Hệ thống cho phép người dùng tra cứu tài liệu theo nhiều chức năng khác nhau, từ tìm kiếm đơn giản dựa trên từ khóa đến tìm kiếm phức tạp dựa trên ngữ nghĩa. Kết quả thử nghiệm cho thấy hệ thống có khả năng xử lý các truy vấn phức tạp một cách hiệu quả.
3.2. Kết quả thử nghiệm và đánh giá
Kết quả thử nghiệm cho thấy hệ thống đề xuất có khả năng cải thiện đáng kể hiệu quả tìm kiếm, đặc biệt là trong việc xử lý các truy vấn phức tạp. Các kết quả tìm kiếm được sắp xếp một cách hợp lý, gần với yêu cầu của người dùng hơn. Hệ thống cũng cho thấy khả năng ứng dụng tốt trong thực tế, đặc biệt là trong việc quản lý kho tài liệu chuyên ngành như CNTT.