## Tổng quan nghiên cứu
Trong bối cảnh phát triển bùng nổ của Internet, theo ước tính khoảng 90% dữ liệu trên mạng ở dạng phi cấu trúc hoặc nửa cấu trúc, gây khó khăn lớn cho việc khai thác và tìm kiếm thông tin chính xác. Các hệ thống tìm kiếm truyền thống như Yahoo, Google chủ yếu dựa trên từ khoá hoặc cụm từ khoá, tuy nhiên số lượng kết quả trả về thường rất lớn và không đảm bảo tính liên quan cao. Ví dụ, tìm kiếm cụm từ "find similar web page" trả về tới 858 trang web, trong khi tìm kiếm theo nội dung trang web mẫu chỉ còn 8 trang web tương tự, cho thấy sự cần thiết của các phương pháp tìm kiếm thông minh hơn.
Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá một phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết nhằm nâng cao hiệu quả tìm kiếm nội dung trên web, đặc biệt áp dụng cho máy tìm kiếm VietSeek. Phạm vi nghiên cứu tập trung vào dữ liệu web tiếng Việt và các thuật toán tìm kiếm nội dung tương tự, với thời gian nghiên cứu từ năm 2002 đến 2004 tại Đại học Quốc gia Hà Nội. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác và tốc độ tìm kiếm, góp phần nâng cao trải nghiệm người dùng và hiệu quả khai thác thông tin trên Internet.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
- **Mô hình vector biểu diễn thông tin văn bản**: Văn bản được biểu diễn dưới dạng vector các từ khoá với trọng số tương ứng, sử dụng các phương pháp đánh chỉ số như TF, IDF, TF-IDF để xác định tầm quan trọng của từ khoá trong văn bản.
- **Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết**: Kết hợp thông tin từ nội dung văn bản và các liên kết đến trang web, sử dụng cửa sổ liên kết cố định hoặc động để lấy các từ khoá xung quanh liên kết nhằm biểu diễn ngữ nghĩa chính xác hơn.
- **Độ đo tương tự Jaccard mở rộng**: Được sử dụng để đo độ tương tự giữa các vector biểu diễn văn bản, giúp đánh giá mức độ liên quan giữa các trang web.
- **Phương pháp đánh giá chất lượng xếp hạng dựa trên cây phân loại chủ đề ODP**: Sử dụng hệ số tương quan Kruskal-Goodman để so sánh thứ tự xếp hạng của các trang web với thứ tự nền từ ODP, nhằm đánh giá hiệu quả của các phương pháp biểu diễn và thuật toán tìm kiếm.
Các khái niệm chính bao gồm: từ khoá biểu diễn, trọng số từ khoá, cửa sổ liên kết, phân lớp văn bản, phân cụm văn bản, và khai thác thông tin cấu trúc web.
### Phương pháp nghiên cứu
Nguồn dữ liệu chính là tập dữ liệu web tiếng Việt và tiếng Anh từ Stanford WebBase với khoảng 42 triệu trang, trong đó có hơn 51,000 trang liên quan đến 300 cặp văn bản mẫu thuộc ba lớp chủ đề của ODP. Phương pháp chọn mẫu là chọn ngẫu nhiên các cặp văn bản mẫu trong các chủ đề để đánh giá.
Phân tích dữ liệu sử dụng mô hình vector biểu diễn trang web, kết hợp các thuật toán tạo vector, tính độ tương tự và tìm kiếm trang web tương tự. Các thuật toán được thiết kế và thử nghiệm trên máy tìm kiếm VietSeek, với timeline nghiên cứu từ năm 2002 đến 2004, bao gồm các bước: thu thập dữ liệu, tiền xử lý, tạo vector biểu diễn, đánh giá chất lượng xếp hạng và thử nghiệm thuật toán tìm kiếm.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Hiệu quả của phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết**: Sử dụng cửa sổ liên kết cố định kích thước 32 từ cho kết quả tốt nhất với hệ số tương quan xếp hạng đạt 0.53, cao hơn đáng kể so với các phương pháp không sử dụng cửa sổ liên kết (khoảng 0.30).
- **Ảnh hưởng của phương pháp lựa chọn từ khoá**: Phương pháp lược bớt từ khoá Stem (loại bỏ từ cùng gốc và từ dừng) đạt hiệu quả cao nhất trong việc giảm số lượng từ khoá không cần thiết, cải thiện chất lượng biểu diễn.
- **Tác động của chuẩn hoá trọng số từ khoá**: Chuẩn hoá trọng số dựa trên khoảng cách từ từ khoá đến liên kết và tần suất xuất hiện giúp tăng chất lượng độ đo tương tự, giảm tỷ lệ các cặp văn bản trực giao không liên quan.
- **Kết hợp nội dung toàn văn và cửa sổ liên kết**: Phương pháp kết hợp này cho kết quả tìm kiếm tốt hơn so với chỉ sử dụng một trong hai, đặc biệt khi trang web có nhiều liên kết đến.
### Thảo luận kết quả
Nguyên nhân của các phát hiện trên là do việc sử dụng ngữ nghĩa lân cận siêu liên kết giúp khai thác thông tin từ các liên kết đến trang web, vốn được con người tạo ra như một dạng tóm tắt nội dung, từ đó tăng độ chính xác của biểu diễn nội dung. So với các nghiên cứu trước đây chỉ tập trung vào từ khoá hoặc liên kết đơn thuần, phương pháp này giảm thiểu tình trạng trả về nhiều kết quả không liên quan.
Dữ liệu có thể được trình bày qua biểu đồ hệ số tương quan giữa các phương pháp lựa chọn từ khoá và kích thước cửa sổ liên kết, cũng như bảng so sánh thứ tự xếp hạng trang web theo các phương pháp khác nhau. Kết quả này có ý nghĩa quan trọng trong việc phát triển các hệ thống tìm kiếm thông tin hiệu quả, đặc biệt trong môi trường dữ liệu phi cấu trúc và đa dạng như web hiện nay.
## Đề xuất và khuyến nghị
- **Triển khai rộng rãi phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết** trong các hệ thống tìm kiếm nội dung web để nâng cao độ chính xác và tốc độ tìm kiếm, đặt mục tiêu cải thiện ít nhất 20% về độ chính xác trong vòng 12 tháng.
- **Phát triển thuật toán lược bớt từ khoá Stem** để tối ưu hóa bộ từ khoá biểu diễn, giảm thiểu dữ liệu thừa, do các nhóm phát triển phần mềm tìm kiếm thực hiện trong 6 tháng tới.
- **Áp dụng chuẩn hoá trọng số từ khoá dựa trên khoảng cách liên kết** nhằm tăng cường chất lượng xếp hạng, với mục tiêu giảm tỷ lệ kết quả không liên quan xuống dưới 10% trong 1 năm.
- **Kết hợp dữ liệu nội dung toàn văn và thông tin liên kết** để tạo ra vector biểu diễn đa chiều, do các nhà nghiên cứu và kỹ sư dữ liệu thực hiện, nhằm nâng cao khả năng nhận diện chủ đề và ngữ nghĩa.
- **Tăng cường khai thác dữ liệu sử dụng web (web usage mining)** để cá nhân hóa kết quả tìm kiếm dựa trên hành vi người dùng, triển khai thử nghiệm trong 18 tháng tới.
## Đối tượng nên tham khảo luận văn
- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin**: Nắm bắt các phương pháp biểu diễn và tìm kiếm thông tin tiên tiến, áp dụng vào đề tài nghiên cứu và luận văn.
- **Phát triển phần mềm tìm kiếm và khai thác dữ liệu web**: Áp dụng thuật toán và mô hình biểu diễn ngữ nghĩa lân cận siêu liên kết để cải tiến sản phẩm, nâng cao hiệu quả tìm kiếm.
- **Chuyên gia quản trị dữ liệu và hệ thống thông tin**: Hiểu rõ về cấu trúc dữ liệu phi cấu trúc và các kỹ thuật phân tích, từ đó tối ưu hóa hệ thống lưu trữ và truy xuất dữ liệu.
- **Doanh nghiệp và tổ chức sử dụng công cụ tìm kiếm nội bộ**: Tận dụng các giải pháp nâng cao độ chính xác tìm kiếm để cải thiện hiệu suất công việc và trải nghiệm người dùng.
## Câu hỏi thường gặp
1. **Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết là gì?**
Là kỹ thuật kết hợp thông tin từ nội dung văn bản và các liên kết đến trang web, sử dụng cửa sổ liên kết để lấy các từ khoá xung quanh liên kết nhằm biểu diễn ngữ nghĩa chính xác hơn.
2. **Tại sao cần kết hợp nội dung toàn văn và liên kết trong biểu diễn văn bản?**
Bởi vì nội dung toàn văn cung cấp thông tin chi tiết, còn liên kết thể hiện quan điểm và tóm tắt của các trang khác, giúp tăng độ chính xác và giảm kết quả không liên quan.
3. **Cửa sổ liên kết cố định và động khác nhau thế nào?**
Cửa sổ cố định lấy số từ cố định xung quanh liên kết, còn cửa sổ động dựa trên phân tích cú pháp và chủ đề để xác định biên giới phù hợp, giúp chọn từ khoá chính xác hơn.
4. **Lược bớt từ khoá Stem có ưu điểm gì?**
Phương pháp này loại bỏ các biến thể của từ cùng gốc và từ dừng, giảm số lượng từ khoá không cần thiết, giúp vector biểu diễn súc tích và hiệu quả hơn.
5. **Làm thế nào để đánh giá chất lượng xếp hạng của thuật toán tìm kiếm?**
Sử dụng hệ số tương quan Kruskal-Goodman so sánh thứ tự xếp hạng của thuật toán với thứ tự nền từ cây phân loại chủ đề ODP, giúp đánh giá độ chính xác và phù hợp của kết quả tìm kiếm.
## Kết luận
- Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết nâng cao hiệu quả tìm kiếm nội dung trên web, đặc biệt với dữ liệu phi cấu trúc.
- Kết hợp nội dung toàn văn và thông tin liên kết giúp cải thiện độ chính xác và giảm kết quả không liên quan.
- Chuẩn hoá trọng số từ khoá và lược bớt từ khoá Stem là các kỹ thuật quan trọng để tối ưu biểu diễn văn bản.
- Thuật toán tìm kiếm được áp dụng thành công trên máy tìm kiếm VietSeek, chứng minh tính khả thi và hiệu quả thực tiễn.
- Hướng nghiên cứu tiếp theo tập trung vào khai thác dữ liệu sử dụng web và cá nhân hóa kết quả tìm kiếm.
**Hành động tiếp theo:** Áp dụng phương pháp này vào các hệ thống tìm kiếm hiện có, đồng thời mở rộng nghiên cứu về khai thác dữ liệu người dùng để nâng cao trải nghiệm tìm kiếm.