I. Giới thiệu và mục tiêu nghiên cứu
Luận án tiến sĩ khoa học máy tính tập trung vào việc phát triển phương pháp xếp hạng trang web trong tìm kiếm xuyên ngữ, đặc biệt là cặp ngôn ngữ Việt-Anh. Mục tiêu chính của luận án là đề xuất các giải pháp kỹ thuật nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm, bao gồm cải thiện chất lượng dịch thuật và tối ưu hóa quá trình xếp hạng. Luận án đặt ra các mục tiêu cụ thể như đề xuất phương pháp dịch tự động, xử lý câu truy vấn, và xếp hạng lại kết quả tìm kiếm dựa trên thuật toán xếp hạng và phân tích ngữ nghĩa.
1.1. Đối tượng và phạm vi nghiên cứu
Luận án tập trung vào tìm kiếm xuyên ngữ, đặc biệt là cặp ngôn ngữ Việt-Anh. Các đối tượng nghiên cứu bao gồm kỹ thuật dịch tự động, xử lý câu truy vấn, và xếp hạng lại kết quả tìm kiếm. Phạm vi nghiên cứu giới hạn trong việc áp dụng các công cụ tìm kiếm đơn ngữ có sẵn và không đi sâu vào các kỹ thuật đơn ngữ.
1.2. Đóng góp của luận án
Luận án đóng góp vào việc cải thiện chất lượng dịch thuật và hiệu quả xếp hạng trong tìm kiếm xuyên ngữ. Cụ thể, luận án đề xuất các phương pháp khử nhập nhằng dựa trên Mutual Information và thuật toán chọn bản dịch tuần tự, giúp nâng cao độ chính xác của kết quả tìm kiếm.
II. Phương pháp dịch tự động và xử lý câu truy vấn
Luận án đề xuất các phương pháp dịch tự động phục vụ truy vấn xuyên ngữ, bao gồm sử dụng từ điển máy, kho ngữ liệu, và ngôn ngữ trung gian. Các kỹ thuật khử nhập nhằng được áp dụng để cải thiện chất lượng dịch thuật, đặc biệt là phương pháp dựa trên Summary Mutual Information (SMI). Ngoài ra, luận án cũng đề xuất các kỹ thuật phân đoạn câu truy vấn và mở rộng câu truy vấn để tăng độ chính xác của kết quả tìm kiếm.
2.1. Khử nhập nhằng trong dịch thuật
Phương pháp khử nhập nhằng dựa trên Mutual Information được đề xuất để chọn bản dịch tốt nhất cho các từ khóa trong câu truy vấn. Phương pháp này cho kết quả tốt hơn so với thuật toán greedy thông thường, giúp cải thiện độ chính xác của dịch thuật.
2.2. Phân đoạn và mở rộng câu truy vấn
Luận án sử dụng công cụ vnTagger và thuật toán WLQS để phân đoạn câu truy vấn. Kỹ thuật mở rộng câu truy vấn được áp dụng để tăng khả năng tìm kiếm thông tin phù hợp, đặc biệt trong tìm kiếm đa ngôn ngữ.
III. Xếp hạng lại kết quả tìm kiếm
Luận án đề xuất các phương pháp xếp hạng lại kết quả tìm kiếm dựa trên học xếp hạng và lập trình di truyền. Các mô hình xếp hạng lân cận như CL-Büttcher và CL-Rasolofo được áp dụng để cải thiện hiệu quả xếp hạng. Luận án cũng đề xuất việc kết hợp thông tin từ quá trình dịch thuật vào quá trình xếp hạng, giúp nâng cao độ chính xác của kết quả tìm kiếm.
3.1. Học xếp hạng dựa trên lập trình di truyền
Phương pháp học xếp hạng dựa trên lập trình di truyền được đề xuất để tối ưu hóa quá trình xếp hạng. Phương pháp này cho phép tìm ra các tham số tối ưu cho thuật toán xếp hạng, giúp cải thiện hiệu quả của hệ thống tìm kiếm.
3.2. Mô hình xếp hạng lân cận
Các mô hình xếp hạng lân cận như CL-Büttcher và CL-Rasolofo được áp dụng để xếp hạng lại kết quả tìm kiếm. Các mô hình này giúp tăng độ chính xác của kết quả tìm kiếm bằng cách khai thác thông tin từ các tài liệu lân cận.
IV. Hệ thống tìm kiếm web xuyên ngữ Việt Anh
Luận án thiết kế và triển khai một hệ thống tìm kiếm web xuyên ngữ cho cặp ngôn ngữ Việt-Anh. Hệ thống này kết hợp các phương pháp dịch tự động, xử lý câu truy vấn, và xếp hạng lại kết quả tìm kiếm để nâng cao hiệu quả tìm kiếm. Các thực nghiệm cho thấy hệ thống đạt được độ chính xác cao hơn so với các phương pháp truyền thống.
4.1. Thiết kế hệ thống
Hệ thống được thiết kế với các thành phần chính bao gồm mô-đun dịch thuật, mô-đun xử lý câu truy vấn, và mô-đun xếp hạng. Các thành phần này được tích hợp để tạo ra một hệ thống tìm kiếm hiệu quả và chính xác.
4.2. Kết quả thực nghiệm
Các thực nghiệm cho thấy hệ thống đạt được độ chính xác trung bình bình quân (MAP) cao hơn so với các phương pháp truyền thống. Kết quả này chứng minh hiệu quả của các phương pháp đề xuất trong luận án.