I. Giới thiệu và mục tiêu nghiên cứu
Luận án tiến sĩ khoa học máy tính tập trung vào phương pháp xếp hạng trang web tìm kiếm xuyên ngữ, đặc biệt là cặp ngôn ngữ Việt-Anh. Mục tiêu chính là đề xuất các giải pháp kỹ thuật nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm. Các phương pháp được nghiên cứu bao gồm dịch tự động, xử lý ngôn ngữ tự nhiên, và tối ưu hóa tìm kiếm. Luận án cũng nhấn mạnh việc kết hợp thông tin từ quá trình dịch thuật vào quy trình xếp hạng, nhằm cải thiện độ chính xác của kết quả tìm kiếm.
1.1. Đối tượng và phạm vi nghiên cứu
Luận án tập trung vào các kỹ thuật dịch tự động và xếp hạng lại kết quả tìm kiếm trong tìm kiếm xuyên ngữ. Phạm vi nghiên cứu chủ yếu là cặp ngôn ngữ Việt-Anh, với câu truy vấn tiếng Việt và tài liệu tiếng Anh. Các thước đo đánh giá hiệu quả bao gồm độ chính xác trung bình bình quân (MAP) và các kỹ thuật hỗ trợ như phân đoạn câu truy vấn và phản hồi ẩn.
II. Phương pháp dịch tự động phục vụ truy vấn xuyên ngữ
Luận án đề xuất các phương pháp dịch tự động dựa trên từ điển máy song ngữ và kho ngữ liệu. Các kỹ thuật như khử nhập nhằng và chọn bản dịch tốt nhất được áp dụng để cải thiện chất lượng dịch thuật. Phương pháp Summary Mutual Information (SMI) được sử dụng để chọn bản dịch tối ưu, mang lại kết quả tốt hơn so với các thuật toán truyền thống.
2.1. Khử nhập nhằng và chọn bản dịch
Luận án giới thiệu phương pháp khử nhập nhằng dựa trên độ đo mức độ liên quan của các cặp từ. Thuật toán SeQuential Translation (SQ) được đề xuất để chọn bản dịch một cách tuần tự, giúp tăng độ chính xác của bản dịch. Các thực nghiệm cho thấy phương pháp này hiệu quả hơn so với các phương pháp truyền thống.
III. Xếp hạng lại kết quả tìm kiếm
Luận án đề xuất các phương pháp xếp hạng lại dựa trên lập trình di truyền và học xếp hạng. Các mô hình như CL-Büttcher và CL-Rasolofo được áp dụng để tối ưu hóa quy trình xếp hạng. Các thực nghiệm cho thấy việc kết hợp thông tin từ quá trình dịch thuật vào xếp hạng giúp cải thiện đáng kể độ chính xác của kết quả tìm kiếm.
3.1. Học xếp hạng dựa trên lập trình di truyền
Luận án sử dụng lập trình di truyền để xây dựng các mô hình xếp hạng. Các mô hình này được đánh giá thông qua các thước đo như MAP và NDCG@k. Kết quả thực nghiệm cho thấy các mô hình đề xuất hiệu quả hơn so với các phương pháp truyền thống.
IV. Hệ thống tìm kiếm web xuyên ngữ Việt Anh
Luận án thiết kế một hệ thống tìm kiếm web xuyên ngữ cho cặp ngôn ngữ Việt-Anh. Hệ thống bao gồm các thành phần như dữ liệu từ điển, đánh chỉ mục, và các giải pháp dịch câu truy vấn. Các thực nghiệm đánh giá hiệu quả của hệ thống cho thấy sự cải thiện đáng kể về độ chính xác và hiệu suất.
4.1. Thiết kế và thực nghiệm hệ thống
Hệ thống được thiết kế với các thành phần chính như công cụ dịch câu truy vấn, điều chỉnh câu truy vấn, và xếp hạng lại kết quả tìm kiếm. Các thực nghiệm được thực hiện để đánh giá hiệu quả của các giải pháp đề xuất, với kết quả cho thấy sự cải thiện rõ rệt về độ chính xác và hiệu suất.
V. Kết luận và hướng phát triển
Luận án đã đề xuất các phương pháp dịch tự động và xếp hạng lại kết quả tìm kiếm hiệu quả, đặc biệt cho cặp ngôn ngữ Việt-Anh. Các kết quả thực nghiệm cho thấy sự cải thiện đáng kể về độ chính xác và hiệu suất của hệ thống. Hướng phát triển trong tương lai bao gồm mở rộng nghiên cứu sang các cặp ngôn ngữ khác và tích hợp các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến hơn.
5.1. Đóng góp và hướng phát triển
Luận án đóng góp vào việc nâng cao chất lượng dịch thuật và xếp hạng kết quả tìm kiếm trong tìm kiếm xuyên ngữ. Các hướng phát triển trong tương lai bao gồm nghiên cứu các kỹ thuật học sâu và xử lý ngôn ngữ tự nhiên để tiếp tục cải thiện hiệu quả của hệ thống.