Luận Án Tiến Sĩ Khoa Học Máy Tính: Phương Pháp Xếp Hạng Trang Web Trong Tìm Kiếm Xuyên Ngữ

Luận án tiến sĩ khoa học máy tính nghiên cứu các phương pháp xếp hạng trang web hiệu quả trong tìm kiếm xuyên ngữ, ứng dụng công nghệ tiên tiến.

Trường đại học

Đại học Bách khoa, Đại học Đà Nẵng

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

157

Phí lưu trữ

45 Point

Tóm tắt

I. Giới thiệu và mục tiêu nghiên cứu

Luận án tiến sĩ khoa học máy tính tập trung vào việc phát triển phương pháp xếp hạng trang web trong tìm kiếm xuyên ngữ, đặc biệt là cặp ngôn ngữ Việt-Anh. Mục tiêu chính của luận án là đề xuất các giải pháp kỹ thuật nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm, bao gồm cải thiện chất lượng dịch thuật và tối ưu hóa quá trình xếp hạng. Luận án đặt ra các mục tiêu cụ thể như đề xuất phương pháp dịch tự động, xử lý câu truy vấn, và xếp hạng lại kết quả tìm kiếm dựa trên thuật toán xếp hạng và phân tích ngữ nghĩa.

1.1. Đối tượng và phạm vi nghiên cứu

Luận án tập trung vào tìm kiếm xuyên ngữ, đặc biệt là cặp ngôn ngữ Việt-Anh. Các đối tượng nghiên cứu bao gồm kỹ thuật dịch tự động, xử lý câu truy vấn, và xếp hạng lại kết quả tìm kiếm. Phạm vi nghiên cứu giới hạn trong việc áp dụng các công cụ tìm kiếm đơn ngữ có sẵn và không đi sâu vào các kỹ thuật đơn ngữ.

1.2. Đóng góp của luận án

Luận án đóng góp vào việc cải thiện chất lượng dịch thuật và hiệu quả xếp hạng trong tìm kiếm xuyên ngữ. Cụ thể, luận án đề xuất các phương pháp khử nhập nhằng dựa trên Mutual Information và thuật toán chọn bản dịch tuần tự, giúp nâng cao độ chính xác của kết quả tìm kiếm.

II. Phương pháp dịch tự động và xử lý câu truy vấn

Luận án đề xuất các phương pháp dịch tự động phục vụ truy vấn xuyên ngữ, bao gồm sử dụng từ điển máy, kho ngữ liệu, và ngôn ngữ trung gian. Các kỹ thuật khử nhập nhằng được áp dụng để cải thiện chất lượng dịch thuật, đặc biệt là phương pháp dựa trên Summary Mutual Information (SMI). Ngoài ra, luận án cũng đề xuất các kỹ thuật phân đoạn câu truy vấn và mở rộng câu truy vấn để tăng độ chính xác của kết quả tìm kiếm.

2.1. Khử nhập nhằng trong dịch thuật

Phương pháp khử nhập nhằng dựa trên Mutual Information được đề xuất để chọn bản dịch tốt nhất cho các từ khóa trong câu truy vấn. Phương pháp này cho kết quả tốt hơn so với thuật toán greedy thông thường, giúp cải thiện độ chính xác của dịch thuật.

2.2. Phân đoạn và mở rộng câu truy vấn

Luận án sử dụng công cụ vnTagger và thuật toán WLQS để phân đoạn câu truy vấn. Kỹ thuật mở rộng câu truy vấn được áp dụng để tăng khả năng tìm kiếm thông tin phù hợp, đặc biệt trong tìm kiếm đa ngôn ngữ.

III. Xếp hạng lại kết quả tìm kiếm

Luận án đề xuất các phương pháp xếp hạng lại kết quả tìm kiếm dựa trên học xếp hạng và lập trình di truyền. Các mô hình xếp hạng lân cận như CL-Büttcher và CL-Rasolofo được áp dụng để cải thiện hiệu quả xếp hạng. Luận án cũng đề xuất việc kết hợp thông tin từ quá trình dịch thuật vào quá trình xếp hạng, giúp nâng cao độ chính xác của kết quả tìm kiếm.

3.1. Học xếp hạng dựa trên lập trình di truyền

Phương pháp học xếp hạng dựa trên lập trình di truyền được đề xuất để tối ưu hóa quá trình xếp hạng. Phương pháp này cho phép tìm ra các tham số tối ưu cho thuật toán xếp hạng, giúp cải thiện hiệu quả của hệ thống tìm kiếm.

3.2. Mô hình xếp hạng lân cận

Các mô hình xếp hạng lân cận như CL-Büttcher và CL-Rasolofo được áp dụng để xếp hạng lại kết quả tìm kiếm. Các mô hình này giúp tăng độ chính xác của kết quả tìm kiếm bằng cách khai thác thông tin từ các tài liệu lân cận.

IV. Hệ thống tìm kiếm web xuyên ngữ Việt Anh

Luận án thiết kế và triển khai một hệ thống tìm kiếm web xuyên ngữ cho cặp ngôn ngữ Việt-Anh. Hệ thống này kết hợp các phương pháp dịch tự động, xử lý câu truy vấn, và xếp hạng lại kết quả tìm kiếm để nâng cao hiệu quả tìm kiếm. Các thực nghiệm cho thấy hệ thống đạt được độ chính xác cao hơn so với các phương pháp truyền thống.

4.1. Thiết kế hệ thống

Hệ thống được thiết kế với các thành phần chính bao gồm mô-đun dịch thuật, mô-đun xử lý câu truy vấn, và mô-đun xếp hạng. Các thành phần này được tích hợp để tạo ra một hệ thống tìm kiếm hiệu quả và chính xác.

4.2. Kết quả thực nghiệm

Các thực nghiệm cho thấy hệ thống đạt được độ chính xác trung bình bình quân (MAP) cao hơn so với các phương pháp truyền thống. Kết quả này chứng minh hiệu quả của các phương pháp đề xuất trong luận án.

01/03/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ khoa học máy tính một số phương pháp phục vụ xếp hạng trang web trong tìm kiếm xuyên ngữ

Tải đầy đủ

Trích đoạn nội dung tài liệu

chương 1, tác giả trình bày cơ sở lý thuyết, kết quả nghiên cứu tổng quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân tích, đánh giá các công trình nghiên cứu liên quan và chỉ ra một số hạn chế trong lĩnh vực tìm kiếm web xuyên ngữ. Trên cơ sở các phân tích, đánh giá, tác giả đề xuất mô hình hệ thống tìm kiếm web xuyên ngữ và xác định các nội dung nghiên cứu sẽ được triển khai. TRUY VẤN THÔNG TIN 1. Khái niệm Truy vấn thông tin (Information Retrieval – IR) là ngành khoa học liên quan đến việc phân tích, thiết kế và triển khai các hệ thống máy tính nhằm biểu diễn, tổ chức và truy cập khối lượng lớn thông tin được số hoá.

Thuật ngữ Information Retrieval được phát biểu như sau: "truy vấn thông tin là tìm kiếm tư liệu (thường dưới dạng tài liệu), với bản chất không có cấu trúc (thường dưới dạng văn bản) thoả mãn được nhu cầu thông tin từ một bộ sưu tập lớn (thường được lưu trữ trong máy tính)" [104]. Định nghĩa này đề cập đến cả hai khía cạnh hướng hệ thống và hướng người dùng của tìm kiếm thông tin và là cơ sở phát triển các hướng nghiên cứu và ứng dụng khác nhau. Các hệ thống truy vấn thông tin tự động ban đầu được phát triển nhằm giúp quản lý các hệ thống tài liệu khoa học [43]. Ngày nay, nhiều trường đại học, công ty và thư viện sử dụng các hệ thống truy vấn thông tin phục vụ việc truy cập sách, tạp chí và các loại tài liệu khác; các hệ thống tìm kiếm thương mại cung cấp cơ sở dữ liệu chứa hàng triệu tài liệu trong lĩnh vực được quan tâm; ngoài ra có hàng trăm triệu người hàng ngày thực hiện việc tìm kiếm thông tin trên World Wide Web.

Sự bùng nổ kể cả về số lượng và chủng loại thông tin trên World Wide Web từ những năm 2000, cùng với các tiến bộ trong công nghệ phần cứng và phần mềm, -9- đã tạo ra các cơ hội cũng như các thách thức và đã biến truy vấn thông tin trở thành một lĩnh vực nghiên cứu được đặc biệt quan tâm; kết hợp và ứng dụng kết quả của nhiều ngành khoa học khác như xử lý ngôn ngữ tự nhiên, giao tiếp người và máy, thiết kế giao diện. Định nghĩa hình thức Một cách hình thức, hệ thống truy vấn thông tin được mô tả như sự kết hợp của 4 thành phần f(D,Q,F, R(q,d)) [4], trong đó:  D là tập hợp biểu diễn lô-gíc cho các tài liệu (thành phần biểu diễn tài liệu);  Q là tập hợp biểu diễn lô-gíc cho nhu cầu người sử dụng (thành phần biểu diễn truy vấn);  F là khung cơ sở cho việc mô hình hoá biểu diễn tài liệu, biểu diễn truy vấn và quan hệ giữa chúng (thành phần lý luận);  R(q,d) là hàm xếp hạng, tương ứng với mỗi truy vấn qQ và một tài liệu dD, trả lại một giá trị là số thực. Một hàm như vậy xác định thứ tự giữa các tài liệu tương ứng với truy vấn q. Sơ đồ xử lý của hệ thống truy vấn thông tin Sơ đồ tổng quát mô tả quá trình xử lý trong một hệ thống truy vấn thông tin được trình bày trong Hình 1.

Để đáp ứng nhu cầu truy vấn thông tin của người sử dụng, các giải pháp truy vấn thông tin được chia thành 2 giai đoạn thực hiện độc lập:  Giai đoạn I: Thu thập, xử lý, đánh chỉ mục, lưu trữ tài liệu.  Giai đoạn II: Truy vấn; thực hiện việc xử lý câu truy vấn, trả về danh sách kết quả. Mục đích của giai đoạn I là xây dựng một cơ sở dữ liệu quản lý các tài liệu. Các thao tác xử lý văn bản và đánh chỉ mục được thực hiện để đưa các văn bản trong kho tài liệu vào bộ chỉ mục.

Việc đánh chỉ mục cho tài liệu được thực hiện nhằm tạo lập biểu diễn lô-gíc cho các tài liệu, đảm bảo tiết kiệm không gian lưu trữ - 10 - và phục vụ truy xuất nhanh. Sau khi bộ chỉ mục cho các tài liệu được định nghĩa, có thể thực hiện việc truy vấn. THU THẬP, XỬ LÝ, ĐÁNH CHỈ MỤC, LƯU TRỮ DỮ LIỆU 1.2: Đánh chỉ mục Biểu diễn văn bản Kho Bộ tài liệu chỉ mục Tài liệu tải về Giao diện 2.2: Xử lý truy vấn 2.4: Xếp hạng Biểu diễn văn bản Biểu diễn truy vấn Yêu cầu thông tin Nội dung Danh sách tài liệu phản hồi được xếp hạng TRUY VẤN Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin [4] Trong giai đoạn II, người sử dụng được cung cấp một giao diện để thực hiện việc trình bày yêu cầu thông tin cũng như tiếp nhận kết quả tìm kiếm. Tại giao diện, người sử dụng xác định nhu cầu thông tin dưới dạng câu truy vấn.

Các thao tác xử lý văn bản và xử lý truy vấn được áp dụng nhằm tạo lập một dạng biểu diễn lô-gíc cho nhu cầu thông tin của người dùng. Quá trình tìm kiếm được thực hiện bởi hệ thống dựa trên việc so sánh biểu diễn của câu truy vấn và của các tài liệu được đánh chỉ mục. Trước khi được trả về cho người sử dụng, các tài liệu được sắp xếp theo thứ tự phù hợp so với nhu cầu truy vấn thông qua quá trình xếp hạng. Tiếp theo, một quá trình xử lý thông tin phản hồi có thể được thực hiện nhằm giúp hệ thống - 11 - thực hiện lại các thao tác xử lý truy vấn, tìm kiếm, xếp hạng và tạo lập một danh sách kết quả mới có chất lượng tốt hơn.

Có hai loại thông tin phản hồi: phản hồi thực sự dựa trên sự đánh giá của người dùng khi nhận được danh sách kết quả tài liệu; ngược lại, phản hồi giả được tạo lập bằng cách khai thác thông tin từ các tài liệu đứng đầu danh sách kết quả tìm kiếm ban đầu. Các mô hình truy vấn thông tin truyền thống Mô hình truy vấn thông tin đóng vai trò như một bản thiết kế, định nghĩa và giải thích các nội dung công việc được thực hiện trong một hệ thống truy vấn thông tin, bao gồm cách biểu diễn tài liệu, biểu diễn truy vấn, tính điểm xếp hạng các tài liệu so với câu truy vấn. Các mô hình truy vấn thông tin truyền thống bao gồm mô hình Boolean, mô hình không gian vec-tơ, mô hình xác suất [4]. Trừ mô hình Boolean, các mô hình khác sử dụng công thức xếp hạng mức độ phù hợp của tài liệu so với câu truy vấn; thông qua đó người sử dụng nhận được danh sách các tài liệu được xếp hạng theo mức độ phù hợp.1 Mô hình Boolean Mô hình Boolean là mô hình cơ bản và đơn giản dựa trên đại số Bool, sử dụng nguyên tắc so sánh chính xác khi tìm kiếm văn bản [4].

Mỗi tài liệu và câu truy vấn được biểu diễn dưới dạng kết hợp của các từ chứa bên trong. Ví dụ, tài liệu D = t1 ∩ t2 ∩ t3, với t1, …t3 là các thuật ngữ chứa trong tài liệu, một câu truy vấn Q có thể có dạng t1 ∪ t3. Tài liệu D được xác định phù hợp với câu truy vấn Q nếu và chỉ nếu D→Q. Điểm hạn chế lớn nhất của mô hình Boolean là nó không hỗ trợ việc xếp hạng các văn bản, không xử lý được vấn đề đồng nghĩa và đa nghĩa, có cú pháp phức tạp và dễ gây nhầm lẫn.

Một số mở rộng của mô hình này bao gồm mô hình vùng, coi bộ sưu tập tài liệu như một chuỗi từ liên tục, mỗi chuỗi tuỳ ý các từ nối tiếp là một vùng [62]; mô hình lô-gic mờ gộp các từ đồng nghĩa và các từ liên quan - 12 - vào các nhóm với trọng lượng tương ứng tần suất xuất hiện của từ, nhằm phát huy ưu điểm về tính đơn giản và khắc phục các hạn chế vốn có của mô hình gốc [76].2 Mô hình không gian vec-tơ Mô hình không gian vec-tơ khắc phục các hạn chế của mô hình Boolean bằng cách gán trọng số cho các thuật ngữ trong tài liệu và câu truy vấn. Các trọng số này được sử dụng để tính mức độ tương tự giữa tài liệu và câu truy vấn. Ký hiệu {w1, w2,…,wn} là tập hợp các thuật ngữ được sử dụng trong các tài liệu. Giá trị n tương ứng với kích thước tập hợp thuật ngữ.

Với một văn bản dj và câu truy vấn q, mức độ tương tự được ký hiệu là ⃗, ⃗ của trong mô hình không gian véc-tơ và được tính toán bằng cách sử dụng công thức cô-sin [4] dưới dạng sau: ⃗∙ ⃗ ∑ , × , ⃗, ⃗ = cos( ) = = ⃗ × | ⃗| (1.1) ∑ , × ∑ , Ở đây, tài liệu dj được biểu diễn bằng vec-tơ ⃗ , câu truy vấn q được biểu diễn bằng vec-tơ ⃗;  là góc giữa 2 vec-tơ ⃗ và ⃗; wi,j là trọng số thuật ngữ wi trong tài liệu dj; wi,q là trọng số thuật ngữ wi trong câu truy vấn q. Giá trị công thức là một số thực trong đoạn [0,1]. Các tài liệu được coi là phù hợp một phần nếu như giá trị ⃗, ⃗ vượt quá một ngưỡng xác định trước và được sắp xếp theo giá trị giảm dần của ⃗, ⃗. Một mô hình khác do Gerard Salton đề xuất và được sử dụng rộng rãi với tên gọi mô hình tf-idf [136].

Mô hình sử dụng chủ yếu hai thước đo về tần suất xuất hiện của thuật ngữ trong các tài liệu và giá trị tần suất tài liệu chứa thuật ngữ để xác định mức độ tương tự của một tài liệu so với câu truy vấn. Ký hiệu tft,d là tần suất xuất hiện của thuật ngữ t trong tài liệu d, ký hiệu dft là tần suất tài liệu chứa thuật ngữ t và N là tổng số tài liệu trong toàn bộ kho tài liệu, mô hình đưa ra khái niệm tần suất tài liệu nghịch đảo idft cho thuật ngữ t như sau: - 13 - = log( ) (1.2) Từ đây và cùng sử dụng các ký hiệu đã được định nghĩa, công thức tf-idf xác định mức độ tương tự ( , ) của văn bản d và câu truy vấn q có dạng: ( , )= , × (1.3) ∈ Mô hình không gian véc-tơ có nhiều ưu điểm: nó đưa ra khái niệm phù hợp một phần; các công thức xếp hạng trình bày ở trên cho phép đồng thời xác định sự phù hợp và phục vụ sắp xếp danh sách kết quả. Điểm hạn chế của mô hình này là các từ khoá được giả định độc lập và mô hình không đánh giá được ngữ nghĩa của câu truy vấn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận án tiến sĩ khoa học máy tính với tiêu đề "Phương pháp xếp hạng trang web tìm kiếm xuyên ngữ" tập trung vào việc phát triển các phương pháp hiệu quả để xếp hạng các trang web trong môi trường tìm kiếm đa ngôn ngữ. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các thuật toán và kỹ thuật xếp hạng mà còn phân tích các thách thức trong việc tối ưu hóa kết quả tìm kiếm cho người dùng nói nhiều ngôn ngữ khác nhau. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các phương pháp này, giúp cải thiện khả năng truy cập thông tin và nâng cao trải nghiệm người dùng trên các nền tảng tìm kiếm.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu "Luận án tiến sĩ khoa học máy tính truy hồi thông tin dựa trên ontology", nơi khám phá cách thức sử dụng ontology trong việc cải thiện khả năng truy hồi thông tin. Ngoài ra, tài liệu "Luận án tiến sĩ khoa học máy tính một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ" sẽ cung cấp thêm các phương pháp cụ thể và ứng dụng thực tiễn trong việc xếp hạng trang web. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các khía cạnh khác nhau của xếp hạng trang web trong tìm kiếm xuyên ngữ.

#khoa học máy tính

#luận án tiến sĩ

#Tối Ưu Hóa Công Cụ Tìm Kiếm

#thuật toán tìm kiếm

#ngôn ngữ tự nhiên

#xếp hạng trang web

Chủ đề

Phương pháp trong khoa học máy tính

Nghiên cứu về xếp hạng trang web

Tìm kiếm thông tin đa ngôn ngữ

Xu hướng trong tối ưu hóa tìm kiếm

Luận Án Tiến Sĩ Khoa Học Máy Tính: Phương Pháp Xếp Hạng Trang Web Trong Tìm Kiếm Xuyên Ngữ

I. Giới thiệu và mục tiêu nghiên cứu

1.1. Đối tượng và phạm vi nghiên cứu

1.2. Đóng góp của luận án

II. Phương pháp dịch tự động và xử lý câu truy vấn

2.1. Khử nhập nhằng trong dịch thuật

2.2. Phân đoạn và mở rộng câu truy vấn

III. Xếp hạng lại kết quả tìm kiếm

3.1. Học xếp hạng dựa trên lập trình di truyền

3.2. Mô hình xếp hạng lân cận

IV. Hệ thống tìm kiếm web xuyên ngữ Việt Anh

4.1. Thiết kế hệ thống

4.2. Kết quả thực nghiệm

THÔNG TIN CHI TIẾT

Tác giả: Lâm Tùng Giang

Người hướng dẫn: PGS. Võ Trung Hùng

Trường học: Đại học Bách khoa, Đại học Đà Nẵng

Chuyên ngành: Khoa học máy tính

Đề tài: Phương pháp xếp hạng trang web tìm kiếm xuyên ngữ

Loại tài liệu: luận án tiến sĩ

Địa điểm: Đà Nẵng

Luận Án Tiến Sĩ Khoa Học Máy Tính: Phương Pháp Xếp Hạng Trang Web Trong Tìm Kiếm Xuyên Ngữ

I. Giới thiệu và mục tiêu nghiên cứu

1.1. Đối tượng và phạm vi nghiên cứu

1.2. Đóng góp của luận án

II. Phương pháp dịch tự động và xử lý câu truy vấn

2.1. Khử nhập nhằng trong dịch thuật

2.2. Phân đoạn và mở rộng câu truy vấn

III. Xếp hạng lại kết quả tìm kiếm

3.1. Học xếp hạng dựa trên lập trình di truyền

3.2. Mô hình xếp hạng lân cận

IV. Hệ thống tìm kiếm web xuyên ngữ Việt Anh

4.1. Thiết kế hệ thống

4.2. Kết quả thực nghiệm

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Lâm Tùng Giang

Người hướng dẫn: PGS. Võ Trung Hùng

Trường học: Đại học Bách khoa, Đại học Đà Nẵng

Chuyên ngành: Khoa học máy tính

Đề tài: Phương pháp xếp hạng trang web tìm kiếm xuyên ngữ

Loại tài liệu: luận án tiến sĩ

Địa điểm: Đà Nẵng

SINH VIÊN CŨNG XEM