Luận văn thạc sĩ về phương pháp biểu diễn ngữ nghĩa trong máy tìm kiếm Vietseek

Luận văn thạc sĩ nghiên cứu phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm vietseek, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2004

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

PHẦN MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN TRÊN WEB

1.1. Giới thiệu về tìm kiếm thông tin

1.2. Bài toán tìm kiếm thông tin

1.2.1. Giai đoạn 1: Thu thập và phân tích thông tin

1.2.2. Giai đoạn 2: Xử lý câu hỏi và trả lời

1.3. Mô hình biểu diễn thông tin của văn bản

1.3.1. Mô hình biểu diễn thông tin theo từ khoá

1.3.2. Mô hình biểu diễn thông tin theo nội dung

1.4. Phân tích cú pháp và ngữ nghĩa

1.5. Phân lớp văn bản

1.6. Phân cụm văn bản

1.7. Khai thác thông tin cấu trúc web

1.8. Khai thác thông tin sử dụng web

2. CHƯƠNG 2: PHƯƠNG PHÁP BIỂU DIỄN TRANG WEB THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT

2.1. Phương pháp đánh giá chất lượng độ đo tương tự

2.1.1. Chọn phương pháp đánh giá

2.1.2. Xác định thứ tự nền trong ODP

2.1.3. So sánh sự tương quan giữa các tập thứ tự

2.1.4. Miền của tập thứ tự

2.2. Định nghĩa mô hình vector biểu diễn thông tin văn bản

2.2.1. Vector biểu diễn thông tin văn bản

2.2.2. Lựa chọn từ khoá biểu diễn

2.2.3. Lược bớt từ khoá

2.2.4. Xác định trọng số của từ khoá

2.2.5. Định nghĩa độ đo tương tự

2.2.6. Đánh giá chất lượng xếp hạng đối với mỗi phương pháp xây dựng vector

2.2.6.1. Đánh giá chất lượng đối với cách chọn từ khoá

2.2.6.2. Đánh giá chất lượng đối với cách chuẩn hoá trọng số từ khoá

2.2.6.3. Đánh giá chất lượng đối với phương pháp lược bớt từ khoá

2.3. Thiết kế các thuật toán tìm kiếm theo mô hình vector

3. CHƯƠNG 3: MÁY TÌM KIẾM VIETSEEK VÀ THỬ NGHIỆM THUẬT TOÁN TÌM KIẾM THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT

3.1. Các đặc điểm cơ bản của VietSeek

3.2. Cơ sở dữ liệu của VietSeek

3.3. Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek

3.3.1. Những cơ sở để đề xuất thuật toán

3.3.2. Xây dựng các thuật toán áp dụng cho máy tìm kiếm VietSeek

3.3.3. Kết quả thực hiện

PHẦN KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về tìm kiếm thông tin trên web

Tìm kiếm thông tin trên web là một lĩnh vực quan trọng trong công nghệ thông tin. Ngữ nghĩa trong tìm kiếm giúp cải thiện độ chính xác và hiệu quả của các hệ thống tìm kiếm. Việc khai thác thông tin từ web (web mining) cho phép phát hiện và phân tích dữ liệu một cách tự động. Máy tìm kiếm như Vietseek cần phải xử lý một lượng lớn dữ liệu phi cấu trúc. Bài toán tìm kiếm thông tin có hai phương pháp chính: tìm kiếm theo từ khóa và tìm kiếm theo nội dung. Tìm kiếm theo từ khóa thường dẫn đến một lượng lớn kết quả không liên quan, trong khi tìm kiếm theo nội dung giúp người dùng tiếp cận thông tin chính xác hơn. Việc phân tích và xử lý thông tin là rất cần thiết để nâng cao hiệu quả tìm kiếm.

1.1 Giới thiệu về tìm kiếm thông tin

Khai phá dữ liệu trên web là quá trình khảo sát và phân tích dữ liệu để phát hiện thông tin. Tìm kiếm thông tin (Information Retrieval) là phương pháp truy cập hiệu quả đến thông tin mà người dùng quan tâm. Các hệ thống tìm kiếm hiện nay như Google, Yahoo đã phát triển mạnh mẽ, nhưng vẫn còn nhiều hạn chế trong việc cung cấp kết quả chính xác. Việc nghiên cứu và phát triển các phương pháp tìm kiếm mới là cần thiết để đáp ứng nhu cầu ngày càng cao của người dùng.

1.2 Bài toán tìm kiếm thông tin

Bài toán tìm kiếm thông tin có hai phương pháp chính: tìm kiếm theo từ khóa và tìm kiếm theo nội dung. Tìm kiếm theo từ khóa thường dẫn đến một lượng lớn kết quả không liên quan, trong khi tìm kiếm theo nội dung giúp người dùng tiếp cận thông tin chính xác hơn. Việc phân tích và xử lý thông tin là rất cần thiết để nâng cao hiệu quả tìm kiếm. Các hệ thống tìm kiếm cần cải tiến để trở nên thông minh hơn, đáp ứng nhu cầu của người dùng.

II. Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết

Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm Vietseek là một giải pháp mới nhằm nâng cao hiệu quả tìm kiếm. Biểu diễn ngữ nghĩa giúp hệ thống hiểu rõ hơn về nội dung của các trang web. Việc sử dụng mô hình vector để biểu diễn thông tin văn bản là một trong những phương pháp chính. Mô hình này cho phép xác định trọng số của từ khóa và đánh giá chất lượng xếp hạng. Các thuật toán tìm kiếm được thiết kế để tối ưu hóa quá trình tìm kiếm, từ đó nâng cao độ chính xác và tốc độ truy xuất thông tin.

2.1 Định nghĩa mô hình vector biểu diễn thông tin văn bản

Mô hình vector là một phương pháp phổ biến trong các hệ thống tìm kiếm hiện nay. Mỗi văn bản được biểu diễn như một vector với các thành phần là từ khóa tương ứng. Trọng số của từ khóa được xác định dựa trên tần suất xuất hiện của chúng trong văn bản. Việc đánh chỉ số (indexing) là rất quan trọng để đảm bảo độ chính xác trong tìm kiếm. Các phương pháp như TF, IDF, và LSI được sử dụng để tối ưu hóa quá trình này.

2.2 Xác định trọng số của từ khóa

Trọng số của từ khóa trong mô hình vector được xác định dựa trên tần suất xuất hiện và mức độ quan trọng của chúng trong văn bản. Việc xác định trọng số chính xác giúp nâng cao chất lượng kết quả tìm kiếm. Các phương pháp đánh giá chất lượng xếp hạng cũng cần được áp dụng để đảm bảo rằng các trang web có nội dung liên quan được ưu tiên hiển thị. Điều này không chỉ giúp người dùng tìm kiếm thông tin dễ dàng hơn mà còn nâng cao trải nghiệm sử dụng.

III. Máy tìm kiếm Vietseek và thử nghiệm thuật toán tìm kiếm

Máy tìm kiếm Vietseek là một trong những hệ thống tìm kiếm thông tin nổi bật tại Việt Nam. Hệ thống này được thiết kế để xử lý một lượng lớn dữ liệu và cung cấp kết quả tìm kiếm chính xác. Việc thử nghiệm các thuật toán tìm kiếm theo ngữ nghĩa lân cận siêu liên kết đã cho thấy những cải tiến đáng kể trong hiệu suất tìm kiếm. Các đặc điểm cơ bản của Vietseek bao gồm khả năng xử lý nhanh chóng và chính xác các yêu cầu tìm kiếm của người dùng.

3.1 Các đặc điểm cơ bản của Vietseek

Vietseek được thiết kế với nhiều tính năng nổi bật, cho phép người dùng tìm kiếm thông tin một cách nhanh chóng và hiệu quả. Hệ thống sử dụng các thuật toán tiên tiến để phân tích và xử lý dữ liệu, từ đó cung cấp kết quả tìm kiếm chính xác. Việc tối ưu hóa quy trình tìm kiếm giúp giảm thiểu thời gian chờ đợi của người dùng, đồng thời nâng cao trải nghiệm sử dụng.

3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm Vietseek

Đề xuất thuật toán tìm kiếm mới cho Vietseek nhằm cải thiện độ chính xác và tốc độ tìm kiếm. Các thuật toán này được xây dựng dựa trên các phương pháp biểu diễn ngữ nghĩa và lân cận siêu liên kết. Kết quả thực hiện cho thấy rằng việc áp dụng các thuật toán mới đã nâng cao đáng kể hiệu suất tìm kiếm, giúp người dùng dễ dàng tiếp cận thông tin cần thiết.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm vietseek

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển bùng nổ của Internet, theo ước tính khoảng 90% dữ liệu trên mạng ở dạng phi cấu trúc hoặc nửa cấu trúc, gây khó khăn lớn cho việc khai thác và tìm kiếm thông tin chính xác. Các hệ thống tìm kiếm truyền thống như Yahoo, Google chủ yếu dựa trên từ khoá hoặc cụm từ khoá, tuy nhiên số lượng kết quả trả về thường rất lớn và không đảm bảo tính liên quan cao. Ví dụ, tìm kiếm cụm từ "find similar web page" trả về tới 858 trang web, trong khi tìm kiếm theo nội dung trang web mẫu chỉ còn 8 trang web tương tự, cho thấy sự cần thiết của các phương pháp tìm kiếm thông minh hơn.

Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá một phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết nhằm nâng cao hiệu quả tìm kiếm nội dung trên web, đặc biệt áp dụng cho máy tìm kiếm VietSeek. Phạm vi nghiên cứu tập trung vào dữ liệu web tiếng Việt và các thuật toán tìm kiếm nội dung tương tự, với thời gian nghiên cứu từ năm 2002 đến 2004 tại Đại học Quốc gia Hà Nội. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác và tốc độ tìm kiếm, góp phần nâng cao trải nghiệm người dùng và hiệu quả khai thác thông tin trên Internet.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Mô hình vector biểu diễn thông tin văn bản**: Văn bản được biểu diễn dưới dạng vector các từ khoá với trọng số tương ứng, sử dụng các phương pháp đánh chỉ số như TF, IDF, TF-IDF để xác định tầm quan trọng của từ khoá trong văn bản.
- **Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết**: Kết hợp thông tin từ nội dung văn bản và các liên kết đến trang web, sử dụng cửa sổ liên kết cố định hoặc động để lấy các từ khoá xung quanh liên kết nhằm biểu diễn ngữ nghĩa chính xác hơn.
- **Độ đo tương tự Jaccard mở rộng**: Được sử dụng để đo độ tương tự giữa các vector biểu diễn văn bản, giúp đánh giá mức độ liên quan giữa các trang web.
- **Phương pháp đánh giá chất lượng xếp hạng dựa trên cây phân loại chủ đề ODP**: Sử dụng hệ số tương quan Kruskal-Goodman để so sánh thứ tự xếp hạng của các trang web với thứ tự nền từ ODP, nhằm đánh giá hiệu quả của các phương pháp biểu diễn và thuật toán tìm kiếm.

Các khái niệm chính bao gồm: từ khoá biểu diễn, trọng số từ khoá, cửa sổ liên kết, phân lớp văn bản, phân cụm văn bản, và khai thác thông tin cấu trúc web.

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu web tiếng Việt và tiếng Anh từ Stanford WebBase với khoảng 42 triệu trang, trong đó có hơn 51,000 trang liên quan đến 300 cặp văn bản mẫu thuộc ba lớp chủ đề của ODP. Phương pháp chọn mẫu là chọn ngẫu nhiên các cặp văn bản mẫu trong các chủ đề để đánh giá.

Phân tích dữ liệu sử dụng mô hình vector biểu diễn trang web, kết hợp các thuật toán tạo vector, tính độ tương tự và tìm kiếm trang web tương tự. Các thuật toán được thiết kế và thử nghiệm trên máy tìm kiếm VietSeek, với timeline nghiên cứu từ năm 2002 đến 2004, bao gồm các bước: thu thập dữ liệu, tiền xử lý, tạo vector biểu diễn, đánh giá chất lượng xếp hạng và thử nghiệm thuật toán tìm kiếm.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả của phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết**: Sử dụng cửa sổ liên kết cố định kích thước 32 từ cho kết quả tốt nhất với hệ số tương quan xếp hạng đạt 0.53, cao hơn đáng kể so với các phương pháp không sử dụng cửa sổ liên kết (khoảng 0.30).
- **Ảnh hưởng của phương pháp lựa chọn từ khoá**: Phương pháp lược bớt từ khoá Stem (loại bỏ từ cùng gốc và từ dừng) đạt hiệu quả cao nhất trong việc giảm số lượng từ khoá không cần thiết, cải thiện chất lượng biểu diễn.
- **Tác động của chuẩn hoá trọng số từ khoá**: Chuẩn hoá trọng số dựa trên khoảng cách từ từ khoá đến liên kết và tần suất xuất hiện giúp tăng chất lượng độ đo tương tự, giảm tỷ lệ các cặp văn bản trực giao không liên quan.
- **Kết hợp nội dung toàn văn và cửa sổ liên kết**: Phương pháp kết hợp này cho kết quả tìm kiếm tốt hơn so với chỉ sử dụng một trong hai, đặc biệt khi trang web có nhiều liên kết đến.

### Thảo luận kết quả

Nguyên nhân của các phát hiện trên là do việc sử dụng ngữ nghĩa lân cận siêu liên kết giúp khai thác thông tin từ các liên kết đến trang web, vốn được con người tạo ra như một dạng tóm tắt nội dung, từ đó tăng độ chính xác của biểu diễn nội dung. So với các nghiên cứu trước đây chỉ tập trung vào từ khoá hoặc liên kết đơn thuần, phương pháp này giảm thiểu tình trạng trả về nhiều kết quả không liên quan.

Dữ liệu có thể được trình bày qua biểu đồ hệ số tương quan giữa các phương pháp lựa chọn từ khoá và kích thước cửa sổ liên kết, cũng như bảng so sánh thứ tự xếp hạng trang web theo các phương pháp khác nhau. Kết quả này có ý nghĩa quan trọng trong việc phát triển các hệ thống tìm kiếm thông tin hiệu quả, đặc biệt trong môi trường dữ liệu phi cấu trúc và đa dạng như web hiện nay.

## Đề xuất và khuyến nghị

- **Triển khai rộng rãi phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết** trong các hệ thống tìm kiếm nội dung web để nâng cao độ chính xác và tốc độ tìm kiếm, đặt mục tiêu cải thiện ít nhất 20% về độ chính xác trong vòng 12 tháng.
- **Phát triển thuật toán lược bớt từ khoá Stem** để tối ưu hóa bộ từ khoá biểu diễn, giảm thiểu dữ liệu thừa, do các nhóm phát triển phần mềm tìm kiếm thực hiện trong 6 tháng tới.
- **Áp dụng chuẩn hoá trọng số từ khoá dựa trên khoảng cách liên kết** nhằm tăng cường chất lượng xếp hạng, với mục tiêu giảm tỷ lệ kết quả không liên quan xuống dưới 10% trong 1 năm.
- **Kết hợp dữ liệu nội dung toàn văn và thông tin liên kết** để tạo ra vector biểu diễn đa chiều, do các nhà nghiên cứu và kỹ sư dữ liệu thực hiện, nhằm nâng cao khả năng nhận diện chủ đề và ngữ nghĩa.
- **Tăng cường khai thác dữ liệu sử dụng web (web usage mining)** để cá nhân hóa kết quả tìm kiếm dựa trên hành vi người dùng, triển khai thử nghiệm trong 18 tháng tới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin**: Nắm bắt các phương pháp biểu diễn và tìm kiếm thông tin tiên tiến, áp dụng vào đề tài nghiên cứu và luận văn.
- **Phát triển phần mềm tìm kiếm và khai thác dữ liệu web**: Áp dụng thuật toán và mô hình biểu diễn ngữ nghĩa lân cận siêu liên kết để cải tiến sản phẩm, nâng cao hiệu quả tìm kiếm.
- **Chuyên gia quản trị dữ liệu và hệ thống thông tin**: Hiểu rõ về cấu trúc dữ liệu phi cấu trúc và các kỹ thuật phân tích, từ đó tối ưu hóa hệ thống lưu trữ và truy xuất dữ liệu.
- **Doanh nghiệp và tổ chức sử dụng công cụ tìm kiếm nội bộ**: Tận dụng các giải pháp nâng cao độ chính xác tìm kiếm để cải thiện hiệu suất công việc và trải nghiệm người dùng.

## Câu hỏi thường gặp

1. **Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết là gì?**  
Là kỹ thuật kết hợp thông tin từ nội dung văn bản và các liên kết đến trang web, sử dụng cửa sổ liên kết để lấy các từ khoá xung quanh liên kết nhằm biểu diễn ngữ nghĩa chính xác hơn.

2. **Tại sao cần kết hợp nội dung toàn văn và liên kết trong biểu diễn văn bản?**  
Bởi vì nội dung toàn văn cung cấp thông tin chi tiết, còn liên kết thể hiện quan điểm và tóm tắt của các trang khác, giúp tăng độ chính xác và giảm kết quả không liên quan.

3. **Cửa sổ liên kết cố định và động khác nhau thế nào?**  
Cửa sổ cố định lấy số từ cố định xung quanh liên kết, còn cửa sổ động dựa trên phân tích cú pháp và chủ đề để xác định biên giới phù hợp, giúp chọn từ khoá chính xác hơn.

4. **Lược bớt từ khoá Stem có ưu điểm gì?**  
Phương pháp này loại bỏ các biến thể của từ cùng gốc và từ dừng, giảm số lượng từ khoá không cần thiết, giúp vector biểu diễn súc tích và hiệu quả hơn.

5. **Làm thế nào để đánh giá chất lượng xếp hạng của thuật toán tìm kiếm?**  
Sử dụng hệ số tương quan Kruskal-Goodman so sánh thứ tự xếp hạng của thuật toán với thứ tự nền từ cây phân loại chủ đề ODP, giúp đánh giá độ chính xác và phù hợp của kết quả tìm kiếm.

## Kết luận

- Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết nâng cao hiệu quả tìm kiếm nội dung trên web, đặc biệt với dữ liệu phi cấu trúc.  
- Kết hợp nội dung toàn văn và thông tin liên kết giúp cải thiện độ chính xác và giảm kết quả không liên quan.  
- Chuẩn hoá trọng số từ khoá và lược bớt từ khoá Stem là các kỹ thuật quan trọng để tối ưu biểu diễn văn bản.  
- Thuật toán tìm kiếm được áp dụng thành công trên máy tìm kiếm VietSeek, chứng minh tính khả thi và hiệu quả thực tiễn.  
- Hướng nghiên cứu tiếp theo tập trung vào khai thác dữ liệu sử dụng web và cá nhân hóa kết quả tìm kiếm.

Áp dụng phương pháp này vào các hệ thống tìm kiếm hiện có, đồng thời mở rộng nghiên cứu về khai thác dữ liệu người dùng để nâng cao trải nghiệm tìm kiếm.

Trích đoạn nội dung tài liệu

chương 1 0 dụng 0 1 được 0 1 gõ 1 0 hầu 0 1 hết 0 1 hỗ 1 0 là 1 0 môi 1 1 Đặng Tiểu Hùng – Luận văn cao học z 15 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek microsoft 1 0 nhúng 0 1 thể 0 1 tiếng 1 1 trình 1 0 trường 1 1 trợ 1 0 trong 1 2 ứng 0 1 và 0 1 vietkey 1 1 việt 1 1 windows 1 1 Bảng 1.: Vector biểu diễn văn bản Mô hình biểu diễn thông tin theo nội dung Đối với bài toán tìm kiếm theo nội dung, phần lớn các giải pháp tìm kiếm thông tin đều lựa chọn mô hình vector. Có 3ba phƣơng pháp tiếp cận trong việc xác định từ khoá trong vector biểu diễn văn bản. Phƣơng pháp biểu diễn theo nội dung văn bản: Từ khoá trong vector biểu diễn văn bản u là những từ có mặt trong văn bản u. CáchPhƣơng pháp tiếp cận theo liên kết: Từ khoá trong vector biểu diễn văn bản u là những từ khoá có trong định danh của những văn bản v có liên kết đến văn bản u.

Đặng Tiểu Hùng – Luận văn cao học z 16 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 3. CáchPhƣơng pháp tiếp cận theo ngữ nghĩa lân cận liên kết: Từ khoá trong vector biểu diễn văn bản u là những từ xuất hiện trong cửa sổ ngữ nghĩa lân cận liên kết từ những văn bản v đến văn bản u. Luận văn đề cập tới giải pháp kết hợp các phƣơng pháp tiếp cận trên đây. Phân tích cú pháp và ngữ nghĩa Trong trang web không chỉ có thông tin thể hiện nội dung mà còn các thông tin phụ trợ nhƣ các comment, các đoạn mã, các thẻ HTML.

Do đó cần phải tách lọc thông tin mà trang web biểu diễn, tách thông tin về các liên kết. Cần phải xác định từ gốc của từ biểu diễn văn bản, xác định vị trí của từ trong văn bản, xác định các biên của đoạn văn theo cú pháp câu (dấu ngắt câu) hoặc biên theo chủ đề đoạn văn (ngắt đoạn, ngắt bảng, ngắt trang). Phân lớp văn bản Phân lớp văn bản đƣợc xem nhƣ là quá trình gán các văn bản vào một hay nhiều lớp văn bản đã đƣợc xác định trƣớc. Sau khi đƣợc phân lớp, các văn bản sẽ đƣợc đánh chỉ số đối với từng lớp tƣơng ứng.

Ngƣời dùng có thể yêu cầu hệ tìm kiếm giới hạn số kết quả trong một chủ đề hoặc lớp văn bản mong muốn. Phân lớp văn bản có thể thực hiện tự động bằng các phƣơng pháp cây quyết định [3], mạng Bayer, máy vector trợ giúp. Ngoài ra, các trang web có thể thể đƣợc phân lớp bằng thủ công nhờ sự tình nguyện của ngƣời dùng trên internet nhƣ thƣ mục chủ đề các trang web ODP (Open Directory Project) [19]. Phân cụm văn bản Phân cụm văn bản là việc tự động sinh ra các lớp văn bản dựa vào sự tƣơng tự của các văn bản.

Các lớp văn bản ở đây là chƣa biết trƣớc, ngƣời dùng có thể chỉ yêu cầu số lƣợng các lớp cần phân loại, hệ sẽ đƣa ra các văn bản theo từng tập hợp, từng cụm, mỗi tập hợp chứa các văn bản tƣơng tự nhau. Đặng Tiểu Hùng – Luận văn cao học z 17 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Khai thác thông tin cấu trúc web Trong tìm kiếm thông tin trên web, các trang web đã chứa đựng thông tin nửa cấu trúc, đó chính là các liên kết giữa các trang web. Thông thƣờng, các web đem lại nhiều thông tin sẽ đƣợc trích dẫn nhiều do đó có thể khai thác thông tin liên kết giữa các trang web để đánh giá trọng số của trang web nhƣ Slattery đã đề xuất [13]. Khai thác thông tin sử dụng web Thông tin sử dụng web đƣợc chứa tronglà một tập hợp các file liên quan ngầm đến những máy chủ web.

Mục đích của việc khai thác thông tin sử dụng web để phát hiện ra những mẫu dữ liệu có ý nghĩa đƣợc sinh ra trong những giao dịch khách/chủ. Thông thƣờng các dữ liệu đó ở phía máy chủ là access logs, referrer logs, agent logs và phía máy trạm là cookies. Một dạng thông tin nữa về ngƣời dùng web là các profile của họ. Trong tìm kiếm thông tin, các trang web đem lại nhiều thông tin thƣờng đƣợc truy cập nhiều hơn các trang web khác trong cùng chủ đề.

Do đó tần suất truy cập (thông tin sử dụng web) của các trang web cũng là một thành phần cần xem xét khi đánh giá trọng số của trang web. Tuy nhiên, với mỗi ngƣời dùng thì có thể có tập hợp các trang web đƣợc yêu thích của riêng mình. Ngƣời sử dụng có thể yêu cầu mà hệ tìm kiếm cho phép giới hạn các trang kết quả trong một tên miền nào đó nhƣ .vn và những tham số nhƣ vậy có thể đƣợc định nghĩa trong các profile. KẾT LUẬN CHƢƠNG 1 Trong chƣơng này, luận văn đã giới thiệu tổng quát bài toán tìm kiếm thông tin trên web và các phƣơng pháp tìm kiếm thông tin trên web: 1.

Các phƣơng pháp tìm kiếm theo từ khoá gồm mô hình cú pháp, mô hình logic và mô hình vector. Các phƣơng pháp này đã đƣợc nghiên cứu khá kỹ lƣỡng và tiêu biểu nhất là mô hình vector đƣợc áp dụng nhiều trong các máy tìm kiếm hiện nay. Đặng Tiểu Hùng – Luận văn cao học z 18 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 2. Các phƣơng pháp tìm kiếm theo nội dung đang đƣợc nghiên cứu hiện nay là tìm kiếm theo nội dung toàn văn, theo liên kết và theo ngữ nghĩa lân cận liên kết.

Luận văn đã phân tích nguyên tắc hoạt động cũng nhƣ ƣu điểm và nhƣợc điểm của mỗi phƣơng pháp. Từ những phân tích trên, luận văn sẽ trình bày phƣơng pháp biểu diễn văn bản mới trong chƣơng 2 và đề xuất thuật toán tìm kiếm theo nội dung trong chƣơng 3. Đặng Tiểu Hùng – Luận văn cao học z 19 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek CHƢƠNG 2. PHƢƠNG PHÁP BIỂU DIỄN TRANG WEB THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT Giới thiệu Mục tiêu của việc tìm kiếm trang Web tƣơng tự là cho phép ngƣời sử dụng tìm những trang Web tƣơng tự với trang Web mẫu.

Về cơ bản, khi đƣa ra một văn bản, một thuật toán tìm kiếm tƣơng tự phải cung cấp danh sách thứ tự của các văn bản tƣơng tự với văn bản mẫu. Trong chƣơng này, luận văn sẽ trình bày một số phƣơng pháp tiếp cận của giải pháp tìm kiếm theo nội dung và sự đánh giá chất lƣợng của mỗi phƣơng pháp. Trên cơ sở phƣơng pháp biểu diễn trang web theo ngữ nghĩa lân cận siêu liên kết [16], luận văn đề xuất một số bổ sung, cải tiến thành giải pháp tìm kiếm theo nội dung. Căn cứ trên những kết quả đánh giá qua thử nghiệm, giải pháp tìm kiếm theo nội dung do luận văn đề xuất đƣợc xem là có chất lƣợng tốt hơn so với các phƣơng pháp đã khảo sát khác và đƣợc áp dụng cho máy tìm kiếm VietSeek.

Thuật toán tìm kiếm sẽ gồm hai bƣớc: 1. Tiền xử lý các trang web: Tạo vector biểu diễn trang web. So sánh các trang web trong cùng chủ đề của ODP để tính toán sẵn độ tƣơng tự các trang web. Thực hiện tìm kiếm thông tin, chỉ đơn thuần là thao tác định vị và đọc dữ liệu sẵn có trong cơ sở dữ liệu.

Phƣơng pháp này đã đƣợc thử nghiệm bằng tập dữ liệu lớn và chứng tỏ tính khả thi của nó. Các vấn đề chính cần phải giải quyết trong phƣơng pháp biểu diễn ngữ nghĩa lân cận siêu liên kết là: 1. Xác đĐịnh nghĩa phƣơng pháp đánh giá chất lƣợng cho độ đo tƣơng tự. Xác địnhĐịnh nghĩa mô hình vector biểu diễn trang web.

Xác đĐịnh nghĩa độ đo tƣơng tự với mô hình biểu diễn đã chọn 4. Khảo sát các thành phần của vector biểu diễn trang web 5. Xây dựng các thuật toán: Đặng Tiểu Hùng – Luận văn cao học z 20 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek - Thuật toán tạo vector biểu diễn trang web - Thuật toán tính độ tƣơng tự giữa các trang web - Thuật toán tìm kiếm trang web tƣơng tự Các vấn đề 1, 2, 3 và 4 sẽ đƣợc trình bày trong chƣơng 2 của luận văn. Vấn đề 5 có trong đƣợc đề xuất phƣơng án thực hiện cho máy tìm kiếm VietSeek trong chƣơng 3.

Phƣơng pháp đánh giá chất lƣợng độ đo tƣơng tự Chọn phƣơng pháp đánh giá Khi khảo sát các cách tiếp cận để tìm ra đƣợc một giải pháp tìm kiếm thông tin tốt nhất thì cần thiết phải có một phƣơng pháp đánh giá chất lƣợng cho các mỗi phƣơng án. Chất lƣợng xếp hạng trang web của máy tìm kiếm thƣờng đƣợc đánh giá bởi ngƣời dùng dựa trên các độ đo về khoảng cách và đặc trƣng của văn bản. Tuy nhiên, sử dụng trực tiếp sự đánh giá của ngƣời dùng thƣờng tốn thời gian và công sức, nên điều đó không thích hợp cho những nghiên cứu mà đòi hỏi sự so sánh đánh giá của nhiều tham số. Trong văn bản về phân cụm, nhiều phƣơng pháp đánh giá chất lƣợng tự động đã đƣợc đề xuất [8].

Steinback [15] chia những phƣơng pháp này thành 2 lớp tổng quát. Phƣơng pháp đánh giá sử dụng các độ đo chất lƣợng nội tại, nhƣ độ tƣơng tự trung bình, chỉ ra chất lƣợng của một cụm văn bản đƣợc đề xuất dựa hoàn toàn trên nội tại hình học và thống kê, không dựa trên một tập chân lý nền có sẵn. Phƣơng pháp đánh giá dựa trên các độ đo chất lƣợng ngoài, nhƣ độ đo entropy, kiểm tra sự tƣơng quan của một cụm với một tập chân lý nền có sẵn. Đây cũng là phƣơ ng pháp đánh giá đƣợc sử dụng để đo chất lƣợng của một phƣơng án.

Cây phân loại chủ đề các trang web ODP [19] đƣợc xây dựng và phổ dụng trên Iinternet. Trong ODP, các trang web đƣợc sắp phân lớp theo các chủ đề và thứ tự của nó trong chủ đề có thể coi là hạng của trang web trong chủ đề tƣơng ứng. Độ đo tƣơng tự của các văn bản tƣơng ứng với một phƣơng án biểu diễn thông tin về văn bản cung cấp một tập thứ tự. Do đó, có thể dùng ODP làm tập thứ tự nền đƣợc Đặng Tiểu Hùng – Luận văn cao học z 21 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek dùng để kiểm tra chất lƣợng xếp hạng của của một độ đo tƣơng tự.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phương pháp biểu diễn ngữ nghĩa trong máy tìm kiếm Vietseek" của tác giả Đặng Tiểu Hùng, dưới sự hướng dẫn của TS. Hà Quang Thụy, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2004. Bài viết tập trung vào việc phát triển phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm Vietseek, một trong những công cụ tìm kiếm quan trọng tại Việt Nam. Bằng cách áp dụng các kỹ thuật ngữ nghĩa, bài luận không chỉ giúp cải thiện khả năng tìm kiếm thông tin mà còn nâng cao trải nghiệm người dùng khi truy cập vào các nguồn tài liệu trực tuyến.

Để mở rộng thêm kiến thức về lĩnh vực công nghệ thông tin và quản lý giáo dục, bạn có thể tham khảo các bài viết liên quan như "Các yếu tố ảnh hưởng đến quyết định chọn nơi làm việc của sinh viên công nghệ thông tin tại Đà Nẵng", nơi phân tích các yếu tố tác động đến sự lựa chọn nghề nghiệp của sinh viên công nghệ thông tin. Bên cạnh đó, bài viết "Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ" cũng sẽ cung cấp cái nhìn sâu sắc về việc ứng dụng công nghệ thông tin trong giáo dục. Cuối cùng, bài viết "Luận văn thạc sĩ: Xây dựng máy tìm kiếm tác vụ dựa trên tài liệu đặc tả API" sẽ giúp bạn hiểu rõ hơn về các phương pháp xây dựng máy tìm kiếm hiện đại, liên quan mật thiết đến chủ đề ngữ nghĩa trong tìm kiếm thông tin.

Những tài liệu này không chỉ mở rộng kiến thức mà còn cung cấp nhiều góc nhìn khác nhau về ứng dụng công nghệ trong giáo dục và tìm kiếm thông tin.

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#Nghiên cứu thạc sĩ

#máy tìm kiếm

#thuật toán tìm kiếm

#biểu diễn ngữ nghĩa

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Công nghệ tìm kiếm

Nghiên cứu và phát triển trong công nghệ thông tin

Ứng dụng của ngữ nghĩa trong máy tìm kiếm