Luận văn thạc sĩ về xếp hạng đối tượng và tạo nhãn tài liệu

Luận văn thạc sĩ nghiên cứu vnu uet học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2008

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: XẾP HẠNG ĐỐI TƯỢNG

1.1. Giới thiệu

1.2. Phương pháp PageRank

1.3. Xếp hạng đối tượng

1.4. Phương pháp đánh giá xếp hạng

1.5. Tổng kết

2. CHƯƠNG 2: HỌC XẾP HẠNG

2.1. Giới thiệu

2.2. Phương pháp học xếp hạng

2.2.1. Hồi quy có thứ tự và Pairwise

2.2.2. Học xếp hạng danh sách Listwise

3. CHƯƠNG 3: XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ

3.1. Máy tìm kiếm thực thể

3.2. Xếp hạng thực thể

3.2.1. Mô hình Impression

3.2.2. Nhận xét, đánh giá mô hình Impression

3.2.3. Mô hình đề xuất

3.2.4. Công cụ sử dụng

3.2.5. Kết quả và đánh giá

3.2.6. Tổng kết chương

4. CHƯƠNG 4: TẠO NHÃN CỤM TÀI LIỆU

4.1. Phương pháp lựa chọn nhãn

4.2. Học xếp hạng nhãn cụm

4.2.1. Các đặc trưng

4.2.2. Học hàm tính hạng

4.2.2.1. Nguồn dữ liệu

4.2.2.2. Dữ liệu học

4.2.2.3. Kết quả và đánh giá

4.2.3. Tổng kết chương

KẾT LUẬN

TÀI LIỆU THAM KHẢO

PHỤ LỤC A: DỮ LIỆU

A.1. Dữ liệu tìm kiếm thuốc

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

Tóm tắt

I. Tổng quan về xếp hạng đối tượng trong công nghệ thông tin

Xếp hạng đối tượng là một khái niệm quan trọng trong lĩnh vực công nghệ thông tin, đặc biệt trong khai thác dữ liệu và máy tìm kiếm. Việc xếp hạng giúp xác định độ phù hợp của các đối tượng như trang web, tài liệu, hay sản phẩm với các tiêu chí nhất định. Các phương pháp xếp hạng đã được nghiên cứu và phát triển từ lâu, nhưng gần đây, sự phát triển của học máy đã mở ra nhiều hướng đi mới cho vấn đề này.

1.1. Khái niệm xếp hạng đối tượng và tầm quan trọng

Xếp hạng đối tượng liên quan đến việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí cụ thể. Điều này rất quan trọng trong các ứng dụng như máy tìm kiếm, nơi người dùng cần nhanh chóng tìm thấy thông tin phù hợp nhất.

1.2. Các ứng dụng của xếp hạng đối tượng

Xếp hạng đối tượng được áp dụng rộng rãi trong nhiều lĩnh vực như giáo dục, thương mại điện tử và nghiên cứu khoa học. Ví dụ, xếp hạng các trường đại học, xếp hạng sản phẩm trên các trang thương mại điện tử, hay xếp hạng các bài báo khoa học.

II. Vấn đề và thách thức trong xếp hạng đối tượng

Mặc dù xếp hạng đối tượng có nhiều ứng dụng, nhưng vẫn tồn tại nhiều thách thức trong việc phát triển các phương pháp xếp hạng hiệu quả. Các vấn đề như độ chính xác, tính khả thi và khả năng mở rộng của các thuật toán xếp hạng cần được giải quyết.

2.1. Độ chính xác trong xếp hạng đối tượng

Độ chính xác là một trong những yếu tố quan trọng nhất trong xếp hạng đối tượng. Các phương pháp xếp hạng cần đảm bảo rằng các đối tượng phù hợp được xếp ở vị trí cao nhất trong danh sách kết quả.

2.2. Tính khả thi và khả năng mở rộng

Khi số lượng đối tượng cần xếp hạng tăng lên, tính khả thi và khả năng mở rộng của các thuật toán xếp hạng trở thành một thách thức lớn. Cần phát triển các phương pháp có thể xử lý khối lượng dữ liệu lớn mà vẫn đảm bảo hiệu suất.

III. Phương pháp học xếp hạng đối tượng hiệu quả

Học xếp hạng là một lĩnh vực đang phát triển mạnh mẽ, với nhiều phương pháp khác nhau được đề xuất. Các phương pháp này giúp cải thiện độ chính xác và hiệu suất của các hệ thống xếp hạng.

3.1. Phương pháp hồi quy có thứ tự

Phương pháp hồi quy có thứ tự cho phép xác định thứ tự của các đối tượng dựa trên độ phù hợp. Đây là một trong những phương pháp phổ biến trong học xếp hạng, giúp cải thiện độ chính xác của các kết quả.

3.2. Phương pháp học xếp hạng danh sách

Phương pháp học xếp hạng danh sách tập trung vào việc tối ưu hóa toàn bộ danh sách kết quả thay vì từng cặp đối tượng. Điều này giúp cải thiện độ chính xác trung bình (MAP) của các hệ thống xếp hạng.

IV. Ứng dụng thực tiễn của xếp hạng đối tượng

Các phương pháp xếp hạng đối tượng đã được áp dụng thành công trong nhiều lĩnh vực khác nhau. Những ứng dụng này không chỉ giúp cải thiện trải nghiệm người dùng mà còn nâng cao hiệu quả của các hệ thống thông tin.

4.1. Xếp hạng trong máy tìm kiếm

Máy tìm kiếm sử dụng các phương pháp xếp hạng để xác định thứ tự hiển thị của các kết quả tìm kiếm. Điều này giúp người dùng dễ dàng tìm thấy thông tin cần thiết một cách nhanh chóng.

4.2. Xếp hạng trong thương mại điện tử

Trong thương mại điện tử, xếp hạng sản phẩm giúp người tiêu dùng dễ dàng lựa chọn sản phẩm phù hợp nhất với nhu cầu của họ. Các hệ thống xếp hạng này thường dựa trên đánh giá của người dùng và các chỉ số khác.

V. Kết luận và tương lai của xếp hạng đối tượng

Xếp hạng đối tượng là một lĩnh vực quan trọng trong công nghệ thông tin, với nhiều ứng dụng thực tiễn. Tương lai của xếp hạng đối tượng sẽ tiếp tục phát triển với sự hỗ trợ của các công nghệ mới như trí tuệ nhân tạo và học máy.

5.1. Xu hướng phát triển trong xếp hạng đối tượng

Các xu hướng mới trong xếp hạng đối tượng bao gồm việc sử dụng trí tuệ nhân tạo để cải thiện độ chính xác và hiệu suất. Các nghiên cứu hiện tại đang tập trung vào việc phát triển các thuật toán thông minh hơn.

5.2. Thách thức trong tương lai

Mặc dù có nhiều tiến bộ, nhưng vẫn còn nhiều thách thức trong việc phát triển các phương pháp xếp hạng hiệu quả. Cần tiếp tục nghiên cứu để giải quyết các vấn đề như độ chính xác và khả năng mở rộng.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ thông tin, việc xếp hạng đối tượng và tạo nhãn cụm tài liệu trở thành vấn đề trọng tâm trong lĩnh vực khai phá dữ liệu và máy tìm kiếm. Theo ước tính, có khoảng 6.217 trang web tiếng Việt được thu thập và phân tích trong nghiên cứu này, với gần 14.794 thể hiện thực thể thuốc được đánh chỉ mục. Vấn đề nghiên cứu tập trung vào việc áp dụng các phương pháp học máy, đặc biệt là học xếp hạng (Learning to Rank - LTR), để cải thiện chất lượng xếp hạng đối tượng và tự động tạo nhãn cho các cụm tài liệu trong môi trường tìm kiếm thực thể, cụ thể là trong lĩnh vực y tế tiếng Việt.

Mục tiêu cụ thể của luận văn là khảo sát, phân tích các phương pháp học xếp hạng hiện đại, đề xuất mô hình xếp hạng thực thể phù hợp với máy tìm kiếm thực thể tiếng Việt, đồng thời phát triển phương pháp học xếp hạng để tạo nhãn cho cụm tài liệu nhằm nâng cao hiệu quả tìm kiếm và phân loại thông tin. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ 10 trang web y tế tiếng Việt trong khoảng thời gian gần đây, với trọng tâm là tìm kiếm thực thể thuốc và phân cụm tài liệu liên quan.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trung bình (MAP) và trung bình nghịch đảo thứ hạng (MRR) trong các hệ thống tìm kiếm thực thể, đồng thời cải thiện khả năng định hướng chủ đề cho người dùng thông qua nhãn cụm tài liệu chính xác và có ý nghĩa. Đây là bước tiến quan trọng trong việc phát triển các hệ thống tìm kiếm thông minh, hỗ trợ người dùng tiếp cận thông tin nhanh chóng và hiệu quả hơn.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

- **Phương pháp PageRank**: Là thuật toán xếp hạng trang web dựa trên phân tích đồ thị liên kết giữa các trang, xác định độ quan trọng của trang thông qua trọng số liên kết.
- **Học xếp hạng (Learning to Rank - LTR)**: Bao gồm các phương pháp hồi quy có thứ tự (Ordinal Regression), học xếp hạng theo cặp (Pairwise) và học xếp hạng danh sách (Listwise). Trong đó, SVM-MAP và RankSVM là hai phương pháp được áp dụng phổ biến để học hàm tính hạng tối ưu.
- **Mô hình Impression trong máy tìm kiếm thực thể**: Mô hình ba tầng gồm truy nhập toàn cục, nhận dạng cục bộ và đánh giá, đảm bảo các tính chất ngữ cảnh, độ tin cậy và phân biệt của thực thể trong tài liệu.
- **Phương pháp tạo nhãn cụm tài liệu**: Dựa trên phân tích tần suất xuất hiện của từ/cụm từ trong cụm tài liệu và các cụm liên quan, sử dụng các độ đo như Information Gain và học xếp hạng để chọn nhãn phù hợp.

Các khái niệm chính bao gồm: hàm tính hạng (ranking function), trọng số cục bộ và toàn cục, độ chính xác trung bình (MAP), trung bình nghịch đảo thứ hạng (MRR), và nhãn cụm tài liệu.

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập hợp 6.217 trang web tiếng Việt về y tế, thu thập từ 10 trang web uy tín, với kích thước dữ liệu khoảng 180MB và gần 14.794 thể hiện thực thể thuốc được đánh chỉ mục. Dữ liệu học được xây dựng từ 5 truy vấn mẫu, mỗi truy vấn có 10 thực thể được đánh giá và sắp xếp theo độ phù hợp.

Phương pháp phân tích sử dụng công cụ học giám sát SVMmap để học hàm tính hạng tối ưu dựa trên các đặc trưng của thực thể, bao gồm tỷ lệ trang chứa thực thể, tổng trọng số PageRank, trọng số cục bộ lớn nhất, tổng trọng số cục bộ, và các tích trọng số cục bộ với PageRank. Phương pháp học xếp hạng được áp dụng nhằm tối ưu các chỉ số MAP và MRR, so sánh với các phương pháp truyền thống như BM25 và mô hình Impression.

Timeline nghiên cứu bao gồm giai đoạn thu thập và xử lý dữ liệu, xây dựng mô hình học xếp hạng, thực nghiệm trên tập dữ liệu y tế tiếng Việt, và đánh giá kết quả thông qua các chỉ số đánh giá chuẩn trong lĩnh vực tìm kiếm thông tin.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả mô hình học xếp hạng (LTR)**: MRR đạt 0.8 và MAP cao hơn 0.9 so với mô hình Impression và BM25, cho thấy LTR cải thiện đáng kể chất lượng xếp hạng thực thể thuốc.
- **Vai trò các đặc trưng trong hàm tính hạng**: Trọng số cực đại của tích trọng số cục bộ nhân với PageRank (M), tổng trọng số cục bộ (SL) và tổng tích trọng số cục bộ với PageRank (GL) đóng vai trò quan trọng nhất, trong khi tỷ lệ trang chứa thực thể (N) và tổng trọng số PageRank (G) ít ảnh hưởng hơn.
- **Mô hình Impression vượt trội so với các phương pháp đối sánh truyền thống**: Độ chính xác trung bình (MRR) của mô hình Impression đạt khoảng 0.65, cao hơn nhiều so với các phương pháp xếp hạng dựa trên phần trăm tài liệu chứa thực thể hoặc trọng số cục bộ cao nhất.
- **Tạo nhãn cụm tài liệu hiệu quả bằng học xếp hạng**: Phương pháp học xếp hạng nhãn cụm giúp lựa chọn các cụm từ làm nhãn phù hợp, phân biệt rõ ràng các cụm tài liệu, nâng cao khả năng định hướng chủ đề cho người dùng.

### Thảo luận kết quả

Nguyên nhân của sự cải thiện chất lượng xếp hạng nhờ vào việc kết hợp các đặc trưng đa chiều, bao gồm cả trọng số toàn cục (PageRank) và trọng số cục bộ dựa trên ngữ cảnh xuất hiện thực thể và từ khóa. So với các nghiên cứu trước đây, việc áp dụng học xếp hạng trực tiếp trên danh sách (Listwise) giúp tối ưu các chỉ số đánh giá như MAP, phù hợp hơn với mục tiêu thực tế của hệ thống tìm kiếm.

Kết quả thực nghiệm cho thấy mô hình học xếp hạng không chỉ nâng cao độ chính xác mà còn cải thiện vị trí xuất hiện của các thực thể phù hợp nhất trong kết quả trả về, giúp người dùng tiếp cận thông tin nhanh hơn. Việc áp dụng mô hình học xếp hạng nhãn cụm tài liệu cũng góp phần nâng cao chất lượng phân cụm và khả năng định hướng chủ đề, điều mà các phương pháp truyền thống chưa làm tốt.

Dữ liệu có thể được trình bày qua biểu đồ so sánh MRR và MAP giữa các phương pháp BM25, Impression và LTR, cũng như bảng phân tích trọng số các đặc trưng trong hàm tính hạng, giúp minh họa rõ ràng vai trò của từng yếu tố trong mô hình.

## Đề xuất và khuyến nghị

- **Triển khai rộng rãi mô hình học xếp hạng trong các hệ thống tìm kiếm thực thể** nhằm nâng cao chất lượng kết quả trả về, đặc biệt trong lĩnh vực y tế và các ngành có dữ liệu thực thể phong phú. Mục tiêu đạt MRR trên 0.8 trong vòng 12 tháng, do các nhóm phát triển công nghệ thực hiện.
- **Phát triển công cụ tự động tạo nhãn cụm tài liệu dựa trên học xếp hạng** để hỗ trợ phân cụm kết quả tìm kiếm, giúp người dùng dễ dàng định hướng thông tin. Thời gian thực hiện dự kiến 6-9 tháng, phối hợp giữa các nhà nghiên cứu và doanh nghiệp công nghệ.
- **Tăng cường thu thập và làm sạch dữ liệu thực thể** nhằm đảm bảo độ tin cậy và tính đầy đủ của dữ liệu đầu vào cho mô hình học xếp hạng, nâng cao hiệu quả tổng thể của hệ thống. Đề xuất xây dựng quy trình chuẩn trong 3 tháng đầu năm.
- **Tổ chức đào tạo và chuyển giao công nghệ học xếp hạng cho các đơn vị phát triển phần mềm và nghiên cứu trong nước**, nhằm phổ biến và ứng dụng rộng rãi các phương pháp tiên tiến. Kế hoạch đào tạo định kỳ hàng năm, do các trường đại học và viện nghiên cứu chủ trì.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Hệ thống Thông tin**: Nắm bắt các phương pháp học xếp hạng hiện đại, ứng dụng trong khai phá dữ liệu và tìm kiếm thông tin.
- **Các đơn vị phát triển phần mềm tìm kiếm và xử lý dữ liệu lớn**: Áp dụng mô hình học xếp hạng và tạo nhãn cụm để nâng cao chất lượng sản phẩm, cải thiện trải nghiệm người dùng.
- **Chuyên gia trong lĩnh vực y tế và quản lý thông tin y sinh**: Sử dụng kết quả nghiên cứu để xây dựng hệ thống tìm kiếm thực thể thuốc và thông tin y tế chính xác, hiệu quả.
- **Nhà quản lý và hoạch định chính sách công nghệ thông tin**: Tham khảo để định hướng phát triển các dự án công nghệ thông tin, hỗ trợ xây dựng hạ tầng dữ liệu và ứng dụng trí tuệ nhân tạo trong quản lý thông tin.

## Câu hỏi thường gặp

1. **Học xếp hạng là gì và tại sao nó quan trọng trong tìm kiếm thông tin?**  
Học xếp hạng là phương pháp học máy nhằm xây dựng hàm tính hạng để sắp xếp các đối tượng theo độ phù hợp với truy vấn. Nó quan trọng vì giúp cải thiện chất lượng kết quả tìm kiếm, đưa các kết quả phù hợp nhất lên đầu danh sách, tiết kiệm thời gian người dùng.

2. **Mô hình Impression trong máy tìm kiếm thực thể có điểm gì nổi bật?**  
Mô hình Impression gồm ba tầng: truy nhập toàn cục, nhận dạng cục bộ và đánh giá, đảm bảo tính ngữ cảnh, độ tin cậy và phân biệt của thực thể. Nó sử dụng trọng số PageRank để đánh giá độ quan trọng của trang web, giúp nâng cao độ chính xác xếp hạng.

3. **Phương pháp học xếp hạng nào được áp dụng trong luận văn?**  
Luận văn áp dụng phương pháp SVM-MAP, một kỹ thuật học xếp hạng danh sách (Listwise), giúp tối ưu các chỉ số đánh giá như MAP và MRR, vượt trội hơn so với các phương pháp hồi quy có thứ tự và học xếp hạng theo cặp.

4. **Làm thế nào để tạo nhãn cụm tài liệu tự động?**  
Tạo nhãn cụm dựa trên phân tích tần suất xuất hiện của từ/cụm từ trong cụm tài liệu và các cụm liên quan, sử dụng các độ đo như Information Gain và học xếp hạng để chọn ra các nhãn phù hợp, giúp mô tả chính xác chủ đề của cụm.

5. **Kết quả thực nghiệm cho thấy mô hình học xếp hạng có hiệu quả như thế nào?**  
Mô hình học xếp hạng đạt MRR 0.8 và MAP cao hơn 0.9 so với các phương pháp truyền thống, chứng tỏ khả năng trả về kết quả phù hợp hơn và cải thiện vị trí xuất hiện của các thực thể quan trọng trong kết quả tìm kiếm.

## Kết luận

- Luận văn đã khảo sát và phân tích các phương pháp học xếp hạng hiện đại, đề xuất mô hình xếp hạng thực thể phù hợp với máy tìm kiếm thực thể tiếng Việt.  
- Mô hình học xếp hạng (SVM-MAP) cho thấy hiệu quả vượt trội trong việc nâng cao các chỉ số MAP và MRR so với các phương pháp truyền thống.  
- Phương pháp học xếp hạng nhãn cụm tài liệu giúp tự động tạo nhãn chính xác, hỗ trợ định hướng chủ đề cho người dùng trong các hệ thống tìm kiếm.  
- Thực nghiệm trên dữ liệu y tế tiếng Việt với hơn 6.000 trang web và gần 15.000 thể hiện thực thể thuốc đã chứng minh tính khả thi và hiệu quả của mô hình.  
- Đề xuất các giải pháp triển khai và phát triển tiếp theo nhằm ứng dụng rộng rãi trong các hệ thống tìm kiếm và quản lý thông tin, góp phần nâng cao chất lượng truy cập và khai thác dữ liệu.

Hành động tiếp theo là triển khai mô hình học xếp hạng trong các hệ thống thực tế, mở rộng phạm vi dữ liệu và phát triển công cụ tạo nhãn cụm tự động để phục vụ đa dạng lĩnh vực ứng dụng.

Trích đoạn nội dung tài liệu

CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 9 nhiều sự quan tâm của các nhà khoa học. Hướng tiếp cận bài toán học xếp hạng đã được giới thiệu trong chương này. Các chương sau tiếp tục làm rõ hơn về bài toán học xếp hạng và ứng dụng vào xếp hạng thực thể trong máy tìm kiếm thực thể, và bài toán gán nhãn cụm tài liệu.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 2 Học xếp hạng 2.1 Giới thiệu Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài liệu trả về từ máy tìm kiếm dựa theo truy vấn. Có tập các tài liệu D = {d1 , d2 , ., dn } và với truy vấn q, cần xác định hàm xếp hạng r để sắp xếp các tài liệu D theo độ phù hợp với truy vấn. Tổng quát bài toán xếp hạng đối tượng nói chung, ta có: tập các đối tượng X ⊂ Rn của các đối tượng x = (x1 , ., xn ) ∈ Rn , với n là số đặc trưng của đối tượng. Cần tìm hàm f (x) : X → R để sắp xếp các đối tượng x theo độ phù hợp.

Tùy từng ứng dụng, người dùng có cách xác định độ phù hợp khác nhau như: • Cần xác định đối tượng có phù hợp tiêu chí đặt ra hay không 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 2. HỌC XẾP HẠNG 11 • Đánh giá độ phù hợp của mối đối tượng với một số mức độ nhất định như rất tốt, tốt, trung bình, kém. • Đưa ra các so sánh độ phù hợp của từng cặp đối tượng. Do đó ta có các phương pháp học hàm f (x) tương ứng với các kiểu ràng buộc về xếp hạng khác nhau tùy theo cách đánh giá độ phù hợp như trên.

Các phương pháp học xếp hạng theo Chakrabarti [12] : Hồi quy (Regression): mỗi đối tượng x xác định giá trị y tương ứng về độ phù hợp. Cần học hàm f (x) thỏa mãn f (x) = y. Và khi giá trị y xác định thứ tự của đối tượng x thì phương pháp gọi là hồi quy có thứ tự. Tuy nhiên trong nhiều ứng dụng (ví dụ máy tìm kiếm), việc sắp xếp thứ tự tất cả các đối tượng là không khả thi, thì một thứ tự xếp hạng của K đối tượng đầu tiên được xác định, và tất cả các đối tượng khác đều có hạng cao hơn (phương pháp ListNet [10].

Một cách chi tiết hơn, Liu [36] chia các phương pháp học xếp hạng thành: Poinwise: tìm f (x) thỏa mãn với ∀x ∈ X có f (x) = y (tương ứng phương pháp hồi quy) Pairwise: f (x) thỏa mãn với ∀(xi , xj ): nếu xi ≺ xj thì f (xi ) < f (xj ) Listwise: có bộ thứ tự (x1 , .xk ) tìm f (x) thỏa mãn với ∀(xi , xj ): nếu i > j thì f (xi ) > f (xj ) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 2. HỌC XẾP HẠNG 12 2.2 Phương pháp học xếp hạng 2.1 Hồi quy có thứ tự vàPairwise Trong phương pháp hồi quy có thứ tự (ordinal regression, tập dữ dữ liệu học là các bộ S = {(xi , yi)}li=1 với yi ∈ 1, 2, .R là một tập sắp thứ tự, cần học hàm h(x) thỏa mãn: Với mọi cặp (xi , yi ) và (xj , yj ) thuộc S thì yi > yj ⇔ h(xi ) > h(xj ) Gọi P là tập hợp tất cả các cặp (i, j) mà nhãn của xi lớn hơn của xj : P = {(i, j) : yi > yj } và |P | = m. Herbrich [27] đã dựa vào phương pháp SVM của Joachims [30] đưa ra tối ưu trong hồi quy thứ tự gọi là ordinal regression SVM (OR-SVM): 1 T C X min w w+ ξij w,ξi,j ≥0 2 m (i,j)∈P Với ∀(i, j) ∈ P : (w T xi ) ≥ (w T xj ) + 1 − ξij Thuật toán SVM với tối ưu này tìm hàm h(x) tuyến tính tức tìm siêu phẳng tốt nhất mà làm cực tiểu số cặp dữ liệu học phải hoán đổi vị trí trong sắp xếp được ra. Mô tả ý tưởng như hình 2.

Viết lại ràng buộc của công thức tối ưu trên ta có ∀(i, j) ∈ P : w T (xi − xj ) ≥ 1 − ξij Công thức tương tự với công thức của ràng buộc trong tối ưu phân lớp SVM [30]. Do vậy mọi biến đổi tối ưu trên phân lớp SVM đều có thể được thực hiện đối với hồi quy thứ tự được Joachims [31]. Joachims đã biến đổi bài toán hồi quy có thứ tự về bài toán học phân lớp nhị phân, sử dụng phân lớp SVM để học được mô hình tham số w cho hồi quy tuyến tính. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 2.

HỌC XẾP HẠNG 13 Hình 2.1: Xếp hạng với SVM [31] Các tác giả như Michael Collins [19] cũng quan tâm học hồi quy và tìm cách chuyển bài toán học hồi quy thứ tự về bài toán phân lớp.2 Học xếp hạng danh sách Listwise Với các ứng dụng xếp hạng, như xếp hạng các trang web trả về cho người dùng trong máy tìm kiếm, người dùng nhận được danh sách các kết quả được sắp xếp theo thứ tự độ phù hợp giảm dần thay vì so sánh thứ hạng của mỗi cặp kết quả. Và do chỉ xét từng cặp đối tượng để so sánh nên phương pháp Pairwise không tối ưu các độ đo đánh giá chất lượng xếp hạng ví dụ như MAP. Do vậy thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phần lớp, học xếp hạng từ danh sách sắp thứ hạng đã được các tác giả [58, 10, 9, 46] quan tâm. Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong Yue và các tác giả đưa ra [58], sử dụng SVM để tìm tối ưu và ràng buộc về độ đo đánh giá MAP trên danh sách xếp hạng.

Phân lớp SVM học một siêu phẳng w, với dấu của w T w là nhãn dự LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 2. HỌC XẾP HẠNG 14 đoán. Hàm học tìm w để cực tiểu: N 1 T CX minw,ξi,j ≥0 w w + ξij 2 m i=1 P Với ∀i : yi .(w T xi ) ≥ 1 − ξi i ξi là tổng hệ số nới lỏng. Thêm các ràng buộc về đánh giá độ chính xác trung bình, với mỗi một nhãn y 0 sai đối với tài liệu x có: ∀y 0 6= y :T Ψ(y, x) ≥ w T Ψ(y 0, x) + ∆(y, y 0) − ξ P P Trong đó: Ψ(y 0 , x) = ( i : rel) 0 j:!rel yij .(xi − xj ) và ∆(y, y 0) = 1 − AP (y 0) Kết quả sau khi học w có dự đoán sắp xếp bởi w T xi.

Khi số lượng đối tượng được xếp hạng tăng thì số ràng buộc cũng tăng nhanh, do vậy cần tìm ràng buộc mà bị vi phạm nhiều nhất trong tập các ràng buộc và học mô hình thỏa mãn ràng buộc đó. Có nhiều các nhà nghiên cứu tập trung phương pháp học Listwise, như các phương pháp AdaRank [54], SoftRank [46], ListNet [10],. Tuy nhiên qua phân tích các kết quả trên Lector∗ cho thấy phương pháp SVM-MAP có chất lượng tốt nhất.3 Tổng kết chương Chương này đã giới thiệu chung về các phương pháp học xếp hạng hiện nay và hai phương pháp học xếp hạng SVM-MAP, RankSVM được đề cập. Đó là hai phương pháp được áp dụng vào hai ứng dụng học xếp hạng được trình bày ở chương sau.com/en-us/um/beijing/projects/letor/ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 3 Xếp hạng trong máy tìm kiếm thực thể Các máy tìm kiếm thông dụng hiện nay như Google, Yahoo, MSN, truy vấn người dùng đưa vào là tập các từ khóa và kết quả trả về là danh sách các địa chỉ tới các trang web.

Do vậy để nhận được thông tin mong muốn, người dùng phải duyệt qua từng địa chỉ web đó, và có thể phải duyệt qua nhiều trang không có thông tin mong muốn. Với sự phát triển của các kỹ thuật rút trích thông tin (Information Extraction- IE) cụ thể là rút trích các thực thể, hướng phát triển máy tìm kiếm thực thể đã được Kevin Chang và các cộng sự [15, 16, 17] nghiên cứu, xây dựng. Truy vấn của người dùng trên máy tìm kiếm thực thể không đơn thuần là các từ khóa mà người dùng xác định rõ hơn về loại đối tượng dữ liệu đang muốn tìm và ngữ cảnh tìm kiếm. Kết quả trả về cho người dùng thay vì chỉ là các địa chỉ web, người dùng còn nhận được các thông tin cụ 15 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 3.

XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 16 thể về đối tượng mình mong muốn tìm kiếm. Cũng như với máy tìm kiếm thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể là cốt lõi và quan trọng của máy tìm kiếm thực thể. Không chỉ các tác giả T. Đặc điểm dữ liệu wiki là các trang web đều được xác định chủ đề/thể loại (category) và trong mỗi trang có các khái niệm (concept) được đánh dấu (tag) hay tạo liên kết tới các trang mô tả khái niệm đó.

Do vậy, với cấu trúc web giàu ngữ nghĩa đó, việc xếp hạng các thực thể trên wikipedia thường dựa trên các liên kết giữa các thực thể (hay các khái niệm), liên kết giữa các trang web, độ tương đồng ngữ nghĩa giữa các khái niệm như được đề cập trong [20]. Song song với các nghiên cứu đó là các nghiên cứu xếp hạng thực thể dựa trên việc xây dựng đồ thị quan hệ giữa các thực thể, mạng xã hội các thực thể trên web [43, 13, 11, 2, 7]. Qua phân tích các nghiên cứu [47, 20, 21, 50, 43, 11, 13, 15, 16, 17], với định hướng xây dựng hệ tìm kiếm thực thể trên web nói chung, việc xếp hạng trong tìm kiếm thực thể của nhóm T.Cheng được quan tâm và phân tích.1 Máy tìm kiếm thực thể Người dùng thường tìm kiếm thông tin về đối tượng nào đó, ví dụ như khi sử dụng truy vấn "thuốc chống viêm", người dùng muốn tìm các thực thể thuốc mà có tác dụng chống viêm. Và các máy tìm kiếm hiện nay (như Google, Yahoo, MSN) bằng cách so sánh văn bản (text) trên từng trang web với truy vấn và trả về cho người dùng địa chỉ các trang mà có chứa từ khóa trong truy vấn.

Do vậy người dùng không trực tiếp nhận được thông tin mong muốn mà phải duyệt qua nội dung các trang web trả về đó và ∗ http://wikipedia.org LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 17 không chắc chắn có được thông tin mong muốn ở những kết quả đầu tiên.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Học máy trong truy tìm thông tin

Công nghệ máy tìm kiếm và xếp hạng

Khai phá dữ liệu văn bản

Thuật toán xếp hạng và đánh giá