Luận Văn Thạc Sĩ: Ứng Dụng Mô Hình Chủ Đề Ẩn Vào Phân Hạng Dòng Cập Nhật Trên Twitter

Luận văn thạc sĩ khám phá ứng dụng mô hình chủ đề ẩn trong phân hạng lại dòng cập nhật trên Twitter, nâng cao hiệu quả phân tích dữ liệu mạng xã hội.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

LỜI CAM ĐOAN

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG BIỂU

DANH SÁCH CÁC TỪ VIẾT TẮT

1. CHƯƠNG 1: DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER VÀ BÀI TOÁN XẾP HẠNG DÒNG

1.1. Mạng xã hội Twitter và dòng cập nhật trên Twitter

1.2. Bài toán xếp hạng dòng cập nhật

1.3. Hướng tiếp cận giải quyết bài toán

1.4. Ý nghĩa của bài toán xếp hạng dòng

1.5. Tóm tắt chương 1

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC XẾP HẠNG, MÔ HÌNH CHỦ ĐỀ ẨN VÀ LUẬT KẾT HỢP

2.1. Một số nội dung cơ bản về Xếp hạng dòng

2.2. Học xếp hạng

2.3. Các phương pháp học xếp hạng điển hình

2.4. Phương pháp đánh giá xếp hạng dòng

2.5. Mô hình chủ đề ẩn

2.6. Phương pháp mô hình chủ đề ẩn

2.7. Luật kết hợp

2.8. Thuật toán Apriori

2.9. Nhận xét và ý tưởng

2.10. Tóm tắt chương 2

3. CHƯƠNG 3: MÔ HÌNH XẾP HẠNG DÒNG CẬP NHẬT TRÊN TWITTER

3.1. Phương pháp đề xuất

3.2. Đặc trưng và điểm số quan tâm của tweet

3.3. Điểm số quan tâm của tweet

3.4. Đặc trưng của tweet

3.5. Tóm tắt chương 3

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường thực nghiệm

4.2. Cấu hình phần cứng

4.3. Công cụ phần mềm

4.4. Dữ liệu thực nghiệm

4.5. Kết quả và Đánh giá

KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Ứng Dụng Mô Hình Chủ Đề Ẩn Trong Twitter

Mô hình chủ đề ẩn (LDA) đã trở thành một công cụ quan trọng trong việc phân tích dữ liệu trên mạng xã hội, đặc biệt là Twitter. Mô hình này giúp xác định các chủ đề tiềm ẩn trong dòng cập nhật, từ đó cải thiện khả năng phân loại và xếp hạng thông tin. Việc áp dụng mô hình này vào phân hạng dòng cập nhật trên Twitter không chỉ giúp người dùng tiết kiệm thời gian mà còn nâng cao trải nghiệm sử dụng.

1.1. Mô hình chủ đề ẩn là gì

Mô hình chủ đề ẩn (LDA) là một phương pháp thống kê dùng để phát hiện các chủ đề trong một tập hợp văn bản. Nó giúp phân tích và tổ chức thông tin một cách hiệu quả.

1.2. Tại sao Twitter cần mô hình này

Với lượng thông tin khổng lồ từ các dòng cập nhật, mô hình chủ đề ẩn giúp người dùng tìm kiếm và tiếp cận thông tin quan trọng một cách nhanh chóng và hiệu quả.

II. Vấn đề trong Phân Hạng Dòng Cập Nhật Twitter

Người dùng Twitter thường gặp khó khăn trong việc xử lý lượng thông tin lớn từ các dòng cập nhật. Nhiều thông tin không cần thiết có thể làm người dùng mất thời gian và gây khó chịu. Do đó, việc phân hạng các dòng cập nhật theo mức độ quan tâm là rất cần thiết.

2.1. Thách thức trong việc phân hạng

Một trong những thách thức lớn là xác định các yếu tố nào ảnh hưởng đến sự quan tâm của người dùng đối với các dòng cập nhật.

2.2. Tác động của thông tin không cần thiết

Thông tin không cần thiết có thể làm giảm trải nghiệm người dùng, dẫn đến việc họ bỏ lỡ các thông tin quan trọng.

III. Phương Pháp Phân Hạng Dòng Cập Nhật Hiệu Quả

Để giải quyết vấn đề phân hạng dòng cập nhật, một số phương pháp đã được đề xuất, bao gồm việc sử dụng mô hình chủ đề ẩn và thuật toán học máy. Những phương pháp này giúp cải thiện độ chính xác trong việc phân loại và xếp hạng thông tin.

3.1. Sử dụng mô hình chủ đề ẩn LDA

Mô hình LDA giúp xác định các chủ đề chính trong dòng cập nhật, từ đó hỗ trợ việc phân loại thông tin theo mức độ quan tâm.

3.2. Thuật toán học xếp hạng CRR

Phương pháp học xếp hạng CRR kết hợp giữa hồi quy và xếp hạng, giúp tối ưu hóa quá trình phân hạng các dòng cập nhật.

IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu

Nghiên cứu đã chỉ ra rằng việc áp dụng mô hình chủ đề ẩn vào phân hạng dòng cập nhật trên Twitter mang lại kết quả khả quan. Người dùng có thể dễ dàng tiếp cận thông tin quan trọng hơn, tiết kiệm thời gian và nâng cao trải nghiệm sử dụng.

4.1. Kết quả từ thực nghiệm

Thực nghiệm cho thấy rằng mô hình đã cải thiện đáng kể độ chính xác trong việc phân loại các dòng cập nhật.

4.2. Lợi ích cho người dùng

Người dùng có thể nhanh chóng tìm thấy thông tin quan trọng, từ đó nâng cao sự hài lòng khi sử dụng Twitter.

V. Kết Luận và Tương Lai của Nghiên Cứu

Việc áp dụng mô hình chủ đề ẩn trong phân hạng dòng cập nhật trên Twitter không chỉ giải quyết vấn đề thông tin quá tải mà còn mở ra hướng đi mới cho các nghiên cứu trong tương lai. Cần tiếp tục cải tiến và phát triển các phương pháp mới để nâng cao hiệu quả phân hạng.

5.1. Hướng nghiên cứu tiếp theo

Cần nghiên cứu thêm về các yếu tố ảnh hưởng đến sự quan tâm của người dùng để cải thiện mô hình phân hạng.

5.2. Tác động của công nghệ mới

Công nghệ mới như trí tuệ nhân tạo có thể được áp dụng để nâng cao khả năng phân tích và phân hạng thông tin.

16/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội twitter

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Mạng xã hội Twitter, với khoảng 316 triệu người dùng hoạt động hàng tháng tính đến năm 2016, đã trở thành một nền tảng quan trọng để chia sẻ thông tin nhanh chóng và rộng rãi. Tuy nhiên, lượng lớn dòng cập nhật (tweet) từ vòng kết nối bạn bè khiến người dùng dễ bị ngập trong thông tin, mất nhiều thời gian để lọc ra những nội dung thực sự quan tâm. Bài toán xếp hạng dòng cập nhật nhằm sắp xếp các tweet theo mức độ quan tâm của từng người dùng, giúp giảm thiểu thời gian lãng phí và nâng cao trải nghiệm người dùng. Mục tiêu nghiên cứu là phát triển mô hình xếp hạng dòng cập nhật trên Twitter bằng cách ứng dụng các mô hình chủ đề ẩn (LDA) và khai phá luật kết hợp (Apriori) để làm giàu đặc trưng, đồng thời sử dụng phương pháp học xếp hạng CRR để xây dựng hàm tính hạng. Nghiên cứu thực hiện trên dữ liệu thu thập từ người dùng Jon Bowzer Bauman trong tháng 10 năm 2016 với hơn 6400 dòng cập nhật, trong đó 5854 tweet được sử dụng sau khi lọc. Kết quả nghiên cứu có ý nghĩa lớn trong việc cải thiện hiệu quả truy xuất thông tin cá nhân trên mạng xã hội, góp phần nâng cao sự hài lòng và giữ chân người dùng.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Học xếp hạng (Learning to Rank):** Phương pháp học máy giám sát nhằm xây dựng hàm tính hạng tự động từ dữ liệu huấn luyện có gán nhãn. Thuật toán CRR (Combined Regression and Ranking) kết hợp hồi quy tuyến tính và SVM-rank được sử dụng để tối ưu cả sai số hồi quy và sai số xếp hạng, giúp mô hình đạt hiệu quả cao trong việc sắp xếp các tweet theo mức độ quan tâm.

- **Mô hình chủ đề ẩn Latent Dirichlet Allocation (LDA):** Mô hình xác suất phân phối các chủ đề ẩn trong tài liệu, giúp biểu diễn nội dung tweet dưới dạng phân phối xác suất trên các chủ đề. LDA cho phép trích xuất đặc trưng nội dung phong phú, hỗ trợ mô hình xếp hạng hiểu sâu sắc về nội dung tweet.

- **Luật kết hợp (Association Rule) và thuật toán Apriori:** Phương pháp khai phá các mối quan hệ đồng xuất hiện trong dữ liệu lớn. Trong nghiên cứu, luật kết hợp được dùng để xác định độ ảnh hưởng của người dùng dựa trên các luật kết hợp giữa các người dùng trong tập tweet, từ đó làm giàu đặc trưng người dùng cho mô hình xếp hạng.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Dữ liệu thu thập từ Twitter của người dùng Jon Bowzer Bauman trong tháng 10 năm 2016, gồm hơn 6400 dòng cập nhật, sau lọc còn 5854 tweet. Dữ liệu được chia thành tập huấn luyện (5254 tweet) và tập kiểm tra (600 tweet).

- **Phân tích và xử lý dữ liệu:** Tiền xử lý bao gồm tách từ, loại bỏ tên người dùng, từ dừng, ký tự đặc biệt, hash tag và URL. Dữ liệu được chuẩn hóa để phù hợp với mô hình LDA và thuật toán Apriori.

- **Xây dựng mô hình:** 
  - Ước lượng mô hình chủ đề ẩn LDA với 30 chủ đề để trích xuất đặc trưng nội dung.
  - Khai phá luật kết hợp bằng thuật toán Apriori với ngưỡng minsup và minconf để xác định các luật liên quan đến độ ảnh hưởng người dùng.
  - Xây dựng tập đặc trưng bao gồm đặc trưng nội dung (LDA), đặc trưng tác giả, retweet, reply, hash tag, URL và đặc trưng độ ảnh hưởng người dùng.
  - Áp dụng thuật toán học xếp hạng CRR để học hàm tính hạng từ dữ liệu huấn luyện.

- **Timeline nghiên cứu:** Thu thập và xử lý dữ liệu trong tháng 10 năm 2016; xây dựng và huấn luyện mô hình trong các tháng tiếp theo; đánh giá và so sánh kết quả trên tập kiểm tra.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả của đặc trưng độ ảnh hưởng người dùng:** Mô hình sử dụng đặc trưng độ ảnh hưởng người dùng dựa trên luật kết hợp (thí nghiệm TN1) cho kết quả Precision@5 đạt khoảng 0.78, cao hơn 12% so với mô hình không sử dụng đặc trưng này (TN2) với Precision@5 khoảng 0.70.

- **Độ chính xác trung bình (MAP):** Mô hình TN1 đạt MAP khoảng 0.75, trong khi TN2 chỉ đạt khoảng 0.65, cho thấy việc bổ sung đặc trưng độ ảnh hưởng người dùng giúp cải thiện đáng kể chất lượng xếp hạng.

- **Tác động của mô hình chủ đề ẩn LDA:** Việc sử dụng 30 chủ đề ẩn giúp mô hình trích xuất đặc trưng nội dung hiệu quả, góp phần nâng cao độ chính xác xếp hạng, với sự cải thiện khoảng 10% so với mô hình không sử dụng đặc trưng nội dung.

- **Tính khả thi của phương pháp học xếp hạng CRR:** Thuật toán CRR cho phép kết hợp hiệu quả giữa hồi quy và xếp hạng, xử lý tốt tập dữ liệu lớn với hơn 5000 tweet, đảm bảo mô hình có khả năng tổng quát hóa cao.

### Thảo luận kết quả

Kết quả thực nghiệm cho thấy việc kết hợp đặc trưng độ ảnh hưởng người dùng dựa trên luật kết hợp với đặc trưng nội dung từ mô hình LDA mang lại hiệu quả vượt trội trong bài toán xếp hạng dòng cập nhật trên Twitter. Nguyên nhân là do đặc trưng độ ảnh hưởng phản ánh chính xác mức độ ảnh hưởng của người gửi tweet đến người nhận, từ đó giúp mô hình ưu tiên các tweet có khả năng thu hút sự quan tâm cao hơn. So với các nghiên cứu trước đây chỉ tập trung vào nội dung hoặc hành vi người dùng riêng lẻ, nghiên cứu này mở rộng bằng cách khai thác mối quan hệ phức tạp giữa các người dùng qua luật kết hợp, tạo ra đặc trưng mới có giá trị. Dữ liệu có thể được trình bày qua biểu đồ so sánh Precision@K và MAP giữa các mô hình, minh họa rõ ràng sự cải thiện khi bổ sung đặc trưng độ ảnh hưởng. Kết quả này cũng phù hợp với các nghiên cứu về hệ thống tư vấn và lọc nội dung, khẳng định vai trò quan trọng của độ ảnh hưởng trong mạng xã hội.

## Đề xuất và khuyến nghị

- **Triển khai mô hình xếp hạng tích hợp đặc trưng độ ảnh hưởng người dùng:** Áp dụng mô hình đề xuất vào hệ thống Twitter hoặc các mạng xã hội tương tự để cải thiện trải nghiệm người dùng, giảm thời gian lọc thông tin không cần thiết. Thời gian thực hiện: 6-12 tháng; chủ thể: các nhà phát triển mạng xã hội.

- **Phát triển công cụ khai phá luật kết hợp mở rộng:** Nâng cao thuật toán Apriori để xử lý dữ liệu lớn và đa dạng hơn, tăng độ chính xác trong việc xác định độ ảnh hưởng người dùng. Thời gian: 12 tháng; chủ thể: nhóm nghiên cứu khoa học dữ liệu.

- **Tích hợp mô hình chủ đề ẩn nâng cao:** Nghiên cứu và áp dụng các biến thể của LDA như Author-Topic Model để trích xuất đặc trưng nội dung sâu sắc hơn, phù hợp với đặc thù tweet ngắn. Thời gian: 9 tháng; chủ thể: nhóm nghiên cứu AI và NLP.

- **Xây dựng hệ thống đánh giá liên tục:** Thiết lập hệ thống đánh giá hiệu quả mô hình xếp hạng dựa trên các chỉ số như Precision@K, MAP, RMSE để theo dõi và cải tiến mô hình theo thời gian. Thời gian: 6 tháng; chủ thể: bộ phận phân tích dữ liệu.

## Đối tượng nên tham khảo luận văn

- **Nhà phát triển mạng xã hội:** Có thể ứng dụng mô hình xếp hạng để cải thiện tính năng hiển thị dòng cập nhật, nâng cao trải nghiệm người dùng và giữ chân khách hàng.

- **Nhà nghiên cứu học máy và khai phá dữ liệu:** Tận dụng phương pháp kết hợp học xếp hạng, mô hình chủ đề ẩn và luật kết hợp để phát triển các ứng dụng tương tự trong lĩnh vực xử lý ngôn ngữ tự nhiên và phân tích mạng xã hội.

- **Chuyên gia tư vấn và phát triển hệ thống khuyến nghị:** Áp dụng mô hình để xây dựng hệ thống tư vấn cá nhân hóa dựa trên hành vi và ảnh hưởng xã hội, tăng hiệu quả tư vấn.

- **Sinh viên và học viên cao học ngành Hệ thống Thông tin, Khoa học Máy tính:** Tham khảo để hiểu rõ về ứng dụng thực tế của các thuật toán học máy trong mạng xã hội, từ đó phát triển đề tài nghiên cứu hoặc luận văn.

## Câu hỏi thường gặp

1. **Mô hình học xếp hạng CRR là gì và tại sao được chọn?**  
CRR là phương pháp kết hợp hồi quy tuyến tính và học xếp hạng pairwise (SVM-rank), giúp tối ưu đồng thời sai số hồi quy và sai số xếp hạng. Phương pháp này được chọn vì khả năng xử lý hiệu quả dữ liệu lớn và cải thiện độ chính xác xếp hạng.

2. **LDA giúp gì trong việc xếp hạng dòng cập nhật?**  
LDA trích xuất đặc trưng nội dung bằng cách phân phối xác suất các chủ đề ẩn trong mỗi tweet, giúp mô hình hiểu sâu sắc nội dung và từ đó đánh giá mức độ quan tâm chính xác hơn.

3. **Luật kết hợp được sử dụng như thế nào để xác định độ ảnh hưởng người dùng?**  
Luật kết hợp tìm ra các mối quan hệ đồng xuất hiện giữa người dùng trong các tweet. Số lượng và độ tin cậy của các luật liên quan đến một người dùng phản ánh mức độ ảnh hưởng của họ trong mạng xã hội.

4. **Dữ liệu thực nghiệm có đại diện cho toàn bộ người dùng Twitter không?**  
Dữ liệu lấy từ một người dùng ngẫu nhiên với hơn 6400 tweet, cung cấp cơ sở thực nghiệm cụ thể. Tuy nhiên, để khẳng định tính tổng quát, cần mở rộng nghiên cứu với nhiều người dùng và dữ liệu đa dạng hơn.

5. **Mô hình có thể áp dụng cho các mạng xã hội khác không?**  
Có, phương pháp học xếp hạng kết hợp đặc trưng nội dung và độ ảnh hưởng người dùng có thể được điều chỉnh và áp dụng cho các mạng xã hội khác có cấu trúc tương tự như Facebook, LinkedIn.

## Kết luận

- Đề xuất mô hình xếp hạng dòng cập nhật trên Twitter kết hợp học xếp hạng CRR, mô hình chủ đề ẩn LDA và khai phá luật kết hợp Apriori để làm giàu đặc trưng.  
- Bổ sung đặc trưng độ ảnh hưởng người dùng qua luật kết hợp giúp cải thiện đáng kể độ chính xác xếp hạng, tăng Precision@5 lên khoảng 12%.  
- Thực nghiệm trên dữ liệu thực tế của người dùng Twitter cho thấy mô hình có hiệu quả và khả năng ứng dụng cao.  
- Nghiên cứu mở ra hướng phát triển mới trong việc cá nhân hóa trải nghiệm người dùng trên mạng xã hội thông qua khai thác mối quan hệ xã hội và nội dung.  
- Đề xuất các bước tiếp theo bao gồm mở rộng dữ liệu, nâng cao thuật toán khai phá luật kết hợp và tích hợp các mô hình chủ đề ẩn nâng cao để tiếp tục cải thiện mô hình.

Hành động tiếp theo: Triển khai thử nghiệm mô hình trên quy mô lớn hơn và phát triển công cụ hỗ trợ tích hợp mô hình vào hệ thống mạng xã hội thực tế.

Trích đoạn nội dung tài liệu

chương 1, luận văn đã trình bày tổng quan về mạng xã hội Twitter và nội dung liên quan tới dòng cập nhật. Luận văn cũng đã nêu lên được vấn đề bất lợi cho người dùng khi bị tràn ngập thông tin và phát biểu được bài toán xếp hạng các dòng cập nhật cùng hướng tiếp cận để giải quyết bài toán. Ngoài ra, luận văn cũng đã nêu lên ý nghĩa của bài toán này. Chương tiếp theo, chúng tôi thực hiện chi tiết hóa nền tảng kiến thức liên quan về học xếp hạng, mô hình chủ đề ẩn và luật kết hợp.

Đồng thời, chúng tôi trình bày thuật toán học xếp hạng, phương pháp mô hình chủ đề ẩn cũng như thuật toán tìm luật kết hợp được lựa chọn để xây dựng mô hình xếp hạng dòng. CÁC PHƯƠNG PHÁP HỌC XẾP HẠNG, MÔ HÌNH CHỦ ĐỀ ẨN VÀ LUẬT KẾT HỢP Chương này trình bày các nội dung nền tảng liên quan tới mô hình giải quyết bài toán. Mục đầu tiên trình bày nội dung cơ bản về xếp hạng dòng, các phương pháp học xếp hạng và các phương pháp đánh giá xếp hạng. Mục tiếp theo giới thiệu phương pháp làm giàu đặc trưng dựa trên mô hình chủ đề ẩn.

Mục sau đó trình bày luật kết hợp và thuật toán sinh luật kết hợp. Mục cuối cùng trình bày nội dung ý tưởng khai thác đặc trưng chủ đề ẩn và đặc trưng độ ảnh hưởng của người dùng dựa trên luật kết hợp trong học xếp hạng dòng của mô hình xếp hạng do luận văn đề xuất. Một số nội dung cơ bản về Xếp hạng dòng 2. Giới thiệu Xếp hạng nói chung được hiểu là sự sắp xếp.

Nhiều ứng dụng, phần mềm có sự sắp xếp, đơn giản như MS Excel, MS Dos, sự sắp xếp theo chiều tăng hay giảm của các dữ liệu. hay phức tạp hơn, trong các máy tìm kiếm, sắp xếp các kết quả trả về sao cho phù hợp. Đặc biệt, sắp xếp các dòng thông tin mới (tweet mới) trên mạng xã hội Twitter trên timelines của mỗi người dùng mang tính cá nhân và tư vấn cao. Đây chính là Xếp hạng dòng và cũng được coi là Xếp hạng đối tượng (với đối tượng là Tweet).

Công việc thiết yếu là sắp xếp các đối tượng tweet của mỗi người dùng theo sự giảm dần mức độ quan tâm của mỗi người dùng đó. Mỗi đối tượng tweet cần xác định giá trị thứ hạng thể hiện mức độ quan tâm của người dùng với nó. Do vậy, để xếp hạng các đối tượng, ta cần xác định hàm tính giá trị thứ hạng, gọi là hàm tính hạng. Mỗi đối tượng gồm có các đặc trưng là những chi tiết của bản thân đối tượng đó.

Hàm tính hạng là sự kết hợp của các đặc trưng này. Học xếp hạng Học xếp hạng là một loại học máy giám sát hoặc bán giám sát, trong đó mục tiêu là để tự động xây dựng một mô hình xếp hạng từ dữ liệu huấn luyện là tập dữ liệu đã có xếp hạng đúng. Học xếp hạng là một trong các phương pháp điển hình trong việc xếp hạng đối tượng đang nhận được khá nhiều sự quan tâm của các nhà nghiên cứu. Như đã giới thiệu, chúng tôi sử dụng học xếp hạng cho bài toán đặc biệt Xếp hạng dòng (không có câu truy vấn) với giả thiết tất cả các tweet mới tương ứng với tập kết quả trả về với một câu truy vấn.

Như đã đề cập trong [1], các thuật toán học xếp hạng đều có hai nhiệm vụ chính: (1) xây dựng hàm tính hạng, (2) tính toán thứ hạng của đối tượng mới. Các nhiệm vụ có đầu vào và đầu ra khác nhau, cụ thể như sau:  Xây dựng hàm tính hạng o Đầu vào: Tập các đối tượng có sẵn thứ tự đúng và các đặc trưng o Đầu ra: Hàm tính hạng  Tính toán thứ hạng đối tượng mới o Đầu vào: Tập đối tượng mới và hàm tính hạng o Đầu ra: Thứ hạng của mỗi đối tượng Hàm tính hạng thu được từ các thuật toán học được sử dụng để tính hạng cho các tài liệu mới: cho một tập các đối tượng mới cần được sắp xếp thứ tự, hàm tính hạng thu được sẽ tính toán ra thứ hạng của mỗi đối tượng trong danh sách đó. Để biết được độ chính xác của hàm tính hạng này, tập dữ liệu kiểm tra được sử dụng. Các độ chính xác thu được nhờ việc áp dụng các phương pháp đánh giá xếp hạng.

Một số hướng tiếp cận của học xếp hạng. Liu [4] đã phân tích các thuật toán học xếp hạng và chỉ ra sự phân chia các thuật toán đó theo các hướng tiếp cận như sau:  Hướng tiếp cận Pointwise Theo hướng này, các đối tượng xi trong dữ liệu học có một điểm số hay thứ tự yi. Tiếp đó, học xếp hạng có thể được xấp xỉ bởi hồi quy (hồi quy có thứ tự). Một số thuật toán học xếp hạng như: OPRF [4], SLR [19]…  Hướng tiếp cận Pairwise Có D = {(xi, xj)} là tập các cặp đối tượng được sắp thứ tự, với mỗi cặp (xi, xj) có thứ hạng của xi cao hơn thứ hạng của xj, hay xi phù hợp hơn xj: xi> xj).

Tìm r(x): ∀(𝑥𝑖 , 𝑥𝑗 ) ∈ 𝑆 𝑐ó 𝑥𝑖 > 𝑥𝑗 𝑡ℎì 𝑟(𝑥𝑖 ) > 𝑟(𝑥𝑗 ) Một số thuật toán học xếp hạng như SVM-rank, RankRLS … 19  Hướng tiếp cận Listwise Các thuật toán theo hướng này cố gắng trực tiếp sắp xếp tất cả các đối tượng trong dữ liệu học. Điều này thực sự khó khăn. Khi thứ hạng của K đối tượng đầu tiên được xác định thì tất cả các đối tượng khác đều có hạng thấp hơn. Với D = {x1, x2…, xm} có sắp thứ tự: x1 > x2 >… > xm, tìm hàm tính hạng r(x) sao cho r(x1) > r(x2)> … > r(xm).

Một số thuật toán học xếp hạng như ListMLE, PermuRank … Sử dụng phương pháp học xếp hạng để xây dựng mô hình tính hạng, cần xây dựng tập dữ liệu huấn luyện là đầu vào của quá trình học. Việc xây dựng cũng như định dạng của dữ liệu huấn luyện, luận văn sẽ đề cập trong phần sau. Ngay sau đây, chúng tôi sẽ nói về các thuật toán học xếp hạng cụ thể như SVM-rank và CRR. Thuật toán SVM-rank là một thuật toán khá phổ biến và thuật toán CRR là kết quả của ý tưởng kết hợp thuật toán xếp hạng (SVM-rank) với hồi quy tuyến tính.

Để hiểu hơn về sự kết hợp trong CRR, chúng tôi nghiên cứu và áp dụng thuật toán này vào mô hình đề xuất của mình để xây dựng mô hình tính hạng cho mỗi người dùng. Các phương pháp học xếp hạng điển hình 2. Phương pháp SVM-rank Xếp hạng SVM (SVM-rank) [20] là một ứng dụng của máy véc-tơ hỗ trợ (Support vector machine) được sử dụng để giải quyết bài toán xếp hạng bằng việc sử dụng thuật toán học giám sát SVM. SVM-rank được Joachims công bố năm 2002 với mục đích cải thiện hiệu suất của các công cụ tìm kiếm trên Internet.

SVM-rank là thuật toán học xếp hạng theo hướng tiếp cận pairwise. Chẳng hạn, ta có tập sắp thứ tự D = {(d1, 3), (d2, 1), (d3, 1)}, khi đó có các cặp so sánh thứ tự (d2, d1) và (d3, d1), cặp (d2, d3) không xác định thứ tự so sánh. Giải quyết bài toán theo hướng tiếp cận Pairwise, xếp hạng được đưa về bài toán phân lớp cho từng cặp đối tượng. Với X là tập các đặc trưng của từng đối tượng và R là tập các thứ hạng, ta có ánh xạ thể hiện hàm tính hạng: 𝑋 → 𝑅 , 𝑥𝑖 > 𝑥𝑗 ↔ 𝑟(𝑥𝑖 ) > 𝑟( 𝑥𝑗 ) 𝑟 (𝑥 ) = 𝑤 𝑇 𝑥 (2.1) Tư tưởng chính của SVM [21] là xác định biên (siêu phẳng) chia không gian các đối tượng cần xếp hàng thành hai nửa và tìm siêu phẳng tốt nhất (tối ưu) mà khoảng cách từ siêu phẳng tới đối tượng gần nhất trong cả 2 tập phân chia là lớn nhất.

Với dữ liệu có thể phân tách tuyến tính, siêu phẳng có dạng: 𝑤 𝑇 𝑥 + 𝑏 = 0. Từ đây, có thể thấy mối quan hệ giữa hàm tính hạng 𝑟(𝑥) và siêu phẳng. Do đó, dựa vào phương pháp SVM, tìm được siêu phẳng sẽ suy ra hàm tính hạng 𝑟(𝑥). Đây chính là tư tưởng chính của SVM-rank.

20 Các công cụ SVM , SVM do T. Joachims cung cấp2 cho người dụng lựa chọn light rank học xếp hạng đối tượng dựa vào phương pháp này. Nhiều phương pháp dựa vào tối ưu SVM, chẳng hạn [5, 22]…Trong [5], sự kết hợp xếp hạng dựa trên SVM-rank với hồi quy, Sculley đưa ra thuật toán CRR sẽ được trình bày trong phần tiếp theo. Phương pháp CRR Trong [5], D.Sculley đưa ra nhận định rằng mô hình hồi quy tốt sẽ cho xếp hạng tốt, nhưng mô hình hồi quy chưa thực sự hoàn hảo có thể dẫn tới hiệu quả của xếp hạng là không tốt.

Tương tự với mô hình xếp hạng, trong trường hợp không tốt, mô hình xếp hạng có thể cho kết quả không cao. Tác giả tìm ra phương pháp kết hợp cho hiệu quả tốt ở cả hồi quy và xếp hạng. Tư tưởng chính của phương pháp này là xây dựng mô hình tính hạng dựa trên mô hình hồi quy tuyến tính và mô hình tính hạng pairwise (sử dụng SVM-rank):  Phương thức hồi quy Mục tiêu của hồi quy có giám sát là học mô hình w để dự đoán giá trị mục tiêu thực 𝑦 ′ ∈ 𝑅 cho véc-tơ đặc trưng x, sử dụng hàm dự đoán f(w,x), có sai số nhỏ và hàm loss function l(y,y’) (loss function là hàm tính độ sai lệch giữa y và y’). Mục tiêu để rủi ro cho mô hình là thấp nhất là làm cho sai số nhỏ, với loss function được cho bởi công thức: 1 𝐿(𝑤, 𝐷 ) = ∑ 𝑙(𝑦, 𝑓 (𝑤, 𝑥)) (2.2) |𝐷| (𝑥,𝑦,𝑞)∈𝐷) Ở đây, l(y,y’) là hàm sai số cho từng đối tượng và được tính theo hàm logistic loss [5, 23], với y’ = f(w,x) và y là giá trị đúng của x.

Công thức thể hiện sai số nhỏ nhất với mô hình w như sau:  2 𝑚𝑖𝑛𝑤∈𝑅𝑚 𝐿(𝑤, 𝐷 ) + ||𝑤||2 (2.3) 2 Logistic loss [5, 23] thường được sử dụng trong hồi quy tuyến tính, phương thức này thường sử dụng trong phân lớp, nhưng nó cũng có thể là phương thức cho hồi quy trong việc dự đoán giá trị thực. Logistic loss như sau: 𝑦 ∈ [0,1], 𝑦 ′ ∈ [0,1] , 𝑙 (𝑦, 𝑦 ′ ) = 𝑦𝑙𝑜𝑔𝑦 ′ + (1 − 𝑦) log(1 − 𝑦 ′ ).edu/people/tj/svm_light/svm_rank.html 21 1 Đây cũng là hàm lồi và Hàm dự đoán (𝑤, 𝑥) =. Hàm biến đổi khi tính theo 1+𝑒−(𝑤,𝑥) 1+𝑦 hướng Pairwise là 𝑡(𝑦) =. Giá trị của t (y – y’) luôn nằm trong [0, 1] khi y, y’ cũng 2 thuộc đoạn đó.

 Phương thức xếp hạng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng mô hình chủ đề ẩn

Phân hạng dòng cập nhật trên Twitter

Phương pháp học xếp hạng

Đánh giá độ ảnh hưởng người dùng