Luận văn thạc sĩ về ứng dụng mô hình chủ đề ẩn trong phân hạng lại dòng cập nhật trên Twitter

Luận văn thạc sĩ nghiên cứu ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội twitter, khảo sát thực trạng, phân tích nguyên nhân, đề xuất

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

LỜI CAM ĐOAN

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG BIỂU

DANH SÁCH CÁC TỪ VIẾT TẮT

1. CHƯƠNG 1: DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER VÀ BÀI TOÁN XẾP HẠNG DÒNG

1.1. Mạng xã hội Twitter và dòng cập nhật trên Twitter

1.2. Bài toán xếp hạng dòng cập nhật. Một số định nghĩa

1.3. Bài toán xếp hạng dòng cập nhật. Hướng tiếp cận giải quyết bài toán

1.4. Ý nghĩa của bài toán xếp hạng dòng

1.5. Tóm tắt chương 1

2. CÁC PHƯƠNG PHÁP HỌC XẾP HẠNG, MÔ HÌNH CHỦ ĐỀ ẨN VÀ LUẬT KẾT HỢP

2.1. Một số nội dung cơ bản về Xếp hạng dòng

2.2. Học xếp hạng

2.3. Các phương pháp học xếp hạng điển hình

2.4. Phương pháp đánh giá xếp hạng dòng

2.5. Mô hình chủ đề ẩn

2.6. Phương pháp mô hình chủ đề ẩn

2.7. Luật kết hợp

2.8. Thuật toán Apriori

2.9. Nhận xét và ý tưởng

2.10. Tóm tắt chương 2

3. MÔ HÌNH XẾP HẠNG DÒNG CẬP NHẬT TRÊN TWITTER

3.1. Phương pháp đề xuất

3.2. Đặc trưng và điểm số quan tâm của tweet

3.3. Điểm số quan tâm của tweet. Đặc trưng của tweet

3.4. Tóm tắt chương 3

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường thực nghiệm. Cấu hình phần cứng

4.2. Công cụ phần mềm

4.3. Dữ liệu thực nghiệm

4.4. Kết quả và Đánh giá

KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về mô hình chủ đề ẩn và phân hạng dòng cập nhật

Mô hình chủ đề ẩn (Latent Dirichlet Allocation - LDA) là một phương pháp mạnh mẽ trong việc phân tích dữ liệu văn bản, cho phép khai thác các chủ đề tiềm ẩn trong một tập hợp văn bản. Trong bối cảnh mạng xã hội Twitter, việc áp dụng mô hình này giúp phân tích và phân loại các dòng cập nhật dựa trên nội dung của chúng. Phân hạng dòng cập nhật là một bài toán quan trọng, nhằm sắp xếp các tweet theo mức độ quan tâm của người dùng. Điều này không chỉ giúp người dùng tiết kiệm thời gian mà còn nâng cao trải nghiệm sử dụng Twitter. Theo nghiên cứu của Hong và cộng sự (2012), việc xếp hạng các dòng cập nhật có thể giảm thiểu tình trạng người dùng bị ngập trong thông tin không cần thiết. Mô hình LDA được sử dụng để làm giàu đặc trưng nội dung của tweet, từ đó cải thiện độ chính xác trong việc phân hạng. Việc áp dụng mô hình này vào phân tích dữ liệu Twitter không chỉ mang lại giá trị lý thuyết mà còn có ứng dụng thực tiễn cao trong việc tối ưu hóa trải nghiệm người dùng.

1.1. Tầm quan trọng của việc phân hạng dòng cập nhật

Trong thời đại thông tin hiện nay, người dùng Twitter thường xuyên phải đối mặt với một lượng lớn dòng cập nhật từ các tài khoản mà họ theo dõi. Việc phân hạng các dòng cập nhật giúp người dùng dễ dàng tiếp cận thông tin quan trọng và giảm thiểu thời gian lãng phí. Theo Liangjie và cộng sự (2012), người dùng có thể mất nhiều thời gian để tìm kiếm thông tin hữu ích trong số lượng lớn các tweet. Do đó, việc áp dụng các phương pháp như thuật toán phân loại và học máy vào bài toán này là cần thiết. Hệ thống phân hạng không chỉ giúp người dùng tiết kiệm thời gian mà còn nâng cao sự hài lòng khi sử dụng Twitter. Hơn nữa, việc sử dụng mô hình chủ đề ẩn để phân tích nội dung tweet cho phép hệ thống hiểu rõ hơn về sở thích và thói quen của người dùng, từ đó cải thiện độ chính xác trong việc phân hạng.

II. Phương pháp học xếp hạng và mô hình chủ đề ẩn

Phương pháp học xếp hạng (Ranking Learning) là một trong những kỹ thuật quan trọng trong việc tối ưu hóa quá trình phân hạng. Trong luận văn này, phương pháp CRR (Combined Regression and Ranking) được áp dụng để cải thiện mô hình phân hạng dòng cập nhật trên Twitter. Mô hình chủ đề ẩn LDA được sử dụng để làm giàu đặc trưng nội dung của tweet, giúp hệ thống có thể phân tích và phân loại các tweet một cách hiệu quả hơn. Việc kết hợp giữa thuật toán Apriori và mô hình LDA cho phép khai thác độ ảnh hưởng của người dùng, từ đó nâng cao độ chính xác trong việc phân hạng. Theo nghiên cứu của Erlandsson và cộng sự (2016), việc xác định độ ảnh hưởng của người dùng thông qua khai thác luật kết hợp là một phương pháp hiệu quả. Điều này không chỉ giúp cải thiện mô hình mà còn mang lại giá trị thực tiễn trong việc tư vấn cho người dùng về các tweet mà họ nên xem trước.

2.1. Ứng dụng mô hình chủ đề ẩn trong phân tích dữ liệu Twitter

Mô hình chủ đề ẩn LDA cho phép phân tích các tweet dựa trên nội dung và xác định các chủ đề tiềm ẩn. Việc áp dụng mô hình này vào dữ liệu Twitter giúp hệ thống hiểu rõ hơn về các xu hướng và sở thích của người dùng. Theo nghiên cứu của Xiao và cộng sự (2015), độ ảnh hưởng của người dùng có thể được xác định thông qua các tweet mà họ đăng tải và tương tác. Điều này cho phép hệ thống phân hạng các tweet không chỉ dựa trên nội dung mà còn dựa trên độ ảnh hưởng của người dùng. Hệ thống sẽ ưu tiên hiển thị các tweet từ những người dùng có độ ảnh hưởng cao hơn, từ đó nâng cao trải nghiệm người dùng trên Twitter. Việc kết hợp giữa mô hình LDA và phương pháp học xếp hạng không chỉ mang lại giá trị lý thuyết mà còn có ứng dụng thực tiễn cao trong việc tối ưu hóa trải nghiệm người dùng.

III. Kết quả thực nghiệm và đánh giá

Thực nghiệm được thực hiện trên dữ liệu Twitter của người dùng Jon Bowzer Bauman cho thấy kết quả khả quan khi áp dụng mô hình phân hạng dòng cập nhật. Các chỉ số đánh giá như Precision@K và Mean Average Precision cho thấy sự cải thiện đáng kể trong việc phân hạng các tweet. Việc áp dụng mô hình chủ đề ẩn LDA đã giúp hệ thống phân tích nội dung tweet một cách hiệu quả, từ đó nâng cao độ chính xác trong việc phân hạng. Hệ thống cũng cho thấy khả năng thích ứng tốt với các thay đổi trong hành vi người dùng, nhờ vào việc khai thác độ ảnh hưởng của người dùng thông qua luật kết hợp. Kết quả thực nghiệm không chỉ khẳng định tính khả thi của mô hình mà còn mở ra hướng nghiên cứu mới trong việc tối ưu hóa trải nghiệm người dùng trên mạng xã hội.

3.1. Đánh giá hiệu quả của mô hình

Kết quả thực nghiệm cho thấy mô hình phân hạng dòng cập nhật đã đạt được hiệu quả cao trong việc sắp xếp các tweet theo mức độ quan tâm của người dùng. Các chỉ số đánh giá cho thấy sự cải thiện rõ rệt so với các mô hình trước đó. Việc áp dụng mô hình chủ đề ẩn LDA không chỉ giúp nâng cao độ chính xác trong việc phân hạng mà còn giúp hệ thống hiểu rõ hơn về sở thích của người dùng. Điều này cho phép hệ thống cung cấp các tweet có độ quan tâm cao hơn cho người dùng, từ đó nâng cao trải nghiệm sử dụng Twitter. Hệ thống cũng cho thấy khả năng thích ứng tốt với các thay đổi trong hành vi người dùng, nhờ vào việc khai thác độ ảnh hưởng của người dùng thông qua luật kết hợp.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội twitter luận văn ths máy tính 60 48 01

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Mạng xã hội Twitter, với khoảng 316 triệu người dùng hoạt động hàng tháng tính đến năm 2016, đã trở thành một nền tảng quan trọng cung cấp thông tin cập nhật theo thời gian thực. Tuy nhiên, lượng lớn dòng cập nhật (tweet) từ vòng kết nối rộng lớn của người dùng dẫn đến tình trạng tràn ngập thông tin, gây khó khăn trong việc tiếp nhận các nội dung quan trọng. Nghiên cứu tập trung vào bài toán xếp hạng dòng cập nhật trên Twitter nhằm sắp xếp các tweet theo mức độ quan tâm của từng người dùng, giúp giảm thiểu thời gian lãng phí và nâng cao trải nghiệm người dùng. Mục tiêu chính của luận văn là phát triển mô hình xếp hạng dòng cập nhật hiệu quả bằng cách ứng dụng các mô hình chủ đề ẩn (LDA) và khai phá luật kết hợp (Apriori) để làm giàu đặc trưng, đồng thời sử dụng phương pháp học xếp hạng CRR để xây dựng hàm tính hạng. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập trong tháng 10 năm 2016 từ người dùng Jon Bowzer Bauman trên Twitter. Kết quả nghiên cứu có ý nghĩa lớn trong việc cải thiện hệ thống tư vấn nội dung cá nhân hóa, tăng độ chính xác của xếp hạng dòng cập nhật, từ đó nâng cao sự hài lòng và giữ chân người dùng trên mạng xã hội.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Học xếp hạng (Learning to Rank):** Phương pháp học máy giám sát nhằm xây dựng hàm tính hạng tự động từ dữ liệu huấn luyện có gán nhãn. Luận văn sử dụng thuật toán CRR (Combined Regression and Ranking), kết hợp giữa hồi quy tuyến tính và SVM-rank, để tối ưu hóa hiệu quả xếp hạng.
- **Mô hình chủ đề ẩn Latent Dirichlet Allocation (LDA):** Mô hình xác suất phân phối các chủ đề ẩn trong tài liệu, giúp biểu diễn nội dung tweet dưới dạng phân phối xác suất trên các chủ đề, làm giàu đặc trưng nội dung cho mô hình xếp hạng.
- **Luật kết hợp (Association Rule) và thuật toán Apriori:** Phương pháp khai phá các mối quan hệ đồng xuất hiện trong dữ liệu lớn, được sử dụng để xác định độ ảnh hưởng của người dùng dựa trên các luật kết hợp giữa các người dùng trong tập tweet.

Các khái niệm chính bao gồm: dòng cập nhật (tweet), độ ảnh hưởng người dùng, đặc trưng nội dung, đặc trưng hành vi (retweet, reply, favorite), và các chỉ số đánh giá xếp hạng như Precision@K và Mean Average Precision (MAP).

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Hơn 6400 dòng tweet thu thập từ người dùng Jon Bowzer Bauman trong tháng 10 năm 2016, sau khi lọc loại bỏ các tweet không hiển thị trên timelines, còn lại 5854 tweet được chia thành tập huấn luyện (5254 tweet) và tập kiểm tra (600 tweet).
- **Phân tích dữ liệu:** Tiền xử lý dữ liệu bao gồm tách từ, loại bỏ tên người dùng, từ dừng, ký tự đặc biệt, hash tag và URL. Mô hình LDA được huấn luyện với 30 chủ đề ẩn để trích xuất đặc trưng nội dung. Thuật toán Apriori được áp dụng để khai phá luật kết hợp giữa các người dùng, xác định đặc trưng độ ảnh hưởng người dùng.
- **Phương pháp phân tích:** Sử dụng thuật toán học xếp hạng CRR để xây dựng mô hình tính hạng dựa trên các đặc trưng nội dung và độ ảnh hưởng người dùng. Đánh giá mô hình bằng các chỉ số Precision@K và MAP.
- **Timeline nghiên cứu:** Thu thập và xử lý dữ liệu trong tháng 10 năm 2016, thực hiện huấn luyện và đánh giá mô hình trong cùng năm.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Việc bổ sung đặc trưng độ ảnh hưởng người dùng dựa trên luật kết hợp vào mô hình xếp hạng dòng cập nhật đã cải thiện đáng kể hiệu quả xếp hạng. Thí nghiệm với mô hình có đặc trưng độ ảnh hưởng (TN1) cho kết quả Precision@5 tăng khoảng 10% so với mô hình không sử dụng đặc trưng này (TN2).
- Độ chính xác trung bình (MAP) của mô hình TN1 đạt mức cao hơn khoảng 8% so với TN2, chứng tỏ sự đóng góp tích cực của đặc trưng độ ảnh hưởng người dùng trong việc nâng cao chất lượng xếp hạng.
- Mô hình chủ đề ẩn LDA với 30 chủ đề đã thể hiện hiệu quả trong việc trích xuất đặc trưng nội dung, giúp mô hình học xếp hạng nhận diện được các chủ đề quan tâm của người dùng.
- Số lượng luật kết hợp tìm được qua thuật toán Apriori phản ánh chính xác mức độ ảnh hưởng của người dùng, từ đó làm giàu đặc trưng cho mô hình xếp hạng.

### Thảo luận kết quả

Nguyên nhân cải thiện hiệu quả xếp hạng khi bổ sung đặc trưng độ ảnh hưởng người dùng là do các tweet từ những người dùng có ảnh hưởng lớn thường thu hút sự quan tâm cao hơn từ người nhận, phù hợp với hành vi thực tế trên mạng xã hội. So sánh với các nghiên cứu trước đây chỉ sử dụng đặc trưng nội dung hoặc hành vi đơn thuần, việc kết hợp luật kết hợp để đánh giá độ ảnh hưởng người dùng là một bước tiến mới, giúp mô hình xếp hạng cá nhân hóa và chính xác hơn. Kết quả có thể được minh họa qua biểu đồ so sánh Precision@K và MAP giữa hai mô hình TN1 và TN2, thể hiện sự vượt trội rõ rệt của mô hình có đặc trưng độ ảnh hưởng. Điều này khẳng định tính khả thi và hiệu quả của việc tích hợp các phương pháp khai phá dữ liệu và học máy trong bài toán xếp hạng dòng cập nhật trên mạng xã hội.

## Đề xuất và khuyến nghị

- **Triển khai mô hình xếp hạng tích hợp đặc trưng độ ảnh hưởng người dùng:** Áp dụng mô hình CRR kết hợp LDA và luật kết hợp trong các hệ thống mạng xã hội để nâng cao trải nghiệm người dùng, giảm thời gian xử lý dòng cập nhật. Thời gian thực hiện: 6-12 tháng, chủ thể: các nhà phát triển mạng xã hội.
- **Phát triển công cụ khai phá luật kết hợp tối ưu:** Tối ưu thuật toán Apriori để xử lý dữ liệu lớn, tăng tốc độ khai phá luật kết hợp, đảm bảo tính thời gian thực của hệ thống. Thời gian thực hiện: 3-6 tháng, chủ thể: nhóm nghiên cứu và phát triển phần mềm.
- **Mở rộng nghiên cứu với đa dạng người dùng và dữ liệu:** Thu thập và phân tích dữ liệu từ nhiều người dùng khác nhau để đánh giá tính tổng quát của mô hình, điều chỉnh tham số phù hợp. Thời gian thực hiện: 6 tháng, chủ thể: nhóm nghiên cứu học thuật.
- **Tích hợp thêm các đặc trưng hành vi mới:** Nghiên cứu bổ sung các đặc trưng như thời gian tương tác, mức độ tương tác đa chiều để làm giàu mô hình xếp hạng, nâng cao độ chính xác. Thời gian thực hiện: 6 tháng, chủ thể: nhóm nghiên cứu và phát triển sản phẩm.
- **Đào tạo và hướng dẫn sử dụng mô hình cho các nhà quản lý mạng xã hội:** Tổ chức các khóa đào tạo về ứng dụng mô hình xếp hạng dòng cập nhật để tăng cường hiệu quả quản lý nội dung và tương tác người dùng. Thời gian thực hiện: liên tục, chủ thể: tổ chức đào tạo và doanh nghiệp mạng xã hội.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Hệ Thống Thông Tin:** Nắm bắt kiến thức về học xếp hạng, mô hình chủ đề ẩn và khai phá luật kết hợp, áp dụng vào các bài toán xử lý dữ liệu lớn và mạng xã hội.
- **Phát triển sản phẩm mạng xã hội và hệ thống tư vấn nội dung:** Áp dụng mô hình xếp hạng dòng cập nhật để cải thiện trải nghiệm người dùng, tăng tính cá nhân hóa và hiệu quả hiển thị nội dung.
- **Chuyên gia phân tích dữ liệu và khai phá dữ liệu:** Tham khảo phương pháp khai phá luật kết hợp và ứng dụng trong đánh giá độ ảnh hưởng người dùng trên mạng xã hội.
- **Quản lý và vận hành mạng xã hội:** Hiểu rõ cơ chế xếp hạng dòng cập nhật, từ đó xây dựng chiến lược quản lý nội dung và tương tác người dùng hiệu quả hơn.

## Câu hỏi thường gặp

1. **Mô hình học xếp hạng CRR là gì và tại sao được chọn?**  
CRR là phương pháp kết hợp giữa hồi quy tuyến tính và học xếp hạng SVM-rank, giúp tối ưu đồng thời sai số hồi quy và sai số xếp hạng. Phương pháp này được chọn vì khả năng cải thiện hiệu quả xếp hạng so với các phương pháp đơn lẻ.

2. **LDA giúp gì trong việc xếp hạng dòng cập nhật?**  
LDA trích xuất đặc trưng nội dung bằng cách phân phối xác suất các chủ đề ẩn trong mỗi tweet, giúp mô hình nhận diện nội dung quan tâm của người dùng, từ đó cải thiện độ chính xác xếp hạng.

3. **Luật kết hợp được sử dụng như thế nào để đánh giá độ ảnh hưởng người dùng?**  
Luật kết hợp khai phá các mối quan hệ đồng xuất hiện giữa người dùng trong tập tweet. Số lượng luật kết hợp liên quan đến một người dùng phản ánh độ ảnh hưởng của họ, được dùng làm đặc trưng bổ sung trong mô hình xếp hạng.

4. **Các chỉ số đánh giá mô hình xếp hạng được sử dụng là gì?**  
Đánh giá mô hình dựa trên Precision@K (độ chính xác ở top K kết quả) và Mean Average Precision (MAP), giúp đo lường mức độ chính xác và hiệu quả của mô hình trong việc sắp xếp các tweet quan tâm.

5. **Mô hình có thể áp dụng cho các mạng xã hội khác không?**  
Có, phương pháp học xếp hạng kết hợp LDA và luật kết hợp có thể được điều chỉnh và áp dụng cho các mạng xã hội khác có cấu trúc tương tự, nhằm cải thiện trải nghiệm người dùng trong việc xử lý dòng cập nhật.

## Kết luận

- Đề xuất mô hình xếp hạng dòng cập nhật trên Twitter kết hợp học xếp hạng CRR, mô hình chủ đề ẩn LDA và khai phá luật kết hợp Apriori, nâng cao hiệu quả xếp hạng cá nhân hóa.  
- Bổ sung đặc trưng độ ảnh hưởng người dùng dựa trên luật kết hợp giúp cải thiện đáng kể các chỉ số Precision@K và MAP.  
- Thực nghiệm với dữ liệu thực tế từ người dùng Jon Bowzer Bauman cho kết quả khả quan, khẳng định tính ứng dụng của mô hình.  
- Mô hình có thể mở rộng áp dụng cho các mạng xã hội khác và các hệ thống tư vấn nội dung cá nhân hóa.  
- Đề xuất các hướng nghiên cứu tiếp theo bao gồm tối ưu thuật toán, mở rộng dữ liệu và bổ sung đặc trưng hành vi mới để nâng cao hơn nữa hiệu quả mô hình.

Triển khai mô hình trong môi trường thực tế, mở rộng nghiên cứu đa người dùng và phát triển công cụ hỗ trợ khai phá luật kết hợp hiệu quả.  
**Kêu gọi:** Các nhà phát triển và nghiên cứu trong lĩnh vực mạng xã hội và học máy nên áp dụng và phát triển thêm các phương pháp tích hợp để nâng cao trải nghiệm người dùng.

Trích đoạn nội dung tài liệu

chương 1, luận văn đã trình bày tổng quan về mạng xã hội Twitter và nội dung liên quan tới dòng cập nhật. Luận văn cũng đã nêu lên được vấn đề bất lợi cho người dùng khi bị tràn ngập thông tin và phát biểu được bài toán xếp hạng các dòng cập nhật cùng hướng tiếp cận để giải quyết bài toán. Ngoài ra, luận văn cũng đã nêu lên ý nghĩa của bài toán này. Chương tiếp theo, chúng tôi thực hiện chi tiết hóa nền tảng kiến thức liên quan về học xếp hạng, mô hình chủ đề ẩn và luật kết hợp.

Đồng thời, chúng tôi trình bày thuật toán học xếp hạng, phương pháp mô hình chủ đề ẩn cũng như thuật toán tìm luật kết hợp được lựa chọn để xây dựng mô hình xếp hạng dòng. CÁC PHƯƠNG PHÁP HỌC XẾP HẠNG, MÔ HÌNH CHỦ ĐỀ ẨN VÀ LUẬT KẾT HỢP Chương này trình bày các nội dung nền tảng liên quan tới mô hình giải quyết bài toán. Mục đầu tiên trình bày nội dung cơ bản về xếp hạng dòng, các phương pháp học xếp hạng và các phương pháp đánh giá xếp hạng. Mục tiếp theo giới thiệu phương pháp làm giàu đặc trưng dựa trên mô hình chủ đề ẩn.

Mục sau đó trình bày luật kết hợp và thuật toán sinh luật kết hợp. Mục cuối cùng trình bày nội dung ý tưởng khai thác đặc trưng chủ đề ẩn và đặc trưng độ ảnh hưởng của người dùng dựa trên luật kết hợp trong học xếp hạng dòng của mô hình xếp hạng do luận văn đề xuất. Một số nội dung cơ bản về Xếp hạng dòng 2. Giới thiệu Xếp hạng nói chung được hiểu là sự sắp xếp.

Nhiều ứng dụng, phần mềm có sự sắp xếp, đơn giản như MS Excel, MS Dos, sự sắp xếp theo chiều tăng hay giảm của các dữ liệu. hay phức tạp hơn, trong các máy tìm kiếm, sắp xếp các kết quả trả về sao cho phù hợp. Đặc biệt, sắp xếp các dòng thông tin mới (tweet mới) trên mạng xã hội Twitter trên timelines của mỗi người dùng mang tính cá nhân và tư vấn cao. Đây chính là Xếp hạng dòng và cũng được coi là Xếp hạng đối tượng (với đối tượng là Tweet).

Công việc thiết yếu là sắp xếp các đối tượng tweet của mỗi người dùng theo sự giảm dần mức độ quan tâm của mỗi người dùng đó. Mỗi đối tượng tweet cần xác định giá trị thứ hạng thể hiện mức độ quan tâm của người dùng với nó. Do vậy, để xếp hạng các đối tượng, ta cần xác định hàm tính giá trị thứ hạng, gọi là hàm tính hạng. Mỗi đối tượng gồm có các đặc trưng là những chi tiết của bản thân đối tượng đó.

Hàm tính hạng là sự kết hợp của các đặc trưng này. Học xếp hạng Học xếp hạng là một loại học máy giám sát hoặc bán giám sát, trong đó mục tiêu là để tự động xây dựng một mô hình xếp hạng từ dữ liệu huấn luyện là tập dữ liệu đã có xếp hạng đúng. Học xếp hạng là một trong các phương pháp điển hình trong việc xếp hạng đối tượng đang nhận được khá nhiều sự quan tâm của các nhà nghiên cứu. Như đã giới thiệu, chúng tôi sử dụng học xếp hạng cho bài toán đặc biệt Xếp hạng dòng (không có câu truy vấn) với giả thiết tất cả các tweet mới tương ứng với tập kết quả trả về với một câu truy vấn.

Như đã đề cập trong [1], các thuật toán học xếp hạng đều có hai nhiệm vụ chính: (1) xây dựng hàm tính hạng, (2) tính toán thứ hạng của đối tượng mới. Các nhiệm vụ có đầu vào và đầu ra khác nhau, cụ thể như sau:  Xây dựng hàm tính hạng o Đầu vào: Tập các đối tượng có sẵn thứ tự đúng và các đặc trưng o Đầu ra: Hàm tính hạng  Tính toán thứ hạng đối tượng mới o Đầu vào: Tập đối tượng mới và hàm tính hạng o Đầu ra: Thứ hạng của mỗi đối tượng Hàm tính hạng thu được từ các thuật toán học được sử dụng để tính hạng cho các tài liệu mới: cho một tập các đối tượng mới cần được sắp xếp thứ tự, hàm tính hạng thu được sẽ tính toán ra thứ hạng của mỗi đối tượng trong danh sách đó. Để biết được độ chính xác của hàm tính hạng này, tập dữ liệu kiểm tra được sử dụng. Các độ chính xác thu được nhờ việc áp dụng các phương pháp đánh giá xếp hạng.

Một số hướng tiếp cận của học xếp hạng. Liu [4] đã phân tích các thuật toán học xếp hạng và chỉ ra sự phân chia các thuật toán đó theo các hướng tiếp cận như sau:  Hướng tiếp cận Pointwise Theo hướng này, các đối tượng xi trong dữ liệu học có một điểm số hay thứ tự yi. Tiếp đó, học xếp hạng có thể được xấp xỉ bởi hồi quy (hồi quy có thứ tự). Một số thuật toán học xếp hạng như: OPRF [4], SLR [19]…  Hướng tiếp cận Pairwise Có D = {(xi, xj)} là tập các cặp đối tượng được sắp thứ tự, với mỗi cặp (xi, xj) có thứ hạng của xi cao hơn thứ hạng của xj, hay xi phù hợp hơn xj: xi> xj).

Tìm r(x): ∀(𝑥𝑖 , 𝑥𝑗 ) ∈ 𝑆 𝑐ó 𝑥𝑖 > 𝑥𝑗 𝑡ℎì 𝑟(𝑥𝑖 ) > 𝑟(𝑥𝑗 ) Một số thuật toán học xếp hạng như SVM-rank, RankRLS … z 19  Hướng tiếp cận Listwise Các thuật toán theo hướng này cố gắng trực tiếp sắp xếp tất cả các đối tượng trong dữ liệu học. Điều này thực sự khó khăn. Khi thứ hạng của K đối tượng đầu tiên được xác định thì tất cả các đối tượng khác đều có hạng thấp hơn. Với D = {x1, x2…, xm} có sắp thứ tự: x1 > x2 >… > xm, tìm hàm tính hạng r(x) sao cho r(x1) > r(x2)> … > r(xm).

Một số thuật toán học xếp hạng như ListMLE, PermuRank … Sử dụng phương pháp học xếp hạng để xây dựng mô hình tính hạng, cần xây dựng tập dữ liệu huấn luyện là đầu vào của quá trình học. Việc xây dựng cũng như định dạng của dữ liệu huấn luyện, luận văn sẽ đề cập trong phần sau. Ngay sau đây, chúng tôi sẽ nói về các thuật toán học xếp hạng cụ thể như SVM-rank và CRR. Thuật toán SVM-rank là một thuật toán khá phổ biến và thuật toán CRR là kết quả của ý tưởng kết hợp thuật toán xếp hạng (SVM-rank) với hồi quy tuyến tính.

Để hiểu hơn về sự kết hợp trong CRR, chúng tôi nghiên cứu và áp dụng thuật toán này vào mô hình đề xuất của mình để xây dựng mô hình tính hạng cho mỗi người dùng. Các phương pháp học xếp hạng điển hình 2. Phương pháp SVM-rank Xếp hạng SVM (SVM-rank) [20] là một ứng dụng của máy véc-tơ hỗ trợ (Support vector machine) được sử dụng để giải quyết bài toán xếp hạng bằng việc sử dụng thuật toán học giám sát SVM. SVM-rank được Joachims công bố năm 2002 với mục đích cải thiện hiệu suất của các công cụ tìm kiếm trên Internet.

SVM-rank là thuật toán học xếp hạng theo hướng tiếp cận pairwise. Chẳng hạn, ta có tập sắp thứ tự D = {(d1, 3), (d2, 1), (d3, 1)}, khi đó có các cặp so sánh thứ tự (d2, d1) và (d3, d1), cặp (d2, d3) không xác định thứ tự so sánh. Giải quyết bài toán theo hướng tiếp cận Pairwise, xếp hạng được đưa về bài toán phân lớp cho từng cặp đối tượng. Với X là tập các đặc trưng của từng đối tượng và R là tập các thứ hạng, ta có ánh xạ thể hiện hàm tính hạng: 𝑋 → 𝑅 , 𝑥𝑖 > 𝑥𝑗 ↔ 𝑟(𝑥𝑖 ) > 𝑟( 𝑥𝑗 ) 𝑟 (𝑥 ) = 𝑤 𝑇 𝑥 (2.1) Tư tưởng chính của SVM [21] là xác định biên (siêu phẳng) chia không gian các đối tượng cần xếp hàng thành hai nửa và tìm siêu phẳng tốt nhất (tối ưu) mà khoảng cách từ siêu phẳng tới đối tượng gần nhất trong cả 2 tập phân chia là lớn nhất.

Với dữ liệu có thể phân tách tuyến tính, siêu phẳng có dạng: 𝑤 𝑇 𝑥 + 𝑏 = 0. Từ đây, có thể thấy mối quan hệ giữa hàm tính hạng 𝑟(𝑥) và siêu phẳng. Do đó, dựa vào phương pháp SVM, tìm được siêu phẳng sẽ suy ra hàm tính hạng 𝑟(𝑥). Đây chính là tư tưởng chính của SVM-rank.

z 20 Các công cụ SVM , SVM do T. Joachims cung cấp2 cho người dụng lựa chọn light rank học xếp hạng đối tượng dựa vào phương pháp này. Nhiều phương pháp dựa vào tối ưu SVM, chẳng hạn [5, 22]…Trong [5], sự kết hợp xếp hạng dựa trên SVM-rank với hồi quy, Sculley đưa ra thuật toán CRR sẽ được trình bày trong phần tiếp theo. Phương pháp CRR Trong [5], D.Sculley đưa ra nhận định rằng mô hình hồi quy tốt sẽ cho xếp hạng tốt, nhưng mô hình hồi quy chưa thực sự hoàn hảo có thể dẫn tới hiệu quả của xếp hạng là không tốt.

Tương tự với mô hình xếp hạng, trong trường hợp không tốt, mô hình xếp hạng có thể cho kết quả không cao. Tác giả tìm ra phương pháp kết hợp cho hiệu quả tốt ở cả hồi quy và xếp hạng. Tư tưởng chính của phương pháp này là xây dựng mô hình tính hạng dựa trên mô hình hồi quy tuyến tính và mô hình tính hạng pairwise (sử dụng SVM-rank):  Phương thức hồi quy Mục tiêu của hồi quy có giám sát là học mô hình w để dự đoán giá trị mục tiêu thực 𝑦 ′ ∈ 𝑅 cho véc-tơ đặc trưng x, sử dụng hàm dự đoán f(w,x), có sai số nhỏ và hàm loss function l(y,y’) (loss function là hàm tính độ sai lệch giữa y và y’). Mục tiêu để rủi ro cho mô hình là thấp nhất là làm cho sai số nhỏ, với loss function được cho bởi công thức: 1 𝐿(𝑤, 𝐷 ) = ∑ 𝑙(𝑦, 𝑓 (𝑤, 𝑥)) (2.2) |𝐷| (𝑥,𝑦,𝑞)∈𝐷) Ở đây, l(y,y’) là hàm sai số cho từng đối tượng và được tính theo hàm logistic loss [5, 23], với y’ = f(w,x) và y là giá trị đúng của x.

Công thức thể hiện sai số nhỏ nhất với mô hình w như sau:  2 𝑚𝑖𝑛𝑤∈𝑅𝑚 𝐿(𝑤, 𝐷 ) + ||𝑤||2 (2.3) 2 Logistic loss [5, 23] thường được sử dụng trong hồi quy tuyến tính, phương thức này thường sử dụng trong phân lớp, nhưng nó cũng có thể là phương thức cho hồi quy trong việc dự đoán giá trị thực. Logistic loss như sau: 𝑦 ∈ [0,1], 𝑦 ′ ∈ [0,1] , 𝑙 (𝑦, 𝑦 ′ ) = 𝑦𝑙𝑜𝑔𝑦 ′ + (1 − 𝑦) log(1 − 𝑦 ′ ).edu/people/tj/svm_light/svm_rank.html z 21 1 Đây cũng là hàm lồi và Hàm dự đoán (𝑤, 𝑥) =. Hàm biến đổi khi tính theo 1+𝑒−(𝑤,𝑥) 1+𝑦 hướng Pairwise là 𝑡(𝑦) =. Giá trị của t (y – y’) luôn nằm trong [0, 1] khi y, y’ cũng 2 thuộc đoạn đó.

 Phương thức xếp hạng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về ứng dụng mô hình chủ đề ẩn trong phân hạng lại dòng cập nhật trên Twitter" của tác giả Nguyễn Thị Tươi, dưới sự hướng dẫn của PGS. Hà Quang Thụy, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2016. Bài viết tập trung vào việc áp dụng mô hình chủ đề ẩn (Latent Dirichlet Allocation - LDA) để phân loại và xếp hạng các dòng cập nhật trên Twitter, từ đó giúp cải thiện khả năng tìm kiếm và phân tích dữ liệu trên nền tảng mạng xã hội này.

Bài luận không chỉ cung cấp cái nhìn sâu sắc về các phương pháp phân tích dữ liệu mà còn mở ra hướng đi mới cho việc ứng dụng công nghệ thông tin trong lĩnh vực truyền thông xã hội. Độc giả có thể tìm hiểu thêm về các ứng dụng công nghệ thông tin trong giáo dục qua bài viết "Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ", hoặc khám phá thêm về "Luận văn về quản lý điều hành khoa học công nghệ thông tin và nguồn lực thông tin". Những tài liệu này sẽ giúp bạn mở rộng kiến thức về ứng dụng công nghệ thông tin trong các lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#mô hình chủ đề ẩn

#phân hạng dòng cập nhật

Chủ đề

Khoa học Dữ liệu

Học máy và trí tuệ nhân tạo

Nghiên cứu và ứng dụng trong công nghệ thông tin

Mạng xã hội và phân tích nội dung