Luận văn thạc sĩ về ứng dụng mô hình chủ đề ẩn trong phân hạng lại dòng cập nhật trên Twitter

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

2016

60
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu về mô hình chủ đề ẩn và phân hạng dòng cập nhật

Mô hình chủ đề ẩn (Latent Dirichlet Allocation - LDA) là một phương pháp mạnh mẽ trong việc phân tích dữ liệu văn bản, cho phép khai thác các chủ đề tiềm ẩn trong một tập hợp văn bản. Trong bối cảnh mạng xã hội Twitter, việc áp dụng mô hình này giúp phân tích và phân loại các dòng cập nhật dựa trên nội dung của chúng. Phân hạng dòng cập nhật là một bài toán quan trọng, nhằm sắp xếp các tweet theo mức độ quan tâm của người dùng. Điều này không chỉ giúp người dùng tiết kiệm thời gian mà còn nâng cao trải nghiệm sử dụng Twitter. Theo nghiên cứu của Hong và cộng sự (2012), việc xếp hạng các dòng cập nhật có thể giảm thiểu tình trạng người dùng bị ngập trong thông tin không cần thiết. Mô hình LDA được sử dụng để làm giàu đặc trưng nội dung của tweet, từ đó cải thiện độ chính xác trong việc phân hạng. Việc áp dụng mô hình này vào phân tích dữ liệu Twitter không chỉ mang lại giá trị lý thuyết mà còn có ứng dụng thực tiễn cao trong việc tối ưu hóa trải nghiệm người dùng.

1.1. Tầm quan trọng của việc phân hạng dòng cập nhật

Trong thời đại thông tin hiện nay, người dùng Twitter thường xuyên phải đối mặt với một lượng lớn dòng cập nhật từ các tài khoản mà họ theo dõi. Việc phân hạng các dòng cập nhật giúp người dùng dễ dàng tiếp cận thông tin quan trọng và giảm thiểu thời gian lãng phí. Theo Liangjie và cộng sự (2012), người dùng có thể mất nhiều thời gian để tìm kiếm thông tin hữu ích trong số lượng lớn các tweet. Do đó, việc áp dụng các phương pháp như thuật toán phân loạihọc máy vào bài toán này là cần thiết. Hệ thống phân hạng không chỉ giúp người dùng tiết kiệm thời gian mà còn nâng cao sự hài lòng khi sử dụng Twitter. Hơn nữa, việc sử dụng mô hình chủ đề ẩn để phân tích nội dung tweet cho phép hệ thống hiểu rõ hơn về sở thích và thói quen của người dùng, từ đó cải thiện độ chính xác trong việc phân hạng.

II. Phương pháp học xếp hạng và mô hình chủ đề ẩn

Phương pháp học xếp hạng (Ranking Learning) là một trong những kỹ thuật quan trọng trong việc tối ưu hóa quá trình phân hạng. Trong luận văn này, phương pháp CRR (Combined Regression and Ranking) được áp dụng để cải thiện mô hình phân hạng dòng cập nhật trên Twitter. Mô hình chủ đề ẩn LDA được sử dụng để làm giàu đặc trưng nội dung của tweet, giúp hệ thống có thể phân tích và phân loại các tweet một cách hiệu quả hơn. Việc kết hợp giữa thuật toán Apriori và mô hình LDA cho phép khai thác độ ảnh hưởng của người dùng, từ đó nâng cao độ chính xác trong việc phân hạng. Theo nghiên cứu của Erlandsson và cộng sự (2016), việc xác định độ ảnh hưởng của người dùng thông qua khai thác luật kết hợp là một phương pháp hiệu quả. Điều này không chỉ giúp cải thiện mô hình mà còn mang lại giá trị thực tiễn trong việc tư vấn cho người dùng về các tweet mà họ nên xem trước.

2.1. Ứng dụng mô hình chủ đề ẩn trong phân tích dữ liệu Twitter

Mô hình chủ đề ẩn LDA cho phép phân tích các tweet dựa trên nội dung và xác định các chủ đề tiềm ẩn. Việc áp dụng mô hình này vào dữ liệu Twitter giúp hệ thống hiểu rõ hơn về các xu hướng và sở thích của người dùng. Theo nghiên cứu của Xiao và cộng sự (2015), độ ảnh hưởng của người dùng có thể được xác định thông qua các tweet mà họ đăng tải và tương tác. Điều này cho phép hệ thống phân hạng các tweet không chỉ dựa trên nội dung mà còn dựa trên độ ảnh hưởng của người dùng. Hệ thống sẽ ưu tiên hiển thị các tweet từ những người dùng có độ ảnh hưởng cao hơn, từ đó nâng cao trải nghiệm người dùng trên Twitter. Việc kết hợp giữa mô hình LDA và phương pháp học xếp hạng không chỉ mang lại giá trị lý thuyết mà còn có ứng dụng thực tiễn cao trong việc tối ưu hóa trải nghiệm người dùng.

III. Kết quả thực nghiệm và đánh giá

Thực nghiệm được thực hiện trên dữ liệu Twitter của người dùng Jon Bowzer Bauman cho thấy kết quả khả quan khi áp dụng mô hình phân hạng dòng cập nhật. Các chỉ số đánh giá như Precision@KMean Average Precision cho thấy sự cải thiện đáng kể trong việc phân hạng các tweet. Việc áp dụng mô hình chủ đề ẩn LDA đã giúp hệ thống phân tích nội dung tweet một cách hiệu quả, từ đó nâng cao độ chính xác trong việc phân hạng. Hệ thống cũng cho thấy khả năng thích ứng tốt với các thay đổi trong hành vi người dùng, nhờ vào việc khai thác độ ảnh hưởng của người dùng thông qua luật kết hợp. Kết quả thực nghiệm không chỉ khẳng định tính khả thi của mô hình mà còn mở ra hướng nghiên cứu mới trong việc tối ưu hóa trải nghiệm người dùng trên mạng xã hội.

3.1. Đánh giá hiệu quả của mô hình

Kết quả thực nghiệm cho thấy mô hình phân hạng dòng cập nhật đã đạt được hiệu quả cao trong việc sắp xếp các tweet theo mức độ quan tâm của người dùng. Các chỉ số đánh giá cho thấy sự cải thiện rõ rệt so với các mô hình trước đó. Việc áp dụng mô hình chủ đề ẩn LDA không chỉ giúp nâng cao độ chính xác trong việc phân hạng mà còn giúp hệ thống hiểu rõ hơn về sở thích của người dùng. Điều này cho phép hệ thống cung cấp các tweet có độ quan tâm cao hơn cho người dùng, từ đó nâng cao trải nghiệm sử dụng Twitter. Hệ thống cũng cho thấy khả năng thích ứng tốt với các thay đổi trong hành vi người dùng, nhờ vào việc khai thác độ ảnh hưởng của người dùng thông qua luật kết hợp.

25/01/2025
Luận văn thạc sĩ ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội twitter luận văn ths máy tính 60 48 01
Bạn đang xem trước tài liệu : Luận văn thạc sĩ ứng dụng các mô hình chủ đề ẩn vào mô hình phân hạng lại dòng cập nhật trên mạng xã hội twitter luận văn ths máy tính 60 48 01

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về ứng dụng mô hình chủ đề ẩn trong phân hạng lại dòng cập nhật trên Twitter" của tác giả Nguyễn Thị Tươi, dưới sự hướng dẫn của PGS. Hà Quang Thụy, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2016. Bài viết tập trung vào việc áp dụng mô hình chủ đề ẩn (Latent Dirichlet Allocation - LDA) để phân loại và xếp hạng các dòng cập nhật trên Twitter, từ đó giúp cải thiện khả năng tìm kiếm và phân tích dữ liệu trên nền tảng mạng xã hội này.

Bài luận không chỉ cung cấp cái nhìn sâu sắc về các phương pháp phân tích dữ liệu mà còn mở ra hướng đi mới cho việc ứng dụng công nghệ thông tin trong lĩnh vực truyền thông xã hội. Độc giả có thể tìm hiểu thêm về các ứng dụng công nghệ thông tin trong giáo dục qua bài viết "Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ", hoặc khám phá thêm về "Luận văn về quản lý điều hành khoa học công nghệ thông tin và nguồn lực thông tin". Những tài liệu này sẽ giúp bạn mở rộng kiến thức về ứng dụng công nghệ thông tin trong các lĩnh vực khác nhau.