Luận văn thạc sĩ về việc xác định ý định người dùng trên diễn đàn

Đề tài ý định người dùng trên diễn đàn qua luận văn thạc sĩ với cơ sở khoa học chặt chẽ, đóng góp giá trị cho nghiên cứu và thực tiễn chuyên ngành

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG

1.1. Xử lý ngôn ngữ tự nhiên

1.2. Khái niệm phân loại văn bản

1.3. Bài toán phát hiện ý định người dùng trên diễn đàn

1.4. Các nghiên cứu liên quan

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG DỰA TRÊN HỌC MÁY

2.1. Phương pháp giải quyết bài toán

2.2. Các phương pháp biểu diễn đặc trưng của văn bản

2.3. Phương pháp TF-IDF

2.4. Phương pháp N-Gram

2.5. Các phương pháp học máy xây dựng mô hình phân lớp dữ liệu

2.5.1. Phương pháp Naïve Bayes

2.5.2. Phương pháp SVM (Support Vector Machine)

2.5.3. Thuật toán EM, FS-EM, Co-Class

2.6. Kết chương

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Dữ liệu thực nghiệm. Thiết lập thực nghiệm

3.2. Công cụ thực nghiệm

3.3. Thực nghiệm trên 1 miền dữ liệu

3.4. Thực nghiệm trên 2 miền dữ liệu

3.5. So sánh kết quả thực nghiệm Co-Class với các thuật toán khác

3.6. Nhận xét thực nghiệm và kết luận

KẾT LUẬN VÀ KIẾN NGHỊ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nghiên cứu ý định người dùng

Nghiên cứu về ý định người dùng trên diễn đàn là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên. Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, việc hiểu và phân tích hành vi người dùng trở nên cần thiết. Các diễn đàn trực tuyến là nơi người dùng thể hiện ý định của mình thông qua các bài viết. Ví dụ, một bài viết như "Tôi đang tìm mua một TV plasma 40 inch" thể hiện rõ ràng ý định người dùng muốn mua sản phẩm. Tuy nhiên, không phải tất cả các bài viết đều thể hiện ý định rõ ràng, điều này tạo ra thách thức trong việc xác định ý định người dùng. Luận văn này sẽ tập trung vào việc phát hiện và phân tích ý định người dùng dựa trên nội dung bài viết, từ đó đưa ra các phương pháp hiệu quả để xác định ý định trong các tình huống khác nhau.

1.1. Khái niệm và tầm quan trọng của ý định người dùng

Khái niệm ý định người dùng được hiểu là mong muốn hoặc nhu cầu mà người dùng thể hiện thông qua các hành động hoặc bài viết trên diễn đàn. Việc xác định ý định người dùng không chỉ giúp các nhà nghiên cứu hiểu rõ hơn về hành vi của người dùng mà còn hỗ trợ trong việc phát triển các ứng dụng thông minh, như quảng cáo mục tiêu. Nghiên cứu này sẽ phân tích các phương pháp hiện có để phát hiện ý định người dùng, từ đó đề xuất các giải pháp cải tiến. Tầm quan trọng của việc xác định ý định người dùng nằm ở khả năng tối ưu hóa trải nghiệm người dùng và nâng cao hiệu quả của các chiến dịch marketing.

II. Phân tích dữ liệu và phương pháp nghiên cứu

Phân tích dữ liệu là bước quan trọng trong việc xác định ý định người dùng. Luận văn sẽ sử dụng các phương pháp học máy để phân tích dữ liệu từ các bài viết trên diễn đàn. Các phương pháp như TF-IDF và N-Gram sẽ được áp dụng để biểu diễn đặc trưng của văn bản. Việc sử dụng các phương pháp này giúp tăng cường khả năng phân loại và phát hiện ý định người dùng trong các bài viết. Đặc biệt, luận văn sẽ nghiên cứu cách xử lý dữ liệu nhiễu, một vấn đề phổ biến trong các bài viết trên diễn đàn. Việc xác định và loại bỏ dữ liệu không liên quan sẽ giúp cải thiện độ chính xác của mô hình phân lớp.

2.1. Các phương pháp học máy trong nghiên cứu

Luận văn sẽ trình bày các phương pháp học máy như Naïve Bayes và Support Vector Machine (SVM). Những phương pháp này đã được chứng minh là hiệu quả trong việc phân loại văn bản và xác định ý định người dùng. Naïve Bayes là một phương pháp đơn giản nhưng mạnh mẽ, trong khi SVM cung cấp khả năng phân loại chính xác hơn trong các trường hợp phức tạp. Việc áp dụng các phương pháp này sẽ giúp xây dựng mô hình phân lớp dữ liệu hiệu quả, từ đó nâng cao khả năng phát hiện ý định người dùng trong các bài viết trên diễn đàn.

III. Kết quả thực nghiệm và đánh giá

Kết quả thực nghiệm sẽ được trình bày để đánh giá hiệu quả của các phương pháp đã áp dụng. Luận văn sẽ so sánh độ chính xác của các mô hình phân lớp trong việc xác định ý định người dùng trên dữ liệu cùng miền và dữ liệu chéo miền. Kết quả thực nghiệm sẽ cho thấy sự khác biệt trong hiệu suất của các phương pháp, từ đó đưa ra những nhận xét và kết luận về tính khả thi của các phương pháp trong thực tế. Việc đánh giá này không chỉ giúp khẳng định giá trị của nghiên cứu mà còn mở ra hướng đi mới cho các nghiên cứu tiếp theo trong lĩnh vực này.

3.1. So sánh kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng các phương pháp học máy có thể đạt được độ chính xác cao trong việc xác định ý định người dùng. Tuy nhiên, độ chính xác này có sự khác biệt rõ rệt giữa dữ liệu cùng miền và dữ liệu chéo miền. Các mô hình như Co-Class cho thấy tiềm năng trong việc cải thiện kết quả trên dữ liệu chéo miền. Việc phân tích và so sánh kết quả thực nghiệm sẽ giúp xác định những yếu tố ảnh hưởng đến hiệu suất của các mô hình, từ đó đề xuất các cải tiến cho các nghiên cứu trong tương lai.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ xác định bà viết chứa ý định người dùng trên diễn đàn

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh cách mạng công nghệ thông tin bùng nổ mạnh mẽ thế kỷ 21, việc xử lý và khai thác thông tin trên mạng Internet trở thành một thách thức lớn do lượng dữ liệu văn bản khổng lồ và đa dạng. Theo thống kê, mỗi diễn đàn trực tuyến có thể chứa gần 1000 bài viết với nội dung phong phú và đa dạng, trong đó chỉ một phần nhỏ thể hiện rõ ý định người dùng như nhu cầu mua bán sản phẩm. Vấn đề nghiên cứu tập trung vào việc xác định chính xác các bài viết chứa ý định người dùng trên diễn đàn, nhằm phục vụ cho các ứng dụng quảng cáo, thương mại điện tử và phân tích hành vi người dùng. Mục tiêu cụ thể của luận văn là phát triển phương pháp xác định bài viết có chứa ý định người dùng dựa trên nội dung văn bản, xử lý dữ liệu nhiễu và áp dụng cho cả dữ liệu cùng miền và chéo miền. Nghiên cứu được thực hiện trên dữ liệu thu thập từ 4 diễn đàn với gần 4000 bài viết, phân tích các chủ đề như điện thoại, điện tử, camera và TV. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại bài viết chứa ý định, góp phần cải thiện hiệu quả quảng cáo trực tuyến và hỗ trợ các hệ thống thông tin thông minh.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Xử lý ngôn ngữ tự nhiên (NLP):** Là lĩnh vực nghiên cứu các phương pháp giúp máy tính hiểu và xử lý ngôn ngữ con người, bao gồm các kỹ thuật như phân loại văn bản, trích xuất thông tin, và phân tích quan điểm.
- **Phân loại văn bản:** Quá trình phân nhóm các tài liệu vào các lớp chủ đề khác nhau dựa trên nội dung, sử dụng các thuật toán học máy để tự động hóa việc phân loại.
- **Thuật toán học máy:** Bao gồm Naïve Bayes và Support Vector Machine (SVM), được sử dụng để xây dựng mô hình phân lớp dữ liệu dựa trên các đặc trưng trích xuất từ văn bản.
- **Phương pháp trích chọn đặc trưng:** TF-IDF và N-Gram được áp dụng để biểu diễn văn bản dưới dạng vector đặc trưng, giúp mô hình học máy nhận diện các đặc điểm quan trọng của văn bản.
- **Thuật toán học bán giám sát:** EM, FS-EM và Co-Class được sử dụng để tận dụng dữ liệu chưa gán nhãn, cải thiện độ chính xác phân loại trong điều kiện dữ liệu hạn chế hoặc khác miền.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Thu thập gần 4000 bài viết từ 4 diễn đàn trực tuyến khác nhau, mỗi diễn đàn tương ứng với một miền dữ liệu và chủ đề riêng biệt (điện thoại, điện tử, camera, TV). Mỗi bài viết có độ dài tối thiểu 50 từ và được gán nhãn thủ công về việc có chứa ý định người dùng hay không.
- **Phương pháp phân tích:** 
  - Tiền xử lý dữ liệu bao gồm loại bỏ ký tự đặc biệt, từ dừng (stopwords) và chuẩn hóa văn bản.
  - Trích chọn đặc trưng sử dụng TF-IDF và N-Gram (n=1,2,3) để biểu diễn văn bản.
  - Xây dựng mô hình phân lớp sử dụng Naïve Bayes và SVM với kernel tuyến tính.
  - Áp dụng các thuật toán học bán giám sát EM, FS-EM và Co-Class để cải thiện hiệu quả phân loại trên dữ liệu chưa gán nhãn.
- **Timeline nghiên cứu:** Nghiên cứu được thực hiện trong khoảng thời gian từ năm 2015 đến 2016, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Độ chính xác trên dữ liệu cùng miền:** Thuật toán Naïve Bayes kết hợp với đặc trưng N2-Gram đạt độ chính xác trung bình khoảng 67.4% đến 72% trên các chủ đề, trong khi SVM có độ chính xác thấp hơn từ 63% đến 70%.
- **Độ chính xác trên dữ liệu chéo miền:** Khi áp dụng mô hình học từ 3 miền dữ liệu để phân loại miền còn lại, SVM kết hợp với N3-Gram đạt độ chính xác cao nhất, khoảng 76%, vượt trội hơn Naïve Bayes (khoảng 61-70%).
- **Hiệu quả thuật toán học bán giám sát:** Thuật toán Co-Class cải thiện đáng kể độ chính xác phân loại so với EM và FS-EM, nhờ tận dụng đồng thời dữ liệu đã gán nhãn và chưa gán nhãn, đồng thời cập nhật đặc trưng liên tục trong quá trình huấn luyện.
- **Ảnh hưởng của phương pháp trích chọn đặc trưng:** N-Gram với n=2 hoặc 3 cho kết quả tốt hơn TF-IDF trong việc biểu diễn đặc trưng văn bản cho bài toán xác định ý định người dùng.

### Thảo luận kết quả

Kết quả thực nghiệm cho thấy việc lựa chọn thuật toán và phương pháp trích chọn đặc trưng có ảnh hưởng lớn đến hiệu quả phân loại. Naïve Bayes phù hợp với dữ liệu cùng miền nhờ giả định độc lập đơn giản, trong khi SVM thể hiện ưu thế vượt trội khi áp dụng cho dữ liệu chéo miền nhờ khả năng xử lý không gian đặc trưng cao chiều. Thuật toán Co-Class khắc phục hạn chế của EM và FS-EM bằng cách kết hợp thông tin từ cả dữ liệu gán nhãn và chưa gán nhãn, giúp mô hình thích nghi tốt hơn với dữ liệu thực tế đa dạng và nhiễu. Các kết quả này phù hợp với các nghiên cứu trước đây về phân loại văn bản và học bán giám sát, đồng thời nhấn mạnh tầm quan trọng của việc xử lý dữ liệu nhiễu và đặc trưng phù hợp trong bài toán xác định ý định người dùng. Dữ liệu có thể được trình bày qua các bảng so sánh độ chính xác giữa các thuật toán và biểu đồ thể hiện sự khác biệt hiệu quả trên từng miền dữ liệu.

## Đề xuất và khuyến nghị

- **Phát triển hệ thống phân loại ý định người dùng:** Áp dụng thuật toán Co-Class kết hợp với N-Gram (n=3) và SVM để đạt độ chính xác cao nhất, hướng tới triển khai thực tế trên các diễn đàn thương mại điện tử trong vòng 6-12 tháng.
- **Tăng cường thu thập và gán nhãn dữ liệu:** Mở rộng bộ dữ liệu gán nhãn đa miền để cải thiện khả năng học và tổng quát hóa của mô hình, thực hiện liên tục hàng năm bởi các nhóm nghiên cứu và doanh nghiệp.
- **Xây dựng công cụ tiền xử lý dữ liệu tự động:** Phát triển module loại bỏ dữ liệu nhiễu và chuẩn hóa văn bản nhằm nâng cao chất lượng dữ liệu đầu vào, giảm thiểu sai số phân loại, hoàn thành trong 3-6 tháng.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho các nhà phát triển và chuyên gia phân tích dữ liệu về kỹ thuật học máy và xử lý ngôn ngữ tự nhiên, nhằm thúc đẩy ứng dụng rộng rãi trong ngành CNTT và thương mại điện tử.
- **Nghiên cứu mở rộng ứng dụng:** Khuyến khích nghiên cứu áp dụng mô hình xác định ý định người dùng cho các nền tảng mạng xã hội và các lĩnh vực khác như y tế, giáo dục, nhằm khai thác sâu hơn giá trị dữ liệu người dùng.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo:** Nắm bắt kiến thức về xử lý ngôn ngữ tự nhiên, học máy và các thuật toán phân loại văn bản hiện đại.
- **Chuyên gia phát triển hệ thống thương mại điện tử và quảng cáo trực tuyến:** Áp dụng phương pháp xác định ý định người dùng để tối ưu hóa chiến dịch quảng cáo và nâng cao trải nghiệm khách hàng.
- **Các tổ chức nghiên cứu thị trường và phân tích hành vi người tiêu dùng:** Sử dụng mô hình để phân tích dữ liệu người dùng trên các diễn đàn, mạng xã hội nhằm dự báo xu hướng và nhu cầu thị trường.
- **Nhà quản lý và hoạch định chính sách trong lĩnh vực công nghệ thông tin:** Tham khảo để xây dựng các chính sách phát triển công nghệ, thúc đẩy ứng dụng trí tuệ nhân tạo trong quản lý và kinh doanh.

## Câu hỏi thường gặp

1. **Phân biệt ý định người dùng và quan điểm người dùng như thế nào?**  
Ý định người dùng thể hiện nhu cầu hoặc mục đích hành động (ví dụ muốn mua sản phẩm), trong khi quan điểm người dùng là nhận xét, đánh giá về sản phẩm hoặc dịch vụ. Ví dụ, câu “Tôi muốn mua iPhone” thể hiện ý định, còn “iPhone rất tốt” là quan điểm.

2. **Tại sao cần áp dụng học bán giám sát trong bài toán này?**  
Do dữ liệu gán nhãn thường hạn chế và tốn kém, học bán giám sát tận dụng cả dữ liệu chưa gán nhãn để cải thiện độ chính xác phân loại, đặc biệt hiệu quả khi dữ liệu đa dạng và có nhiều nhiễu.

3. **Ưu điểm của thuật toán Co-Class so với EM và FS-EM là gì?**  
Co-Class kết hợp thông tin từ cả dữ liệu đã gán nhãn và chưa gán nhãn, đồng thời cập nhật đặc trưng liên tục, giúp mô hình thích nghi tốt hơn với dữ liệu thực tế và đạt hiệu quả phân loại cao hơn.

4. **Làm thế nào để chọn phương pháp trích chọn đặc trưng phù hợp?**  
N-Gram (n=2 hoặc 3) thường cho kết quả tốt hơn TF-IDF trong bài toán xác định ý định người dùng do khả năng bắt được ngữ cảnh và cụm từ quan trọng trong văn bản.

5. **Mô hình có thể áp dụng cho các lĩnh vực khác ngoài diễn đàn thương mại không?**  
Có, mô hình có thể mở rộng áp dụng cho các nền tảng mạng xã hội, hệ thống phản hồi khách hàng, và các lĩnh vực như y tế, giáo dục để phân tích ý định và nhu cầu người dùng.

## Kết luận

- Luận văn đã phát triển thành công phương pháp xác định bài viết chứa ý định người dùng trên diễn đàn dựa trên nội dung văn bản, xử lý hiệu quả dữ liệu nhiễu và áp dụng cho cả dữ liệu cùng miền và chéo miền.  
- Thuật toán Co-Class kết hợp với N-Gram và SVM cho kết quả phân loại chính xác nhất, vượt trội so với các phương pháp truyền thống.  
- Nghiên cứu cung cấp cơ sở lý thuyết và thực nghiệm vững chắc cho ứng dụng trong thương mại điện tử và phân tích hành vi người dùng.  
- Đề xuất các giải pháp thực tiễn nhằm nâng cao hiệu quả ứng dụng và mở rộng phạm vi nghiên cứu trong tương lai.  
- Khuyến khích triển khai và phát triển tiếp theo trong vòng 1-2 năm tới để tận dụng tối đa giá trị nghiên cứu.

Áp dụng mô hình vào hệ thống thực tế, mở rộng dữ liệu và đào tạo nhân lực chuyên môn để phát triển các ứng dụng thông minh dựa trên ý định người dùng.

Trích đoạn nội dung tài liệu

Chương 1 đã trình bày khái quát về lĩnh vực xử lý ngôn ngữ tự nhiên, giới thiệu về bài toán phân loại văn bản. Sau đó đề xuất bài toán xác định ý định người dùng và các nghiên cứu liên quan tới đề tài xác định ý định người dùng, từ đó đưa ra những vấn đề cần làm rõ và giải quyết trong luận văn. Trong Chương 2, luận văn sẽ trình bày về hướng giải quyết cho bài toán xác định ý định người dùng, và đi sâu hơn trình bày về các phương pháp sẽ áp dụng để giải quyết bài toán. Luan van 11 CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG DỰA TRÊN HỌC MÁY Trong chương này, luận văn trình bày chi tiết về các phương pháp được áp dụng trong bài toán phát hiện ý định người dùng.

Chương 2 gồm 3 phần: - Trình bày về phương pháp giải quyết bài toán phát hiện ý định người dùng đã có, đưa ra hướng phát triển thuật toán để cải thiện kết quả xử lý trong 2 trường hợp dữ liệu cùng miền và chéo miền. - Trình bày về các phương pháp biểu diễu đặc trưng cho văn bản được áp dụng trong bài toán phát hiện ý định người dùng: N-Gram, TF- IDF. - Trình bày về các phương pháp học máy, xây dựng mô hình phân lớp dữ liệu cho bài toán phát hiện ý định người dùng: Naïve Bayes, Support Vector Machine (SVM) 2. Phương pháp giải quyết bài toán Các bước thực hiện để xây dựng phương pháp giải quyết cho bài toán xác định ý định người dùng được mô tả như trong hình vẽ dưới đây: Hình 2.1: Phương pháp xây dựng chương trình cho bài toán Để giải quyết bài toán xác định ý định của người dùng trên diễn đàn, ta sẽ thực hiện xác định qua 2 giai đoạn chính như sau:  Giai đoạn Huấn luyện: sẽ thu thập dữ liệu mẫu, thực hiện tiền xử lý (loại bỏ các ký tự đặc biệt, ký tự thừa, các từ stopwords không ảnh hưởng tới ý nghĩa của văn bản).

Xây dựng 2 bộ dữ liệu học đã gán nhãn và bộ dữ liệu thực Luan van 12 nghiệm chưa gán nhãn. Trong đề tài giai đoạn huấn luyện sẽ sử dụng 2 thuật toán là TF-IDF, và N-Gram với n=1,2,3…  Giai đoạn Phân loại: sẽ tiến hành thực hiện các thuật toán trích chọn đặc trưng và phân lớp cần thiết để xác định các đặc trưng và các lớp dữ liệu đầu ra. Sử dụng kết quả ở giai đoạn Tiền xử lý làm dữ liệu đầu vào cho các thuật toán trích chọn đặc trưng và phân lớp, từ đó đưa ra kết luận về nhãn của bộ dữ liệu chưa gán nhãn. Giai đoạn phân loại trong đề tài sẽ sử dụng 2 thuật toán là SVM và thuật toán Naïve Bayes để tiến hành phân lớp cho dữ liệu.

Các phần tiếp theo của chương 2 sẽ trình bày chi tiết hơn về các thuật toán được lựa chọn và áp dụng vào việc xác định ý định của văn bản. Các phương pháp biểu diễn đặc trưng của văn bản 2. Phương pháp TF-IDF a. Giới thiệu phương pháp Mục đích của việc phân loại là để phân loại ra các thông điệp mà chứa văn bản không phù hợp với chủ đề của danh sách, các tính năng văn bản là các tính năng chính trong hệ thống.

Các tính năng văn bản sẽ đại diện cho sự liên quan giữa chủ đề của văn bản với danh sách như thế nào. Mỗi danh sách có một chủ đề khác nhau (hoặc nhiều chủ đề), vì vậy hệ thống cần một phương thức để tự động lấy ra chủ đề chính của 1 nguồn danh sách, và tính toán sự tương tự của thông điệp với chủ đề của nguồn. Trong phương pháp tiếp cận truyền thống cũng là một trong những phương pháp được sử dụng nhiều nhất đó là phương pháp tần suất thuật ngữ ”term frequency” (TF) hay tần suất thuật ngữ - nghịch đảo tần suất văn bản “term frequency-inverse document frequency” (viết tắt là TF-IDF) được sử dụng trong việc phân loại văn bản. Về cơ bản thì thuật toán TF-IDF là một kỹ thuật giúp chuyển đổi thông tin dưới dạng văn bản thành một mô hình vector trong không gian qua các trọng số.

Mô hình vector trong không gian và thuật toán TF-IDF được phát triển bởi Gerard Salton vào đầu thập niên 1960s. Mặc dù đơn giản, nhưng mô hình vector không gian và những cải tiến của nó hiện nay vẫn là cách phổ biến để biểu diễn văn bản trong khai phá dữ liệu và truy Luan van 13 xuất thông tin. Tuy nhiên, một trong những điểm yếu của mô hình vector không gian là số chiều lớn (high- dimensonal), có khoảng cỡ chục triệu chiều trong không gian vector nếu như luận văn áp dụng chúng vào cơ chế tìm kiếm web. Phương pháp này chỉ ra tầm quan trọng của một từ với văn bản trong hàng loạt các văn bản như thế nào.

Trong TF-IDF, tầm quan trọng của một từ với văn bản lớn hơn khi nó được sử dụng ở trong một văn bản, và nó sẽ thấp hơn khi một từ xuất hiện nhiều trong nhiều bộ văn bản. Thuật toán này được biểu diễn dưới công thức sau: TF-IDF(t, d, D) = TF(t, d) * IDF(t, D) (2.1) Trong đó: - t là thuật ngữ hay có thể là một từ trong văn bản. - d là văn bản cần được phân loại chủ đề. - D là tập hợp tất cả các văn bản.

Khi đó thì: TF(t, d) = frequency(t, d) (2.2) - Frequency(t, d) là tần suất xuất hiện của thuật ngữ t trong văn bản d. Và: 𝑁 IDF(t, D) = log (2.3) {|𝑑∈𝐷:𝑡∈𝑑|} Trong đó: - N là tổng số văn bản trong bộ dữ liệu - |{d ∈ D ∶ t ∈ d}| là số văn bản thuật ngữ t xuất hiện trong bộ dữ liệu Trọng số TF-IDF đạt kết quả cao khi tần suất của thuật ngữ trong văn bản cần phân loại cao và tần suất của thuật ngữ đó trong bộ dữ liệu chung để từ đó ta có thể phân loại ra được các thuật ngữ phổ biến với từng chủ đề. Do trọng số trong hàm log của IDF luôn lớn hơn hoặc bằng 1, vì vậy giá trị của IDF và TF-IDF luôn lớn hơn hoặc bằng 0. Nếu một thuật ngữ xuất hiện trong nhiều tài liệu, thì trọng số bên trong hàm log sẽ có cận là 1, khi đó IDF và TF-IDF sẽ có cận là 0.

Luan van 14 Sau khi trọng số TF-IDF được tính toán sẽ sinh ra một chỉ số TF-IDF đại diện cho giá trị một vector của văn bản đó. Từ đó ta có thể tính được tổng các vector sinh ra một vector cho cả văn bản, sau đó sử dụng vector để tính tần suất và so sánh, đánh giá văn bản.2: Mô tả mô hình vector của văn bản Trong đó: - X1, X2,…,Xn là các từ xuất hiện trong câu - W0, W1, W2,… ,Wn là các vector ứng với từng từ trong một văn bản. Tương tự với 2 văn bản cũng như vậy, sau đó hệ thống có thể tính toán được tính tương đồng lượng giác giữa các vector trong văn bản. Ngoài ra các vector có thể được sử dụng trong việc phân loại thuật toán như một vector các tính năng, trong trường hợp này thuật toán phân loại sẽ học những thuộc tính có ích để quyết định việc phân loại.

Trọng số TF-IDF là trọng số phổ biến được sử dụng trong các công cụ tìm kiếm cũng như các công việc phân loại văn bản khác nhau. So với phương pháp tần số văn bản nghịch đảo, TF-IDF cho kết quả là một số thấp hơn với mỗi thuật ngữ nếu thuật ngữ đó xuất hiện nhiều lần trong bộ văn bản chung, điều này giúp loại bỏ các thuật ngữ phổ biến ví dụ như “the” hay “and” trong tiếng Anh, hoặc những từ thường gặp mà danh sách stopwords còn thiếu. Tuy nhiên, trong trường hợp mà bộ văn bản gồm nhiều chủ đề, tần suất xuất hiện của một thuật ngữ Luan van 15 không đánh giá được là thuật ngữ này liên quan đến danh sách. Vì vậy kế hoạch tính trọng số thường không sử dụng để nhận diện chủ đề của từng văn bản trong một bộ văn bản chung.

Vì việc thực hiện tính trọng số không phù hợp với mục đích phân loại của đề tài, nên trong luận văn áp dụng một phương pháp mới mà về cơ bản điểm số là sự tương đồng của một văn bản so với chủ đề chính của một nguồn dữ liệu. Khó khăn ở đây chính là để phân biệt tần suất các từ thực sự liên quan với chủ đề chính của nguồn, và công việc đó là thường xuyên vì những từ đó thường khá phổ biến. Việc phân biệt này là khả thi khi luận văn quan sát tần số xuất hiện của các từ trong một nguồn dữ liệu chung lớn hơn. Khi tần số của một từ trong một nguồn có chủ đề đặc biệt (hay gọi là nguồn local) và trong một nguồn dữ liệu chung (hay gọi là nguồn global), khi mà một lượng người dùng lớn cập nhật các thông điệp để so sánh, tần số của từ có thể giúp đánh giá mặc dù từ đó tần suất sử dụng nhiều trong nguồn.

Việc so sánh tần số sẽ đưa ra một cách nhìn chính xác hơn về độ liên quan giữa một từ cụ thể với một nguồn dữ liệu chủ đề như thế nào. Ví dụ, giả sử có một nguồn dữ liệu chủ đề bao gồm các bài viết từ một danh sách của một tập người dùng trên Twitter về chủ đề cơ sở dữ liệu, và có một nguồn cấp dữ liệu chung lớn hơn thu thập tất cả các bài viết bởi người dùng của Twitter về các chủ đề khác nhau. Xét về trực quan từ “MySQL” sẽ được xuất hiện thường xuyên trong nguồn dữ liệu chủ đề, như là kết quả của sở thích của người dùng về hệ thống cơ sở dữ liệu. Không giống như nguồn dữ liệu tập trung, nguồn dữ liệu chung sẽ chứa nhiều người dùng với nhiều sở thích khác nhau.

Vậy sẽ có hàng ngàn chủ đề khác nhau trong nguồn dữ liệu chung này và một trong số chúng sẽ là hệ thống cơ sở dữ liệu. Vì vậy, tần số của chủ đề cơ sở dữ liệu trong nguồn dữ liệu chung sẽ thấp nhiều, do đó từ “MySQL” sẽ xuất hiện với tần số ít hơn. Nếu luận văn đưa ra một từ phổ biến như thời gian, con người hoặc hôm nay, dự kiến rằng những từ này rất phổ biến trong cả nguồn dữ liệu chủ đề và nguồn dữ liệu chung. “Today” có thể xuất hiện thường xuyên hơn “MySQL” trong nguồn dữ liệu chủ đề, tuy nhiên luận văn sẽ có thể phân biệt được 2 từ này bởi tần số của chúng trong nguồn dữ liệu Luan van 16 chung.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về việc xác định ý định người dùng trên diễn đàn" của tác giả Đỗ Thị Thu Hà, dưới sự hướng dẫn của TS. Ngô Xuân Bách, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2016. Bài viết tập trung vào việc phân tích và xác định ý định của người dùng thông qua các bài viết trên diễn đàn, một vấn đề quan trọng trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo. Nghiên cứu này không chỉ giúp cải thiện khả năng tương tác giữa người dùng và hệ thống mà còn mở ra hướng đi mới cho việc phát triển các ứng dụng thông minh hơn trong tương lai.

Để mở rộng thêm kiến thức về các ứng dụng trong lĩnh vực khoa học máy tính, bạn có thể tham khảo bài viết "Luận văn thạc sĩ: Giải pháp tăng tốc AI trong các hệ thống dựa trên RISC-V", nơi nghiên cứu các giải pháp tối ưu hóa hiệu suất cho trí tuệ nhân tạo. Ngoài ra, bài viết "Luận văn thạc sĩ về hệ thống trích xuất và phân loại sự kiện từ Twitter" cũng cung cấp cái nhìn sâu sắc về việc xử lý và phân tích dữ liệu từ mạng xã hội, một lĩnh vực có liên quan mật thiết đến việc xác định ý định người dùng. Cuối cùng, bạn có thể tìm hiểu thêm về "Luận văn thạc sĩ về rút trích luật từ mạng nơron trong khoa học máy tính", một nghiên cứu khác trong lĩnh vực khoa học máy tính, giúp bạn có cái nhìn tổng quát hơn về các phương pháp phân tích và xử lý dữ liệu.

#Luận văn Thạc sĩ

#hành vi trực tuyến

#phân tích hành vi người dùng

#diễn đàn trực tuyến

#nghiên cứu ý định người dùng

#tương tác trên diễn đàn

Chủ đề

Nghiên cứu người dùng trên diễn đàn

Phân tích hành vi trực tuyến

Luận văn thạc sĩ trong lĩnh vực công nghệ thông tin

Tương tác và giao tiếp trên nền tảng trực tuyến