Luận văn thạc sĩ về phát hiện kế thừa văn bản trên dữ liệu Twitter

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Khát quát về kế thừa văn bản

1.3. Khái niệm kế thừa văn bản

1.4. Phát biểu bài toán phát hiện kế thừa văn bản

1.5. Các nghiên cứu liên quan

1.6. Kết luận chương 1

2. CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG THUẬT TOÁN PHÂN LỚP

2.1. Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter

2.2. Tiền xử lý dữ liệu

2.3. Jaro-Winkler distance

2.4. Các phương pháp học máy

2.5. Máy vector hỗ trợ SVM (Support Vector Machine)

2.6. Thuật toán IBK

2.7. Các phương pháp cây quyết định

2.8. Kết luận chương 2

3. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ

3.1. Dữ liệu thực nghiệm

3.2. Mô tả dữ liệu thực nghiệm

3.3. Trích chọn đặc trưng

3.4. Thiết lập thực nghiệm

3.5. Yêu cầu cho thực nghiệm

3.6. Phương pháp đánh giá tập dữ liệu

3.7. Chọn công cụ thực nghiệm

3.8. Giới thiệu chuẩn dữ liệu đầu vào cho thực nghiệm (ARFF)

3.9. Tiến hành thực nghiệm và đánh giá kết quả thực nghiệm

3.10. Kết quả thực nghiệm với các thuật toán cho ba nhãn

3.11. Thực nghiệm với sự kết hợp các đặc trưng

3.12. Thực nghiệm so sánh giữa thuật toán J48 với các phương pháp học máy khác

3.13. Kết luận chương 3

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC WEBSITE THAM KHẢO

Tóm tắt

I. Tổng quan về phát hiện kế thừa văn bản

Chương này trình bày tổng quan về phát hiện văn bản và kế thừa văn bản trong lĩnh vực xử lý ngôn ngữ tự nhiên. Phát hiện kế thừa văn bản (Recognizing Textual Entailment - RTE) là một bài toán quan trọng trong nghiên cứu Twitter. Bài toán này nhằm xác định xem một văn bản T có thể suy luận ra một giả thuyết H hay không. Nghiên cứu này không chỉ giúp hiểu rõ hơn về ngữ nghĩa mà còn có ứng dụng thực tiễn trong các hệ thống truyền thông xã hội. Theo Glickman và Dagan, kế thừa văn bản được định nghĩa là mối quan hệ giữa văn bản T và giả thuyết H, ký hiệu là T → H. Điều này có nghĩa là nếu ý nghĩa của H có thể suy ra từ T, thì T được coi là kế thừa H. Việc phát hiện kế thừa văn bản trên dữ liệu Twitter là một thách thức lớn do tính chất ngắn gọn và không chính thức của các tweet.

1.1. Khái niệm kế thừa văn bản

Khái niệm kế thừa văn bản được hiểu là mối quan hệ giữa hai đoạn văn bản, trong đó một đoạn có thể suy luận ra nội dung của đoạn còn lại. Ví dụ, nếu một văn bản nói về một sự kiện lịch sử, giả thuyết có thể là một thông tin cụ thể liên quan đến sự kiện đó. Việc xác định mối quan hệ này có thể giúp trong nhiều ứng dụng như trích xuất thông tin và tóm tắt văn bản. Các nghiên cứu trước đây đã chỉ ra rằng việc phát hiện kế thừa văn bản có thể được thực hiện thông qua nhiều phương pháp khác nhau, từ học máy đến các kỹ thuật khai thác dữ liệu. Sự phát triển của các phương pháp này đã mở ra nhiều hướng nghiên cứu mới trong lĩnh vực xử lý ngôn ngữ tự nhiên.

1.2. Phát biểu bài toán phát hiện kế thừa văn bản

Bài toán phát hiện kế thừa văn bản được phát biểu như sau: cho hai đoạn văn bản T và H, xác định xem H có thể được suy luận từ T hay không. Phân loại mối quan hệ này có thể được thực hiện theo hai cách: phân loại ba nhãn (kế thừa, mâu thuẫn, không xác định) hoặc phân loại hai nhãn (kế thừa và không kế thừa). Việc phân loại này không chỉ giúp trong việc hiểu rõ hơn về ngữ nghĩa mà còn có thể ứng dụng trong các hệ thống hỏi đáp và dịch máy. Các nghiên cứu đã chỉ ra rằng việc áp dụng các thuật toán học máy như SVM và Decision Tree có thể cải thiện độ chính xác trong việc phát hiện kế thừa văn bản.

II. Phương pháp phát hiện kế thừa văn bản

Chương này tập trung vào các phương pháp được sử dụng để phát hiện kế thừa văn bản trên dữ liệu Twitter. Các phương pháp này bao gồm tiền xử lý dữ liệu, trích chọn đặc trưng, và các thuật toán học máy như SVM và Decision Tree. Tiền xử lý dữ liệu là bước quan trọng để chuẩn bị dữ liệu cho các thuật toán học máy. Việc loại bỏ các từ không cần thiết và chuẩn hóa văn bản giúp cải thiện độ chính xác của mô hình. Sau đó, các đặc trưng của văn bản được trích chọn để làm đầu vào cho các thuật toán. Các thuật toán như Jaro-Winkler distance và IBK cũng được áp dụng để phân loại mối quan hệ giữa các văn bản. Kết quả thực nghiệm cho thấy rằng việc sử dụng các phương pháp này có thể đạt được độ chính xác cao trong việc phát hiện kế thừa văn bản.

2.1. Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước đầu tiên trong quá trình phát hiện kế thừa văn bản. Bước này bao gồm việc loại bỏ các ký tự đặc biệt, chuyển đổi văn bản thành chữ thường và loại bỏ các từ dừng. Việc này giúp giảm thiểu độ phức tạp của dữ liệu và tăng cường khả năng phân tích. Các phương pháp như ngôn ngữ tự nhiên và học máy được áp dụng để tối ưu hóa quá trình này. Kết quả của bước tiền xử lý sẽ ảnh hưởng trực tiếp đến độ chính xác của các mô hình học máy sau này. Do đó, việc thực hiện tiền xử lý một cách cẩn thận là rất cần thiết để đảm bảo chất lượng dữ liệu đầu vào cho các thuật toán.

2.2. Các phương pháp học máy

Các phương pháp học máy được sử dụng trong phát hiện kế thừa văn bản bao gồm SVM, Decision Tree, và IBK. Mỗi phương pháp có những ưu điểm và nhược điểm riêng. SVM là một trong những phương pháp phổ biến nhất nhờ khả năng phân loại chính xác và hiệu quả. Decision Tree cung cấp một cách tiếp cận trực quan và dễ hiểu cho việc phân loại. Trong khi đó, IBK (K-nearest neighbors) là một phương pháp đơn giản nhưng hiệu quả trong nhiều trường hợp. Việc so sánh các phương pháp này cho thấy rằng Decision Tree thường cho kết quả tốt nhất trong việc phát hiện kế thừa văn bản trên dữ liệu Twitter.

III. Thực nghiệm và kết quả

Chương này trình bày chi tiết về quá trình thực nghiệm và kết quả đạt được từ việc áp dụng các phương pháp phát hiện kế thừa văn bản. Dữ liệu thực nghiệm được thu thập từ Twitter, nơi chứa nhiều thông tin phong phú và đa dạng. Các bước thực nghiệm bao gồm việc mô tả dữ liệu, trích chọn đặc trưng, và thiết lập các yêu cầu cho thực nghiệm. Kết quả thực nghiệm cho thấy rằng các thuật toán học máy có thể đạt được độ chính xác cao trong việc phát hiện kế thừa văn bản. Việc so sánh giữa các phương pháp cũng cho thấy rằng Decision Tree là phương pháp hiệu quả nhất trong việc phân loại các mối quan hệ kế thừa.

3.1. Dữ liệu thực nghiệm

Dữ liệu thực nghiệm được thu thập từ Twitter, nơi chứa nhiều tweet với nội dung phong phú. Việc lựa chọn dữ liệu phù hợp là rất quan trọng để đảm bảo tính chính xác của các kết quả. Dữ liệu được phân loại thành các nhãn khác nhau như kế thừa, mâu thuẫn và không xác định. Quá trình này giúp tạo ra một tập dữ liệu đa dạng cho việc thử nghiệm các thuật toán học máy. Kết quả từ các thực nghiệm cho thấy rằng việc sử dụng dữ liệu từ Twitter có thể mang lại những hiểu biết quý giá về cách thức phát hiện kế thừa văn bản trong môi trường thực tế.

3.2. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng các thuật toán học máy có thể đạt được độ chính xác cao trong việc phát hiện kế thừa văn bản. Cụ thể, thuật toán Decision Tree cho kết quả tốt nhất với độ chính xác lên đến 85%. Các phương pháp khác như SVM và IBK cũng cho kết quả khả quan nhưng không bằng Decision Tree. Việc so sánh này cho thấy rằng lựa chọn phương pháp phù hợp là rất quan trọng trong việc phát hiện kế thừa văn bản. Kết quả này không chỉ có giá trị trong nghiên cứu mà còn có thể ứng dụng trong các hệ thống thực tế như hệ hỏi đáp và trích xuất thông tin.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát hiện kế thừa văn bản trên dữ liệu twitter

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực nghiên cứu trọng tâm của trí tuệ nhân tạo, nhằm phát triển các phương pháp và kỹ thuật để máy tính có thể hiểu và xử lý ngôn ngữ con người. Trong bối cảnh bùng nổ thông tin trên mạng xã hội, đặc biệt là Twitter với hơn 21836 cặp câu văn bản-giả thuyết liên quan đến 70 sự kiện lớn, việc phát hiện kế thừa văn bản (Recognizing Textual Entailment - RTE) trở thành một bài toán quan trọng. Bài toán này nhằm xác định xem một văn bản (T) có thể suy luận được ý nghĩa từ một giả thuyết (H) hay không, với ba nhãn phân loại chính: liên quan (Entailment), mâu thuẫn (Contradiction) và không liên quan (Unknown).

Mục tiêu nghiên cứu là phát triển và đánh giá các phương pháp học máy để tự động phát hiện kế thừa văn bản trên dữ liệu Twitter, nhằm nâng cao hiệu quả trong các ứng dụng như hệ thống hỏi đáp, trích xuất thông tin, tóm tắt văn bản và đánh giá dịch máy. Nghiên cứu tập trung vào dữ liệu thu thập trong khoảng thời gian gần đây, với phạm vi là các tweet tiếng Anh liên quan đến các sự kiện thế giới như vụ xả súng Charlie Hebdo, vụ nổ bom tại Paris, và các sự kiện khác.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác phân loại kế thừa văn bản trên dữ liệu mạng xã hội, góp phần phát triển các công cụ hỗ trợ nhận biết và xử lý ngôn ngữ tự nhiên trong môi trường dữ liệu phi cấu trúc, ngắn gọn và nhiều biến thể như Twitter.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình chính sau:

Phát hiện kế thừa văn bản (RTE): Là mối quan hệ giữa văn bản T và giả thuyết H, trong đó T kế thừa H nếu ý nghĩa của H có thể suy luận từ T. Ba nhãn phân loại chính là Entailment, Contradiction và Unknown.
Xử lý ngôn ngữ tự nhiên (NLP): Các kỹ thuật tiền xử lý dữ liệu, trích xuất đặc trưng và biểu diễn văn bản dưới dạng vector.
Các thuật toán học máy phân lớp: Bao gồm Support Vector Machine (SVM), K-Nearest Neighbors (IBK), Decision Tree (J48, Random Forest). SVM được chọn làm phương pháp chính do tính tổng quát và hiệu quả cao trong phân lớp dữ liệu.
Các độ đo tương đồng văn bản: Sử dụng tám độ đo chính gồm Jaro-Winkler distance, Levenshtein distance, Euclidean distance, Cosine similarity, N-gram distance (n=3), Matching coefficient, Dice coefficient và Jaccard coefficient để trích xuất đặc trưng từ cặp văn bản-giả thuyết.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu “pheme_rte_datasets_2016” thu thập từ Twitter, gồm 21836 cặp câu tiếng Anh, được gán nhãn ba lớp Entailment (36%), Contradiction (26%) và Unknown (38%).
Tiền xử lý dữ liệu: Tách cặp văn bản T và giả thuyết H từ file XML, loại bỏ ký tự đặc biệt, số và stopword, chuyển đổi chữ hoa thành chữ thường để giảm không gian từ điển và tăng hiệu quả xử lý.
Trích xuất đặc trưng: Áp dụng tám độ đo tương đồng để biểu diễn cặp văn bản dưới dạng vector đặc trưng.
Phương pháp phân tích: Sử dụng các thuật toán học máy SVM, IBK, J48 và Random Forest để huấn luyện và phân lớp dữ liệu.
Đánh giá mô hình: Áp dụng phương pháp K-fold cross validation với k=10 để đánh giá độ chính xác, độ bao phủ (Recall) và độ chính xác (Precision) của các mô hình phân lớp.
Timeline nghiên cứu: Quá trình thực hiện luận văn trong khoảng 2 tháng, từ thu thập dữ liệu, tiền xử lý, huấn luyện mô hình đến đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán Decision Tree (J48): Thuật toán J48 đạt kết quả tốt nhất trong việc phát hiện kế thừa văn bản trên dữ liệu Twitter, với độ chính xác trung bình khoảng 78%, vượt trội hơn so với SVM (khoảng 75%), IBK (khoảng 70%) và Random Forest (khoảng 76%).
Tác động của đặc trưng trích xuất: Việc kết hợp tám độ đo tương đồng giúp cải thiện đáng kể hiệu quả phân lớp, trong đó Cosine similarity và Jaro-Winkler distance đóng vai trò quan trọng, góp phần nâng cao độ chính xác lên khoảng 5-7% so với sử dụng đơn lẻ.
Phân bố nhãn trong dữ liệu: Tỷ lệ các nhãn Entailment, Contradiction và Unknown lần lượt là 36%, 26% và 38%, cho thấy sự đa dạng và thách thức trong việc phân loại chính xác các cặp văn bản trên Twitter.
Đánh giá mô hình qua K-fold cross validation: Phương pháp này giúp giảm thiểu sai số do phân chia dữ liệu, đảm bảo tính khách quan và ổn định của kết quả với sai số trung bình dưới 2%.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của thuật toán J48 là khả năng xây dựng cây quyết định dựa trên các đặc trưng ngôn ngữ đa dạng, giúp mô hình dễ dàng phân biệt các mối quan hệ kế thừa phức tạp trong dữ liệu ngắn gọn và nhiều biến thể như Twitter. So sánh với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng sử dụng cây quyết định trong các bài toán phân lớp văn bản ngắn.

Việc sử dụng tám độ đo tương đồng đa dạng giúp mô hình nắm bắt được nhiều khía cạnh khác nhau của sự tương đồng giữa văn bản và giả thuyết, từ mức độ ký tự đến mức độ ngữ nghĩa, từ đó nâng cao độ chính xác phân loại. Kết quả này cũng cho thấy tầm quan trọng của bước tiền xử lý và trích xuất đặc trưng trong xử lý ngôn ngữ tự nhiên.

Dữ liệu Twitter với đặc điểm ngắn, nhiều từ viết tắt và sai chính tả tạo ra thách thức lớn cho các mô hình truyền thống, tuy nhiên, việc áp dụng các thuật toán học máy hiện đại cùng kỹ thuật tiền xử lý phù hợp đã giúp cải thiện đáng kể hiệu quả phát hiện kế thừa văn bản.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ so sánh độ chính xác giữa các thuật toán, bảng phân bố nhãn và biểu đồ thể hiện ảnh hưởng của từng đặc trưng đến hiệu quả phân lớp.

Đề xuất và khuyến nghị

Tăng cường tiền xử lý dữ liệu: Áp dụng các kỹ thuật làm sạch dữ liệu nâng cao như chuẩn hóa từ viết tắt, sửa lỗi chính tả tự động để cải thiện chất lượng đầu vào, từ đó nâng cao độ chính xác phân lớp. Chủ thể thực hiện: nhóm phát triển hệ thống NLP; Timeline: 3-6 tháng.
Mở rộng bộ đặc trưng: Nghiên cứu và tích hợp thêm các đặc trưng ngữ nghĩa sâu hơn như embedding từ, mô hình ngôn ngữ dựa trên mạng nơ-ron để tăng khả năng nhận diện kế thừa văn bản phức tạp. Chủ thể thực hiện: nhóm nghiên cứu AI; Timeline: 6-9 tháng.
Phát triển mô hình đa ngôn ngữ: Mở rộng nghiên cứu sang các ngôn ngữ khác ngoài tiếng Anh, đặc biệt là tiếng Việt, nhằm ứng dụng rộng rãi trong môi trường mạng xã hội đa ngôn ngữ. Chủ thể thực hiện: nhóm nghiên cứu NLP đa ngôn ngữ; Timeline: 9-12 tháng.
Xây dựng công cụ hỗ trợ tự động: Phát triển phần mềm hoặc API tích hợp mô hình phát hiện kế thừa văn bản để hỗ trợ các ứng dụng như hệ thống hỏi đáp, trích xuất thông tin trên mạng xã hội. Chủ thể thực hiện: nhóm phát triển phần mềm; Timeline: 6 tháng.
Tăng cường đánh giá và thử nghiệm thực tế: Thực hiện các thử nghiệm trên dữ liệu thực tế đa dạng hơn, bao gồm các sự kiện mới và dữ liệu tiếng Việt để đánh giá tính khả thi và hiệu quả của mô hình trong thực tế. Chủ thể thực hiện: nhóm nghiên cứu; Timeline: liên tục.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về phát hiện kế thừa văn bản và ứng dụng học máy trong xử lý ngôn ngữ tự nhiên, giúp mở rộng hiểu biết và phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển hệ thống NLP và AI: Các kỹ thuật trích xuất đặc trưng và thuật toán phân lớp được trình bày chi tiết, hỗ trợ xây dựng các hệ thống tự động xử lý và phân tích văn bản trên mạng xã hội.
Doanh nghiệp và tổ chức phát triển ứng dụng mạng xã hội: Có thể áp dụng mô hình phát hiện kế thừa văn bản để nâng cao chất lượng dịch vụ như hệ thống hỏi đáp tự động, phân tích cảm xúc và quản lý nội dung.
Cơ quan nghiên cứu và phát triển công nghệ ngôn ngữ: Luận văn cung cấp cơ sở dữ liệu và phương pháp thực nghiệm có thể làm nền tảng cho các dự án nghiên cứu phát triển công nghệ ngôn ngữ tự nhiên trong môi trường đa dạng và biến động.

Câu hỏi thường gặp

Phát hiện kế thừa văn bản là gì và tại sao quan trọng?
Phát hiện kế thừa văn bản là quá trình xác định xem một văn bản có thể suy luận được ý nghĩa từ một văn bản khác hay không. Đây là bước quan trọng trong các ứng dụng NLP như hệ thống hỏi đáp và tóm tắt văn bản, giúp máy hiểu và xử lý ngôn ngữ tự nhiên hiệu quả hơn.
Tại sao dữ liệu Twitter lại khó xử lý cho bài toán này?
Tweets thường rất ngắn, chứa nhiều từ viết tắt, lỗi chính tả và cấu trúc không chuẩn, làm giảm hiệu quả các phương pháp truyền thống. Do đó, cần các kỹ thuật tiền xử lý và mô hình học máy phù hợp để xử lý đặc thù này.
Các thuật toán học máy nào được sử dụng và ưu nhược điểm của chúng?
Luận văn sử dụng SVM, IBK, Decision Tree (J48, Random Forest). SVM có tính tổng quát cao nhưng phức tạp; IBK đơn giản nhưng hiệu quả phụ thuộc vào số lượng láng giềng; Decision Tree dễ hiểu và hiệu quả với dữ liệu đa dạng, J48 cho kết quả tốt nhất trong nghiên cứu.
Làm thế nào để đánh giá hiệu quả của mô hình?
Sử dụng phương pháp K-fold cross validation với k=10 để đánh giá độ chính xác, độ bao phủ (Recall) và độ chính xác (Precision), giúp đảm bảo kết quả khách quan và ổn định trên tập dữ liệu đa dạng.
Có thể áp dụng mô hình này cho các ngôn ngữ khác không?
Có thể, tuy nhiên cần điều chỉnh kỹ thuật tiền xử lý và trích xuất đặc trưng phù hợp với đặc điểm ngôn ngữ đó. Nghiên cứu mở rộng sang đa ngôn ngữ là hướng phát triển tiếp theo được đề xuất.

Kết luận

Luận văn đã nghiên cứu và phát triển thành công mô hình phát hiện kế thừa văn bản trên dữ liệu Twitter sử dụng các thuật toán học máy hiện đại, trong đó Decision Tree (J48) đạt hiệu quả cao nhất với độ chính xác khoảng 78%.
Áp dụng tám độ đo tương đồng đa dạng giúp nâng cao chất lượng trích xuất đặc trưng và cải thiện kết quả phân lớp.
Phương pháp K-fold cross validation đảm bảo đánh giá khách quan và ổn định cho mô hình trên tập dữ liệu lớn với hơn 21836 cặp câu.
Nghiên cứu góp phần mở rộng ứng dụng xử lý ngôn ngữ tự nhiên trong môi trường mạng xã hội, hỗ trợ các hệ thống hỏi đáp, trích xuất thông tin và tóm tắt văn bản tự động.
Định hướng phát triển tiếp theo bao gồm mở rộng bộ đặc trưng, cải tiến tiền xử lý, phát triển mô hình đa ngôn ngữ và xây dựng công cụ hỗ trợ tự động.

Khuyến khích các nhà nghiên cứu và phát triển ứng dụng tiếp tục thử nghiệm, mở rộng và ứng dụng mô hình trong các lĩnh vực xử lý ngôn ngữ tự nhiên đa dạng, đặc biệt trong môi trường mạng xã hội ngày càng phát triển.

Bài viết "Luận văn thạc sĩ về phát hiện kế thừa văn bản trên dữ liệu Twitter" của tác giả Đặng Ngọc Tú, dưới sự hướng dẫn của TS. Ngô Xuân Bách, thuộc Học viện Công nghệ Bưu chính Viễn thông, năm 2019, tập trung vào việc phát hiện và phân tích các văn bản kế thừa trên nền tảng Twitter. Nghiên cứu này không chỉ giúp hiểu rõ hơn về cách thức mà thông tin được chia sẻ và phát tán trên mạng xã hội, mà còn cung cấp những phương pháp hữu ích cho việc phát hiện và xử lý thông tin kế thừa, từ đó nâng cao khả năng quản lý và bảo mật thông tin trong môi trường số.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo bài viết Luận Văn Thạc Sĩ Về Ngăn Chặn Lan Truyền Thông Tin Xấu Trên Mạng Xã Hội, nơi nghiên cứu về các biện pháp ngăn chặn thông tin xấu trên mạng xã hội, một vấn đề liên quan mật thiết đến việc phát hiện và xử lý thông tin kế thừa. Ngoài ra, bài viết Luận văn thạc sĩ về quản lý sự cố hạ tầng mạng bằng hệ thống thông tin số hóa cũng cung cấp cái nhìn sâu sắc về quản lý thông tin trong hệ thống mạng, có thể bổ sung cho những kiến thức bạn đã học. Cuối cùng, bài viết Luận văn về quản lý nghiệm thu dữ liệu trong hệ thống thông tin sẽ giúp bạn hiểu rõ hơn về quy trình quản lý và kiểm soát thông tin trong các hệ thống hiện đại.

Những tài liệu này không chỉ mở rộng kiến thức mà còn cung cấp các góc nhìn khác nhau về việc quản lý và xử lý thông tin trong môi trường số, giúp bạn có cái nhìn toàn diện hơn về lĩnh vực này.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#mạng xã hội

#xử lý ngôn ngữ tự nhiên

#nghiên cứu văn bản

#phát hiện kế thừa văn bản

Chủ đề

Nghiên cứu và phân tích dữ liệu trên mạng xã hội

Xử lý ngôn ngữ tự nhiên trong văn bản

Ứng dụng học máy trong phát hiện văn bản

Phát triển luận văn thạc sĩ trong lĩnh vực công nghệ thông tin

Luận văn thạc sĩ về phát hiện kế thừa văn bản trên dữ liệu Twitter

LỜI CAM ĐOAN

LỜI CẢM ƠN

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU TWITTER

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Khát quát về kế thừa văn bản

1.3. Khái niệm kế thừa văn bản

1.4. Phát biểu bài toán phát hiện kế thừa văn bản

1.5. Các nghiên cứu liên quan

1.6. Kết luận chương 1

2. CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG THUẬT TOÁN PHÂN LỚP

2.1. Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter

2.2. Tiền xử lý dữ liệu

2.3. Jaro-Winkler distance

2.4. Các phương pháp học máy

2.5. Máy vector hỗ trợ SVM (Support Vector Machine)

2.6. Thuật toán IBK

2.7. Các phương pháp cây quyết định

2.8. Kết luận chương 2

3. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ

3.1. Dữ liệu thực nghiệm

3.2. Mô tả dữ liệu thực nghiệm

3.3. Trích chọn đặc trưng

3.4. Thiết lập thực nghiệm

3.5. Yêu cầu cho thực nghiệm

3.6. Phương pháp đánh giá tập dữ liệu

3.7. Chọn công cụ thực nghiệm

3.8. Giới thiệu chuẩn dữ liệu đầu vào cho thực nghiệm (ARFF)

3.9. Tiến hành thực nghiệm và đánh giá kết quả thực nghiệm

3.10. Kết quả thực nghiệm với các thuật toán cho ba nhãn

3.11. Thực nghiệm với sự kết hợp các đặc trưng

3.12. Thực nghiệm so sánh giữa thuật toán J48 với các phương pháp học máy khác

3.13. Kết luận chương 3

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC WEBSITE THAM KHẢO

I. Tổng quan về phát hiện kế thừa văn bản

1.1. Khái niệm kế thừa văn bản

1.2. Phát biểu bài toán phát hiện kế thừa văn bản

II. Phương pháp phát hiện kế thừa văn bản

2.1. Tiền xử lý dữ liệu

2.2. Các phương pháp học máy

III. Thực nghiệm và kết quả

3.1. Dữ liệu thực nghiệm

3.2. Kết quả thực nghiệm

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Đặng Ngọc Tú

Người hướng dẫn: TS. Ngô Xuân Bách

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Hệ thống thông tin

Đề tài: Phát hiện kế thừa văn bản trên dữ liệu Twitter

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận