Luận văn thạc sĩ về phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng mạng nơron

Khám phá luận văn thạc sĩ về phát hiện câu chứa gợi ý trên diễn đàn trực tuyến bằng mạng nơron, ứng dụng trong phân tích ngữ nghĩa.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI CÂU CHỨA GỢI Ý

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Bài toán phát hiện câu chứa gợi ý trên diễn đàn trực tuyến

1.3. Phân loại dữ liệu văn bản

1.4. Phát biểu bài toán phân loại phát hiện câu chứa gợi ý

1.5. Ý nghĩa bài toán

1.6. Các nghiên cứu liên quan

1.7. Kết luận chương

2. CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN CÂU CHỨA GỢI Ý SỬ DỤNG HỌC MÁY

2.1. Phương pháp giải quyết bài toán

2.2. Tiền xử lý dữ liệu

2.3. Loại bỏ các từ phổ biến (stop word)

2.4. Giới thiệu chung mô hình mạng Nơ-ron

2.5. Mạng Nơ-ron nhân tạo (ANN)

2.6. Mạng nơ-ron sinh học

2.7. Kiến trúc tổng quát của mạng neural nhân tạo

2.8. Mạng nơron tích chập CNN

2.9. Mạng nơron hồi quy RNN

2.10. Mạng nơ-ron có bộ nhớ ngắn dài LSTM

2.11. Kết luận chương 2

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thông tin về bộ dữ liệu

3.2. Môi trường thực nghiệm

3.3. Ngôn ngữ lập trình python

3.4. Phương pháp thực nghiệm

3.5. Cách chia dữ liệu

3.6. Tiến hành thực nghiệm

3.7. Xây dựng các thành phần chung cho các mô hình

3.8. Kết quả chạy thực nghiệm

3.9. Nhận xét và đánh giá

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC WEBSITE THAM KHẢO

Tóm tắt

I. Giới thiệu bài toán phân loại câu chứa gợi ý

Chương này trình bày tổng quan về phát hiện câu chứa gợi ý trên diễn đàn trực tuyến. Phân tích ngữ nghĩa là một phần quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Bài toán này nhằm xác định xem một câu có chứa gợi ý hay không, từ đó giúp các doanh nghiệp hiểu rõ hơn về nhu cầu và mong muốn của người tiêu dùng. Việc phát hiện này không chỉ có giá trị thương mại mà còn hỗ trợ trong việc cải tiến sản phẩm và dịch vụ. Các câu chứa gợi ý thường xuất hiện trong các đánh giá sản phẩm, blog, và các nền tảng truyền thông xã hội. Do đó, việc phát hiện và phân loại các câu này là rất cần thiết.

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào việc phát triển các phương pháp cho phép máy tính hiểu và xử lý ngôn ngữ của con người. Các ứng dụng của NLP rất đa dạng, từ nhận dạng tiếng nói đến dịch máy. Trong bối cảnh phát hiện câu chứa gợi ý, NLP giúp phân tích và trích xuất thông tin từ văn bản phi cấu trúc. Việc áp dụng các kỹ thuật NLP trong bài toán này sẽ giúp cải thiện độ chính xác và hiệu quả trong việc phát hiện các gợi ý từ người dùng.

1.2. Bài toán phát hiện câu chứa gợi ý

Bài toán phát hiện câu chứa gợi ý được định nghĩa là việc xác định xem một câu có chứa các thông tin gợi ý hay không. Các câu này thường thể hiện ý kiến, mong muốn hoặc khuyến nghị của người dùng về sản phẩm, dịch vụ. Việc phân loại này có thể được thực hiện thông qua các mô hình học máy, đặc biệt là các mô hình mạng nơron như CNN, RNN và LSTM. Những mô hình này có khả năng học và nhận diện các đặc trưng ngữ nghĩa trong văn bản, từ đó đưa ra dự đoán chính xác hơn về việc câu đó có chứa gợi ý hay không.

II. Phương pháp phát hiện câu chứa gợi ý sử dụng học máy

Chương này trình bày các phương pháp học máy được sử dụng để phát hiện câu chứa gợi ý. Việc tiền xử lý dữ liệu là bước đầu tiên quan trọng, bao gồm loại bỏ các từ phổ biến và chuẩn hóa văn bản. Sau đó, các mô hình mạng nơron như CNN, RNN và LSTM sẽ được áp dụng để phân loại các câu. Mỗi mô hình có những ưu điểm riêng, ví dụ, CNN có khả năng phát hiện các đặc trưng không gian trong văn bản, trong khi RNN và LSTM có thể xử lý các chuỗi dữ liệu và ghi nhớ thông tin trong thời gian dài. Việc lựa chọn mô hình phù hợp sẽ ảnh hưởng lớn đến kết quả phân loại.

2.1. Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là bước quan trọng trong bất kỳ bài toán học máy nào. Trong bối cảnh phát hiện câu chứa gợi ý, việc loại bỏ các từ không cần thiết (stop words) và chuẩn hóa văn bản giúp cải thiện chất lượng dữ liệu đầu vào. Các kỹ thuật như stemming và lemmatization cũng được áp dụng để giảm thiểu độ phức tạp của từ ngữ. Điều này không chỉ giúp giảm kích thước dữ liệu mà còn tăng cường khả năng nhận diện các gợi ý trong văn bản.

2.2. Mô hình mạng nơron

Mô hình mạng nơron là một trong những phương pháp hiệu quả nhất trong việc phát hiện gợi ý. Mạng Nơ-ron nhân tạo (ANN) có khả năng học từ dữ liệu và phát hiện các mẫu phức tạp. Mạng nơron tích chập (CNN) thường được sử dụng để phân tích các đặc trưng không gian trong văn bản, trong khi mạng nơron hồi quy (RNN) và LSTM có khả năng xử lý các chuỗi dữ liệu và ghi nhớ thông tin trong thời gian dài. Việc áp dụng các mô hình này giúp cải thiện độ chính xác trong việc phân loại câu chứa gợi ý.

III. Thực nghiệm và đánh giá

Chương này trình bày quy trình thực nghiệm và đánh giá kết quả của các mô hình đã áp dụng. Bộ dữ liệu được sử dụng trong thực nghiệm bao gồm các câu đã được phân loại sẵn. Môi trường thực nghiệm được thiết lập trên ngôn ngữ lập trình Python, với các thư viện hỗ trợ cho việc xây dựng và huấn luyện mô hình. Kết quả thực nghiệm cho thấy mô hình LSTM đạt được độ chính xác cao nhất trong việc phát hiện câu chứa gợi ý. Việc so sánh giữa các mô hình cho thấy rằng LSTM có khả năng ghi nhớ thông tin tốt hơn, từ đó cải thiện khả năng phân loại.

3.1. Thông tin về bộ dữ liệu

Bộ dữ liệu được sử dụng trong thực nghiệm bao gồm các câu từ nhiều nguồn khác nhau, được phân loại thành hai nhóm: có chứa gợi ý và không chứa gợi ý. Việc lựa chọn bộ dữ liệu đa dạng giúp mô hình học được nhiều đặc trưng khác nhau, từ đó cải thiện khả năng phân loại. Các câu trong bộ dữ liệu được gán nhãn rõ ràng, giúp quá trình huấn luyện mô hình diễn ra hiệu quả hơn.

3.2. Kết quả chạy thực nghiệm

Kết quả thực nghiệm cho thấy mô hình LSTM đạt được độ chính xác cao nhất, với tỷ lệ chính xác lên đến 90%. Các mô hình CNN và RNN cũng cho kết quả khả quan, nhưng không bằng LSTM. Việc phân tích kết quả cho thấy rằng LSTM có khả năng ghi nhớ thông tin trong chuỗi tốt hơn, từ đó giúp cải thiện độ chính xác trong việc phát hiện câu chứa gợi ý. Kết quả này cho thấy tiềm năng ứng dụng của các mô hình mạng nơron trong việc phân loại văn bản trên diễn đàn trực tuyến.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng mạng nơron

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển mạnh mẽ của mạng xã hội trực tuyến, nhu cầu khai thác thông tin từ các diễn đàn, blog, và nền tảng truyền thông xã hội ngày càng trở nên cấp thiết. Theo báo cáo của ngành, số lượng người dùng mạng xã hội tăng trưởng liên tục, tạo ra một kho dữ liệu khổng lồ chứa đựng các ý kiến, mong muốn và gợi ý của người dùng. Việc phát hiện và phân loại câu chứa gợi ý trên các diễn đàn trực tuyến không chỉ giúp doanh nghiệp hiểu rõ hơn về nhu cầu khách hàng mà còn hỗ trợ cải tiến sản phẩm, dịch vụ và nâng cao trải nghiệm người dùng. Mục tiêu nghiên cứu của luận văn là xây dựng một hệ thống phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng các mô hình mạng nơ-ron nhân tạo, đặc biệt là CNN, RNN và LSTM, nhằm nâng cao độ chính xác phân loại câu. Nghiên cứu tập trung trên bộ dữ liệu tiếng Anh thu thập từ Semeval2019Task9/Subtask-A với khoảng 9.333 câu, trong đó có 2.172 câu chứa gợi ý và 7.161 câu không chứa gợi ý. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ các diễn đàn trực tuyến tiếng Anh, thực hiện trong năm 2020. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp công cụ tự động hỗ trợ khai thác thông tin gợi ý, góp phần thúc đẩy các ứng dụng trong thương mại điện tử, phân tích thị trường và dự đoán xu hướng người dùng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), một lĩnh vực trí tuệ nhân tạo chuyên về xử lý và phân tích ngôn ngữ con người bằng máy tính. Các khái niệm chính bao gồm:

Phân loại dữ liệu văn bản: Quá trình gán nhãn cho các câu hoặc văn bản dựa trên nội dung, trong đó bài toán phân loại câu chứa gợi ý là một dạng phân loại nhị phân (có gợi ý hoặc không).
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN): Mô hình học máy mô phỏng hoạt động của hệ thần kinh sinh học, gồm các lớp nơ-ron kết nối với nhau qua trọng số.
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): Mạng chuyên xử lý dữ liệu có cấu trúc dạng lưới như hình ảnh hoặc chuỗi từ, sử dụng các bộ lọc tích chập để trích xuất đặc trưng.
Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN): Mạng có khả năng xử lý dữ liệu chuỗi, lưu giữ thông tin ngữ cảnh qua các bước thời gian.
Mạng nơ-ron bộ nhớ ngắn dài (Long Short-Term Memory - LSTM): Một biến thể của RNN, giải quyết vấn đề lưu trữ thông tin phụ thuộc dài hạn bằng các cổng điều khiển thông tin.

Các mô hình này được áp dụng để biểu diễn câu dưới dạng vector đặc trưng (word embedding) và huấn luyện để phân loại câu chứa gợi ý.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu tiếng Anh Semeval2019Task9/Subtask-A, gồm 8.500 câu huấn luyện và 833 câu kiểm thử, được gán nhãn "có gợi ý" hoặc "không gợi ý". Phương pháp nghiên cứu bao gồm các bước:

Tiền xử lý dữ liệu: Loại bỏ nhiễu, ký tự đặc biệt, từ dừng (stop words) để làm sạch dữ liệu, chuẩn hóa câu và chuyển đổi thành dạng vector.
Phân chia dữ liệu: Sử dụng kỹ thuật k-fold cross-validation (k=10) để đánh giá mô hình, đảm bảo tính đại diện và giảm thiểu overfitting.
Xây dựng mô hình: Triển khai ba mô hình mạng nơ-ron CNN, RNN và LSTM trên nền tảng Python với thư viện TensorFlow. Các tham số chính gồm kích thước từ vựng, chiều dài câu, số lượng bộ lọc, số lớp ẩn, và tỷ lệ dropout.
Phân tích kết quả: Đánh giá hiệu quả mô hình dựa trên các chỉ số Precision, Recall và F-score, so sánh độ chính xác giữa các mô hình để lựa chọn mô hình tối ưu.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian năm 2020, tập trung trên dữ liệu tiếng Anh từ các diễn đàn trực tuyến.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình LSTM vượt trội: Kết quả thực nghiệm cho thấy mô hình LSTM đạt độ chính xác cao nhất với F-score khoảng 85%, trong khi CNN và RNN lần lượt đạt khoảng 80% và 78%. Điều này chứng tỏ khả năng lưu giữ thông tin ngữ cảnh dài hạn của LSTM phù hợp với bài toán phân loại câu chứa gợi ý.
Tác động của tiền xử lý dữ liệu: Việc loại bỏ stop words và ký tự đặc biệt giúp tăng độ chính xác phân loại lên khoảng 5% so với dữ liệu chưa xử lý, nhấn mạnh tầm quan trọng của bước tiền xử lý trong NLP.
Ảnh hưởng của kích thước bộ lọc trong CNN: Sử dụng các bộ lọc kích thước 2, 3, 4 từ với số lượng 128 bộ lọc mỗi kích thước giúp mô hình CNN trích xuất đặc trưng hiệu quả, đạt độ chính xác khoảng 80%.
Phân bố nhãn dữ liệu không cân bằng: Tỷ lệ câu không chứa gợi ý chiếm khoảng 75% trong bộ dữ liệu, điều này ảnh hưởng đến việc huấn luyện và đòi hỏi các kỹ thuật cân bằng dữ liệu hoặc điều chỉnh trọng số trong mô hình.

Thảo luận kết quả

Nguyên nhân chính khiến LSTM vượt trội là do khả năng xử lý phụ thuộc dài hạn và loại bỏ thông tin nhiễu hiệu quả nhờ các cổng điều khiển thông tin. So với CNN, vốn ưu thế trong việc trích xuất đặc trưng cục bộ, LSTM phù hợp hơn với dữ liệu chuỗi ngôn ngữ có tính liên kết phức tạp. Kết quả này tương đồng với các nghiên cứu quốc tế về phân loại văn bản và khai thác ý định người dùng. Việc tiền xử lý dữ liệu làm giảm nhiễu và tăng tốc độ huấn luyện, đồng thời cải thiện độ chính xác mô hình. Tuy nhiên, sự mất cân bằng nhãn dữ liệu là thách thức cần được giải quyết trong các nghiên cứu tiếp theo để tránh hiện tượng mô hình thiên lệch. Các biểu đồ so sánh độ chính xác giữa các mô hình và phân bố nhãn có thể được trình bày qua biểu đồ cột và biểu đồ tròn để minh họa trực quan.

Đề xuất và khuyến nghị

Áp dụng mô hình LSTM cho hệ thống phân loại câu chứa gợi ý: Động từ hành động là "triển khai", mục tiêu nâng cao F-score lên trên 85%, thời gian thực hiện trong 6 tháng, chủ thể thực hiện là các nhóm phát triển AI trong doanh nghiệp hoặc tổ chức nghiên cứu.
Tăng cường bước tiền xử lý dữ liệu: Đề xuất "tối ưu hóa" quy trình lọc nhiễu và loại bỏ stop words, nhằm giảm sai số phân loại, thực hiện liên tục trong quá trình thu thập dữ liệu, do bộ phận xử lý dữ liệu đảm nhiệm.
Cân bằng dữ liệu huấn luyện: Khuyến nghị "sử dụng" kỹ thuật oversampling hoặc điều chỉnh trọng số trong huấn luyện để xử lý dữ liệu không cân bằng, nhằm cải thiện khả năng nhận diện câu chứa gợi ý, thực hiện trong vòng 3 tháng, do nhóm nghiên cứu mô hình đảm nhận.
Phát triển giao diện người dùng tích hợp công cụ phát hiện gợi ý: Động từ hành động "xây dựng" giao diện trực quan cho phép doanh nghiệp khai thác nhanh các gợi ý từ diễn đàn, mục tiêu tăng hiệu quả khai thác thông tin, thời gian 9 tháng, chủ thể là đội ngũ phát triển phần mềm.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Hệ thống thông tin, Trí tuệ nhân tạo và Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức nền tảng và ứng dụng thực tiễn về mạng nơ-ron trong phân loại văn bản, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Doanh nghiệp và tổ chức phát triển sản phẩm công nghệ: Các công ty thương mại điện tử, dịch vụ khách hàng có thể ứng dụng kết quả để tự động thu thập và phân tích ý kiến, gợi ý của khách hàng nhằm cải tiến sản phẩm.
Chuyên gia phân tích dữ liệu và marketing: Hỗ trợ khai thác thông tin người dùng từ mạng xã hội, diễn đàn trực tuyến để dự đoán xu hướng tiêu dùng và xây dựng chiến lược marketing hiệu quả.
Nhà phát triển phần mềm và kỹ sư AI: Cung cấp hướng dẫn chi tiết về xây dựng và triển khai các mô hình mạng nơ-ron CNN, RNN, LSTM trong xử lý ngôn ngữ tự nhiên, giúp nâng cao kỹ năng thực hành.

Câu hỏi thường gặp

Phát hiện câu chứa gợi ý là gì và tại sao quan trọng?
Phát hiện câu chứa gợi ý là quá trình xác định các câu trong văn bản có chứa lời khuyên, đề xuất hoặc ý định của người dùng. Việc này giúp doanh nghiệp hiểu rõ nhu cầu khách hàng, cải tiến sản phẩm và nâng cao trải nghiệm người dùng.
Tại sao chọn mô hình LSTM thay vì CNN hay RNN?
LSTM có khả năng lưu giữ thông tin dài hạn và xử lý tốt các phụ thuộc ngữ cảnh phức tạp trong câu, giúp tăng độ chính xác phân loại so với CNN và RNN truyền thống, đặc biệt trong dữ liệu chuỗi ngôn ngữ.
Bộ dữ liệu sử dụng trong nghiên cứu có đặc điểm gì?
Bộ dữ liệu gồm khoảng 9.333 câu tiếng Anh thu thập từ diễn đàn trực tuyến, trong đó 2.172 câu chứa gợi ý và 7.161 câu không chứa gợi ý, được gán nhãn rõ ràng để huấn luyện và kiểm thử mô hình.
Tiền xử lý dữ liệu ảnh hưởng thế nào đến kết quả?
Tiền xử lý giúp loại bỏ từ không mang nghĩa, ký tự đặc biệt và nhiễu, làm sạch dữ liệu đầu vào, từ đó cải thiện độ chính xác và tốc độ huấn luyện của mô hình phân loại.
Làm thế nào để đánh giá hiệu quả mô hình phân loại?
Hiệu quả được đánh giá qua các chỉ số Precision, Recall và F-score, trong đó F-score là chỉ số tổng hợp thể hiện cân bằng giữa độ chính xác và khả năng phát hiện đúng các câu chứa gợi ý.

Kết luận

Luận văn đã xây dựng thành công hệ thống phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng các mô hình mạng nơ-ron CNN, RNN và LSTM.
Mô hình LSTM cho kết quả phân loại tốt nhất với F-score đạt khoảng 85%, vượt trội so với các mô hình còn lại.
Tiền xử lý dữ liệu đóng vai trò quan trọng trong việc nâng cao hiệu quả phân loại, giảm nhiễu và tăng tốc độ huấn luyện.
Nghiên cứu góp phần mở rộng ứng dụng của mạng nơ-ron trong xử lý ngôn ngữ tự nhiên, đặc biệt trong khai thác ý định người dùng trên nền tảng trực tuyến.
Đề xuất các hướng phát triển tiếp theo bao gồm cân bằng dữ liệu, tối ưu mô hình và xây dựng giao diện ứng dụng thực tiễn.

Next steps: Triển khai mô hình LSTM vào hệ thống thực tế, mở rộng bộ dữ liệu đa ngôn ngữ và tích hợp công cụ phân tích gợi ý cho doanh nghiệp.

Call-to-action: Các nhà nghiên cứu và doanh nghiệp quan tâm có thể áp dụng phương pháp và kết quả nghiên cứu để phát triển các ứng dụng khai thác thông tin người dùng hiệu quả hơn.

Trích đoạn nội dung tài liệu

chương 1, luận văn đã giới thiệu tổng quan về bài toán xử lý ngôn ngữ tự nhiên. Tìm hiểu bài toán phân loại câu, văn bản và giới thiệu bài toán phát hiện câu chứa gợi ý trên diễn đàn trực tuyến, từ đó đưa ra những vấn đề cần làm rõ và giải quyết trong luận văn. Trong chương 2, luận văn sẽ trình bày về hướng giải quyết cho bài toán phát hiện câu chứa gợi ý và đi sâu hơn trình bày về các phương pháp sẽ áp dụng để giải quyết bài toán. Luan van 8 CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN CÂU CHỨA GỢI Ý SỬ DỤNG HỌC MÁY Trong chương 2, luận văn tập trung trình bày một số phương pháp giải quyết bài toán (phần 2.1) và các thuật toán mô hình mạng Nơron được sử dụng khi làm thực nghiệm : CNN,RNN và LSTM ( phần 2.

Phương pháp giải quyết bài toán: Qua quá trình nghiên cứu, tập hợp các dòng trạng thái trên các diễn đàn trực tuyến và đã thu thập được tập các nội dung chia sẻ về những vấn đề xung quanh của người dùng qua bộ dữ liệu Semeval2019Task9/Subtask-A bao gồm: khoảng 833 câu [5], mục đích sẽ xác định nội dung các câu đó là câu có chứa gợi ý hay câu không chứa gợi ý. Luận văn đã tham khảo và tìm hiểu sau đó đưa ra được các bước thực hiện để xây dựng phương pháp giải quyết cho bài toán phát hiện câu chứa gợi ý được chia làm 2 giai đoạn sau:  Giai đoạn huấn luyện  Giai đoạn phân lớp. a, Giai đoạn huấn luyện: Giai đoạn này nhận đầu vào là tập dữ liệu huấn luyện gồm các nội dung dưới dạng văn bản đã được gán nhãn, sau khi xử lý tập dữ liệu và áp dụng các thuật toán huấn luyện sẽ cho đầu ra là một mô hình phân loại, cụ thể: DỮ LIỆU HUẤN DỮ LIỆU LUYỆN TIỀN XỬ LÝ SAU KHI XỬ LÝ MÔ HÌNH MẠNG NƠ-RON PHÂN LỚP (CNN,RNN,LSTM) Hình 2.1 Mô hình giai đoạn huấn luyện Luan van 9 Trong đó các bước cụ thể sau :  Tiền xử lý: Chuyển đổi các dòng trạng thái trong tập dữ liệu thành một hình thức phù hợp để phân loại.  Dữ liệu sau khi xử lý: Tập dữ liệu đã được xử lý ở bước tiền xử lý như : lọc nhiễu, loại bỏ các thông tin dư thừa…  Thuật toán huấn luyện: Thủ tục huấn luyện để tìm ra các tham số tối ưu, có thể sử dụng các thuật toán khác nhau, trong phạm vi luận văn chúng tôi sử dụng thuật toán học máy gồm: Mạng Nơ-Ron tích chập (CNN), mạng Nơ-ron hồi qui (RNN), Mạng Nơ-Ron có bộ nhớ ngắn dài (LSTM) b, Giai đoạn phân lớp : Nhận đầu vào là nội dung trạng thái của người dùng dưới dạng ngôn ngữ tự nhiên, sau quá trình xử lý và áp dụng mô hình phân loại sẽ cho ra nhãn phân loại của câu dữ liệu văn bản đầu vào, cụ thể được biểu diễn dưới sơ đồ sau: TẬP DỮ MÔ HÌNH PHÂN TIỀN XỬ LÝ LIỆU CHƯA LỚP GÁN NHÃN NHÃN Ý ĐỊNH Hình 2.2: Mô hình giai đoạn phân lớp Tương tự như các bước trong giai đoạn huấn luyện, giai đoạn phân lớp có nhiệm vụ cụ thể:  Tiền xử lý: Chuyển đổi các dòng trạng thái trong tập dữ liệu thành một hình thức phù hợp để phân loại như lọc nhiễu, loại bỏ các từ không mang ý định.

 Mô hình phân lớp: Sử dụng các thuật toán như Mạng Nơ-Ron tích chập (CNN), mạng Nơ-ron hồi qui (RNN), Mạng Nơ-Ron có bộ nhớ ngắn dài (LSTM) để tiến hành phân loại và gán nhãn ý định. 2 trên ta có thể dễ dàng nhận thấy: Luan van 10 Mô hình kiến trúc hệ thống tổng quát cho bài toán phân loại câu chứa gợi ý gồm các bước chính. Sau đây sẽ giới thiệu chi tiết các thành phần quan trọng của bài toán phân loại câu chứa gợi ý nói riêng và bài toán phân loại văn bản nói chung cho tập dữ liệu thu thập được trên trang trực tuyến gồm 833 dòng trạng thái [5] và được lưu trữ trong file dữ liệu. Tiền xử lý dữ liệu Tiền xử lý dữ liệu là một bước rất quan trọng trong quá trình phân loại dữ liệu.Các kỹ thuật tiền xử lý dữ liệu phổ biến hiện nay bao gồm: xử lý dữ liệu bị khuyết (missing data), mã hóa các biến nhóm (encoding categorical variables), chuẩn hóa dữ liệu (standardizing data), co giãn dữ liệu (scaling data),v.

Một số lỗi thường mắc phải trong khi thu thập dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu, ví dụ dữ liệu là các con số, các ký tự đặc biệt, các #hastag. Ở bước này chúng tôi sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên, những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch” sẽ gây nên những kết quả sai lệch nghiêm trọng.

Trước khi tiến hành xây dựng dữ liệu thực nghiệm, chúng tôi sẽ tiến hành lọc và loại bỏ một số dữ liệu không cần thiết từ tập dữ liệu đã thu thập từ các diễn đàn trực tuyến. Lọc nhiễu (loại bỏ từ không mang nghĩa) Các từ không có nghĩa ở đây là các con số, các ký tự đặc biệt và không mang nghĩa. Loại bỏ các từ phổ biến (stop word): Ngôn ngữ cũng giống như một đống gạo bị lẫn với thóc. Việc cần làm đó chính là chọn ra các hạt gạo chất lượng tốt nhất từ đống thóc đó.

Những hạt thóc đó được gọi là stop words tức là những từ không có ý nghĩa lắm đối với việc phân loại. Để tiết kiệm không gian lưu trữ và gia tăng tốc độ xử lý, sẽ không ghi nhận lại những từ quá phổ biến, quá chung chung và những từ này gọi là stop word [18] Luan van 11 {'his', 'because', 'shan', 'own', 'themselves', 'doesn', 'our', 'ourselves', 'up', 'should', 'under', 'most', 'at', 'having', 'where', 'him', 'below', 'am', 'wouldn', 'itself', 'your', 'll', 'from', 'their', 'ain', 'more', 'they', 'have', 'out', 'nor', 'of', 'weren', 'down', 'that', 'into', 'as', 'these', 'both', 'only', 'than', 'here', 'some', 'so', 'herself', 'how', 's', 'on', 'myself', 't', 'has', 'her', 'further', 'himself', 'again', 'hers', 'doing', 'before', 'very', 'just', 'd', 'between', 'in', 'during', 'yourself', 'whom', 'which', 'or', 've', 'what', 'against', 're', 'aren', 'was', 'yours', 'for', 'm', 'don', 'didn', 'she', 'not', 'y', 'been', 'its', 'mustn', 'and', 'ours', 'after', 'them', 'shouldn', 'you', 'few', 'couldn', 'mightn', 'same', 'haven', 'ma', 'be', 'theirs', 'but', 'such', 'wasn', 'were', 'those', 'a', 'to', 'an', 'did', 'too', 'with', 'about', 'who', 'isn', 'we', 'my', 'other', 'needn', 'i', 'when', 'the', 'then', 'once', 'all', 'will', 'won', 'is', 'this', 'he', 'off', 'while', 'yourselves', 'are', 'there', 'it', 'had', 'why', 'hadn', 'hasn', 'through', 'over', 'can', 'until', 'above', 'no', 'being', 'by', 'do', 'any', 'if', 'each', 'o', 'now', 'me', 'does'} Hình 2.3: Một số stopword trong tiếng Anh [18] Phần tiếp theo sẽ trình bày các mô hình mạng Nơ-ron được sử dụng trong luận văn. Giới thiệu chung mô hình mạng Nơ-ron: 2. Mạng Nơ-ron nhân tạo (ANN) Mạng neural nhân tạo (Artificial Neural Network- ANN)[1] là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm số lượng lớn các Neuron được gắn kết để xử lý thông tin.

ANN giống như bộ não con người, được học bởi kinh nghiệm (thông qua huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức) và sử dụng những tri thức đó trong việc dự đoán phân loại các dữ liệu chưa biết (unseen data. Mạng neural nhân tạo đã được sử dụng rộng rãi từ những năm 1980 cho đến nay, vẫn được áp dụng rộng rãi trong nhiều ngành khoa học.Mốt số kiến trúc mạng Nơ ron phổ biến như: Mạng nơ ron tích chập(CNN), mạng nơ ron hồi qui(RNN), mạng nơ ron sâu(DNN), mạng bộ nhớ ngắn dài(LSTM),…. Mạng nơ-ron sinh học Hệ thống thần kinh là tổ chức vật chất cao cấp và có cấu tạo vô cùng phức tạp. Hệ thần kinh được cấu tạo bởi nhiều yếu tố trong đó nơ-ron là khái niệm cơ bản nhất.

Trong bộ não người có khoảng 1011 - 1012 tế bào thần kinh được gọi là các nơ-ron và mỗi nơ-ron lại liên kết với khoảng 104 nơ ron khác thông qua các khớp nối thần kinh synapse. Cấu tạo của mỗi nơ-ron gồm các thành phần cơ bản như thân nơ-ron và liên kết giữa các nơ-ron. Thân nơ-ron được giới hạn trong lớp màng và trong cùng là nhân. Nơi đo là nơi tiếp nhận tổng hợp và phát ra các xung thần kinh hay các tín hiệu điện sinh.

Tại thân nơ-ron có rất nhiều đường rẽ nhánh gọi là rễ. Rễ được chia làm hai loại là rễ đầu vào nhân thông tin từ các nơ-ron khác qua axon và rễ đầu ra đưa thông tin qua axon tới các nơ-ron khác.4 mô tả thông tin được truyền từ nơ-ron 1 qua axon đến nơ-ron 2 Hình 2.4: Mô hình mạng nơ ron sinh học[24] (Nguồn: https://cs231n.io/) Luan van 13 Quá trình hoạt động của nơ-ron là một quá trình điện hóa tự nhiên. Khi có tác động từ bên ngoài vào mạng nơ-ron sẽ phản ứng như sau: đầu vào của nơ-ron lớp đầu tiên sẽ xuất hiện một tín hiệu vượt quá mức cân bằng của nó và nó sẽ ở trạng thái kích thích. Trong bản thân nơ-ron sẽ xảy ra hàng loạt những phản ứng tạo thành thế năng.

Thế năng được chuyển vào mạng thông qua axon để tới các nơ-ron tiếp theo. Cứ như vậy thế năng được truyền từ nơ-ron này đến nơ-ron khác trong đó nó sẽ có khả năng kích thích hoặc kìm hãm tự nhiên các neural khác trong mạng. Một tính chất cơ bản của mạng neural sinh học là đáp ứng các kích thích, tác động từ bên ngoài và có khả năng thay đổi theo thời gian. Qua các lớp nơ-ron thì thế năng kích thích có thể được tăng lên, giảm đi hoặc thậm chí là biến mất.

Chính sự liên kết chặt chẽ với nhau của các nơ-ron đã tạo ra mạng lưới đáp ứng, thay đổi không ngừng theo thời gian. Sự thay đổi trạng thái của một neural dẫn thời sự thay đổi trạng thái của các nơ-ron khác và dẫn đến sự thay đổi của toàn bộ mạng. Các nhà khoa học đã tìm hiểu và lấy nguyên lý cấu trúc của mạng nơ-ron sinh học để xây dựng thành mô hình mạng neural nhân tạo. Kiến trúc tổng quát của mạng neural nhân tạo: Mạng neural nhân tạo (Artificial Neural Network) gọi tắt là ANN là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của hệ thống nơ-ron sinh học[1][24].

Nó được tạo lên từ một số lượng lớn các phần tử gọi là neural kết nối với nhau thông qua các liên kết gọi là trọng số liên kết. Mạng neural nhân tạo thường được mô phỏng và huấn luyện từ tập mẫu.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng mạng nơron" của tác giả Tống Nguyên Sơn, dưới sự hướng dẫn của TS. Ngô Xuân Bách, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2020. Nghiên cứu này tập trung vào việc áp dụng mạng nơron để phát hiện các câu chứa gợi ý trên các diễn đàn trực tuyến, một vấn đề quan trọng trong việc cải thiện trải nghiệm người dùng và quản lý thông tin trên mạng. Bài viết không chỉ cung cấp cái nhìn sâu sắc về công nghệ mạng nơron mà còn mở ra hướng đi mới cho việc phát triển các ứng dụng thông minh trong lĩnh vực này.

Nếu bạn quan tâm đến các chủ đề liên quan, có thể tham khảo thêm bài viết "Luận Văn: Khảo Sát Mạng LAN với Các Phần Mở Rộng Không Dây", nơi nghiên cứu về công nghệ thông tin và mạng, hoặc "Các Tấn Công Tích Cực Lên Hệ Thống Thông Tin Di Động 5G: Nghiên Cứu Luận Văn Thạc Sĩ 2023", bài viết này cũng đề cập đến các vấn đề an ninh trong hệ thống thông tin. Cuối cùng, bạn có thể tìm hiểu thêm về "Luận văn thạc sĩ về quản lý sự cố hạ tầng mạng bằng hệ thống thông tin số hóa", một nghiên cứu liên quan đến quản lý và bảo mật thông tin trong mạng. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và cái nhìn về các ứng dụng công nghệ trong lĩnh vực thông tin và mạng.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#phân tích ngữ nghĩa

#diễn đàn trực tuyến

#phát hiện câu chứa gợi ý

Chủ đề

Công nghệ thông tin

nghiên cứu và ứng dụng trong giáo dục

Xử Lý Ngôn Ngữ Tự Nhiên

Trí tuệ nhân tạo và học máy

Luận văn thạc sĩ về phát hiện câu chứa gợi ý trên diễn đàn trực tuyến sử dụng mạng nơron

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI CÂU CHỨA GỢI Ý

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Bài toán phát hiện câu chứa gợi ý trên diễn đàn trực tuyến

1.3. Phân loại dữ liệu văn bản

1.4. Phát biểu bài toán phân loại phát hiện câu chứa gợi ý

1.5. Ý nghĩa bài toán

1.6. Các nghiên cứu liên quan

1.7. Kết luận chương

2. CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN CÂU CHỨA GỢI Ý SỬ DỤNG HỌC MÁY

2.1. Phương pháp giải quyết bài toán

2.2. Tiền xử lý dữ liệu

2.3. Loại bỏ các từ phổ biến (stop word)

2.4. Giới thiệu chung mô hình mạng Nơ-ron

2.5. Mạng Nơ-ron nhân tạo (ANN)

2.6. Mạng nơ-ron sinh học

2.7. Kiến trúc tổng quát của mạng neural nhân tạo

2.8. Mạng nơron tích chập CNN

2.9. Mạng nơron hồi quy RNN

2.10. Mạng nơ-ron có bộ nhớ ngắn dài LSTM

2.11. Kết luận chương 2

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thông tin về bộ dữ liệu

3.2. Môi trường thực nghiệm

3.3. Ngôn ngữ lập trình python

3.4. Phương pháp thực nghiệm

3.5. Cách chia dữ liệu

3.6. Tiến hành thực nghiệm

3.7. Xây dựng các thành phần chung cho các mô hình

3.8. Kết quả chạy thực nghiệm

3.9. Nhận xét và đánh giá

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC WEBSITE THAM KHẢO

I. Giới thiệu bài toán phân loại câu chứa gợi ý

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Bài toán phát hiện câu chứa gợi ý

II. Phương pháp phát hiện câu chứa gợi ý sử dụng học máy

2.1. Tiền xử lý dữ liệu

2.2. Mô hình mạng nơron

III. Thực nghiệm và đánh giá

3.1. Thông tin về bộ dữ liệu

3.2. Kết quả chạy thực nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Tống Nguyên Sơn

Người hướng dẫn: TS. Ngô Xuân Bách

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Hệ thống thông tin

Đề tài: Phát hiện câu chứa gợi ý trên diễn đàn trực tuyến bằng mạng nơron

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2020

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm