Luận Văn Thạc Sĩ Về Học Máy Trong Trích Xuất Thông Tin Quan Điểm

Luận văn thạc sĩ toán học nghiên cứu vnu uet hướng tiếp cận dựa trên học máy cho bài toán trích xuất thông tin quan điểm luận văn ths, khảo sát thực trạng, phân tích nguyên nhân,

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN

1.1. Khái niệm quan điểm

1.2. Bài toán trích xuất thông tin quan điểm

1.3. Các hướng tiếp cận và giải quyết bài toán

1.3.1. Mô hình Support Vector Machine

1.3.2. SVM nhị phân

2. CHƯƠNG 2: MẠNG NEURAL VÀ RNN

2.1. Mạng neural nhân tạo ANN

2.1.1. Mạng nơ-ron sinh học

2.1.2. Kiến trúc tổng quát của mạng neural nhân tạo

2.2. Mạng neural hồi quy RNN

2.2.1. Vấn đề lưu trữ thông tin ngữ cảnh phụ thuộc lâu dài. Mạng Long short-term memory

3. CHƯƠNG 3: RNN CHO BÀI TOÁN TRÍCH XUẤT QUAN ĐIỂM

3.1. Bài toán trích xuất thông tin quan điểm sử dụng RNN

3.2. Một số phương pháp vector hóa từ

3.2.1. Bag of Words

3.3. Áp dụng LSTM trong bài toán trích xuất thông tin quan điểm

3.3.1. Tiền xử lý kho ngữ liệu

3.3.2. Xây dựng Word2vec

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Bộ ngữ liệu

4.1.1. Bộ ngữ liệu tiếng Anh (Food Reviews)

4.1.2. Bộ ngữ liệu tiếng Việt

4.2. Cài đặt và thử nghiệm

4.2.1. Bước tiền xử lý

4.2.2. Xây dựng model Word2vec

4.2.4. Huấn luyện mô hình LSTM

4.2.5. Cài đặt một số phương pháp học có giám sát kinh điển

4.3. Kết quả trích xuất thông tin quan điểm

4.3.1. Một số thử nghiệm và kết quả trên bộ ngữ liệu tiếng Anh

4.3.2. Một số thử nghiệm và kết quả trên bộ ngữ liệu tiếng Việt

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Hướng Dẫn Tổng Quan Về Học Máy Trong Trích Xuất Thông Tin Quan Điểm

Học máy đã trở thành một công cụ mạnh mẽ trong việc trích xuất thông tin quan điểm từ dữ liệu văn bản. Bài viết này sẽ cung cấp cái nhìn tổng quan về cách thức áp dụng học máy để phân tích và trích xuất thông tin quan điểm từ các nguồn dữ liệu khác nhau. Việc hiểu rõ về học máy và các thuật toán liên quan là rất quan trọng để giải quyết bài toán này một cách hiệu quả.

1.1. Khái Niệm Về Trích Xuất Thông Tin Quan Điểm

Trích xuất thông tin quan điểm là quá trình phân loại ý kiến của người dùng thành các nhóm tích cực, tiêu cực hoặc trung lập. Điều này giúp các tổ chức hiểu rõ hơn về cảm nhận của khách hàng đối với sản phẩm và dịch vụ của họ.

1.2. Tại Sao Học Máy Quan Trọng Trong Trích Xuất Thông Tin

Học máy cung cấp các phương pháp tự động hóa trong việc phân tích dữ liệu lớn, giúp tiết kiệm thời gian và tăng độ chính xác trong việc xác định quan điểm của người dùng từ các nguồn dữ liệu phong phú.

II. Những Thách Thức Trong Việc Trích Xuất Thông Tin Quan Điểm

Mặc dù học máy mang lại nhiều lợi ích, nhưng việc trích xuất thông tin quan điểm cũng gặp phải nhiều thách thức. Các vấn đề như ngữ nghĩa, ngữ cảnh và sự đa dạng trong cách diễn đạt của người dùng có thể làm giảm độ chính xác của mô hình.

2.1. Vấn Đề Ngữ Nghĩa Trong Dữ Liệu Văn Bản

Ngữ nghĩa của từ có thể thay đổi tùy thuộc vào ngữ cảnh. Điều này tạo ra khó khăn trong việc phân loại chính xác các ý kiến của người dùng.

2.2. Độ Phức Tạp Của Ngôn Ngữ Tự Nhiên

Ngôn ngữ tự nhiên rất phong phú và đa dạng, với nhiều cách diễn đạt khác nhau. Điều này làm cho việc xây dựng mô hình học máy trở nên phức tạp hơn.

III. Phương Pháp Học Máy Để Trích Xuất Thông Tin Quan Điểm

Có nhiều phương pháp học máy có thể được áp dụng để trích xuất thông tin quan điểm. Các mô hình như Support Vector Machine (SVM) và mạng nơ-ron hồi quy (RNN) đã chứng minh được hiệu quả trong việc phân tích dữ liệu văn bản.

3.1. Mô Hình Support Vector Machine SVM

SVM là một trong những mô hình học máy phổ biến nhất cho bài toán phân loại. Nó tìm kiếm siêu mặt phẳng tối ưu để phân tách các lớp dữ liệu, giúp cải thiện độ chính xác trong việc phân loại quan điểm.

3.2. Mạng Nơ Ron Hồi Quy RNN Trong Phân Tích Quan Điểm

RNN là một mô hình mạnh mẽ cho việc xử lý dữ liệu chuỗi, như văn bản. Nó có khả năng ghi nhớ thông tin từ các bước trước đó, giúp cải thiện độ chính xác trong việc phân tích ngữ cảnh của các ý kiến.

IV. Ứng Dụng Thực Tiễn Của Học Máy Trong Trích Xuất Thông Tin Quan Điểm

Học máy đã được áp dụng rộng rãi trong nhiều lĩnh vực để trích xuất thông tin quan điểm. Các ứng dụng này không chỉ giúp các doanh nghiệp hiểu rõ hơn về khách hàng mà còn hỗ trợ trong việc ra quyết định chiến lược.

4.1. Phân Tích Tâm Lý Người Dùng

Việc phân tích tâm lý người dùng thông qua trích xuất thông tin quan điểm giúp các doanh nghiệp điều chỉnh sản phẩm và dịch vụ của mình để đáp ứng tốt hơn nhu cầu của khách hàng.

4.2. Nghiên Cứu Thị Trường

Trích xuất thông tin quan điểm từ các nguồn dữ liệu như mạng xã hội giúp các tổ chức nắm bắt xu hướng thị trường và điều chỉnh chiến lược marketing một cách hiệu quả.

V. Kết Luận Về Học Máy Trong Trích Xuất Thông Tin Quan Điểm

Học máy đã mở ra nhiều cơ hội mới trong việc trích xuất thông tin quan điểm. Tuy nhiên, cần tiếp tục nghiên cứu và phát triển các mô hình để cải thiện độ chính xác và khả năng xử lý ngữ nghĩa trong ngôn ngữ tự nhiên.

5.1. Tương Lai Của Học Máy Trong Phân Tích Quan Điểm

Với sự phát triển không ngừng của công nghệ, học máy sẽ tiếp tục đóng vai trò quan trọng trong việc phân tích và trích xuất thông tin quan điểm, giúp các tổ chức đưa ra quyết định chính xác hơn.

5.2. Những Hướng Nghiên Cứu Mới

Các nghiên cứu mới sẽ tập trung vào việc cải thiện khả năng hiểu ngữ nghĩa và ngữ cảnh của mô hình học máy, từ đó nâng cao hiệu quả trong việc trích xuất thông tin quan điểm.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet hướng tiếp cận dựa trên học máy cho bài toán trích xuất thông tin quan điểm luận văn ths máy tính 60 48 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và mạng xã hội, lượng dữ liệu văn bản từ người dùng ngày càng tăng nhanh chóng, đặc biệt là các ý kiến phản hồi về sản phẩm và dịch vụ. Theo ước tính, trên Facebook mỗi phút có khoảng 510.000 bình luận, 293.000 trạng thái mới và 136.000 hình ảnh được tải lên, tạo ra một kho dữ liệu khổng lồ chứa đựng nhiều thông tin quan điểm giá trị. Bài toán trích xuất thông tin quan điểm (sentiment analysis) nhằm phân loại các phản hồi này thành tích cực, tiêu cực hoặc trung lập, giúp doanh nghiệp và tổ chức hiểu rõ hơn về thị hiếu khách hàng, hiệu quả chiến lược marketing và cải tiến sản phẩm.

Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp dựa trên học máy, cụ thể là mạng neural hồi quy (RNN) và cải tiến LSTM, để trích xuất thông tin quan điểm từ dữ liệu văn bản tiếng Anh và tiếng Việt. Phạm vi nghiên cứu tập trung vào hai bộ dữ liệu lớn: bộ Food Reviews tiếng Anh với hơn 568.000 đánh giá trong 10 năm và bộ dữ liệu tiếng Việt gồm 5.100 nhận xét về sản phẩm tin học. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trong phân loại quan điểm, góp phần hỗ trợ các ứng dụng xử lý ngôn ngữ tự nhiên (NLP) trong thực tế như phân tích thị trường, chăm sóc khách hàng và dự báo xu hướng tiêu dùng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng neural nhân tạo (ANN) và mạng neural hồi quy (RNN), cùng với mô hình cải tiến Long short-term memory (LSTM). ANN mô phỏng hoạt động của hệ thần kinh sinh học, gồm các lớp nơ-ron kết nối với trọng số liên kết, được huấn luyện để nhận dạng mẫu và phân loại. Tuy nhiên, ANN truyền thống không xử lý tốt dữ liệu chuỗi có tính phụ thuộc thời gian.

RNN được thiết kế để xử lý dữ liệu chuỗi nhờ khả năng lưu giữ trạng thái ẩn qua các bước thời gian, phù hợp với ngôn ngữ tự nhiên có tính tuần tự. Tuy nhiên, RNN gặp khó khăn trong việc lưu trữ thông tin phụ thuộc dài hạn do vấn đề biến mất gradient. LSTM là một cải tiến của RNN, sử dụng các cổng (gate) như cổng chặn (forget gate), cổng vào (input gate) và cổng ra (output gate) để kiểm soát luồng thông tin, giúp lưu giữ và loại bỏ thông tin một cách hiệu quả trong bộ nhớ dài hạn.

Ngoài ra, luận văn sử dụng các phương pháp vector hóa từ như Bag of Words, TF-IDF và đặc biệt là Word2vec – một mô hình nhúng từ dựa trên mạng neural đơn lớp ẩn, giúp biểu diễn từ dưới dạng vector số thực có khả năng phản ánh mối quan hệ ngữ nghĩa giữa các từ. Word2vec sử dụng thuật toán skip-gram để dự đoán ngữ cảnh từ một từ cho trước, với số chiều đặc trưng thường là 100-300.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ ngữ liệu: bộ Food Reviews tiếng Anh với 568.454 đánh giá thu thập trong 10 năm từ Amazon và bộ dữ liệu tiếng Việt gồm 5.100 nhận xét về sản phẩm tin học. Dữ liệu được tiền xử lý kỹ lưỡng bao gồm tách từ, loại bỏ ký tự không hợp lệ và stopwords, sử dụng công cụ tách từ Đông Du cho tiếng Việt.

Phương pháp phân tích bao gồm xây dựng mô hình Word2vec để vector hóa từ, sau đó áp dụng mô hình LSTM để huấn luyện và phân loại quan điểm. Quá trình huấn luyện sử dụng Mini-batch Gradient Descent với batch_size được điều chỉnh phù hợp. Các tham số hyperparameter như số chiều vector (100-128), window size (10), và số lượng lớp LSTM được tối ưu hóa qua các thử nghiệm. Mô hình được đánh giá trên cả hai bộ dữ liệu tiếng Anh và tiếng Việt, so sánh với các thuật toán học máy kinh điển như SVM và KNN.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của mô hình LSTM trên bộ dữ liệu tiếng Anh: Mô hình đạt độ chính xác khoảng 85% trên bộ Food Reviews với hơn 443.000 đánh giá tích cực và 125.000 đánh giá tiêu cực, vượt trội so với các thuật toán SVM và KNN truyền thống có độ chính xác lần lượt khoảng 78% và 74%.
Kết quả trên bộ dữ liệu tiếng Việt: Với 5.100 nhận xét, mô hình LSTM đạt độ chính xác khoảng 82%, trong khi SVM và KNN chỉ đạt khoảng 75% và 70%. Độ dài câu trung bình là 28,4 từ, với câu dài nhất lên đến 2.716 từ, cho thấy khả năng xử lý tốt các chuỗi dài của LSTM.
Tác động của tiền xử lý và vector hóa: Việc loại bỏ stopwords và sử dụng Word2vec với số chiều vector 128 giúp tăng độ chính xác phân loại lên khoảng 5% so với sử dụng Bag of Words hoặc TF-IDF. Các từ đồng nghĩa và có liên quan được nhóm gần nhau trong không gian vector, hỗ trợ mô hình học sâu hiểu ngữ cảnh tốt hơn.
Khả năng lưu trữ thông tin phụ thuộc dài hạn: LSTM thể hiện ưu thế rõ rệt trong việc xử lý các đoạn văn dài và chứa nhiều câu nhiễu, nhờ cơ chế cổng điều khiển thông tin, khắc phục hạn chế của RNN truyền thống.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình LSTM là khả năng duy trì và cập nhật thông tin ngữ cảnh qua các bước thời gian, phù hợp với đặc tính chuỗi của dữ liệu văn bản. So với các thuật toán học máy kinh điển như SVM, LSTM không chỉ dựa vào đặc trưng tĩnh mà còn học được các mối quan hệ phức tạp giữa các từ trong câu.

Kết quả phù hợp với các nghiên cứu gần đây trong lĩnh vực xử lý ngôn ngữ tự nhiên, khẳng định vai trò quan trọng của mạng neural hồi quy và các mô hình học sâu trong trích xuất thông tin quan điểm. Việc áp dụng Word2vec giúp mô hình hiểu sâu sắc hơn về ngữ nghĩa từ, từ đó cải thiện độ chính xác phân loại.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình trên hai bộ dữ liệu, biểu đồ phân bố độ dài câu và bảng thống kê các tham số hyperparameter tối ưu. Những biểu đồ này minh họa rõ ràng sự vượt trội của LSTM và tác động tích cực của tiền xử lý dữ liệu.

Đề xuất và khuyến nghị

Tăng cường thu thập và làm sạch dữ liệu: Động từ hành động là "mở rộng" bộ dữ liệu đầu vào, đặc biệt là dữ liệu tiếng Việt, nhằm nâng cao độ đa dạng và chất lượng dữ liệu. Chủ thể thực hiện là các tổ chức nghiên cứu và doanh nghiệp, trong vòng 12 tháng tới.
Ứng dụng mô hình LSTM trong hệ thống phân tích phản hồi khách hàng: Triển khai mô hình vào các nền tảng thương mại điện tử và mạng xã hội để tự động phân loại ý kiến, giúp cải thiện kênh chăm sóc khách hàng và điều chỉnh sản phẩm kịp thời. Thời gian thực hiện dự kiến 6-9 tháng.
Phát triển công cụ tiền xử lý ngôn ngữ tự nhiên cho tiếng Việt: Tập trung cải tiến các công cụ tách từ, loại bỏ stopwords và chuẩn hóa dữ liệu nhằm nâng cao hiệu quả vector hóa và huấn luyện mô hình. Chủ thể là các nhóm nghiên cứu NLP trong 1 năm.
Nghiên cứu mở rộng mô hình học sâu kết hợp đa ngôn ngữ: Khuyến nghị phát triển các mô hình đa ngôn ngữ, tận dụng dữ liệu song ngữ để nâng cao khả năng trích xuất quan điểm trong môi trường đa dạng ngôn ngữ. Thời gian nghiên cứu 18 tháng, phối hợp giữa các viện nghiên cứu và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, đặc biệt lĩnh vực Kỹ thuật Phần mềm và Xử lý Ngôn ngữ Tự nhiên: Luận văn cung cấp kiến thức sâu về mạng neural hồi quy, LSTM và ứng dụng trong trích xuất thông tin quan điểm, hỗ trợ phát triển các đề tài nghiên cứu và luận văn.
Doanh nghiệp thương mại điện tử và marketing số: Các chuyên gia phân tích dữ liệu và marketing có thể áp dụng mô hình để tự động phân tích phản hồi khách hàng, từ đó tối ưu hóa chiến lược kinh doanh và nâng cao trải nghiệm người dùng.
Phát triển phần mềm và công nghệ AI: Các kỹ sư phần mềm và nhà phát triển AI có thể tham khảo phương pháp xây dựng pipeline xử lý dữ liệu, huấn luyện mô hình LSTM và tích hợp vào sản phẩm thực tế.
Cơ quan quản lý và tổ chức nghiên cứu thị trường: Luận văn giúp các tổ chức này hiểu rõ hơn về công nghệ trích xuất quan điểm, phục vụ cho việc dự báo xu hướng tiêu dùng và đánh giá hiệu quả chính sách.

Câu hỏi thường gặp

Mạng LSTM khác gì so với mạng RNN truyền thống?
LSTM có cấu trúc cổng điều khiển giúp lưu giữ và loại bỏ thông tin một cách hiệu quả, khắc phục vấn đề biến mất gradient của RNN truyền thống, từ đó xử lý tốt các phụ thuộc dài hạn trong dữ liệu chuỗi.
Tại sao cần sử dụng Word2vec thay vì Bag of Words hay TF-IDF?
Word2vec biểu diễn từ dưới dạng vector số thực phản ánh mối quan hệ ngữ nghĩa giữa các từ, giúp mô hình học sâu hiểu sâu sắc hơn về ngữ cảnh, trong khi Bag of Words và TF-IDF chỉ dựa trên tần suất từ mà không xét đến thứ tự hay ngữ nghĩa.
Bộ dữ liệu tiếng Việt có đặc điểm gì khó khăn?
Tiếng Việt có cấu trúc từ ghép phức tạp, đòi hỏi công cụ tách từ chính xác như Đông Du. Ngoài ra, dữ liệu tiếng Việt thường ít hơn và đa dạng về cách diễn đạt, gây khó khăn cho việc huấn luyện mô hình.
Làm thế nào để đánh giá hiệu quả mô hình trích xuất quan điểm?
Hiệu quả thường được đánh giá qua các chỉ số như độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (precision) trên tập dữ liệu kiểm thử. So sánh với các thuật toán khác cũng giúp xác định ưu nhược điểm.
Mô hình có thể áp dụng cho các ngôn ngữ khác không?
Có thể, với điều kiện có bộ dữ liệu đủ lớn và công cụ tiền xử lý phù hợp. Mô hình LSTM và Word2vec là các kỹ thuật phổ biến trong NLP đa ngôn ngữ, tuy nhiên cần điều chỉnh tham số và tiền xử lý tương ứng.

Kết luận

Luận văn đã phát triển thành công mô hình LSTM kết hợp Word2vec để trích xuất thông tin quan điểm từ dữ liệu tiếng Anh và tiếng Việt với độ chính xác lần lượt đạt khoảng 85% và 82%.
Mô hình LSTM vượt trội hơn các thuật toán học máy truyền thống nhờ khả năng xử lý phụ thuộc dài hạn trong dữ liệu chuỗi.
Tiền xử lý dữ liệu và vector hóa từ đóng vai trò quan trọng trong việc nâng cao hiệu quả mô hình.
Kết quả nghiên cứu có ý nghĩa thực tiễn lớn trong các ứng dụng phân tích phản hồi khách hàng và dự báo xu hướng tiêu dùng.
Đề xuất mở rộng nghiên cứu và ứng dụng mô hình trong môi trường đa ngôn ngữ và các lĩnh vực khác trong công nghệ thông tin.

Tiếp theo, việc triển khai mô hình vào các hệ thống thực tế và mở rộng bộ dữ liệu sẽ là bước quan trọng để nâng cao tính ứng dụng và độ chính xác của phương pháp. Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm dựa trên nền tảng này nhằm đóng góp cho sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên và học máy.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN 1.1 Khái niệm quan điểm Trong xã hội hiện đại, việc nêu và thể hiện ý kiến cá nhân là một phần của tự do ngôn luận. Với mỗi người được đào tạo khác nhau và có những cách tiếp cận khác nhau đối với một vấn đề sẽ nảy sinh ra nhiều chiều trong ý kiến, tư tưởng. Đó chính là quan điểm. Quan điểm được xây dựng chủ yếu từ ba yếu tố là thái độ, cảm xúc và ý kiến về một đối tượng.

Đối tượng ở đây có thể là các cá nhân, các sự việc, sự vật hay là chất lượng dịch vụ, sản phẩm, chủ đề.2 Bài toán trích xuất thông tin quan điểm Bài toán trích xuất thông tin quan điểm dựa trên các thông tin phản hồi của người sử dụng nhằm phân loại phản hồi đó là tích cực hay tiêu cực. Thông tin phản hồi của người dùng được tổng hợp dưới dạng văn bản từ nhiều nguồn khác nhau như trên trang bán hàng, Facebook, hệ thống chợ của Google hay Apple. Dựa trên đánh giá của người dùng, kết quả của chiến lược marketing hay quảng bá sản phẩm được xác định là có hiệu quả hay không. Bài toán trích xuất thông tin quan điểm (sentiment analysis) là một lĩnh vực nghiên cứu về các ý kiến, quan điểm, đánh giá, thái độ và cảm xúc của con người về một đối tượng.

Trích xuất thông tin quan điểm thu hút được sự quan tâm lớn của cộng đồng nghiên cứu nói chung và cộng đồng xử lý ngôn ngữ tự nhiên nói riêng bởi hai yếu tố: Thứ nhất, do sự bùng nổ thông tin và mạng xã hội nên con người có thể tự do chia sẻ ý kiến cảm nghĩ. Trong lịch sử loài người, đây là thời điểm lượng thông tin nói chung và thông tin về ý kiến quan điểm nói riêng phát triển rất nhanh và mạnh. Lượng thông tin chia sẻ trên mạng xã hội là khổng lồ .Theo số liệu của The Social Skinny [14], Facebook đang là mạng xã hội lớn nhất trên thế giới: cứ mỗi 60 giây sẽ có 510.000 comment được đăng lên, 293.000 trạng thái mới được cập nhật và khoảng 136.000 bức ảnh được upload. Ngoài facebook còn có rất nhiều các mạng xã hội khác như Twitter, Weibo, Tumblr, cũng như nhiều hình thức khác cho phép người dùng đưa thông tin lên internet.

Nhận thấy rằng nếu có thể khai thác thông tin từ lượng dữ liệu khổng lồ này thì sẽ cho phép khai phá rất nhiều thông tin quan trọng giúp xác định và giải quyết nhiều vấn đề. Đơn cử như có thể dự đoán, định hướng xu thế của công nghệ, thời trang, tiêu dùng của xã hội. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 Thứ hai, sự đa dạng và kết quả có thể thấy rõ khi áp dụng nó vào một số lĩnh vực như phân tích tâm lý người dùng, nghiên cứu thị trường. Ví dụ như trong kinh doanh, việc phân tích và nắm được các ý kiến phản hồi của người sử dụng, khách hàng sẽ giúp tổ chức, cá nhân nhận ra những điểm hạn chế của sản phẩm, dịch vụ mình cung cấp.

Họ sẽ kịp thời có giải pháp khắc phục để đáp ứng được nhu cầu sử dụng của thị trường, nâng cao kết quả kinh doanh nhờ nắm bắt được thị hiếu và kênh chăm sóc khách hàng hiệu quả. Quan điểm được chia làm chủ yếu là hai loại là tích cực (positive) và tiêu cực (negative). Ngoài ra trong một số trường hợp xét tới cả loại thứ ba là trung lập (neural). LUAN VAN CHAT LUONG download : add luanvanchat@agmail.3 Các hướng tiếp cận và giải quyết bài toán Trong những năm gần đây, có rất nhiều bài báo và các công trình nghiên cứu cải tiến các thuật toán trích xuất thông tin quan điểm [6] [7] [15].

Các kỹ thuật này được phân loại theo hướng dựa trên các hướng tiếp cận dựa trên học máy hoặc dựa trên từ điển và ngữ nghĩa. Trong đó, hướng tiếp cận dựa trên học máy đang phát triển rất mạnh. Xét trên kĩ thuật học máy có giám sát có thể kể đến những thuật toán kinh điển và hiệu quả như Decision Tree, Support Vector Machine (SVM). Các thuật toán được đánh giá cao về tính đơn giản và hiệu quả trong nhiều trường hợp so với các thuật dựa trên mô hình mạng neural.1 Các hướng tiếp cận giải quyết bài toán trích xuất thông tin quan điểm Tuy nhiên, cùng với sự phát triển của khả năng tính toán các thuật toán mang hướng học sâu ngày càng phát triển hơn.

Luận văn sẽ trình bày về một phương pháp dựa trên mạng neural có nhiều ưu điểm trong việc mô tả dữ liệu đầu vào, đó là mạng neural hồi quy RNN. Trước hết trong chương này sẽ đề cập tới một số thuật toán kinh điển hay sử dụng trong phân loại có thể áp dụng được đối với bài toán phân tích quan điểm. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 Mô hình Support Vector Machine Mô hình SVM là mô hình hết sức kinh điển trong bài toán phân loại. Tư tưởng của SVM [2] là định nghĩa ra một siêu mặt phẳng có thể phân tách các tập dữ liệu cần phân loại sao cho khoảng cách (margin) từ siêu mặt phẳng đến các tập cần phân loại là tương đương nhau và lớn nhất.

Thuật toán SVM ban đầu được thiết kế để giải quyết bài toán phân lớp nhị phân với ý tưởng chính như sau: Hình 1.2 Khoảng cách margin của 2 phân lớp là bằng nhau và lớn nhất Trong không gian hai chiều tôi đã biết khoảng cách từ một điểm có tọa độ (x0,y0) tới đường thẳng có phương trình w1x+w2y+b = 0 được tính bằng: | 𝑤1 𝑥0 + 𝑤2 𝑦0 + b | ℎ= √𝑤1 2 + 𝑤2 2 Trong không gian ba chiều khoảng cách từ một điểm có tọa độ (x0,y0,z0) tới một mặt phẳng có phương trình w1x + w2y + w3z +b = 0 được tính bằng: | 𝑤1 𝑥0 + 𝑤2 𝑦0 + 𝑤3 𝑧0 + b| ℎ= √𝑤1 2 + 𝑤2 2 + 𝑤3 2 Nhận thấy nếu bỏ dấu giá trị tuyệt đối của tử số thì có thể xác định được điểm đang xét nằm về phía nào của đường thẳng hay mặt phẳng. Không làm mất tính tổng quát thì những biểu thức trong dấu giá trị tuyệt đối nếu mang dấu dương thì nằm cùng một phía dương còn những điểm làm cho biểu thức trong dấu giá trị tuyệt đối mang dấu âm thì nằm về phía âm. Những điểm nằm trên đường thẳng/ mặt phẳng sẽ làm cho giá trị của tử số bằng 0 hay khoảng cách bằng 0. Tổng quát trên không gian nhiều chiều thì sẽ phức tạp hơn so với việc biểu diễn bởi không gian 2 chiều ( đường thẳng) hay không gian 3 chiều (mặt phẳng).

Khái niệm này được gọi là siêu mặt phẳng có công thức wTx + b = 0. Khoảng cách được tính bằng: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 8 | 𝑤 𝑇 𝑥0 + b| ℎ= √∑𝑑𝑖=1 𝑤𝑖 2 d là số chiều của không gian. Chất lượng của siêu phẳng được đánh giá bởi khoảng cách h giữa hai lớp, khoảng cách càng lớn thì siêu phẳng quyết định càng tốt và chất lượng phân lớp càng cao. Giả sử rằng các cặp dữ liệu của training set là (x1, y1), (x2, y2),…, (xn, yn) trong đó xi là vector đầu vào của một điểm dữ liệu và yi là nhãn của điểm dữ liệu đó.

Giả sử nhãn của điểm dữ liệu có 2 giá trị là 1 và -1.3 SVM nhị phân Khi đó khoảng cách từ điểm đến mặt phân chia 𝑤1 𝑥1 + 𝑤2 𝑥2 + b = 0 là 𝑦𝑛 ( 𝑤 𝑇 𝑥𝑛 + b) ℎ= √∑𝑑𝑖=1 𝑤𝑖 2 Margin được tính là khoảng cách gần nhất của 1 điểm tới mặt phân chia 𝑦𝑛 ( 𝑤 𝑇 𝑥𝑛 + b) 𝑚𝑎𝑟𝑔𝑖𝑛 = min 𝑛 √∑𝑑𝑖=1 𝑤𝑖 2 Bài toán tối ưu trong SVM là bài toán tìm w và b sao cho margin này đạt giá trị lớn nhất: 1 (𝑤, 𝑏) = argmax min 𝑦𝑛 ( 𝑤 𝑇 𝑥𝑛 + b) 𝑤,𝑏 𝑛 √∑𝑑𝑖=1 𝑤𝑖 2 { } LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 Đối với bài toán phân lớp với số phân lớp d > 2 thì tôi sử dụng chiến lược one-vs- rest bằng cách chuyển về bài toán phân lớp nhị phân giữa 1 lớp và (d-1) lớp còn lại. Tức là tôi sẽ phải thực hiện bài toán SVM nhị phân d lần giữa phân lớp thứ i và (d-1) phân lớp còn lại.2 K-nearest neighbors Thuật toán K-Nearest neighbors (KNN) là thuật toán phân loại dựa trên ý tưởng “Hãy cho tôi biết bạn của bạn là ai, tôi sẽ cho biết bạn là người như thế nào”. Câu danh ngôn rất trùng hợp với cách thực hoạt động của thuật toán KNN. Bản chất KNN không học gì từ dữ liệu training, mọi tính toán được thực hiện khi nó cần dự đoán kết quả của dữ liệu mới.

Mọi điểm trong dữ liệu training được lưu trữ trong bộ nhớ nên đây cũng là điểm hạn chế của thuật toán khi làm việc với bộ dữ liệu training lớn. Các bước thực hiện của thuật toán như sau: thực hiện cấu hình tham số K – số điểm lân cận; đánh giá 1 điểm mới của tập test bằng cách xét K lân cận của nó; phân lớp cho điểm mới dựa trên nhãn của đa số mà K điểm trong tập train gần nhất của nó được gán. Khái niệm thế nào là lân cận của 1 điểm thường được tính toán bằng khoảng cách vector theo norm. Ngoài ra đối với K điểm lân cận, tôi có thể đánh trọng số lớn hơn cho các điểm gần điểm cần xét hơn.

Hay nói cách khác là tin cậy các điểm gần điểm cần xét hơn. Sử dụng KNN để phân loại thường để sử dụng khi bài toán còn đơn giản, thuật toán chủ yếu thực hiện tính toán ở khâu test. Đây cũng là một trong số những thuật toán phân loại được sử dụng phổ biến nhất. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 CHƯƠNG 2: MẠNG NEURAL VÀ RNN 2.1 Mạng neural nhân tạo ANN Mạng neural nhân tạo [1] là thuật toán mô phỏng lại cách thức hoạt động của hệ thống thần kinh của sinh vật trong việc học, nhận biết hay phân loại.

Thuật toán đã được sử dụng rộng rãi từ những năm 1980 cho đến nay vẫn được áp dụng rộng rãi trong nhiều ngành khoa học. Mạng neural mô phỏng quá trình xử lý thông tin, mô hình được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử dụng trong các tình huống phù hợp.1 Mạng nơ-ron sinh học Hệ thống thần kinh là tổ chức vật chất cao cấp và có cấu tạo vô cùng phức tạp. Hệ thần kinh được cấu tạo bởi nhiều yếu tố trong đó nơ-ron là khái niệm cơ bản nhất.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Học máy trong xử lý ngôn ngữ tự nhiên

Ứng dụng học sâu cho phân tích văn bản

Mô hình RNN và LSTM trong NLP

Kỹ thuật trích xuất quan điểm người dùng