Nghiên Cứu Cải Tiến Một Số Phương Pháp Phân Tích Quan Điểm Mức Khía Cạnh Dựa Trên Học Máy

Nghiên cứu cải tiến phương pháp phân tích quan điểm mức khía cạnh bằng học máy, nâng cao độ chính xác và hiệu quả trong xử lý dữ liệu.

Trường đại học

Đại học Điện Lực

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận án

2023

126

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM VÀ PHÂN TÍCH QUAN ĐIỂM MỨC KHÍA CẠNH

1.1. Tổng quan về phân tích quan điểm

1.1.1. Các khái niệm cơ bản

1.1.2. Các nhiệm vụ trong phân tích quan điểm

1.1.3. Các mức độ phân tích quan điểm

1.1.4. Vấn đề đặc trưng trong phân tích quan điểm

1.2. Phân tích quan điểm mức khía cạnh

1.2.1. Quy trình phân tích quan điểm mức khía cạnh

1.2.2. Các bài toán trong phân tích quan điểm mức khía cạnh

1.2.3. Các cách tiếp cận trích rút khía cạnh

1.2.3.1. Các phương pháp trích rút khía cạnh rõ ràng

1.2.3.2. Các phương pháp trích rút khía cạnh ẩn

1.2.4. Các phương pháp phân loại cảm xúc khía cạnh

1.3. Một số kiến thức học máy liên quan được sử dụng trong luận án cho phân tích quan điểm mức khía cạnh

1.3.1. Thuật toán bootstrap

1.3.2. Cơ sở lý thuyết biểu diễn từ Word to Vector

1.3.2.1. Một số khái niệm trong biểu diễn từ Word to Vector

1.3.3. Thuật toán nhúng từ W2V

1.3.4. Phân loại hai lớp máy vector hỗ trợ

1.3.5. Phân loại đa lớp Naive Bayes

1.3.6. Tương tác không kết hợp (Nhiễu cổng OR - Noisy OR-gate)

1.4. Các phương pháp đánh giá kết quả phân tích quan điểm

1.5. Kết luận chương 1

2. CHƯƠNG 2: PHÂN TÍCH QUAN ĐIỂM MỨC KHÍA CẠNH TRÊN CÁC BÀI ĐÁNH GIÁ SẢN PHẨM TRỰC TUYẾN

2.1. Các nghiên cứu liên quan

2.1.1. Trích rút khía cạnh

2.1.2. Phân lớp cảm xúc

2.1.3. Trọng số khía cạnh

2.2. Các khái niệm cơ bản trong bài toán phân tích quan điểm mức khía cạnh

2.3. Hệ thống phân tích quan điểm mức khía cạnh các bài đánh giá sản phẩm trực tuyến

2.3.1. Trích rút khía cạnh sử dụng xác suất có điều kiện kết hợp kỹ thuật Bootstraping

2.3.2. Dự đoán điểm đánh giá khía cạnh dựa trên phân lớp Naive Bayes

2.3.3. Ước lượng trọng số khía cạnh dựa trên tần suất khía cạnh trong bài đánh giá và trong toàn bộ kho ngữ liệu

2.4. Kết quả thực nghiệm

2.4.1. Dữ liệu và môi trường thử nghiệm

2.4.2. Tiền xử lý và trích chọn đặc trưng

2.4.3. Kết quả và đánh giá

2.5. Kết luận chương 2

3. CHƯƠNG 3: TRÍCH RÚT KHÍA CẠNH DỰA TRÊN BIỂU DIỄN TỪ WORD2VEC VÀ ĐỘ ĐO HỖ TRỢ

3.1. Các nghiên cứu liên quan

3.2. Một số khái niệm cơ bản trong mô hình trích rút khía cạnh dựa trên biểu diễn từ Word2vec

3.3. Trích rút khía cạnh dựa trên biểu diễn từ Word2vec và độ đo hỗ trợ

3.4. Kết quả thực nghiệm

3.4.1. Tiền xử lý dữ liệu

3.4.2. Huấn luyện Word2vec

3.4.3. Tạo cơ sở dữ liệu và lựa chọn đặc trưng tính toán

3.4.4. Kết quả thực nghiệm

3.5. Kết luận chương 3

4. CHƯƠNG 4: PHÂN LỚP CẢM XÚC BẰNG CÁCH KẾT HỢP CÁC BỘ PHÂN LOẠI CƠ SỞ

4.1. Các nghiên cứu liên quan

4.2. Phân loại cảm xúc đa lớp bằng cách kết hợp các bộ phân loại cơ sở

4.2.1. Phân loại cảm xúc đa lớp dựa trên SVM

4.2.2. Biến đổi đầu ra của SVM thành xác suất

4.2.3. Phân loại cảm xúc đa lớp dựa trên mạng Bayesian cổng Noisy- OR

4.2.4. Mô hình kết hợp sử dụng lý thuyết Dempster-Shafer

4.3. Kết quả thực nghiệm

4.3.1. Bộ dữ liệu thực nghiệm

4.3.2. Tiền xử lý và lựa chọn đặc trưng

4.3.3. Kết quả và thảo luận

4.4. Kết luận chương 4

MỞ ĐẦU

KẾT LUẬN

CÁC CÔNG TRÌNH CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu Phân Tích Quan Điểm Mức Khía Cạnh ABSA

Phân tích quan điểm mức khía cạnh (ABSA) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). ABSA tập trung vào việc xác định sắc thái tình cảm, thái độ, và ý kiến được thể hiện về các khía cạnh cụ thể của một thực thể (ví dụ: sản phẩm, dịch vụ, tổ chức). Khác với phân tích quan điểm truyền thống, ABSA đi sâu vào chi tiết hơn bằng cách xác định các khía cạnh được đề cập trong văn bản và cảm xúc liên quan đến từng khía cạnh đó. Điều này cho phép hiểu rõ hơn về những gì người dùng thích hoặc không thích về một đối tượng cụ thể. Việc áp dụng học máy trong phân tích quan điểm giúp tự động hóa quá trình phân tích và trích xuất thông tin, tăng tính hiệu quả và độ chính xác. Nghiên cứu này tập trung vào việc cải tiến phương pháp phân tích quan điểm để giải quyết những thách thức còn tồn tại trong ABSA.

1.1. Tầm quan trọng của Phân Tích Quan Điểm Mức Khía Cạnh

Phân tích quan điểm mức khía cạnh đóng vai trò quan trọng trong việc hiểu rõ ý kiến và phản hồi của khách hàng về các sản phẩm hoặc dịch vụ. Thông tin này có thể được sử dụng để cải thiện chất lượng sản phẩm, nâng cao trải nghiệm khách hàng và đưa ra các quyết định kinh doanh sáng suốt hơn. Ví dụ, bằng cách phân tích các đánh giá trực tuyến về một chiếc điện thoại, ta có thể biết được người dùng hài lòng về camera và thời lượng pin, nhưng không hài lòng về thiết kế. Thông tin này có thể giúp nhà sản xuất cải thiện các khía cạnh mà khách hàng không hài lòng. Nghiên cứu của Bing Liu cho thấy phân tích quan điểm có thể chia thành 3 cấp độ chính.

1.2. Ứng dụng thực tiễn của ABSA trong các ngành

ABSA có nhiều ứng dụng thực tiễn trong nhiều ngành khác nhau. Trong lĩnh vực thương mại điện tử, ABSA có thể được sử dụng để phân tích các đánh giá sản phẩm, giúp khách hàng đưa ra quyết định mua hàng thông minh hơn. Trong lĩnh vực du lịch, ABSA có thể được sử dụng để phân tích các đánh giá khách sạn và nhà hàng, giúp du khách tìm được những địa điểm phù hợp với nhu cầu của họ. Trong lĩnh vực tài chính, ABSA có thể được sử dụng để phân tích các tin tức và bình luận về các công ty và thị trường, giúp nhà đầu tư đưa ra các quyết định đầu tư sáng suốt hơn. Phân tích phản hồi khách hàng giúp xây dựng các chiến dịch tiếp thị, sản phẩm ưu tiên, giám sát danh tiếng.

II. Thách Thức và Vấn Đề Trong Phân Tích Quan Điểm Mức Khía Cạnh

Mặc dù ABSA mang lại nhiều lợi ích, nhưng nó cũng đối mặt với nhiều thách thức và vấn đề. Một trong những thách thức lớn nhất là sự phức tạp của ngôn ngữ tự nhiên. Các câu đánh giá thường chứa nhiều sắc thái tình cảm, sự mỉa mai và các biểu hiện ý kiến khác nhau, khiến việc trích xuất và phân loại chính xác trở nên khó khăn. Ngoài ra, việc xử lý dữ liệu không có nhãn và thiếu hụt dữ liệu cũng là một vấn đề lớn. Nhiều bài đánh giá không được gán nhãn, và việc tạo ra các tập dữ liệu huấn luyện lớn và chất lượng cao đòi hỏi nhiều công sức và thời gian. Nghiên cứu này sẽ tập trung vào việc giải quyết các thách thức này thông qua việc áp dụng các kỹ thuật học máy trong phân tích quan điểm tiên tiến.

2.1. Khó khăn trong Trích Rút Khía Cạnh Aspect Extraction

Việc trích rút khía cạnh là một trong những nhiệm vụ khó khăn nhất trong ABSA. Nhiều câu đánh giá thiếu các thể hiện khía cạnh rõ ràng, và các khía cạnh thường được thể hiện một cách ẩn ý hoặc thông qua các cụm từ phức tạp. Ví dụ, trong câu “Màn hình đẹp nhưng pin quá tệ”, hai khía cạnh “màn hình” và “pin” được đề cập, nhưng chỉ có “màn hình” là được thể hiện rõ ràng. Thêm vào đó, ngữ cảnh cũng đóng vai trò quan trọng trong việc xác định khía cạnh. Từ “apple” có thể đề cập đến một loại trái cây hoặc một công ty công nghệ, tùy thuộc vào ngữ cảnh sử dụng. Một số khía cạnh có tần suất xuất hiện thấp cũng dễ bị bỏ qua.

2.2. Thách Thức Phân Loại Cảm Xúc Khía Cạnh Đa Lớp

Việc phân loại cảm xúc khía cạnh cũng đối mặt với nhiều thách thức. Sự hiện diện của nhiều lớp cảm xúc (ví dụ: tích cực, tiêu cực, trung tính) làm cho việc phân loại chính xác trở nên khó khăn. Hơn nữa, sự khác biệt giữa các lớp cảm xúc thường rất nhỏ, và việc xác định ranh giới giữa các lớp khác nhau đòi hỏi sự hiểu biết sâu sắc về ngôn ngữ và ngữ cảnh. Một từ có thể miêu tả nhiều trạng thái cảm xúc khác nhau, ngay cả con người cũng khó phân biệt sự khác nhau này. Khoảng cách giữa các lớp cảm xúc khác nhau nhỏ, giữa các lớp có cùng cực cảm xúc.

2.3. Xử lý Phủ định và Sự Phụ thuộc vào Ngữ Cảnh

Sự phụ thuộc vào ngữ cảnh là một thách thức lớn trong ABSA. Một từ có thể có các nghĩa khác nhau dựa trên ngữ cảnh và miền lĩnh vực được sử dụng. Nghĩa của cùng một từ có thể khác nhau đối với từng tình huống. Ví dụ: từ “long time” khi nói về thời lượng pin của điện thoại thì mang nghĩa tích cực, xong trong ngữ cảnh nói về tốc độ xử lý của CPU thì lại mang tính tiêu cực. Ngoài ra, việc xử lý các câu phủ định và các biểu hiện ý kiến phức tạp cũng đòi hỏi các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) tiên tiến.

III. Cải Tiến Trích Rút Khía Cạnh Bằng Word2Vec và Độ Đo Hỗ Trợ

Một trong những phương pháp được đề xuất trong nghiên cứu này là sử dụng biểu diễn từ (word embeddings) Word2Vec và độ đo hỗ trợ để cải thiện quá trình trích rút khía cạnh. Word2Vec là một kỹ thuật học máy trong phân tích quan điểm tạo ra các biểu diễn vector cho các từ, sao cho các từ có nghĩa tương tự sẽ có các vector gần nhau trong không gian vector. Độ đo hỗ trợ được sử dụng để đánh giá mức độ liên quan giữa các từ và các khía cạnh. Bằng cách kết hợp hai kỹ thuật này, ta có thể trích xuất các khía cạnh một cách chính xác hơn, kể cả các khía cạnh ẩn. Phương pháp này đặc biệt hiệu quả trong việc xử lý dữ liệu không có nhãn, vì nó dựa trên việc học các biểu diễn từ từ dữ liệu văn bản lớn.

3.1. Ứng dụng Word2Vec để biểu diễn ngữ nghĩa của từ

Biểu diễn từ (word embeddings) như Word2Vec giúp nắm bắt được ngữ nghĩa của từ. Các từ có nghĩa tương tự sẽ có các vector gần nhau trong không gian vector. Điều này cho phép các mô hình học máy hiểu được mối quan hệ giữa các từ và trích xuất thông tin chính xác hơn. Trong phân tích quan điểm mước khía cạnh, Word2Vec có thể được sử dụng để xác định các từ và cụm từ liên quan đến một khía cạnh cụ thể, ngay cả khi chúng không được thể hiện rõ ràng trong văn bản. Ví dụ, “pin” và “thời lượng pin” sẽ có các vector gần nhau.

3.2. Sử dụng Độ Đo Hỗ Trợ để Xác Định Mức Độ Liên Quan

Độ đo hỗ trợ được sử dụng để đánh giá mức độ liên quan giữa các từ và các khía cạnh. Nếu một từ thường xuyên xuất hiện cùng với một khía cạnh cụ thể trong các câu đánh giá, thì nó có khả năng liên quan đến khía cạnh đó. Bằng cách kết hợp độ đo hỗ trợ với biểu diễn từ (word embeddings) Word2Vec, ta có thể xác định các từ và cụm từ liên quan đến một khía cạnh cụ thể một cách chính xác hơn. Điều này đặc biệt hữu ích trong việc xử lý các khía cạnh ẩn, vì nó cho phép ta khai thác thông tin ngữ nghĩa tiềm ẩn trong văn bản. Độ hỗ trợ của từ đối với khía cạnh giúp gán nhãn khía cạnh của câu dựa trên word2vec.

IV. Kết Hợp Các Bộ Phân Loại Cơ Sở Để Phân Lớp Cảm Xúc

Để cải thiện độ chính xác của việc phân loại cảm xúc khía cạnh, nghiên cứu này đề xuất một phương pháp kết hợp các bộ phân loại cơ sở khác nhau. Phương pháp này tận dụng sức mạnh của nhiều mô hình học máy khác nhau, như Máy Vector Hỗ Trợ (SVM) và Mạng Bayesian cổng Noisy-OR. Bằng cách kết hợp các kết quả dự đoán của các bộ phân loại này, ta có thể giảm thiểu sai sót và đạt được độ chính xác cao hơn. Phương pháp này đặc biệt hiệu quả trong việc xử lý các lớp cảm xúc gần nhau, vì nó cho phép các bộ phân loại bù trừ cho những điểm yếu của nhau.

4.1. Sử dụng SVM để phân loại cảm xúc đa lớp

Máy Vector Hỗ Trợ (SVM) là một thuật toán học máy trong phân tích quan điểm mạnh mẽ có thể được sử dụng để phân loại cảm xúc khía cạnh. SVM hoạt động bằng cách tìm một siêu phẳng phân chia các điểm dữ liệu thành các lớp khác nhau một cách tối ưu. Trong trường hợp phân loại cảm xúc đa lớp, SVM có thể được sử dụng để phân chia các câu đánh giá thành các lớp cảm xúc khác nhau (ví dụ: tích cực, tiêu cực, trung tính). SVM kết hợp với OGBN dựa trên luật DS

4.2. Mạng Bayesian Cổng Noisy OR để kết hợp thông tin

Mạng Bayesian cổng Noisy-OR là một mô hình xác suất có thể được sử dụng để kết hợp thông tin từ nhiều nguồn khác nhau. Trong trường hợp phân tích quan điểm mức khía cạnh, Mạng Bayesian cổng Noisy-OR có thể được sử dụng để kết hợp các kết quả dự đoán của các bộ phân loại cơ sở khác nhau. Mô hình này cho phép ta tính đến sự không chắc chắn và sự phụ thuộc giữa các nguồn thông tin, giúp cải thiện độ chính xác của quá trình phân loại cảm xúc khía cạnh.

V. Thực Nghiệm và Đánh Giá Mô Hình Phân Tích Quan Điểm

Các phương pháp được đề xuất trong nghiên cứu này đã được đánh giá trên nhiều tập dữ liệu khác nhau, bao gồm các bài đánh giá sản phẩm trực tuyến từ các lĩnh vực như khách sạn, bia và cà phê. Kết quả thực nghiệm cho thấy rằng các phương pháp đề xuất đạt được độ chính xác cao hơn so với các phương pháp hiện có, đặc biệt là trong việc trích rút khía cạnh và phân loại cảm xúc khía cạnh đa lớp. Các kết quả này chứng minh tính hiệu quả của việc sử dụng Word2Vec, độ đo hỗ trợ và kết hợp các bộ phân loại cơ sở để cải thiện quá trình phân tích quan điểm mức khía cạnh.

5.1. So sánh với các phương pháp phân tích quan điểm khác

Để đánh giá hiệu quả của các phương pháp đề xuất, chúng đã được so sánh với các phương pháp phân tích quan điểm hiện có, như LDA và các phương pháp dựa trên quy tắc. Kết quả cho thấy rằng các phương pháp đề xuất đạt được độ chính xác cao hơn trong việc trích rút khía cạnh và phân loại cảm xúc khía cạnh. Điều này chứng minh rằng việc sử dụng Word2Vec, độ đo hỗ trợ và kết hợp các bộ phân loại cơ sở là một hướng đi đầy hứa hẹn để cải thiện hiệu suất của các hệ thống ABSA.

5.2. Đánh giá khả năng ứng dụng thực tiễn của mô hình

Ngoài việc đánh giá độ chính xác, nghiên cứu này cũng tập trung vào việc đánh giá khả năng ứng dụng thực tiễn của các phương pháp đề xuất. Các phương pháp này đã được triển khai trong một hệ thống ABSA thực tế, và kết quả cho thấy rằng chúng có thể được sử dụng để phân tích các bài đánh giá sản phẩm trực tuyến một cách hiệu quả và chính xác. Hệ thống này có thể giúp các doanh nghiệp hiểu rõ hơn về ý kiến của khách hàng và đưa ra các quyết định kinh doanh sáng suốt hơn. Các bộ dữ liệu thực nghiệm bao gồm Khách Sạn, Bia, Cà phê.

VI. Kết Luận và Hướng Nghiên Cứu Tương Lai Về ABSA

Nghiên cứu này đã trình bày một số phương pháp mới để cải thiện quá trình phân tích quan điểm mức khía cạnh (ABSA) dựa trên học máy trong phân tích quan điểm. Các phương pháp đề xuất tận dụng sức mạnh của Word2Vec, độ đo hỗ trợ và kết hợp các bộ phân loại cơ sở để trích rút khía cạnh và phân loại cảm xúc khía cạnh một cách chính xác hơn. Kết quả thực nghiệm cho thấy rằng các phương pháp đề xuất đạt được độ chính xác cao hơn so với các phương pháp hiện có, chứng minh tính hiệu quả của chúng. Trong tương lai, nghiên cứu có thể tập trung vào việc xử lý các ngôn ngữ khác nhau, khám phá các mô hình học sâu cho phân tích quan điểm, và phát triển các ứng dụng ABSA thực tế hơn.

6.1. Tóm tắt các đóng góp chính của nghiên cứu

Nghiên cứu này đã đóng góp vào lĩnh vực ABSA bằng cách đề xuất các phương pháp mới để cải thiện quá trình trích rút khía cạnh và phân loại cảm xúc khía cạnh. Các phương pháp này tận dụng sức mạnh của Word2Vec, độ đo hỗ trợ và kết hợp các bộ phân loại cơ sở để đạt được độ chính xác cao hơn. Nghiên cứu cũng đã đánh giá các phương pháp đề xuất trên nhiều tập dữ liệu khác nhau và chứng minh tính hiệu quả của chúng.

6.2. Hướng phát triển tiếp theo của phân tích quan điểm mức khía cạnh

Trong tương lai, nghiên cứu trong lĩnh vực ABSA có thể tập trung vào việc xử lý các ngôn ngữ khác nhau, khám phá các mô hình học sâu cho phân tích quan điểm, và phát triển các ứng dụng ABSA thực tế hơn. Ngoài ra, việc nghiên cứu các phương pháp để xử lý các biểu hiện ý kiến phức tạp, như sự mỉa mai và sự trào phúng, cũng là một hướng đi đầy hứa hẹn. Một hướng đi khác là phát triển các phương pháp để tự động tạo ra các tập dữ liệu huấn luyện lớn và chất lượng cao, giúp giảm thiểu công sức và thời gian cần thiết để xây dựng các hệ thống ABSA.

27/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu cải tiến một số phương pháp phân tích quan điểm mức khía cạnh dựa trên học máy

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM VÀ PHÂN TÍCH QUAN ĐIỂM MỨC KHÍA CẠNH 1.1 Tổng quan về phân tích quan điểm Ngày nay, truyền thông trực tuyến và truyền thông xã hội đang nhanh chóng thay thế phương tiện ngoại tuyến. Việc sử dụng Internet và các hoạt động trực tuyến (như trò chuyện, hội nghị, đặt vé, giao dịch trực tuyến, thương mại điện tử, truyền thông xã hội, viết blog và vi blog, nhấp chuột, v.v) ngày càng tăng. Phương tiện trực tuyến cung cấp các biện pháp tốt hơn để trả lời và phản hồi nhanh chóng về các vấn đề toàn cầu khác nhau trong dạng bài viết văn bản đăng tải, tin tức, ảnh, và video. Nhiều diễn đàn, blog, mạng xã hội, các website thương mại điện tử, các trang tin tức tài chính và các tài nguyên web khác đóng vai trò là các nền tảng để bày tỏ, chia sẻ rộng rãi quan điểm của người dùng.

Do đó, chúng có thể được sử dụng để hiểu các quan điểm của công chúng và người tiêu dùng đối với các sự kiện xã hội, chính trị, chiến lược của các doanh nghiệp, chiến dịch tiếp thị, sản phẩm ưu tiên, giám sát [42, 43], ngoài ra, các nguồn tài nguyên này cũng có thể được sử dụng để học hành vi của người tiêu dùng, thị trường mẫu, và dự đoán xu hướng của xã hội [44, 45]. Để tạo ra các ứng dụng thực tiễn hiệu quả, cộng đồng nghiên cứu và các nhà phát triển ứng dụng đang làm việc nghiêm túc trong lĩnh vực phân tích quan điểm suốt hai mươi năm qua. Phân tích quan điểm là một nghiên cứu đo lường về các quan điểm, tình cảm, cảm xúc, và thái độ đã thể hiện trong các văn bản đối với một thực thể [4]. Phân tích quan điểm là nhiệm vụ phát hiện, trích rút và phân loại các quan điểm, tình cảm, thái độ liên quan đến các chủ đề khác nhau được thể hiện trong văn bản đầu vào [3].

Phân tích quan điểm giúp các nhà quản lý, các chuyên gia hoạch định chiến lược doanh nghiệp thấy được các kết quả khác nhau như quan sát tâm trạng cộng đồng về sự kiện chính trị, trí tuệ thị trường [45], đo lường sự hài lòng của khách hàng, dự đoán doanh thu phim [43] và nhiều hơn nữa. Phân tích quan điểm cũng giúp người tiêu dùng trở nên thông minh hơn trong các quyết định tiêu dùng của họ. Phân tích quan điểm là lĩnh vực nghiên cứu sử dụng các kỹ thuật khác nhau trong các lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), tra cứu thông tin (Information Retrieval - IR), trích rút thông tin (Information Extraction - IE), khai phá dữ liệu (Data Mining - DM) có cấu trúc và không có cấu trúc. Phần lớn dữ liệu có sẵn trong thế giới thực là không có cấu trúc (như văn bản, tiếng nói, âm thanh, video, v.

Điêu này đặt ra những thách thức nghiên cứu quan trọng. Để giải quyết với dữ liệu văn bản không cấu trúc như vậy, nhiều nỗ lực nghiên cứu đã được đề xuất trong những năm gần đây, và các nghiên cứu phân tích quan điểm tự động là một sự mở rộng nghiên cứu trong lĩnh vực NLP [3]. Phân tích quan điểm không phải 9 là vấn đề đơn lẻ, thay vào đó nó là một vấn đề đa diện. Nhiều vấn đề khác nhau cần được thực hiện để khai thác quan điểm từ văn bản đưa ra.

Các công việc thu thập dữ liệu, tiền xử lý dữ liệu, biểu diễn đặc trưng, trích rút và lựa chọn đặc trưng là các tác vụ phổ biến nhất đòi hỏi phải có trong khai phá quan điểm [3].1 Các khái niệm cơ bản Thuật ngữ khai phá quan điểm (Opinion Minning-OM) xuất hiện khoảng từ những năm đầu của thế kỉ 21. Đến năm 2005, với nghiên cứu của Bing Liu [46] thì thuật ngữ phân tích quan điểm mới được đưa ra rõ ràng hơn. Theo tác giả, các quan điểm có thể đề cập về bất cứ chủ đề nào đó, ví dụ như một sản phẩm, một tổ chức, một cá nhân, một chủ đề chính trị hoặc xã hội. Tác giả coi các đối tượng được nhận xét là các thực thể (entity).

Thực thể này là một tập hợp các thành phần (component). Và như thế, các đối tượng có thể được phân ra theo các thành phần của mối quan hệ, tức là mỗi thành phần cũng có thể có các thành phần con của nó.1: Ví dụ bài đánh giá sản phẩm máy ảnh kỹ thuật số Ví dụ 1.1) Từ bài nhận xét này chúng ta thấy một số điểm như sau: - Bài nhận xét có 5 câu, trong đó câu (1) đề cập đến đối tượng được miêu tả là máy ảnh Canon G12. Câu (2) thể hiện một cảm xúc tổng thể về máy ảnh Canon G12 là tích cực. Câu (3) thể hiện một cảm xúc tích cực về chất lượng ảnh của chiếc máy ảnh này.

Câu (4) thể hiện một cảm xúc tích cực về thời lượng của pin. Và cuối cùng câu (5) là một cảm xúc tiêu cực về trọng lượng của máy ảnh. - Bài nhận xét này có quan điểm từ 2 người, điều này được gọi là nguồn quan điểm (opinion sources) hoặc chủ sở hữu quan điểm (opinion holders). Người 10 sở hữu quan điểm trong các câu 2,3,4 là ông John Smith và người sở hữu quan điểm trong câu 5 lại là vợ của ông John Smith.

- Thời gian đăng của bài nhận xét là ngày 10 tháng 9 năm 2011. Thời gian đăng bài là quan trọng đối với người đọc bởi vì họ luôn muốn biết các quan điểm đó thay đổi như thế nào trên dòng thời gian và khuynh hướng của các quan điểm này. Kết luận từ quan sát: - Một quan điểm bao gồm 2 thành phần chính: một mục tiêu g và một cảm xúc s trên mục tiêu: (g, s). Trong đó g có thể là thực thể hoặc thành phần của thực thể (thành phần này chính là các thuộc tính của thực thể) trong quan điểm đã được thể hiện.

Cảm xúc s là trạng thái tình cảm mang tính tích cực, tiêu cực hoặc trung lập. Đôi khi cảm xúc này còn được thể hiện bằng một định lượng khác là điểm số hoặc sao (thang điểm 1-10 hoặc 1-5 sao). Các cảm xúc này được gọi là khuynh hướng hoặc phân cực cảm xúc. Ví dụ, trong câu (2), mục tiêu của quan điểm là máy ảnh Canon G12 và trong câu (3), mục tiêu của quan điểm là chất lượng ảnh của máy ảnh Canon G12.

- Mỗi quan điểm đều có chủ sở hữu là h. - Mỗi quan điểm đều có thời gian thể hiện t là xác định, rõ ràng.1 Thực thể (Entity) [47]: Thực thể e là một sản phẩm, dịch vụ, chủ đề, vấn đề, con người, tổ chức, hoặc sự kiện. Nó được mô tả với một cặp, e: (T,W ), trong đó, T là một cấu trúc phân cấp của các thành phần, W là tập các thuộc tính của e. Mỗi thành phần có thể có các thành phần con và thuộc tính của nó.

Loại thực thể và biểu diễn thực thể [3]: Loại thực thể (Entity category) đại diện cho một thực thể duy nhất, biểu diễn của thực thể (Entity expression) là một từ hoặc cụm từ cụ thể mà chúng xuất hiện trong văn bản để biểu thị cho một loại thực thể. Để nghiên cứu hiệu quả văn bản ở mức độ chi tiết tùy ý như trong Định nghĩa 1.1 là rất khó. Hơn nữa, đối với người dùng thì cách mô tả biểu diễn phân cấp trên là khá phức tạp và khó sử dụng. Do vậy, chúng ta nên đơn giản hóa phân cấp cây thành 2 cấp độ và sử dụng thuật ngữ khía cạnh (Aspect) để biểu diễn cả hai là thành phần con và thuộc tính.

Cây được đơn giản hóa, nút gốc là thực thể và nút lá là khía cạnh khác nhau của thực thể (Hình 1.2 Khía cạnh (Aspect) [47]: Khía cạnh a là một thành phần con hoặc một thuộc tính của thực thể e. Ví dụ “picture quality”, “battery life”, “weight” là các khía cạnh của thực thể “Canon G12 camera”. Tên khía cạnh và biểu diễn khía cạnh: Tên khía cạnh là tên của một khía cạnh được cung cấp bởi người dùng, trong khi biểu diễn khía cạnh là một từ hoặc cụm từ thực tế đã xuất hiện trong văn bản mà nó chỉ ra một khía cạnh [3].2: Ví dụ thực thể điện thoại iPhone gồm các thành phần và thuộc tính của nó Biểu diễn khía cạnh rõ ràng: Các thể hiện khía cạnh trong một câu là các danh từ, cụm danh từ được gọi là biểu diễn khía cạnh rõ ràng (Explicit aspect expressions). Ví dụ, “picture quality” trong “The picture quality of this camera is great” là một biểu diễn khía cạnh rõ ràng.

Biểu diễn khía cạnh ẩn: Các dạng khác của biểu diễn khía cạnh là biểu diễn khía cạnh ẩn (Implicit aspect expressions). Ví dụ, “heavy” trong “However, my wife thinks it is too heavy for her” là một biểu diễn khía cạnh ẩn.1, cảm xúc đối với khía cạnh “picture quality” là tích cực thể hiện qua “amazing”, nhưng cảm xúc trên khía cạnh “wieght” (khía cạnh có thể hiện ẩn) là tiêu cực thể hiện qua “too heavy”.4 Người sở hữu quan điểm (Opinion holder) [47]: Người sở hữu quan điểm h là người hay tổ chức cụ thể trực tiếp đưa ra các quan điểm về một thực thể hay một khía cạnh của thực thể.5 Thời gian thể hiện quan điểm (Time) [47]: Thời gian t là thời điểm mà quan điểm về một thực thể hay một khía cạnh của thực thể xuất hiện. Trong đó ei là tên của thực thể, ai j là một khía cạnh j của thực thể ei , còn si jkl là quan điểm (sự thể hiện thái độ, tình cảm, cảm xúc) trên khía cạnh ai j của thực thể ei được phát biểu bởi hk tại thời điểm tl , hk là chủ sở hữu quan điểm, và tl là thời gian khi quan điểm được thể hiện bởi hk .1 và định nghĩa 1.6 ta có thể xác định các quan điểm cụ thể như sau: 12 (Canon G12, general, positive, Jonh Smith, September 10, 2011) (Canon G12, picture-quality, positive, Jonh Smith, September 10, 2011) (Canon G12, bettery-life, positive, Jonh Smith, September 10, 2011) (Canon G12, weight, negative, Jonh Smith’s wife, September 10, 2011) Định nghĩa 1.6 đã đưa ra một cách nhìn khái quát và đầy đủ về quan điểm và các thành phần của quan điểm.2 Các nhiệm vụ trong phân tích quan điểm Đối tượng nghiên cứu của phân tích quan điểm Đưa ra một văn bản chứa quan điểm d, khám phá tất cả năm thành phần quan điểm (ei , ai j , si jkl , hk ,tl ) trong d, nhiệm vụ chính được bắt nguồn từ bộ năm thành phần của phân tích quan điểm. Từ những thảo luận trong phần (1.1) mô hình thực thể (model of entity) và mô hình văn bản quan điểm (model of opinion document) [47] được xác định.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Cải Tiến Phương Pháp Phân Tích Quan Điểm Mức Khía Cạnh Dựa Trên Học Máy" trình bày những cải tiến trong việc áp dụng học máy để phân tích quan điểm, giúp nâng cao độ chính xác và hiệu quả trong việc xử lý dữ liệu. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp hiện tại mà còn mở ra hướng đi mới cho việc ứng dụng học máy trong nhiều lĩnh vực khác nhau. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các phương pháp này, từ việc tối ưu hóa quy trình phân tích đến việc đưa ra quyết định chính xác hơn dựa trên dữ liệu.

Để mở rộng thêm kiến thức, bạn có thể tham khảo các tài liệu liên quan như Luận văn nghiên cứu áp dụng kĩ thuật mạng nơron để dự báo khả năng theo học của học viên đào tạo từ xa, nơi bạn sẽ tìm thấy ứng dụng của mạng nơron trong dự báo. Ngoài ra, Luận văn thạc sĩ xây dựng hệ thống dự đoán kết quả học tập của học sinh trung học phổ thông cũng sẽ cung cấp cái nhìn về cách thức dự đoán kết quả học tập dựa trên dữ liệu. Cuối cùng, Ứng dụng học máy trong dự báo vỡ nợ tại ngân hàng thương mại cổ phần quốc tế việt nam 2021 sẽ giúp bạn hiểu rõ hơn về ứng dụng học máy trong lĩnh vực tài chính. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn khám phá sâu hơn về các ứng dụng của học máy trong nhiều lĩnh vực khác nhau.

#Phân tích dữ liệu