Luận Văn Thạc Sĩ: Rút Trích Đặc Trưng Trong Phân Tích Ý Kiến Về Chất Lượng Sản Phẩm

Luận văn thạc sĩ khoa học máy tính tập trung rút trích đặc trưng trong phân tích ý kiến đánh giá chất lượng sản phẩm, ứng dụng công nghệ tiên tiến.

Trường đại học

Đại học Bách Khoa - Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1. Giới thiệu

1.2. Mục đích và mục tiêu của luận văn

1.3. Phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Kết luận

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC VẤN ĐỀ TỒN TẠI

2.1. Định nghĩa một số thuật ngữ

2.2. Các công việc cần làm với phân tích cảm xúc

2.3. Vấn đề quan tâm

2.4. Các công trình liên quan

2.5. Mô hình tổng quan

2.6. Phân tích cảm xúc các đánh giá

2.6.1. Phân tích nhiều cấp

2.6.2. Phân tích dựa trên từ vựng và vấn đề tồn tại

2.7. Phân tích cảm xúc dựa trên đặc trưng

2.7.1. Phân loại cảm xúc dựa trên đặc trưng

2.7.2. Rút trích các đặc trưng

2.8. Tổng quan mô hình GK-LDA

3. CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG VÀ KẾT QUẢ THỰC NGHIỆM

3.1. Mô hình hệ thống

3.2. Phạm vi thực hiện

3.3. Dữ liệu thực hiện

3.4. Phương pháp thực hiện

3.4.1. Tiền xử lý dữ liệu (Pre-processing)

3.4.2. Mô hình chủ đề xác suất và mô hình LDA

3.4.3. Áp dụng GK-LDA cho rút trích đặc trưng

3.4.4. Phân loại đặc trưng

3.5. Kết quả và đánh giá

4. CHƯƠNG 4: KẾT LUẬN

DANH MỤC CÁC TÀI LIỆU THAM KHẢO

CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

SƠ YẾU LÝ LỊCH TRÍCH NGANG

Tóm tắt

I. Phân tích ý kiến và chất lượng sản phẩm

Phân tích ý kiến và chất lượng sản phẩm là hai khía cạnh quan trọng trong nghiên cứu này. Với sự phát triển của internet, người dùng dễ dàng chia sẻ ý kiến về sản phẩm và dịch vụ. Việc phân tích tự động các ý kiến này giúp doanh nghiệp hiểu rõ hơn về phản hồi của khách hàng. Rút trích đặc trưng từ các ý kiến là bước đầu tiên để phân tích cảm xúc và đánh giá chất lượng sản phẩm. Các phương pháp như Machine Learning và Xử lý ngôn ngữ tự nhiên được áp dụng để rút trích thông tin từ các đánh giá.

1.1. Tầm quan trọng của phân tích ý kiến

Phân tích ý kiến giúp doanh nghiệp hiểu được cảm xúc và phản hồi của khách hàng. Các ý kiến tích cực và tiêu cực đều có ảnh hưởng lớn đến quyết định mua hàng. Chất lượng sản phẩm được đánh giá thông qua các ý kiến này, giúp doanh nghiệp cải thiện sản phẩm và dịch vụ. Rút trích đặc trưng từ các ý kiến là bước quan trọng để phân loại và phân tích cảm xúc.

1.2. Ứng dụng của khoa học máy tính

Khoa học máy tính đóng vai trò quan trọng trong việc phân tích ý kiến. Các phương pháp như Machine Learning và Xử lý ngôn ngữ tự nhiên được sử dụng để rút trích và phân tích dữ liệu. Sentiment Analysis giúp xác định cảm xúc của người dùng, trong khi Feature Extraction giúp rút trích các đặc trưng quan trọng từ các ý kiến. Các công nghệ này giúp tối ưu hóa quá trình phân tích và đưa ra quyết định chính xác hơn.

II. Rút trích đặc trưng và phân loại

Rút trích đặc trưng là quá trình rút trích các từ hoặc cụm từ mô tả đặc trưng của sản phẩm từ các ý kiến. Phân loại đặc trưng là việc phân loại các từ này vào các nhóm đặc trưng cụ thể. Các phương pháp như LDA và GK-LDA được sử dụng để rút trích và phân loại đặc trưng. Data Mining và Phân tích dữ liệu giúp tối ưu hóa quá trình này, đảm bảo độ chính xác cao trong việc rút trích và phân loại.

2.1. Phương pháp rút trích đặc trưng

Rút trích đặc trưng bao gồm việc rút trích các từ mô tả đặc trưng từ các ý kiến. Các phương pháp như LDA và GK-LDA được sử dụng để rút trích các từ này. GK-LDA là một phương pháp bán giám sát, sử dụng tập dữ liệu huấn luyện nhỏ để cải thiện độ chính xác. Feature Extraction giúp rút trích các đặc trưng quan trọng, giúp phân tích cảm xúc chính xác hơn.

2.2. Phân loại đặc trưng

Phân loại đặc trưng là quá trình phân loại các từ rút trích vào các nhóm đặc trưng cụ thể. Các phương pháp như Cosine Similarity được sử dụng để phân loại các từ này. Phân tích thống kê giúp đánh giá độ chính xác của quá trình phân loại. Tối ưu hóa thuật toán giúp cải thiện hiệu suất và độ chính xác của quá trình phân loại.

III. Ứng dụng thực tiễn và kết quả

Nghiên cứu này đã áp dụng các phương pháp Machine Learning và Xử lý ngôn ngữ tự nhiên để phân tích ý kiến về chất lượng sản phẩm. Rút trích đặc trưng và Phân loại đặc trưng đã được thực hiện thành công, giúp cải thiện độ chính xác trong việc phân tích cảm xúc. Công nghệ AI và Trí tuệ nhân tạo đóng vai trò quan trọng trong việc tối ưu hóa quá trình phân tích. Kết quả nghiên cứu cho thấy tiềm năng lớn trong việc ứng dụng các phương pháp này vào thực tiễn.

3.1. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy GK-LDA là phương pháp hiệu quả trong việc rút trích và phân loại đặc trưng. Phân tích dữ liệu lớn giúp cải thiện độ chính xác và hiệu suất của quá trình phân tích. Tối ưu hóa sản phẩm được thực hiện dựa trên kết quả phân tích, giúp doanh nghiệp cải thiện chất lượng sản phẩm và dịch vụ.

3.2. Ứng dụng trong thực tiễn

Nghiên cứu này có thể được ứng dụng trong nhiều lĩnh vực như Phân tích thị trường và Tối ưu hóa sản phẩm. Công nghệ AI giúp tự động hóa quá trình phân tích, giảm thiểu thời gian và chi phí. Phân tích đánh giá giúp doanh nghiệp hiểu rõ hơn về phản hồi của khách hàng, từ đó đưa ra các quyết định kinh doanh chính xác hơn.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính rút trích đặc trưng trong phân tích ý kiến về chất lượng sản phẩm

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet và mạng xã hội, việc người dùng thể hiện ý kiến, đánh giá về sản phẩm và dịch vụ ngày càng phổ biến, tạo ra một lượng dữ liệu lớn về cảm xúc và nhận xét. Theo ước tính, hàng triệu bình luận, đánh giá được tạo ra hàng ngày trên các nền tảng như vatgia, vnexpress, lazada, góp phần ảnh hưởng trực tiếp đến quyết định mua hàng của người tiêu dùng. Tuy nhiên, việc khai thác và phân tích tự động các ý kiến này để hiểu rõ hơn về các khía cạnh cụ thể của sản phẩm vẫn còn nhiều thách thức.

Luận văn tập trung nghiên cứu phương pháp rút trích đặc trưng trong phân tích ý kiến về chất lượng sản phẩm, nhằm nâng cao hiệu quả phân tích cảm xúc chi tiết theo từng đặc trưng sản phẩm. Mục tiêu chính là phát triển và áp dụng mô hình GK-LDA (một mô hình máy học bán giám sát) để rút trích và phân loại các đặc trưng từ các đánh giá tiếng Việt, đồng thời xây dựng hệ thống phân tích cảm xúc dựa trên đặc trưng đó. Phạm vi nghiên cứu tập trung vào các đánh giá sản phẩm điện thoại thu thập trong khoảng thời gian từ năm 2014 đến 2015 tại Việt Nam.

Nghiên cứu có ý nghĩa quan trọng trong việc cung cấp công cụ hỗ trợ người tiêu dùng và doanh nghiệp hiểu rõ hơn về các khía cạnh sản phẩm được đánh giá tích cực hay tiêu cực, từ đó nâng cao chất lượng sản phẩm và dịch vụ, đồng thời góp phần phát triển các ứng dụng thương mại điện tử và phân tích dữ liệu lớn trong lĩnh vực ngôn ngữ tự nhiên.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Phân tích cảm xúc (Sentiment Analysis):** Phân tích cảm xúc được thực hiện ở nhiều cấp độ như cấp tài liệu, câu và đặc trưng. Trong đó, phân tích cảm xúc dựa trên đặc trưng giúp xác định cảm xúc cụ thể đối với từng khía cạnh của sản phẩm, vượt qua giới hạn của phân tích tổng quan.

- **Rút trích đặc trưng (Aspect Extraction):** Bao gồm hai công việc chính là rút trích các từ mô tả đặc trưng (aspect-terms) và phân loại các từ này vào các nhóm đặc trưng tương ứng. Các đặc trưng có thể là rõ ràng (explicit) hoặc ngầm định (implicit).

- **Mô hình chủ đề Latent Dirichlet Allocation (LDA):** Mô hình máy học không giám sát dùng để phát hiện các chủ đề tiềm ẩn trong văn bản, được ứng dụng để rút trích các đặc trưng từ tập văn bản lớn.

- **Mô hình GK-LDA (Bán giám sát):** Mô hình mở rộng của LDA, sử dụng tập dữ liệu nhỏ đã được gán nhãn thủ công để hướng dẫn quá trình rút trích đặc trưng, giúp cải thiện độ chính xác so với LDA thuần túy.

- **Phương pháp phân loại cosine similarity:** Dùng để so sánh độ tương đồng giữa vector từ của cụm từ và các đặc trưng đã được xác định, hỗ trợ phân loại đặc trưng chính xác.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Thu thập khoảng 1500 đánh giá sản phẩm điện thoại từ các website thương mại điện tử và diễn đàn như vatgia, vnexpress, lazada trong giai đoạn 2014-2015.

- **Tiền xử lý dữ liệu:** Sử dụng công cụ vnTokenizer và vnTagger để chuẩn hóa, tokenize từ ghép, gán nhãn từ loại, tách câu thành các cụm từ (phrases) nhằm chuẩn bị dữ liệu cho mô hình.

- **Gán nhãn thủ công:** Lựa chọn 200 từ phổ biến nhất trong tập dữ liệu, gán nhãn thủ công 70 từ thuộc 7 đặc trưng chính (thiết kế, màn hình, cấu hình, giá, phần mềm, máy ảnh, khác) làm tập huấn luyện cho mô hình GK-LDA.

- **Xây dựng mô hình GK-LDA:** Áp dụng mô hình bán giám sát để rút trích và mở rộng tập từ mô tả đặc trưng, sử dụng ma trận tương quan từ để xử lý các từ có thể thuộc nhiều đặc trưng.

- **Phân loại đặc trưng:** So sánh cosine similarity giữa vector từ của cụm từ và các đặc trưng đã được mô hình GK-LDA xác định, đồng thời thử nghiệm phương pháp cây quyết định và dựa trên tần suất xuất hiện.

- **Đánh giá kết quả:** Sử dụng 5 tập dữ liệu thử nghiệm, mỗi tập gồm 210 đánh giá đã được phân tách cụm từ, so sánh kết quả phân loại với nhãn thủ công để tính độ chính xác (accuracy).

- **Timeline nghiên cứu:** Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 7/2014 đến tháng 12/2015, bao gồm các giai đoạn thu thập dữ liệu, tiền xử lý, xây dựng mô hình, thử nghiệm và đánh giá.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả mô hình GK-LDA:** Mô hình GK-LDA cho phép mở rộng tập từ mô tả đặc trưng từ 70 từ ban đầu lên khoảng 18 từ cho mỗi đặc trưng, giúp tăng khả năng nhận diện đặc trưng trong các đánh giá.

- **Độ chính xác phân loại đặc trưng:** Phương pháp phân loại dựa trên cosine similarity kết hợp với mô hình GK-LDA đạt độ chính xác trung bình trên 90% trong việc phân loại các cụm từ vào đúng đặc trưng, vượt trội hơn so với phương pháp cây quyết định và dựa trên tần suất.

- **Phân loại cảm xúc theo đặc trưng:** Việc rút trích đặc trưng chi tiết giúp phân tích cảm xúc không chỉ ở mức tổng quan mà còn ở từng khía cạnh cụ thể, ví dụ người dùng có thể đánh giá tích cực về thiết kế nhưng tiêu cực về pin hoặc màn hình.

- **Ứng dụng thực tế:** Hệ thống phân tích ý kiến được triển khai trên website tổng hợp đánh giá, giúp người dùng dễ dàng tra cứu thông tin chi tiết về các đặc trưng sản phẩm, đồng thời hỗ trợ doanh nghiệp cải tiến sản phẩm dựa trên phản hồi khách hàng.

### Thảo luận kết quả

Kết quả nghiên cứu cho thấy mô hình bán giám sát GK-LDA phù hợp với ngôn ngữ tiếng Việt, đặc biệt trong việc xử lý các đặc trưng ngầm định và đa nghĩa. So với mô hình LDA không giám sát, GK-LDA cải thiện đáng kể độ chính xác nhờ sử dụng tập dữ liệu nhỏ được gán nhãn thủ công làm hướng dẫn. Phương pháp cosine similarity giúp phân loại đặc trưng hiệu quả hơn so với cây quyết định, do hạn chế của việc gán nhãn thủ công và sự đa dạng trong cách diễn đạt của người dùng.

Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác của các phương pháp phân loại đặc trưng, minh họa sự vượt trội của phương pháp cosine similarity kết hợp GK-LDA. Ngoài ra, bảng tổng hợp các từ mô tả đặc trưng mở rộng cũng giúp hình dung rõ ràng về khả năng mở rộng và chính xác của mô hình.

Nghiên cứu góp phần làm phong phú thêm các phương pháp phân tích cảm xúc dựa trên đặc trưng, đồng thời mở ra hướng phát triển các ứng dụng thương mại điện tử và phân tích dữ liệu lớn trong ngôn ngữ tự nhiên tiếng Việt.

## Đề xuất và khuyến nghị

- **Phát triển hệ thống phân tích ý kiến tự động:** Triển khai rộng rãi hệ thống sử dụng mô hình GK-LDA và phương pháp cosine similarity để phân tích đánh giá sản phẩm trên các nền tảng thương mại điện tử, nhằm nâng cao trải nghiệm người dùng và hỗ trợ doanh nghiệp.

- **Mở rộng tập dữ liệu huấn luyện:** Thu thập và gán nhãn thêm các từ mô tả đặc trưng từ nhiều lĩnh vực khác nhau để tăng tính đa dạng và độ chính xác của mô hình, đặc biệt với các sản phẩm mới hoặc lĩnh vực ít dữ liệu.

- **Tích hợp phân tích cảm xúc đa chiều:** Kết hợp phân tích cảm xúc theo đặc trưng với các yếu tố như thời gian, đối tượng đánh giá để cung cấp báo cáo chi tiết và hỗ trợ ra quyết định chính sách, marketing.

- **Nâng cao công cụ tiền xử lý ngôn ngữ:** Cải tiến các công cụ tokenize, gán nhãn từ loại và tách cụm từ cho tiếng Việt nhằm xử lý tốt hơn các từ ghép, từ lóng và ngữ cảnh phức tạp, giúp tăng hiệu quả rút trích đặc trưng.

- **Đào tạo và phổ biến kiến thức:** Tổ chức các khóa đào tạo, hội thảo về phân tích cảm xúc và rút trích đặc trưng cho các nhà nghiên cứu, doanh nghiệp và sinh viên để thúc đẩy ứng dụng rộng rãi công nghệ này.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Ngôn ngữ học máy tính:** Có thể áp dụng phương pháp và mô hình nghiên cứu để phát triển các đề tài liên quan đến phân tích cảm xúc, khai phá dữ liệu văn bản tiếng Việt.

- **Doanh nghiệp thương mại điện tử và marketing:** Sử dụng kết quả phân tích để hiểu rõ hơn về phản hồi khách hàng, cải tiến sản phẩm và dịch vụ, tối ưu chiến lược kinh doanh dựa trên dữ liệu thực tế.

- **Chính phủ và cơ quan quản lý:** Áp dụng công nghệ phân tích ý kiến để đánh giá hiệu quả chính sách, thu thập phản hồi từ người dân về các dịch vụ công và sản phẩm xã hội.

- **Phát triển phần mềm và công nghệ AI:** Tham khảo mô hình GK-LDA và các kỹ thuật tiền xử lý để xây dựng các ứng dụng phân tích ngôn ngữ tự nhiên, chatbot, hệ thống hỗ trợ quyết định.

## Câu hỏi thường gặp

1. **Mô hình GK-LDA khác gì so với LDA truyền thống?**  
GK-LDA là mô hình bán giám sát, sử dụng tập dữ liệu nhỏ được gán nhãn thủ công để hướng dẫn quá trình rút trích đặc trưng, giúp cải thiện độ chính xác so với LDA không giám sát hoàn toàn.

2. **Tại sao cần phân tích cảm xúc theo đặc trưng?**  
Phân tích theo đặc trưng giúp hiểu rõ cảm xúc cụ thể về từng khía cạnh của sản phẩm, ví dụ người dùng có thể thích thiết kế nhưng không hài lòng về pin, từ đó cung cấp thông tin chi tiết hơn cho người tiêu dùng và doanh nghiệp.

3. **Phương pháp tiền xử lý dữ liệu có vai trò gì?**  
Tiền xử lý giúp chuẩn hóa văn bản, tách câu thành cụm từ, tokenize từ ghép và gán nhãn từ loại, tạo điều kiện cho mô hình học máy hoạt động hiệu quả và chính xác hơn.

4. **Độ chính xác của mô hình phân loại đặc trưng đạt bao nhiêu?**  
Phương pháp kết hợp GK-LDA và cosine similarity đạt độ chính xác trung bình trên 90% trong việc phân loại các cụm từ vào đúng đặc trưng.

5. **Có thể áp dụng mô hình này cho các lĩnh vực khác không?**  
Có, mô hình và phương pháp có thể được điều chỉnh và áp dụng cho các lĩnh vực khác như dịch vụ, chính sách, hoặc các sản phẩm khác với việc mở rộng tập dữ liệu huấn luyện phù hợp.

## Kết luận

- Luận văn đã nghiên cứu và áp dụng thành công mô hình GK-LDA bán giám sát để rút trích và phân loại đặc trưng trong phân tích ý kiến về chất lượng sản phẩm điện thoại.  
- Phương pháp phân loại dựa trên cosine similarity kết hợp với GK-LDA đạt độ chính xác cao, vượt trội so với các phương pháp truyền thống.  
- Hệ thống phân tích ý kiến được xây dựng giúp người dùng và doanh nghiệp có cái nhìn chi tiết về các khía cạnh sản phẩm, hỗ trợ ra quyết định hiệu quả.  
- Nghiên cứu mở ra hướng phát triển ứng dụng phân tích cảm xúc dựa trên đặc trưng cho tiếng Việt và các ngôn ngữ ít phổ biến khác.  
- Đề xuất các bước tiếp theo bao gồm mở rộng dữ liệu huấn luyện, nâng cao công cụ tiền xử lý và phát triển ứng dụng thực tế để tăng cường giá trị nghiên cứu.

Khuyến khích các nhà nghiên cứu và doanh nghiệp áp dụng mô hình GK-LDA trong phân tích dữ liệu lớn, đồng thời phát triển các công cụ hỗ trợ để nâng cao hiệu quả khai thác ý kiến người dùng.

Trích đoạn nội dung tài liệu

Chương 1 Tổng quan đề tài 1.1 Giới thiệu Ngày nay, với sự phát triển mạnh mẽ của internet, các diễn đàn, blog, mạng xã hội. ngày một phô biến với người dùng trên toàn thế giới nói chung va ở Việt Nam nói riêng. Vì thế các đánh giá về sản phẩm hay dịch vụ là một trong các hoạt động chính của người dùng và có sức ảnh hưởng khá lớn đến khách hàng có nhu cau sử dụng sản phẩm hay dịch vụ. Mỗi khách hàng đều mong muốn bản thân sẽ chọn được mặt hàng uy tín, chất lượng hay sử dụng một dịch vụ hoàn hảo như mong đợi.

Họ thường tham khảo các ý kiến đánh giá của người từng sử dụng. Từ đó, việc phân tích, phân loại và tổng hợp các ý kiến đánh giá là công việc cần thiết để giúp người dùng có cái nhìn tổng quan, chính xác về các sản phẩm và dich vụ ho tìm kiếm. Lĩnh vực phân tích cảm xúc các đánh giá, ý kiến là một trong các lĩnh vực quan trọng được nghiên cứu bat đầu từ những năm 2000. Lĩnh vực này phát triển, được quan tâm nghiên cứu khá nhiều là vì: Thứ nhất, có rất nhiều ứng dụng về hau hết các lĩnh vực có liên quan đến phân tích ý kiến, đánh giá.

Các ứng dụng công nghiệp phát triển một cách mạnh mẽ và sản sinh ra nhiều sản phẩm thương mại xung quanh lĩnh vực trên và điều đó tạo nên một động lực mạnh mẽ về nghiên cứu. Thứ hai, nó đặt ra rất nhiều thách thức trong nghiên cứu mà chưa từng được nghiên cứu trước đây. Thứ ba, lần đầu tiên trong lịch sử chúng ta có một lượng dữ liệu lớn về các ý kiến, đánh giá trên các trang mạng xã hội và nếu không có lượng lớn dữ liệu này thì các công trình nghiên cứu không thể thực hiện được. Linh vực này không chỉ đóng vai trò quan trọng trong phân tích ngôn ngữ tự nhiên nói riêng mà còn ảnh hưởng đến các lĩnh vực khác như khoa học quản lý, kinh tẾ, khoa học chính tri, khoa học xã hội.2 Mục dich và mục tiêu của luận văn - - Mục đích nghiên cứu: Như đã trình bày bên trên, việc phân tích cảm xúc về ý kiến, đánh giá một dịch vụ, sản phẩm là nhu cau can thiết cho người sử dụng với mục đích tham khảo va như một lời khuyên về dịch vụ và sản phẩm mà những khách hàng khác đã từng HVTH: Lê Hải Son Trang | Rút trích đặc trưng trong phân tích ý kiến về chất lượng sản phẩm sử dụng.

Trong hệ thống phân tích đánh giá sản phẩm, dịch vụ bao gồm nhiều giai đoạn chăng hạn như: tiền xử lý dữ liệu (xử lý văn bản, tách văn bản, tách câu, gan nhan,.), phân loại cảm xúc ý kiến, đánh giá, phân tích đặc trưng sản phẩm, dịch vụ ( rút trích đặc trưng sản phẩm, phân loại cảm xúc theo đặc trưng sản phẩm).Trong đó phân loại cảm xúc trên từng ý kiến, đánh giá giúp phân loại theo tích cực, tiêu cực hay trung lập. Việc phân loại trên vẫn chưa đáp ứng đủ thông tin. Thông tin cần được làm giàu thêm như ý kiến hay đánh giá đó đang nói về đặc trưng gì, đặc trưng đó là tích cực, tiêu cực hay trung tâm. Đó là phân việc của phân tích cảm xúc dựa trên đặc trưng sản phẩm.

Dé tài sẽ giúp rút trích các đặc trưng từ các ý kiến đánh giá sản phẩm. Góp phan làm giàu thông tin hơn và là bước bat đầu của công việc tiếp theo là phân loại cảm xúc của đặc trưng. - Muc tiêu nghiên cứu: Nghiên cứu và áp dụng thành công phương pháp rút trích các đặc trưng cho ý kiến, đánh giá. Góp phân hỗ trợ cho việc phân tích cảm xúc của ý kiến, đánh ° 4 gia.3 Pham vi nghiên cứu Đối tượng nghiên cứu là rút trích các đặc trưng từ các ý kiến đánh giá trên các diễn đàn, website bán hàng chăng hạn như vatgia.

Dé tài sẽ tập trung chủ yếu vào rút trích đặt trưng của ý kiến, đánh giá. Là một thành phan trong hệ thống phân tích ý kiến, đánh giá sản phẩm, dịch vụ.4Phương pháp nghiên cứu: Trọng tâm của dé tài là rút trích đặc trưng của ý kiến, đánh giá nhưng trước đó ta cần thu thập dữ liệu, có các thao tác tiền xử ly dữ liệu trước khi thực hiện nghiên cứu giải thuật cho rút trích đặc trưng. Việc đánh giá độ chính xác của giải thuật sẽ dựa vào thông số độ chính xác (accuracy) dé đánh giá độ chính xác của việc rút trích đặc trưng của ý kiến, đánh giá. Việc đánh giá độ chính xác của giải thuật sẽ được so sánh với một sỐ giải thuật tương tự khác sẽ được mồ tả chi tiết tron g Chương 3.

HVTH: Lê Hải Son Trang 2 Rút trích đặc trưng trong phân tích ý kiến về chất lượng sản phẩm 1.5 Kết luận Việc xây dựng hệ thống phân tích, tống hợp cảm xúc ý kiến một cách tự động là cần thiết và được áp dụng nhiều trong các ứng dụng thương mại. Bên cạnh đó, lần đầu tiên ta có lượng lớn dữ liệu các ý kiến đánh giá trên các phương tiện truyền thông, đặc biệt là web. Từ đó, tạo nên động lực lớn cho việc nghiên cứu các van đề liên quan. Dé tài chủ yếu nghiên cứu các phương pháp giúp rút cách đặc trưng một cách hiệu quả thông qua mồ hình máy hoc bán giám sát (mô hình chủ đề, GK-LDA [27]) và giúp phân loại đặc trưng thông qua việc tiền xử lý văn bản và phương pháp phân loại cosine.org/wiki/Cosine_similarity HVTH: Lé Hai Son Trang 3 Rút trích đặc trưng trong phân tích ý kiến về chất lượng sản phẩm Chương 2 Cơ sở lý thuyết và các van đề tồn tại 2.1 Định nghĩa một số thuật ngữ (Một số thuật ngữ sử dụng trong lĩnh vực phân tích cảm xúc) - _ Lớp thực thé và mô tả thực thé: Lớp thực thé được dùng dé miêu tả một thực thể nào đó, trong khi đó mô tả thực thể bao gồm các từ hay cụm từ để mô tả lớp thực thé.

Qua trình phân loại các mồ tả thực thể thành lớp thực thể được gọi là phân loại thực thé. Ví dụ: Lớp thực thé “điện thoại” và một số từ mô tả thực thê “điện thoại” có thể như: “cảm ứng”, “màn hình”, “thiết k eASS 66 cấu hình”. - Lop đặc trưng va mô tả đặc trưng: Lớp đặc trưng mô ta một đặc trưng cu thê của thực thé và mô ta đặc trưng bao gồm những từ, cum từ mô tả đặc trưng cụ thể của thực thể. Ví dụ: Lớp đặc trưng “màn hình”, các từ mô tả đặc trưng màn hình như “cảm ứng”, “nhạy”, “sac nét”, “độ phân giải”,.

Quá trình phân loại các mô tả đặc trưng thành lớp đặc trưng được gọi là phân loại đặc trưng. Các từ mô tả đặc trưng thông thường là danh từ, cụm danh từ cũng có thể là động từ, tính từ và trạng từ. Ví dụ: Các từ mồ tả đặc trưng màn hình: “cảm ứng” là danh từ, “nhạy” là động từ, “sắc nét” là tính từ, “độ phân giải” là cụm danh từ, “rất mượt” là trạng từ trong câu “màn hình chạy rất mượt”. - M6 tả đặc trưng rõ ràng: Các đặc trưng được mô tả băng danh từ hay cụm danh từ được gọi là các mô tả đặc trưng rõ ràng.

Ví dụ: Chất lượng hình ảnh của camera này rất đẹp. “Chất lượng hình ảnh” ở đây là cụm từ mô tả đặc trưng rõ ràng. - M6 tả đặc trưng ngầm định: Các cụm từ mô tả đặc trưng không phải danh từ hay cụm danh từ được gọi là các mô tả đặc trưng n gam dinh. Vi du: Chiéc camera này rẻ thật! “rẻ” là mô tả đặc trưng ngâm định, nó ngầm định ám chỉ tới “giá” của camera.

HVTH: Lé Hai Son Trang 4 Rút trích đặc trưng trong phân tích ý kiến về chất lượng sản phẩm - M6 hình thực thé: ei mô tả một thực thé thứ i trong đoạn văn bản và bao gồm tập hữu hạn n đặc trưng Ai = {ail, ai2,. ei được mô tả bởi tập các mô tả đặc trưng ƒeei, eei,. Mỗi đặc trưng aij thuộc tập Ai được mồ tả bởi tập mồ tả đặc trưng {aeiji, aeij2,. - M6 hình ý kiến văn bản: Một văn bản ý kiến d bao gồm tập các thực thé {e1, ©2,., ©r} và tập các người ra ý kiên {h1, ha, .2 Các công việc cần làm với phân tích cảm xúc: Trong tập văn bản D chúng ta có các công việc sau cân giải quyết: - Rit trích các thực thể và phân loại chúng: Rút trích các mô tả thự thé trong D, phân loại hay gom nhóm các mô tả thực thể thành các nhóm.

Mỗi nhóm sẽ mồ tả duy nhất một thực thê. - Rut trích đặc trưng và phân loại chúng: Rút trích các mô tả đặc trưng cho thực thể và phân loại chúng thành các nhóm. Mỗi nhóm đặc trưng về thực thể e¡ sẽ mô tả duy nhất một đặc trưng aij. - Rit trích các đối tượng ra ý kiến và phân loại chúng: Rút trích ra những người hay đối tượng sở hữu ý kiến và phân loại thành các nhóm khác nhau.

- Rit trích thời gian và chuẩn hóa: Rút trích ra thời gian ra ý kiến và chuẩn hóa chúng về một chuẩn thời gian xác định. - Phan loại cảm xúc của đặc trưng: Xác định một đặc trưng aij là tích cực, tiêu cực hay trung lập và gán một giá trị số để xếp hạng cảm xúc cho đặc trưng đó. - _ Xác định day đủ các thành phan ý kiến: Các thành phan của ý kiến bao gồm: ei là thực thể thứ ¡ trong văn bản d, aij là đặc trưng thứ j của thực thé ei, hx là đối tượng sở hữu ý kiến, ti là thời gian ra ý kiến, si là câu cảm xúc thuộc đối tượn ø hk, thuộc thực thé ei, có đặc trưng aij và vào thời gian ti. Tổng hợp và xác định các giá tri (ei, aij, Sijki, hk, ti) mô ta trong văn bản d.3 Van đề quan tâm: Trong các công việc cần làm như trình bài bên trên thì việc phân tích đặc trưng được xem là vấn đề trọng tâm và cung cấp nhiều thông tin hơn cho các ứng dụng về phân tích cảm xúc ý kiên.

HVTH: Lê Hải Son Trang 5 Rút trích đặc trưng trong phân tích ý kiến về chất lượng sản phẩm Trong phân tích đặc trưng sẽ bao gồm hai công việc là rút trích đặc trưng và từ đó phân loại đặc trưng xem ý kiến về đặc trưng đó là tích cực, tiêu cực hay trung lập.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Phân Tích Ý Kiến Chất Lượng Sản Phẩm Qua Rút Trích Đặc Trưng Khoa Học Máy Tính là một tài liệu chuyên sâu khám phá cách ứng dụng khoa học máy tính để phân tích và đánh giá ý kiến người dùng về chất lượng sản phẩm. Bằng việc sử dụng các kỹ thuật rút trích đặc trưng tiên tiến, tài liệu này cung cấp cái nhìn chi tiết về cách xử lý dữ liệu phi cấu trúc, từ đó giúp doanh nghiệp hiểu rõ hơn về phản hồi của khách hàng và cải thiện sản phẩm. Đây là nguồn tài liệu hữu ích cho những ai quan tâm đến phân tích dữ liệu và tối ưu hóa trải nghiệm người dùng.

Để mở rộng kiến thức về ứng dụng khoa học máy tính trong các lĩnh vực khác, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính phát hiện văn bản ngoại cảnh trong giao thông, một nghiên cứu chuyên sâu về việc áp dụng công nghệ để giải quyết các vấn đề thực tiễn trong giao thông.

#Phân tích dữ liệu

#khoa học máy tính

#chất lượng sản phẩm

#đánh giá sản phẩm

#phân tích ý kiến

#thuật toán rút trích

Chủ đề

Ứng dụng khoa học máy tính

Nghiên cứu về chất lượng sản phẩm

Phân tích dữ liệu và ý kiến

Công nghệ trong đánh giá sản phẩm