Luận văn thạc sĩ khoa học máy tính xây dựng ứng dụng phân loại bình luận thời gian thực sử dụng phân tích dữ liệu lớn trong thương mại điện tử

Luận văn thạc sĩ về xây dựng ứng dụng phân loại bình luận thời gian thực. Ứng dụng phân tích dữ liệu lớn trong thương mại điện tử. Xem ngay!

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ, Khóa luận cao học

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TONG QUAN VE DE TÀI

1.1. Giới thiệu đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng và phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Câu hỏi khi nghiên cứu

1.6. Công việc cần làm

1.7. Tình hình nghiên cứu

1.7.1. Tình hình nghiên cứu trong nước

1.7.2. Tình hình nghiên cứu trên thế giới

1.7.3. Nhận định về các nghiên cứu

2. CHƯƠNG 2: KIÊN THỨC NÈN TÁNG

2.1. Machine learning

2.2. Các kỹ thuật phân loại bình luận

2.3. Deep Learning

3. CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU

4. CHƯƠNG 4: THỰC NGHIỆM

Tóm tắt

I. Ứng Dụng Phân Loại Bình Luận Tổng Quan Lợi Ích

Trong kỷ nguyên số, các tổ chức và doanh nghiệp đang tích cực ứng dụng công nghệ thông tin để tăng cường khả năng cạnh tranh. Việc khai thác thông tin từ dữ liệu, đặc biệt là từ mạng xã hội, trở nên vô cùng quan trọng. Phân tích bình luận (Sentiment Analysis) giúp doanh nghiệp hiểu rõ hơn về trải nghiệm khách hàng, xu hướng thị trường, và thị hiếu, từ đó đưa ra các chiến lược kinh doanh hiệu quả. Các cuộc khảo sát truyền thống bộc lộ nhiều hạn chế về cảm tính và chuyên môn, việc quản trị dựa trên dữ liệu trở thành xu hướng tất yếu. Phân loại bình luận (Sentiment Analysis) có 3 hướng chính: Machine Learning based, Lexicon-based và Hybrid. Trong Machine Learning, lại chia thành Supervised Learning, Unsupervised Learning và Semi-supervised Learning, với Deep Learning là một nhánh phát triển tiếp theo. Luận văn này tập trung vào phân loại bình luận (tích cực/tiêu cực) từ dữ liệu thu thập được từ Tiki, sử dụng các thuật toán Machine Learning, Deep Learning và kỹ thuật Big Data để so sánh và lựa chọn thuật toán phù hợp.

1.1. Tại Sao Phân Tích Bình Luận Thời Gian Thực Quan Trọng

Phân tích bình luận thời gian thực cho phép doanh nghiệp nhanh chóng nắm bắt phản hồi của khách hàng về sản phẩm hoặc dịch vụ. Điều này giúp phát hiện sớm các vấn đề tiềm ẩn, quản lý khủng hoảng truyền thông, và đưa ra các điều chỉnh kịp thời để cải thiện trải nghiệm khách hàng. Dữ liệu này có thể thu thập thông qua các phần mềm và công cụ tin học, cung cấp cái nhìn sâu sắc về ý kiến khách hàng một cách nhanh chóng và hiệu quả. Ứng dụng giúp nhận diện các bình luận tích cực và tiêu cực liên quan tới sản phẩm/dịch vụ, tần suất thu thập dữ liệu mới là mỗi 5 phút, đối với dang bài toán này với khoảng thời gian đó xem như phù hợp.

1.2. Tổng Quan Về Các Phương Pháp Phân Loại Bình Luận

Có nhiều phương pháp phân loại bình luận, bao gồm Machine Learning, Lexicon-based và Hybrid. Machine Learning sử dụng các thuật toán để học từ dữ liệu và dự đoán cảm xúc. Lexicon-based dựa trên từ điển cảm xúc để đánh giá. Hybrid kết hợp cả hai phương pháp này để đạt độ chính xác cao hơn. Machine Learning lại chia thành Supervised Learning, Unsupervised Learning và Semi-supervised Learning. Việc lựa chọn phương pháp phù hợp phụ thuộc vào đặc điểm của dữ liệu và yêu cầu của bài toán.

II. Thách Thức Khi Xây Dựng Ứng Dụng Phân Loại Bình Luận

Xây dựng một ứng dụng phân loại bình luận hiệu quả đối mặt với nhiều thách thức. Một trong số đó là thu thập và tiền xử lý dữ liệu. Dữ liệu thô thường chứa nhiều nhiễu, lỗi chính tả, và biểu cảm không chuẩn. Việc làm sạch và chuẩn hóa dữ liệu đòi hỏi kỹ năng và công cụ chuyên dụng. Theo tác giả luận văn, cần "kiểm tra, chuẩn hóa dữ liệu, loại bỏ những thông tin ít giá trị trong dữ liệu". Hơn nữa, lựa chọn thuật toán phù hợp cũng là một bài toán khó. Mỗi thuật toán có ưu và nhược điểm riêng, và hiệu suất của chúng phụ thuộc vào đặc điểm của dữ liệu. Cuối cùng, việc triển khai và duy trì ứng dụng trong môi trường thời gian thực đòi hỏi hạ tầng mạnh mẽ và khả năng mở rộng linh hoạt.

2.1. Vấn Đề Về Chất Lượng Dữ Liệu Bình Luận Trực Tuyến

Dữ liệu bình luận trực tuyến thường không đồng nhất và chứa nhiều thông tin nhiễu. Người dùng có thể sử dụng ngôn ngữ không chính thức, viết tắt, hoặc biểu cảm cảm xúc bằng biểu tượng. Việc xử lý ngôn ngữ tự nhiên (NLP) cần được điều chỉnh để phù hợp với đặc điểm này. Đồng thời, cần có các biện pháp để loại bỏ bình luận spam và bình luận không liên quan để đảm bảo chất lượng dữ liệu.

2.2. Lựa Chọn Thuật Toán Phân Loại Phù Hợp Nhất

Việc chọn thuật toán Machine learning phù hợp là một thách thức lớn. Các thuật toán khác nhau có những ưu và nhược điểm khác nhau tùy theo loại dữ liệu. cần thiết phải thử nghiệm với nhiều thuật toán như Logistic Regression, Support Vector Machine, Naive Bayes, CNN, LSTM để tìm ra thuật toán tối ưu nhất cho bộ dữ liệu cụ thể. Tác giả đề cập đến việc "thử nghiệm các thuật toán với bộ dữ liệu thu thập, tiến hành tinh chỉnh các tham số trong thuật toán, dé đánh giá và lựa chọn thuật toán phù hợp."

2.3. Yêu cầu về Hạ Tầng và Khả Năng Mở Rộng Scalability

Ứng dụng phân loại bình luận thời gian thực cần có khả năng xử lý lượng lớn dữ liệu đến liên tục. Điều này đòi hỏi hạ tầng mạnh mẽ, khả năng mở rộng linh hoạt, và các công nghệ Big Data như Spark và Kafka. Việc đảm bảo độ trễ thấp cũng là một yếu tố quan trọng để ứng dụng có thể cung cấp thông tin phản hồi kịp thời.

III. Phương Pháp Xây Dựng Ứng Dụng Phân Loại Với Big Data

Để xây dựng một ứng dụng phân loại bình luận hiệu quả, cần một quy trình bài bản. Bước đầu tiên là thu thập dữ liệu từ các nguồn khác nhau, chẳng hạn như website thương mại điện tử, mạng xã hội, hoặc API. Dữ liệu sau đó được làm sạch, chuẩn hóa, và chuyển đổi thành định dạng phù hợp. Tiếp theo, mô hình học máy được huấn luyện bằng dữ liệu đã chuẩn bị. Cuối cùng, ứng dụng được triển khai và tích hợp với hệ thống thương mại điện tử, cung cấp thông tin phân tích cảm xúc cho người dùng.

3.1. Thu Thập Dữ Liệu Bình Luận Từ Nguồn Thương Mại Điện Tử

Việc thu thập dữ liệu đóng vai trò then chốt để đảm bảo dữ liệu huấn luyện là chính xác và đầy đủ. Dữ liệu được thu thập trực tuyến thông qua kết nói tới hệ thong thương mại điện tử. Dữ liệu sau đó được làm sạch, chuẩn hóa, và chuyển đổi thành định dạng phù hợp.

3.2. Tiền Xử Lý Dữ Liệu Để Nâng Cao Độ Chính Xác Phân Loại

Tiền xử lý dữ liệu là một bước quan trọng trong quy trình xây dựng ứng dụng. Dữ liệu thô cần được làm sạch bằng cách loại bỏ các ký tự đặc biệt, chuyển đổi chữ hoa thành chữ thường, và loại bỏ các từ dừng (stop words). Chuẩn hóa dữ liệu có thể bao gồm stemming (chuyển từ về dạng gốc) hoặc lemmatization (chuyển từ về dạng từ điển). Cuối cùng, dữ liệu được biểu diễn dưới dạng số để phù hợp với các thuật toán học máy.

3.3. Huấn Luyện Mô Hình Học Máy Để Phân Loại Cảm Xúc

Sau khi dữ liệu đã được chuẩn bị, mô hình học máy có thể được huấn luyện. Quá trình này bao gồm việc lựa chọn thuật toán phù hợp, chia dữ liệu thành tập huấn luyện và tập kiểm tra, và tối ưu hóa các tham số của mô hình. Mục tiêu là xây dựng một mô hình có khả năng dự đoán chính xác cảm xúc của bình luận mới.

IV. Sử Dụng Deep Learning Cho Phân Loại Bình Luận Nâng Cao

Deep Learning (DL) là một nhánh con của Machine Learning (ML), sự ra đời của DL đã thúc đẩy bước tiến lớn trong lĩnh vực trí tuệ nhân tạo (AI). Ta thử đi tìm hiểu lịch sử hình thành của Deep Learning thông qua quá trình phát triển. Deep learning khi khai thác mạng neural network, là sự mô tả của thần kinh con người, đã tạo thế mạnh trong các giải pháp trí tuệ nhân tạo (AI) khác nhau như thị giác máy tính (computer vision), xử lý ngôn ngữ tự nhiên (natural language processing), phân tích video thông minh (intelligent video analytics) và nhiều mảng khác. Sự phát triển của deep learning không thé thiéu anh hưởng của mạng tích chập convolutional neural network (CNN) va recurrent neural network (RNN). Cả machine learning và deep learning đều cải thiện mô hình thông qua dữ liệu

4.1. Ưu điểm của Deep Learning so với Machine Learning truyền thống

Mặc dù cả Machine learning và Deep learning đều cải thiện mô hình thông qua dữ liệu, nhưng số lớp dé huấn luyện mô hình của deep learning rất nhiều, chính vì vậy mới có tên gọi là “deep learning — học sâu”. Bên cạnh đó Deep learning có khả năng tự động trích xuất đặc trưng từ dữ liệu đầu vào.

4.2. Các kiến trúc Deep Learning phổ biến cho Phân loại Bình luận

Sự phát triển của deep learning không thé thiéu anh hưởng của mạng tích chập convolutional neural network (CNN) va recurrent neural network (RNN) CNN: Được sử dụng trong xử lý ảnh, cũng có thể áp dụng cho phân tích văn bản bằng cách coi mỗi từ là một kênh. RNN: Rất hiệu quả trong xử lý chuỗi dữ liệu, phù hợp với việc phân tích văn bản theo thứ tự thời gian.

V. Ứng Dụng Thực Tế Kết Quả Nghiên Cứu Phân Loại Bình Luận

Ứng dụng phân loại bình luận có thể được tích hợp vào nhiều hệ thống thương mại điện tử khác nhau, giúp doanh nghiệp hiểu rõ hơn về khách hàng và cải thiện chất lượng dịch vụ. Thông tin phân tích cảm xúc có thể được sử dụng để điều chỉnh chiến lược marketing, cải thiện sản phẩm, hoặc giải quyết các vấn đề phát sinh. Ngoài ra, ứng dụng có thể được sử dụng để theo dõi phản hồi khách hàng về các sản phẩm mới, hoặc để phát hiện các xu hướng tiêu cực để kịp thời xử lý.

5.1. Tích Hợp Ứng Dụng Phân Loại Vào Nền Tảng Thương Mại Điện Tử

Việc tích hợp ứng dụng phân loại bình luận vào nền tảng thương mại điện tử rất quan trọng để thu thập dữ liệu bình luận một cách liền mạch và liên tục. Điều này giúp doanh nghiệp có cái nhìn tổng quan về phản hồi của khách hàng và đưa ra các quyết định dựa trên dữ liệu.

5.2. Sử Dụng Phân Tích Cảm Xúc Để Cải Thiện Sản Phẩm và Dịch Vụ

Thông tin phân tích cảm xúc có thể được sử dụng để cải thiện sản phẩm và dịch vụ bằng cách xác định các vấn đề mà khách hàng đang gặp phải và đưa ra các giải pháp. Điều này giúp tăng sự hài lòng của khách hàng và xây dựng lòng trung thành với thương hiệu.

5.3. Quản Lý Khủng Hoảng Truyền Thông Với Phân Loại Bình Luận

Ứng dụng phân loại bình luận giúp doanh nghiệp phát hiện sớm các bình luận tiêu cực hoặc các vấn đề tiềm ẩn có thể gây ra khủng hoảng truyền thông. Nhờ đó, doanh nghiệp có thể nhanh chóng đưa ra các biện pháp xử lý và giảm thiểu tác động tiêu cực.

VI. Tương Lai Hướng Phát Triển Của Phân Loại Bình Luận

Lĩnh vực phân loại bình luận tiếp tục phát triển với nhiều hướng nghiên cứu mới. Một trong số đó là xử lý ngôn ngữ đa dạng và phức tạp, bao gồm tiếng lóng, biểu cảm, và ngôn ngữ địa phương. Hơn nữa, việc kết hợp phân tích cảm xúc với các thông tin khác, chẳng hạn như thông tin nhân khẩu học hoặc hành vi mua sắm, có thể cung cấp cái nhìn sâu sắc hơn về khách hàng. Cuối cùng, việc ứng dụng trí tuệ nhân tạo và học máy để tự động hóa và tối ưu hóa quy trình phân loại bình luận là một xu hướng quan trọng.

6.1. Xử Lý Ngôn Ngữ Đa Dạng Phức Tạp Trong Bình Luận

Một thách thức lớn trong phân loại bình luận là xử lý ngôn ngữ đa dạng và phức tạp, bao gồm tiếng lóng, biểu cảm, và ngôn ngữ địa phương. Các thuật toán cần được điều chỉnh để hiểu và phân tích chính xác những loại ngôn ngữ này.

6.2. Kết Hợp Phân Tích Cảm Xúc Với Thông Tin Khách Hàng

Việc kết hợp phân tích cảm xúc với các thông tin khác về khách hàng, chẳng hạn như thông tin nhân khẩu học hoặc hành vi mua sắm, có thể cung cấp cái nhìn sâu sắc hơn về nhu cầu và mong muốn của khách hàng. Điều này giúp doanh nghiệp đưa ra các quyết định tốt hơn về sản phẩm, dịch vụ, và chiến lược marketing.

6.3. Tự Động Hóa Quy Trình Phân Loại Bình Luận Bằng AI

Ứng dụng trí tuệ nhân tạo (AI) và học máy để tự động hóa quy trình phân loại bình luận là một xu hướng quan trọng. AI có thể giúp tối ưu hóa các thuật toán, cải thiện độ chính xác, và giảm thiểu chi phí vận hành.

26/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính xây dựng ứng dụng phân loại bình luận thời gian thực sử dụng phân tích dữ liệu lớn trong thương mại điện tử

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0 và xu hướng chuyển đổi số đang bùng nổ, việc khai thác thông tin từ dữ liệu lớn trở thành yếu tố then chốt giúp doanh nghiệp nâng cao năng lực cạnh tranh. Theo ước tính, lượng dữ liệu được tạo ra trên các nền tảng thương mại điện tử tăng trưởng nhanh chóng, đặc biệt là các bình luận, đánh giá của khách hàng. Những bình luận này chứa đựng thông tin quan trọng về trải nghiệm, xu hướng và thị hiếu người tiêu dùng, từ đó hỗ trợ doanh nghiệp xây dựng chiến lược kinh doanh hiệu quả hơn. Tuy nhiên, việc phân loại và xử lý các bình luận này trong thời gian thực vẫn còn nhiều thách thức do khối lượng dữ liệu lớn và tính đa dạng của ngôn ngữ tự nhiên.

Luận văn thạc sĩ này tập trung xây dựng ứng dụng phân loại bình luận thời gian thực sử dụng phân tích dữ liệu lớn trong thương mại điện tử, cụ thể là trên nền tảng Tiki với mặt hàng sách kinh tế tiếng Việt. Mục tiêu chính là phát triển công cụ nhận diện bình luận tích cực và tiêu cực với tần suất cập nhật dữ liệu mỗi 5 phút, đồng thời áp dụng các thuật toán Machine Learning và Deep Learning kết hợp kỹ thuật Big Data để xử lý hiệu quả dữ liệu tăng nhanh. Phạm vi nghiên cứu bao gồm các thuật toán Logistic Regression, Support Vector Machine, Naive Bayes, Decision Tree, LSTM, CNN và công nghệ Big Data như Spark, Kafka.

Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ doanh nghiệp thương mại điện tử khai thác thông tin khách hàng một cách nhanh chóng, chính xác, từ đó nâng cao chất lượng dịch vụ và tối ưu hóa chiến lược kinh doanh dựa trên phản hồi thực tế của người dùng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: Machine Learning (ML) và Deep Learning (DL) trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). ML được định nghĩa là nhánh của trí tuệ nhân tạo tập trung vào việc sử dụng dữ liệu và thuật toán để mô phỏng cách con người học hỏi, trong đó có các phương pháp supervised learning, unsupervised learning và semi-supervised learning. Các thuật toán ML truyền thống như Logistic Regression, Support Vector Machine, Naive Bayes và Decision Tree được sử dụng để phân loại bình luận.

Deep Learning là nhánh con của ML, sử dụng mạng nơ-ron nhiều lớp để trích xuất đặc trưng phức tạp từ dữ liệu đầu vào. Các mô hình DL như Long Short-Term Memory (LSTM) và Convolutional Neural Network (CNN) được áp dụng để nâng cao độ chính xác phân loại bình luận. Ngoài ra, nghiên cứu còn ứng dụng kỹ thuật Distributed Deep Learning (BigDL) trên nền tảng Apache Spark để xử lý dữ liệu lớn phân tán, giúp tăng tốc độ huấn luyện và khả năng mở rộng hệ thống.

Các khái niệm chính bao gồm:

Sentiment Analysis: Phân tích cảm xúc, nhận diện bình luận tích cực hoặc tiêu cực.
Natural Language Processing (NLP): Xử lý ngôn ngữ tự nhiên, bao gồm tiền xử lý văn bản, tokenization, stop words, stemming, lemmatization và word embedding.
Big Data: Xử lý dữ liệu lớn với các đặc trưng volume, variety, velocity.
Distributed Deep Learning: Phân tán quá trình huấn luyện mô hình trên nhiều máy tính để tăng hiệu năng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập trực tiếp từ website thương mại điện tử Tiki, tập trung vào mặt hàng sách kinh tế tiếng Việt. Dữ liệu gồm các bình luận và đánh giá sản phẩm, được thu thập bằng kỹ thuật web scraping sử dụng Python với các framework như Selenium và Beautiful Soup. Tổng số dữ liệu thu thập khoảng 9.000 bình luận, trong đó tỷ lệ bình luận tích cực chiếm khoảng 89,3%, bình luận tiêu cực chiếm 10,7%.

Quá trình nghiên cứu gồm các bước:

Thu thập và làm sạch dữ liệu: Loại bỏ dữ liệu trùng lặp, chuẩn hóa văn bản, xử lý stop words, emoji và chuyển đổi dữ liệu sang dạng vector bằng TF-IDF.
Xây dựng bộ dữ liệu huấn luyện: Chia dữ liệu thành tập train và test theo tỷ lệ 70%-30%.
Thử nghiệm các thuật toán ML và DL: Logistic Regression, SVM, Naive Bayes, Decision Tree, LSTM, CNN.
Áp dụng kỹ thuật Big Data: Sử dụng Apache Kafka để xử lý luồng dữ liệu thời gian thực, Apache Spark và BigDL để huấn luyện mô hình phân tán.
Đánh giá mô hình dựa trên các chỉ số Precision, Recall, F1-score và Accuracy.

Thời gian nghiên cứu kéo dài trong năm 2023, tập trung tại Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Công nghệ Thông tin.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại bình luận với các thuật toán ML truyền thống: Thuật toán Support Vector Machine (SVM) đạt độ chính xác trung bình khoảng 80%, trong khi Logistic Regression và Naive Bayes có độ chính xác lần lượt khoảng 75% và 70%. Decision Tree cho kết quả thấp hơn, khoảng 65%.
Ưu thế của Deep Learning: Mô hình LSTM và CNN cho kết quả vượt trội với độ chính xác trên 90%, F1-score đạt khoảng 0.88, thể hiện khả năng trích xuất đặc trưng ngữ cảnh tốt hơn so với ML truyền thống.
Tác động của kỹ thuật Big Data: Việc áp dụng Apache Kafka và Spark giúp xử lý dữ liệu thời gian thực hiệu quả, giảm thời gian cập nhật kết quả phân loại xuống còn khoảng 5 phút cho mỗi lượt thu thập dữ liệu mới. BigDL hỗ trợ huấn luyện mô hình phân tán, tăng tốc độ huấn luyện lên gấp 3 lần so với huấn luyện tập trung.
Phân bố dữ liệu không cân bằng: Bình luận tích cực chiếm tỷ lệ áp đảo (89,3%), gây ảnh hưởng đến hiệu quả mô hình phân loại, đặc biệt là khả năng nhận diện bình luận tiêu cực. Việc xử lý dữ liệu mất cân bằng bằng kỹ thuật oversampling và undersampling giúp cải thiện độ nhạy của mô hình với lớp tiêu cực lên khoảng 15%.

Thảo luận kết quả

Kết quả cho thấy Deep Learning, đặc biệt là LSTM và CNN, phù hợp hơn với bài toán phân loại bình luận trong thương mại điện tử do khả năng xử lý ngữ cảnh và chuỗi dữ liệu tốt. So với các nghiên cứu trong nước và quốc tế, độ chính xác trên 90% là mức tương đương hoặc cao hơn, chứng tỏ tính khả thi của mô hình trên bộ dữ liệu tiếng Việt.

Việc ứng dụng Big Data không chỉ giúp xử lý khối lượng dữ liệu lớn mà còn đảm bảo tính thời gian thực, điều mà nhiều nghiên cứu trước đây chưa tập trung. Các biểu đồ confusion matrix và biểu đồ so sánh độ chính xác giữa các mô hình minh họa rõ sự vượt trội của DL và hiệu quả của hệ thống phân tán.

Tuy nhiên, dữ liệu mất cân bằng vẫn là thách thức lớn, ảnh hưởng đến khả năng nhận diện bình luận tiêu cực. So với một số nghiên cứu quốc tế sử dụng kỹ thuật cân bằng dữ liệu nâng cao, luận văn đã áp dụng các phương pháp cơ bản và đạt kết quả khả quan, mở ra hướng phát triển tiếp theo.

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng và cân bằng: Động viên thu thập thêm bình luận tiêu cực để cân bằng bộ dữ liệu, giúp mô hình phân loại chính xác hơn. Chủ thể thực hiện: đội ngũ phát triển hệ thống dữ liệu, trong vòng 6 tháng tới.
Triển khai hệ thống phân loại trên nền tảng Big Data mở rộng: Mở rộng quy mô sử dụng Apache Kafka và Spark cluster để xử lý dữ liệu lớn hơn, đảm bảo khả năng mở rộng và thời gian thực. Chủ thể: bộ phận kỹ thuật CNTT, trong 12 tháng.
Nâng cao mô hình Deep Learning bằng kỹ thuật transfer learning và fine-tuning: Áp dụng các mô hình ngôn ngữ lớn (như BERT) để cải thiện độ chính xác phân loại, đặc biệt với dữ liệu tiếng Việt. Chủ thể: nhóm nghiên cứu AI, trong 9 tháng.
Phát triển giao diện trực quan và dashboard báo cáo: Hiển thị kết quả phân loại dưới dạng biểu đồ, bảng điều khiển giúp doanh nghiệp dễ dàng theo dõi và ra quyết định. Chủ thể: nhóm phát triển phần mềm, trong 3 tháng.
Đào tạo và nâng cao nhận thức cho doanh nghiệp về ứng dụng phân tích cảm xúc: Tổ chức các buổi workshop, hướng dẫn sử dụng công cụ để tối ưu khai thác dữ liệu khách hàng. Chủ thể: phòng đào tạo và phát triển, trong 6 tháng.

Đối tượng nên tham khảo luận văn

Doanh nghiệp thương mại điện tử: Có thể ứng dụng công cụ phân loại bình luận để nhanh chóng nắm bắt phản hồi khách hàng, cải thiện sản phẩm và dịch vụ. Use case: Tiki, Shopee, Lazada.
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, AI: Tham khảo phương pháp xây dựng mô hình phân loại cảm xúc, ứng dụng Big Data và Deep Learning trong thực tế.
Chuyên gia phân tích dữ liệu và phát triển phần mềm: Áp dụng kỹ thuật thu thập, xử lý dữ liệu lớn, triển khai hệ thống thời gian thực với Kafka, Spark.
Các tổ chức đào tạo và tư vấn công nghệ: Sử dụng luận văn làm tài liệu giảng dạy, nghiên cứu phát triển các giải pháp tương tự trong lĩnh vực xử lý ngôn ngữ tự nhiên và thương mại điện tử.

Câu hỏi thường gặp

1. Tại sao cần phân loại bình luận trong thương mại điện tử?
Phân loại bình luận giúp doanh nghiệp hiểu rõ cảm nhận khách hàng, từ đó điều chỉnh chiến lược kinh doanh, cải thiện sản phẩm và dịch vụ. Ví dụ, nhận diện nhanh bình luận tiêu cực giúp xử lý kịp thời các vấn đề phát sinh.

2. Các thuật toán Machine Learning và Deep Learning khác nhau thế nào trong bài toán này?
Machine Learning truyền thống như SVM, Logistic Regression dựa trên đặc trưng tĩnh, trong khi Deep Learning như LSTM, CNN có khả năng học ngữ cảnh và chuỗi dữ liệu, cho độ chính xác cao hơn trong phân loại bình luận phức tạp.

3. Làm thế nào để xử lý dữ liệu mất cân bằng trong phân loại bình luận?
Có thể áp dụng kỹ thuật oversampling, undersampling hoặc sử dụng các thuật toán cân bằng lớp để cải thiện khả năng nhận diện lớp thiểu số, giúp mô hình không thiên lệch về lớp chiếm đa số.

4. Tại sao sử dụng Apache Kafka và Spark trong nghiên cứu này?
Kafka hỗ trợ xử lý luồng dữ liệu thời gian thực với độ trễ thấp, còn Spark giúp xử lý dữ liệu lớn phân tán và huấn luyện mô hình Deep Learning hiệu quả, phù hợp với yêu cầu cập nhật nhanh và khối lượng dữ liệu lớn.

5. Có thể áp dụng mô hình này cho các lĩnh vực khác ngoài thương mại điện tử không?
Có thể, mô hình phân loại cảm xúc và kỹ thuật xử lý dữ liệu lớn có thể ứng dụng trong y tế, tài chính, truyền thông xã hội để phân tích phản hồi, đánh giá và dự đoán xu hướng.

Kết luận

Luận văn đã xây dựng thành công ứng dụng phân loại bình luận thời gian thực trên nền tảng thương mại điện tử Tiki, sử dụng kết hợp Machine Learning, Deep Learning và Big Data.
Mô hình Deep Learning (LSTM, CNN) cho độ chính xác trên 90%, vượt trội so với các thuật toán truyền thống.
Hệ thống sử dụng Apache Kafka và Spark giúp xử lý dữ liệu lớn và cập nhật kết quả nhanh chóng, phù hợp với yêu cầu thời gian thực.
Nghiên cứu góp phần mở rộng ứng dụng kỹ thuật phân tích cảm xúc trong thương mại điện tử tại Việt Nam, đồng thời đề xuất các giải pháp nâng cao hiệu quả và khả năng mở rộng.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, áp dụng kỹ thuật transfer learning, phát triển giao diện trực quan và đào tạo người dùng để tối ưu khai thác công cụ.

Quý độc giả và doanh nghiệp quan tâm có thể liên hệ để nhận bản đầy đủ luận văn và hỗ trợ triển khai ứng dụng trong thực tế.

Trích đoạn nội dung tài liệu

Đặt vấn đề Chúng ta thường lựa chọn dựa trên quan điểm và kinh nghiệm, nên cảm xúc đóng một vài trò quan trọng trong hành vi của con người. Sự quan tâm của dư luận về một vấn đề xã hội nào đó có thê trở thành một xu hướng trong tương lai. Ý kiến của công chúng về một sản phẩm, dịch vụ nào đó đối với các nhãn hàng là rất quan trọng, giúp các doanh chủ có chiến lược tiếp thị, sản xuất, kinh doanh, điều hành được tốt hơn. Nếu như trước kia việc lay y kiến khảo sát được thực hiện dựa trên các phiếu giấy, vừa tốn nhân lực thu thập, cách đặt câu hỏi nếu không khéo cũng không lại kết qua phản ánh đúng điều mà các tô chức, doanh nghiệp cần.

Ngoài ra việc làm thủ công sẽ mat nhiều thời gian, dẫn đến chỉ phí cơ hội bị bỏ lỡ. Thời đại bùng nỗ thông tin, tất cả các ngành nghề gần như đều sử dụng công nghệ dé tương tác và tiếp cận khách hàng, hành vi của người dùng cũng vì thé thay đổi rất nhiều. Vì thế việc thu thập các ý kiến khách hàng, các bình luận công chúng được thực hiện thông qua sự hỗ trợ của các phần mềm, công cụ tin học. 11 You're ana*s.

e (nguồn ảnh từ: hps:⁄/writingcooperative.com/how-not-to-take-hate-comments- personally-as-a-creator-5750086181ae ) Mục tiêu chính của đề tài này là xây dựng một công cụ hỗ trợ nhận diện các bình luận tích cực và tiêu cực liên quan tới sản phẩm/dịch vụ, tần suất thu thập dữ liệu mới là mỗi 5 phút, đối với dang bài toán này với khoảng thời gian đó xem như phù hợp. Ngoài ra, mục tiêu phụ của dé tài là áp dụng các kỹ thuật có thể xử lý được dữ liệu tăng lên nhanh chóng (dữ liệu trong đề tài không nhất thiết phải là đữ liệu lớn vì hạn chế của việc tiếp cận dữ liệu) và thời gian nhận hồi đáp nhanh chóng. Kỳ — —+ Target system (ecommerce) Crawl, Model Results: Hình 2 - Mô ta bài toán dạng tông quát 12 1. Mục tiêu nghiên cứu Mục tiêu nghiên cứu của luận văn này là xây dựng công cụ phân loại bình luận trên trang thương mại điện tử ứng dụng thuật toán Machine Learning và Deep Learning.

Các bước xây dựng hệ thống: - __ Thu thập dé liệu: dữ liệu được thu thập trực tuyến thông qua kết nói tới hệ thong thương mại điện tử. - _ Tiền xử lý dữ liệu: kiểm tra, chuẩn hóa đữ liệu, loại bỏ những thông tin ít giá trị trong dữ liệu. - Xây dựng mô hình phân loại: sử dụng kỹ thuật xử lý dữ liệu lớn kết hợp xử lý ngôn ngữ tự nhiên dé đưa ra nhận định phi hợp. - Hiển thị dữ liệu: kết qua phân loại được hién thị dưới dang biểu đồ, trên nền tảng web.

Cập nhật dữ liệu: dit liệu được cập nhật tự động khi hệ thống được vận hành. Phân tích và đưa ra phân loại: dựa trên các loại bình luận cùng với số lượng bình luận để các bên liên quan, bao gồm cả khách hàng và chủ nhãn hàng có những hành động phù hợp với chiến lược của mình. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận văn là kỹ thuật phân loại bình luận và cách tạo ra công cụ để hiện thực kỹ thuật phân loại bình luận này. Phạm vi nghiên cứu là một số thuật toán phân loại bình luận Machine Learning (Logistic Regression, Support Vector Machine, Naive Bayes, Decision Tree) và Deep Learning (LSTM, CNN), kỹ thuật trong hệ sinh thai Big Data (Spark, Kafka, PySpark), trên tập dữ liệu thu thập từ website thương mai điện tử Tiki, với mặt hang là sách tiếng Việt thuộc lĩnh vực kinh tế.

Phương pháp nghiên cứu Phương pháp nghiên cứu của luận văn là dựa trên khảo sát các công trình, bài báo nghiên cứu trước đó để tìm các thuật toán và độ chính xác mà các tác giả đạt được. Thực nghiệm khảo sát trên thị trường thông qua internet đề tìm kiếm sản phẩm tương tự từ các doanh nghiệp để học hỏi. Sau đó thử nghiệm các thuật toán với bộ dữ liệu thu thập, tiến hành tinh chỉnh các tham số trong thuật toán, dé đánh giá và lựa chọn thuật toán phù hợp. Cuối cùng là xây dựng công cụ xử lý bài toán.

Câu hỏi khi nghiên cứu Câu hỏi 1: Tại sao phải làm luận văn này trong khi có rất nhiều nghiên cứu, ứng dụng trước đó và bài này đã có rất nhiều năm? Trả lời 1: Các ứng dụng được các doanh nghiệp phát triển dé phục vụ nhu cầu nội bộ, họ không chia sẻ phương pháp làm, nên minh cần làm dé giải quyết bài toán của mình. Các nghiên cứu khoa học về mảng này có rất nhiều, nhưng phan lớn tập trung vào cải tiến mô hình để tăng độ chính xác, và tập dữ liệu luận văn làm khác với của họ. Câu hói 2: Tiêu đề luận văn đề cập tới thời gian thực và dữ liệu lớn, vậy nó thé hiện như thế nào trong luận văn? Trả lời 2: Thời gian thực theo cách hiểu của em khi làm đề tài, không phải là đữ liệu phát sinh liên tục như trong dữ liệu chứng khoán, mà thực ở đây là khi có phát sinh 14 trên hệ thống đích, sau một khoảng thời gian ngắn, có thể là vài phút đến vài chục phút, công cụ có thé quét lại dé cập nhật vào bảng kết quả. Van đề dữ liệu lớn, trong luận văn đang sử dụng là ý muốn dùng kỹ thuật dành cho xử ly dé liệu lớn, chứ không phải dữ liệu của luận văn đủ tiêu chuân lớn, điều này do hạn chế không phải là chủ trang nên không thể kéo nhiều được.

Câu hỏi 3: Đóng góp của luận văn này là gì? Trả lời 3: mặc dù luận văn không mang lại điểm mới trong học thuật, nhưng hướng tới kỹ thuật xây dựng bài toán và giải quyết bài toán, đồng thời thực nghiệm trên một số thuật toán để đưa ra nhận định lựa chọn thuật toán phù hợp cho dạng bài toán này. Công việc cần làm e Phân tích yêu cầu, khảo sát tình hình thị trường, tình hình nghiên cứu và hệ thống các nghiên cứu đó. e Thu thập, làm sạch, xử lý dữ liệu. e Xây dựng model phân loại, thiết kế mô hình phần mềm/công cụ.

e Thử nghiệm bộ di liệu trên với các model. e Dua model vào phần mém/céng cụ. e Kết luận, nhận định đề tài, những đóng góp của nghiên cứu, các hạn chế và hướng phát triển. © Gửi bài tới một hội thảo dé có thêm kênh đánh giá.

Tình hình nghiên cứu 2. Tình hình nghiên cứu trong nước STT Bài báo Kết quả 1 Mô hình khai phá ý kiến và phân | Bài báo thực hiện phân tích cảm xúc khách tích cảm xúc khách hàng trực | sau khi mua hàng trên website Foody.vn, tuyến trong ngành hàng thực | sử dụng một phương pháp học máy có phẩm (2020) - Đại học Mở giám sát như Decision Tree, Naïve Bayes, 15 Logistic Regression. Độ chính xác lên tới 90%, cho các nhận diện bình luân tích cực và tiêu cực. Nghiên cứu giải pháp phát hiện Thu thập thông tin trên mạng xã hội tin gia trên mạng xã hội bằng facebook thông qua một số nhóm lớn, và ngôn ngữ tiếng Việt (2022) - CTU đối chiếu tin với các trang tin tức chính thống tại Việt Nam, để so sánh mức độ giả của tin, dựa trên phương pháp phân tích TF — IDF, so sánh độ tương đồng cosine và thu được mức độ chính xác khi phát hiện tin giả lên đến 70%.

Phương pháp phân loại dữ liệu Thu thập và phân loại bình luận 15 mặt bình luận của khách hàng trực hàng trên 5 website thương mại điện tử tuyến Việt Nam dựa vào học máy khác nhau, áp dụng 4 phương pháp học có giám sát (2022) - TNU máy như SVM, Naïve Bayes, Neural Network và Decision Tree, độ chính xác trung bình cao nhất lên đến 80%. From Aspect-Based Sentiment Xây dựng bộ dữ liệu các phản hồi tiếng Analysis to Social Listening Việt trên smartphone, áp dụng kiến trúc System for Business Intelligence Bi-LSTM với fastText word embeddings, (2021) — UIT [6] kết quả F1-score đối với phân loại cảm xúc lên 63.03% và nhận diện khía cạnh lên tới 84.48%, hon han giá tri Fl-score khi thực hiện với các phương pháp như Naïve Bayes, SVM, Random Forest, CNN, LSTM Hate Speech Detection on Sử dụng học sâu dựa trên Bi-GRU-LSTM- Vietnamese Social Media Text CNN để phân lớp, giá trị Fl-score thu using the Bi-GRU-LSTM-CNN được lên tới 70. Model (2019) - UIT [5] Bang I - Tình hình nghiên cứu trong nước 2. Tình hình nghiên cứu trên thế giới STT Bài báo Kết qua 1 Big Data-Deep Learning for Bài báo nhân mạnh sử dụng Deep financial sentiment analysis [1S] Learning đê phân tích bình luận tài chính.

LSTM, Word2vec và CNN là các kỹ thuật được dùng, bộ dataset trong đề tài là StockTwits. A Novel Machine Learning Sử dung kết hop SVM va fine-tuning Approach for Sentiment Analysis ULM (gọi là ULMFiT-SVM), trên các bộ on Twitter Incorporating the dữ liệu Twitter, IMDB và GOP Debate, Universal Language Model Fine- thu được độ chính xác lên tới 99. Tuning and SVM Monolith Real Time Xây dựng giải pháp thực hiện online Recommendation System with training, phục vụ hệ thống hỗ trợ ra quyết Collisionless Embedding Table. định với thời gian thực [7] The impact of Big Data Quality Phan tich 7 gia tri cua Big Data anh huong on Sentiment Analysis tới các phân tích bình luận, ở các mức độ Approaches khác nhau Review Sentiment Analysis Kiên trúc unsupervised Deep neural Based on Deep Learning.

[16] network được phát triển để phân tích bình 17 luận, và so sánh nó tốt hơn so với SVM trên cùng bộ dataset Bảng 2 - Tình hình nghiên cứu thé giới 2. Nhận định về các nghiên cứu Theo góc nhìn chủ quan của tôi sau khi khảo sát qua tình hình nghiên cứu trong và ngoài nước, các tác giả tập trung phan lớn vào thuật toán và có gắng cai tiễn mô hình nhằm làm tăng độ chính xác, hàm lượng học thuật cao, chứ chưa chú trọng nhiều tới khả năng áp dụng vào thực tiễn, đặc biệt là kha năng triển khai đơn giản, dé mở rộng cũng như khi vận hành. Trên thị trường, cũng có nhiều phần mềm nhận diện và phân loại bình luận, nhưng phần lớn phục vụ bộ phận Back-Office của doanh nghiệp hoặc chỉ chạy trong một khoảng thời gian ngắn của sự kiện, và thông tin tôi tìm hiểu cũng chỉ qua người quen, nghe họ đánh giá chứ chưa kiêm nghiệm được những góp ý nay. 18 CHƯƠNG 2: KIÊN THỨC NÈN TÁNG 1.

Machine learning Theo định nghĩa từ IBM, Machine Learning là một nhánh của Artificial Intelligence (AD) và khoa học máy tính, tập trung vào sử dụng dữ liệu và thuật toán nhằm bắt chước cách con người học, dần dần cải thiện độ chính xác của thuật toán đó.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng dữ liệu lớn trong thương mại điện tử

Phân tích bình luận khách hàng thời gian thực

Xây dựng ứng dụng phân loại sentiment

Quản lý phản hồi khách hàng tự động

Luận văn thạc sĩ khoa học máy tính xây dựng ứng dụng phân loại bình luận thời gian thực sử dụng phân tích dữ liệu lớn trong thương mại điện tử

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TONG QUAN VE DE TÀI

1.1. Giới thiệu đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng và phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Câu hỏi khi nghiên cứu

1.6. Công việc cần làm

1.7. Tình hình nghiên cứu

1.7.1. Tình hình nghiên cứu trong nước

1.7.2. Tình hình nghiên cứu trên thế giới

1.7.3. Nhận định về các nghiên cứu

2. CHƯƠNG 2: KIÊN THỨC NÈN TÁNG

2.1. Machine learning

2.2. Các kỹ thuật phân loại bình luận

2.3. Deep Learning

3. CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU

4. CHƯƠNG 4: THỰC NGHIỆM

I. Ứng Dụng Phân Loại Bình Luận Tổng Quan Lợi Ích

1.1. Tại Sao Phân Tích Bình Luận Thời Gian Thực Quan Trọng

1.2. Tổng Quan Về Các Phương Pháp Phân Loại Bình Luận

II. Thách Thức Khi Xây Dựng Ứng Dụng Phân Loại Bình Luận

2.1. Vấn Đề Về Chất Lượng Dữ Liệu Bình Luận Trực Tuyến

2.2. Lựa Chọn Thuật Toán Phân Loại Phù Hợp Nhất

2.3. Yêu cầu về Hạ Tầng và Khả Năng Mở Rộng Scalability

III. Phương Pháp Xây Dựng Ứng Dụng Phân Loại Với Big Data

3.1. Thu Thập Dữ Liệu Bình Luận Từ Nguồn Thương Mại Điện Tử

3.2. Tiền Xử Lý Dữ Liệu Để Nâng Cao Độ Chính Xác Phân Loại

3.3. Huấn Luyện Mô Hình Học Máy Để Phân Loại Cảm Xúc

IV. Sử Dụng Deep Learning Cho Phân Loại Bình Luận Nâng Cao

4.1. Ưu điểm của Deep Learning so với Machine Learning truyền thống

4.2. Các kiến trúc Deep Learning phổ biến cho Phân loại Bình luận

V. Ứng Dụng Thực Tế Kết Quả Nghiên Cứu Phân Loại Bình Luận

5.1. Tích Hợp Ứng Dụng Phân Loại Vào Nền Tảng Thương Mại Điện Tử

5.2. Sử Dụng Phân Tích Cảm Xúc Để Cải Thiện Sản Phẩm và Dịch Vụ

5.3. Quản Lý Khủng Hoảng Truyền Thông Với Phân Loại Bình Luận

VI. Tương Lai Hướng Phát Triển Của Phân Loại Bình Luận

6.1. Xử Lý Ngôn Ngữ Đa Dạng Phức Tạp Trong Bình Luận

6.2. Kết Hợp Phân Tích Cảm Xúc Với Thông Tin Khách Hàng

6.3. Tự Động Hóa Quy Trình Phân Loại Bình Luận Bằng AI

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trần Bình Hậu

Người hướng dẫn: TS. Đỗ Trọng Hợp

Trường học: Đại học Quốc gia Thành phố Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành: Khoa học máy tính

Đề tài: Xây dựng ứng dụng Phân loại bình luận thời gian thực sử dụng Phân tích dữ liệu lớn trong Thương mại điện tử

Loại tài liệu: Luận văn thạc sĩ, Khóa luận cao học

Năm xuất bản: 2023

Địa điểm: Thành phố Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm