I. Giới thiệu về đồ án tốt nghiệp
Đồ án tốt nghiệp với chủ đề 'Ứng dụng học máy dự đoán doanh số bán hàng trên thương mại điện tử' được thực hiện bởi Nguyễn Đức Linh và Phan Thanh Tín dưới sự hướng dẫn của TS. Trần Nhật Quang. Đồ án tập trung vào việc áp dụng các kỹ thuật học máy để dự đoán số lượng sản phẩm bán ra trên các nền tảng thương mại điện tử, cụ thể là Shopee. Mục tiêu chính là xây dựng các mô hình dự đoán hiệu quả, kết hợp với phân tích cảm xúc từ phản hồi khách hàng để cải thiện độ chính xác của dự đoán.
1.1. Tính cấp thiết của đề tài
Trong bối cảnh thương mại điện tử phát triển mạnh mẽ, việc dự đoán doanh số bán hàng trở nên quan trọng để tối ưu hóa chiến lược kinh doanh. Đề tài này nhằm giải quyết các thách thức trong việc thu thập và phân tích dữ liệu từ các sàn thương mại điện tử, đồng thời cung cấp các mô hình dự đoán phù hợp với thị trường Việt Nam.
1.2. Mục đích và phương pháp nghiên cứu
Mục đích chính của đồ án là xây dựng và đánh giá các mô hình học máy như hồi quy tuyến tính, cây quyết định, rừng ngẫu nhiên, XGBoost, KNN, và LSTM. Phương pháp nghiên cứu bao gồm thu thập dữ liệu từ Shopee, phân tích dữ liệu, và tích hợp phân tích cảm xúc bằng mô hình ngôn ngữ lớn PhoBERT.
II. Cơ sở lý thuyết và kỹ thuật học máy
Đồ án dựa trên nền tảng lý thuyết vững chắc về học máy, bao gồm các thuật toán phổ biến như hồi quy tuyến tính, cây quyết định, và các mô hình nâng cao như LSTM và XGBoost. Các kỹ thuật này được áp dụng để xử lý dữ liệu chuỗi thời gian và dữ liệu phi cấu trúc từ phản hồi khách hàng.
2.1. Các thuật toán học máy được sử dụng
Các thuật toán chính bao gồm hồi quy tuyến tính, cây quyết định, rừng ngẫu nhiên, XGBoost, KNN, và LSTM. Mỗi thuật toán được đánh giá về hiệu suất và khả năng dự đoán số lượng sản phẩm bán ra.
2.2. Phân tích cảm xúc bằng PhoBERT
PhoBERT, một mô hình ngôn ngữ lớn dành cho tiếng Việt, được sử dụng để phân tích cảm xúc từ các bình luận của khách hàng. Kết quả phân tích được tích hợp vào các mô hình dự đoán để cải thiện độ chính xác.
III. Phân tích dữ liệu và kết quả thực nghiệm
Dữ liệu được thu thập từ các nhà bán hàng trên Shopee trong lĩnh vực làm đẹp, bao gồm thông tin sản phẩm, doanh số, và phản hồi khách hàng. Quá trình phân tích dữ liệu bao gồm làm sạch dữ liệu, khai phá dữ liệu, và biến đổi dữ liệu để phù hợp với các mô hình học máy.
3.1. Thu thập và xử lý dữ liệu
Dữ liệu được thu thập trong khoảng thời gian một tháng, bao gồm thông tin về sản phẩm, doanh số, và bình luận của khách hàng. Các bước xử lý dữ liệu bao gồm làm sạch, chuẩn hóa, và tạo các biến mới để tăng cường hiệu suất mô hình.
3.2. Kết quả thực nghiệm
Các mô hình được đánh giá dựa trên các chỉ số như RMSE và MAE. Kết quả cho thấy các mô hình như XGBoost và LSTM đạt hiệu suất cao nhất, đặc biệt khi kết hợp với phân tích cảm xúc từ PhoBERT.
IV. Kết luận và hướng phát triển
Đồ án đã thành công trong việc xây dựng các mô hình dự đoán doanh số bán hàng trên nền tảng thương mại điện tử. Kết quả cho thấy tiềm năng lớn của việc áp dụng học máy và phân tích cảm xúc trong lĩnh vực kinh doanh điện tử.
4.1. Kết quả đạt được
Các mô hình dự đoán đã được tối ưu hóa và đạt hiệu suất cao, đặc biệt khi kết hợp với phân tích cảm xúc. Điều này giúp cải thiện độ chính xác của dự đoán và hỗ trợ các doanh nghiệp trong việc lập kế hoạch kinh doanh.
4.2. Hướng phát triển trong tương lai
Trong tương lai, đồ án có thể mở rộng bằng cách áp dụng các mô hình học sâu phức tạp hơn và tích hợp thêm các nguồn dữ liệu đa dạng để nâng cao hiệu suất dự đoán.