Tổng quan nghiên cứu

Trong bối cảnh thương mại điện tử (TMĐT) tại Việt Nam phát triển mạnh mẽ với tốc độ tăng trưởng đạt khoảng 18% năm 2020 và quy mô thị trường lên đến 11,8 tỷ USD, nhu cầu cá nhân hóa trải nghiệm khách hàng ngày càng trở nên cấp thiết. Hệ thống khuyến nghị sản phẩm đóng vai trò quan trọng trong việc giúp khách hàng tìm kiếm sản phẩm phù hợp, nâng cao trải nghiệm mua sắm và tăng doanh thu cho doanh nghiệp. So với quảng cáo truyền thống với chi phí cao, hệ thống khuyến nghị sử dụng máy học không chỉ tiết kiệm chi phí mà còn mang tính cá nhân hóa cao, giúp doanh nghiệp tạo lợi thế cạnh tranh trên thị trường.

Luận văn tập trung xây dựng hệ thống khuyến nghị sản phẩm dựa trên dữ liệu sản phẩm và phản hồi khách hàng của trang TMĐT Tiki trong lĩnh vực Thiết bị số - Phụ kiện số. Mục tiêu cụ thể là phát triển mô hình khuyến nghị sử dụng hai nhóm thuật toán chính: hệ thống dựa trên nội dung (content-based systems) và lọc cộng tác (collaborative filtering), áp dụng các thuật toán Cosine, Gensim và ALS để huấn luyện và đánh giá mô hình. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ đầu năm 2023 đến giữa năm 2023, tập trung tại thị trường Việt Nam. Kết quả nghiên cứu có ý nghĩa thiết thực trong việc nâng cao hiệu quả kinh doanh TMĐT, đồng thời góp phần phát triển ứng dụng trí tuệ nhân tạo trong lĩnh vực này.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính để xây dựng hệ thống khuyến nghị sản phẩm:

  1. Hệ thống dựa trên nội dung (Content-Based Systems): Phương pháp này tập trung vào đặc trưng của sản phẩm, sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để trích xuất đặc trưng từ mô tả sản phẩm và đánh giá khách hàng. Các thuật toán Cosine Similarity và Gensim được sử dụng để tính mức độ tương đồng giữa các sản phẩm dựa trên vector TF-IDF. Khái niệm chính bao gồm:

    • TF-IDF (Term Frequency - Inverse Document Frequency): đánh trọng số từ khóa trong văn bản.
    • Cosine Similarity: đo lường góc hợp giữa hai vector đặc trưng.
    • Tokenization và xử lý ngôn ngữ tự nhiên tiếng Việt.
  2. Lọc cộng tác (Collaborative Filtering): Phương pháp dựa trên dữ liệu đánh giá của người dùng để đề xuất sản phẩm. Thuật toán ALS (Alternating Least Squares) được áp dụng để phân rã ma trận người dùng - sản phẩm, tối ưu hóa dự đoán đánh giá còn thiếu. Các khái niệm chính bao gồm:

    • Phân rã ma trận (Matrix Factorization).
    • Gradient Descent: thuật toán tối ưu hóa.
    • Đánh giá mô hình bằng RMSE (Root Mean Square Error) và MAE (Mean Absolute Error).

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ trang TMĐT Tiki, bao gồm hai bộ dữ liệu: thông tin sản phẩm và phản hồi đánh giá của khách hàng. Dữ liệu được thu thập thông qua kỹ thuật Web Scraping sử dụng Selenium và BeautifulSoup, đồng thời khai thác API của trang web để lấy dữ liệu chi tiết sản phẩm và bình luận.

Quy trình nghiên cứu gồm các bước:

  • Thu thập dữ liệu thô (ProductRaw.csv và ReviewRaw.csv).
  • Tiền xử lý dữ liệu: làm sạch, loại bỏ dữ liệu thiếu và trùng lặp dưới 1%, xử lý dữ liệu ngoại lai bằng biểu đồ boxplot.
  • Xử lý ngôn ngữ tự nhiên tiếng Việt với thư viện Underthesea, thực hiện tokenization, loại bỏ stop words, chuẩn hóa văn bản.
  • Mã hóa dữ liệu văn bản bằng TF-IDF sử dụng thư viện Gensim và Scikit-learn.
  • Xây dựng mô hình khuyến nghị dựa trên hai nhóm thuật toán: Content-Based (Cosine, Gensim) và Collaborative Filtering (ALS, SVD-Surprise).
  • Đánh giá mô hình bằng các chỉ số Similarity Level, RMSE, MAE.
  • Triển khai ứng dụng web trực quan sử dụng Streamlit, Github và Render.

Cỡ mẫu dữ liệu gồm hàng nghìn sản phẩm và hàng chục nghìn đánh giá, được chọn lọc kỹ càng để đảm bảo tính đại diện và độ chính xác. Phương pháp chọn mẫu là thu thập toàn bộ dữ liệu có sẵn trong phạm vi nghiên cứu nhằm đảm bảo tính toàn diện.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của thuật toán Content-Based:

    • Thuật toán Cosine Similarity và Gensim cho kết quả tương đồng sản phẩm với mức Similarity Level trung bình trên 0.7, cho thấy khả năng đề xuất sản phẩm có tính liên quan cao.
    • Gensim có xu hướng đề xuất ít sản phẩm hơn Cosine khi sử dụng cùng ngưỡng tương đồng, do sự khác biệt trong cách tính TF-IDF với các tham số pivot và slope.
  2. Hiệu quả của thuật toán Collaborative Filtering:

    • Thuật toán ALS đạt RMSE trung bình khoảng 0.85 và MAE khoảng 0.65 trên bộ dữ liệu đánh giá, cho thấy khả năng dự đoán đánh giá khách hàng khá chính xác.
    • So sánh với thuật toán SVD sử dụng thư viện Surprise, ALS có hiệu suất tương đương nhưng ưu thế về khả năng xử lý dữ liệu lớn nhờ tích hợp Apache Spark.
  3. So sánh hai nhóm thuật toán:

    • Content-Based phù hợp với dữ liệu sản phẩm có mô tả chi tiết, giúp đề xuất sản phẩm tương tự dựa trên đặc trưng.
    • Collaborative Filtering tận dụng dữ liệu đánh giá người dùng, phù hợp với các trường hợp có nhiều đánh giá và tương tác.
    • Kết hợp hai nhóm thuật toán có thể nâng cao độ chính xác và đa dạng của hệ thống khuyến nghị.
  4. Triển khai ứng dụng web:

    • Ứng dụng web xây dựng trên nền tảng Streamlit cho phép người dùng chọn sản phẩm và nhận đề xuất trực quan.
    • Giao diện thân thiện, phản hồi nhanh, hỗ trợ đa thuật toán, giúp doanh nghiệp dễ dàng áp dụng và mở rộng.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao đến từ việc áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt phù hợp, kết hợp với các thuật toán máy học hiện đại. Việc sử dụng TF-IDF chuẩn hóa và các tham số điều chỉnh trong Gensim giúp cân bằng trọng số từ khóa, tránh thiên lệch khi văn bản ngắn hoặc dài. Thuật toán ALS tận dụng tốt ma trận đánh giá thưa thớt, phù hợp với dữ liệu TMĐT thực tế.

So với các nghiên cứu trước đây, kết quả đạt được có sự cải thiện về độ chính xác và khả năng xử lý dữ liệu lớn nhờ tích hợp Apache Spark và tối ưu thuật toán. Việc triển khai ứng dụng web cũng tạo điều kiện thuận lợi cho việc áp dụng thực tế, giúp doanh nghiệp tiết kiệm chi phí quảng cáo và nâng cao trải nghiệm khách hàng.

Dữ liệu có thể được trình bày qua biểu đồ so sánh RMSE và MAE giữa các thuật toán, biểu đồ phân bố Similarity Level, cũng như bảng tổng hợp số lượng sản phẩm đề xuất theo từng thuật toán, giúp minh họa rõ ràng hiệu quả từng phương pháp.

Đề xuất và khuyến nghị

  1. Tăng cường thu thập và làm sạch dữ liệu: Động từ hành động: mở rộng quy mô thu thập dữ liệu sản phẩm và đánh giá, nâng cao chất lượng dữ liệu đầu vào để cải thiện độ chính xác mô hình. Chủ thể thực hiện: bộ phận phân tích dữ liệu của doanh nghiệp. Timeline: 6 tháng tiếp theo.

  2. Kết hợp đa thuật toán khuyến nghị: Áp dụng mô hình hybrid kết hợp Content-Based và Collaborative Filtering để tận dụng ưu điểm của từng phương pháp, nâng cao hiệu quả đề xuất. Chủ thể thực hiện: nhóm phát triển công nghệ. Timeline: 3 tháng.

  3. Phát triển giao diện người dùng thân thiện: Cải tiến ứng dụng web với các tính năng cá nhân hóa, phản hồi nhanh và dễ sử dụng, tăng trải nghiệm khách hàng. Chủ thể thực hiện: đội ngũ thiết kế UX/UI và phát triển phần mềm. Timeline: 4 tháng.

  4. Đào tạo và nâng cao năng lực nhân sự: Tổ chức các khóa đào tạo về máy học, xử lý dữ liệu và phát triển hệ thống khuyến nghị cho nhân viên kỹ thuật và phân tích dữ liệu. Chủ thể thực hiện: phòng nhân sự và đào tạo. Timeline: 1 năm.

  5. Theo dõi và đánh giá liên tục: Thiết lập hệ thống giám sát hiệu suất mô hình, cập nhật dữ liệu và thuật toán định kỳ để đảm bảo hệ thống luôn hoạt động hiệu quả. Chủ thể thực hiện: bộ phận vận hành công nghệ. Timeline: liên tục hàng quý.

Đối tượng nên tham khảo luận văn

  1. Doanh nghiệp thương mại điện tử: Giúp xây dựng hệ thống khuyến nghị sản phẩm hiệu quả, tiết kiệm chi phí quảng cáo và nâng cao trải nghiệm khách hàng, từ đó tăng doanh thu và lợi thế cạnh tranh.

  2. Nhà phát triển phần mềm và kỹ sư dữ liệu: Cung cấp kiến thức chuyên sâu về ứng dụng thuật toán máy học trong khuyến nghị sản phẩm, kỹ thuật xử lý dữ liệu và triển khai ứng dụng web.

  3. Sinh viên và nghiên cứu sinh ngành Kỹ thuật Viễn thông, Khoa học Dữ liệu, Trí tuệ nhân tạo: Là tài liệu tham khảo thực tiễn về quy trình nghiên cứu, xây dựng và đánh giá mô hình khuyến nghị sản phẩm.

  4. Các tổ chức đào tạo và nghiên cứu: Hỗ trợ phát triển chương trình đào tạo về ứng dụng máy học trong thương mại điện tử, đồng thời làm cơ sở cho các nghiên cứu tiếp theo về hệ thống khuyến nghị.

Câu hỏi thường gặp

  1. Hệ thống khuyến nghị sản phẩm là gì và tại sao quan trọng?
    Hệ thống khuyến nghị sản phẩm là công cụ giúp đề xuất sản phẩm phù hợp cho khách hàng dựa trên dữ liệu sản phẩm và hành vi người dùng. Nó quan trọng vì giúp cá nhân hóa trải nghiệm, tăng doanh thu và giảm chi phí quảng cáo. Ví dụ, Amazon sử dụng hệ thống này để tăng doanh số bán hàng.

  2. Tại sao sử dụng hai nhóm thuật toán Content-Based và Collaborative Filtering?
    Hai nhóm thuật toán bổ sung cho nhau: Content-Based dựa trên đặc trưng sản phẩm, còn Collaborative Filtering dựa trên đánh giá người dùng. Kết hợp giúp cải thiện độ chính xác và đa dạng đề xuất, phù hợp với nhiều loại dữ liệu khác nhau.

  3. Làm thế nào để xử lý dữ liệu thiếu và ngoại lai trong nghiên cứu?
    Dữ liệu thiếu dưới 1% được loại bỏ để đảm bảo chất lượng. Ngoại lai được phát hiện qua biểu đồ boxplot và xử lý bằng cách loại bỏ hoặc biến đổi phù hợp. Việc này giúp mô hình không bị sai lệch và tăng độ chính xác.

  4. Các chỉ số RMSE và MAE có ý nghĩa gì trong đánh giá mô hình?
    RMSE đo lường sai số bình phương trung bình, nhấn mạnh lỗi lớn hơn, còn MAE là trung bình sai số tuyệt đối. Cả hai giúp đánh giá độ chính xác dự đoán của mô hình, giá trị nhỏ hơn thể hiện mô hình tốt hơn.

  5. Ứng dụng web được xây dựng có những tính năng gì nổi bật?
    Ứng dụng cho phép người dùng chọn sản phẩm và nhận đề xuất trực quan theo từng thuật toán, giao diện thân thiện, phản hồi nhanh, hỗ trợ đa thuật toán và dễ dàng mở rộng. Đây là công cụ hữu ích cho doanh nghiệp và khách hàng trong TMĐT.

Kết luận

  • Luận văn đã xây dựng thành công hệ thống khuyến nghị sản phẩm sử dụng máy học, áp dụng hiệu quả hai nhóm thuật toán Content-Based và Collaborative Filtering.
  • Thuật toán ALS và Cosine/Gensim được đánh giá qua các chỉ số RMSE, MAE và Similarity Level, cho kết quả phù hợp với dữ liệu TMĐT thực tế.
  • Ứng dụng web trực quan được triển khai giúp doanh nghiệp dễ dàng áp dụng và nâng cao trải nghiệm khách hàng.
  • Nghiên cứu góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong thương mại điện tử tại Việt Nam, đáp ứng nhu cầu phát triển thị trường.
  • Các bước tiếp theo bao gồm mở rộng dữ liệu, kết hợp thuật toán, cải tiến giao diện và đào tạo nhân lực để phát triển hệ thống bền vững.

Hành động ngay hôm nay: Doanh nghiệp và nhà phát triển công nghệ nên áp dụng các giải pháp khuyến nghị sản phẩm dựa trên máy học để nâng cao hiệu quả kinh doanh và cạnh tranh trên thị trường TMĐT ngày càng phát triển.