Luận văn thạc sĩ: Hệ thống khuyến nghị sản phẩm sử dụng máy học trong kỹ thuật viễn thông

Trường đại học

Đại học Bách Khoa

Chuyên ngành

Kỹ thuật Viễn thông

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN THẠC SĨ

LỜI CAM ĐOAN CỦA TÁC GIẢ LUẬN VĂN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục đích nghiên cứu

1.3. Đối tượng và phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Ý nghĩa khoa học và thực tiễn

1.5.1. Ý nghĩa khoa học

1.5.2. Ý nghĩa thực tiễn

2. CHƯƠNG 2: TỔNG QUAN

2.1. Giới thiệu về ngôn ngữ python

2.2. Khái niệm về dữ liệu. Khái niệm và quy trình thực hiện khoa học dữ liệu

2.3. Các tiêu chí đánh giá mô hình thuật toán

2.4. Các thuật toán áp dụng để xây dựng mô hình

2.5. Tình trạng nghiên cứu

2.5.1. Business Understanding – Xác định vấn đề kinh doanh

2.5.2. Data Requirements – Phân tích yêu cầu dữ liệu

2.5.3. Data collection – Thu thập dữ liệu

2.5.4. Data preprocessing and analysis – Tiền xử lý và phân tích dữ liệu

2.5.5. Modeling, Algorithms – Thuật toán và mô hình hoá

2.5.6. Data product - Sản phẩm dữ liệu

2.5.7. Communication – Giao tiếp với môi trường

3. CHƯƠNG 3: NỘI DUNG THỰC HIỆN

3.1. Công cụ thu thập tập dữ liệu

3.2. Trích xuất dữ liệu từ Web Api

3.3. Tìm hiểu, phân tích và xử lý dữ liệu

3.3.1. Đọc và tìm hiểu dữ liệu

3.3.2. Phân tích, xử lý dữ liệu trùng, dữ liệu thiếu, dữ liệu ngoại lai

3.3.3. Xử lý dữ liệu văn bản ngôn ngữ tự nhiên tiếng việt

3.4. Phương pháp tiếp cận

3.5. Hệ thống dựa trên nội dung (content-based systems)

3.6. Mô hình máy học sử dụng trong luận văn

3.7. Trực quan hóa dữ liệu

3.8. Thực hiện mô hình hóa, thông số của mô hình và nhận xét

3.9. SVD với thư viện Surprise

3.10. Thực hiện xây dựng GUI - web ứng dụng

3.11. Triển khai ứng dụng Streamlit

3.12. Trình bày đánh giá và bàn luận về kết quả

3.12.1. So sánh các chỉ số tương đồng của Gensim và Cosine

3.12.2. So sánh RMSE và MAE của 2 thuật toán ALS và SVD - Surprise

3.12.3. So sánh kết quả với công trình khác

3.12.4. So sánh 2 nhóm thuật toán Content-based system và Collaborative Filtering

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO

TÀI LIỆU THAM KHẢO

PHỤ LỤC HÌNH

Tóm tắt

I. Giới thiệu về hệ thống khuyến nghị

Hệ thống khuyến nghị sản phẩm bằng máy học là một công cụ quan trọng trong ngành thương mại điện tử, giúp tối ưu hóa trải nghiệm người dùng và tăng doanh thu cho doanh nghiệp. Các hệ thống này hoạt động dựa trên việc phân tích dữ liệu từ hành vi người dùng, từ đó đưa ra những gợi ý sản phẩm phù hợp. Nhờ vào sự phát triển của máy học, các thuật toán phức tạp như thuật toán Cosine, Gensim, và ALS (Alternating Least Squares) được áp dụng để cải thiện độ chính xác của các gợi ý. Điều này không chỉ giúp người tiêu dùng dễ dàng tìm thấy sản phẩm mà họ cần mà còn tạo ra giá trị cho các doanh nghiệp qua việc tăng cường mức độ tương tác và doanh thu.

1.1. Vai trò của hệ thống khuyến nghị trong thương mại điện tử

Trong bối cảnh thương mại điện tử ngày càng phát triển, hệ thống khuyến nghị trở thành một phần không thể thiếu. Hệ thống này giúp cá nhân hóa trải nghiệm mua sắm của người tiêu dùng bằng cách phân tích dữ liệu mua sắm trước đó và đưa ra các gợi ý sản phẩm phù hợp. Theo nghiên cứu, việc áp dụng hệ thống khuyến nghị có thể tăng tỷ lệ chuyển đổi và doanh thu cho các trang thương mại điện tử. Điều này cho thấy tầm quan trọng của việc phát triển các giải pháp máy học để tối ưu hóa quy trình này.

II. Phân tích dữ liệu và xây dựng mô hình

Quá trình xây dựng hệ thống khuyến nghị bắt đầu bằng việc thu thập và phân tích dữ liệu. Dữ liệu sản phẩm và phản hồi của người tiêu dùng được thu thập từ các nguồn khác nhau, sau đó được xử lý để loại bỏ những thông tin không cần thiết. Việc sử dụng các phương pháp phân tích dữ liệu như trí tuệ nhân tạo và học sâu giúp cải thiện độ chính xác của mô hình. Các thuật toán như Content-Based Filtering và Collaborative Filtering được áp dụng để xây dựng mô hình khuyến nghị. Việc đánh giá mô hình thông qua các chỉ số như Mức độ tương đồng và Căn bậc hai của trung bình bình phương sai số (RMSE) là rất cần thiết để đảm bảo rằng hệ thống hoạt động hiệu quả.

2.1. Thu thập và xử lý dữ liệu

Quá trình thu thập dữ liệu bao gồm việc lấy thông tin từ các trang thương mại điện tử và các nguồn dữ liệu khác. Sau khi thu thập, dữ liệu cần được xử lý để loại bỏ những dữ liệu lỗi hoặc không chính xác. Việc xử lý dữ liệu văn bản cũng rất quan trọng, đặc biệt là trong việc phân tích phản hồi của người tiêu dùng. Các kỹ thuật như xử lý ngôn ngữ tự nhiên (NLP) được áp dụng để cải thiện chất lượng dữ liệu đầu vào cho mô hình. Điều này không chỉ giúp tăng cường độ chính xác của các gợi ý mà còn nâng cao trải nghiệm người dùng.

III. Triển khai ứng dụng và đánh giá kết quả

Sau khi xây dựng mô hình, bước tiếp theo là triển khai ứng dụng để người tiêu dùng có thể tương tác trực tiếp với hệ thống. Việc sử dụng Streamlit để tạo ra giao diện người dùng giúp tối ưu hóa trải nghiệm khách hàng. Đánh giá kết quả của hệ thống khuyến nghị là rất quan trọng, với các chỉ số như RMSE và MAE (Mean Absolute Error) được sử dụng để đo lường hiệu quả của mô hình. Qua đó, các doanh nghiệp có thể điều chỉnh và cải thiện hệ thống khuyến nghị để đáp ứng tốt hơn nhu cầu của người tiêu dùng.

3.1. So sánh hiệu suất của các thuật toán

Việc so sánh hiệu suất của các thuật toán như Gensim, Cosine, và ALS là cần thiết để xác định phương pháp nào hoạt động tốt nhất trong bối cảnh cụ thể. Các chỉ số hiệu suất như Mức độ tương đồng và RMSE giúp đánh giá độ chính xác của các gợi ý sản phẩm. Kết quả cho thấy rằng mỗi thuật toán có những ưu điểm và nhược điểm riêng, và việc lựa chọn thuật toán phù hợp có thể mang lại lợi ích lớn cho hệ thống khuyến nghị.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật viễn thông xây dựng hệ thống khuyến nghị sản phẩm sử dụng máy học

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh thương mại điện tử (TMĐT) tại Việt Nam phát triển mạnh mẽ với tốc độ tăng trưởng đạt khoảng 18% năm 2020 và quy mô thị trường lên đến 11,8 tỷ USD, nhu cầu cá nhân hóa trải nghiệm khách hàng ngày càng trở nên cấp thiết. Hệ thống khuyến nghị sản phẩm đóng vai trò quan trọng trong việc giúp khách hàng tìm kiếm sản phẩm phù hợp, nâng cao trải nghiệm mua sắm và tăng doanh thu cho doanh nghiệp. So với quảng cáo truyền thống với chi phí cao, hệ thống khuyến nghị sử dụng máy học không chỉ tiết kiệm chi phí mà còn mang tính cá nhân hóa cao, giúp doanh nghiệp tạo lợi thế cạnh tranh trên thị trường.

Luận văn tập trung xây dựng hệ thống khuyến nghị sản phẩm dựa trên dữ liệu sản phẩm và phản hồi khách hàng của trang TMĐT Tiki trong lĩnh vực Thiết bị số - Phụ kiện số. Mục tiêu cụ thể là phát triển mô hình khuyến nghị sử dụng hai nhóm thuật toán chính: hệ thống dựa trên nội dung (content-based systems) và lọc cộng tác (collaborative filtering), áp dụng các thuật toán Cosine, Gensim và ALS để huấn luyện và đánh giá mô hình. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ đầu năm 2023 đến giữa năm 2023, tập trung tại thị trường Việt Nam. Kết quả nghiên cứu có ý nghĩa thiết thực trong việc nâng cao hiệu quả kinh doanh TMĐT, đồng thời góp phần phát triển ứng dụng trí tuệ nhân tạo trong lĩnh vực này.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính để xây dựng hệ thống khuyến nghị sản phẩm:

Hệ thống dựa trên nội dung (Content-Based Systems): Phương pháp này tập trung vào đặc trưng của sản phẩm, sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để trích xuất đặc trưng từ mô tả sản phẩm và đánh giá khách hàng. Các thuật toán Cosine Similarity và Gensim được sử dụng để tính mức độ tương đồng giữa các sản phẩm dựa trên vector TF-IDF. Khái niệm chính bao gồm:
- TF-IDF (Term Frequency - Inverse Document Frequency): đánh trọng số từ khóa trong văn bản.
- Cosine Similarity: đo lường góc hợp giữa hai vector đặc trưng.
- Tokenization và xử lý ngôn ngữ tự nhiên tiếng Việt.
Lọc cộng tác (Collaborative Filtering): Phương pháp dựa trên dữ liệu đánh giá của người dùng để đề xuất sản phẩm. Thuật toán ALS (Alternating Least Squares) được áp dụng để phân rã ma trận người dùng - sản phẩm, tối ưu hóa dự đoán đánh giá còn thiếu. Các khái niệm chính bao gồm:
- Phân rã ma trận (Matrix Factorization).
- Gradient Descent: thuật toán tối ưu hóa.
- Đánh giá mô hình bằng RMSE (Root Mean Square Error) và MAE (Mean Absolute Error).

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ trang TMĐT Tiki, bao gồm hai bộ dữ liệu: thông tin sản phẩm và phản hồi đánh giá của khách hàng. Dữ liệu được thu thập thông qua kỹ thuật Web Scraping sử dụng Selenium và BeautifulSoup, đồng thời khai thác API của trang web để lấy dữ liệu chi tiết sản phẩm và bình luận.

Quy trình nghiên cứu gồm các bước:

Thu thập dữ liệu thô (ProductRaw.csv và ReviewRaw.csv).
Tiền xử lý dữ liệu: làm sạch, loại bỏ dữ liệu thiếu và trùng lặp dưới 1%, xử lý dữ liệu ngoại lai bằng biểu đồ boxplot.
Xử lý ngôn ngữ tự nhiên tiếng Việt với thư viện Underthesea, thực hiện tokenization, loại bỏ stop words, chuẩn hóa văn bản.
Mã hóa dữ liệu văn bản bằng TF-IDF sử dụng thư viện Gensim và Scikit-learn.
Xây dựng mô hình khuyến nghị dựa trên hai nhóm thuật toán: Content-Based (Cosine, Gensim) và Collaborative Filtering (ALS, SVD-Surprise).
Đánh giá mô hình bằng các chỉ số Similarity Level, RMSE, MAE.
Triển khai ứng dụng web trực quan sử dụng Streamlit, Github và Render.

Cỡ mẫu dữ liệu gồm hàng nghìn sản phẩm và hàng chục nghìn đánh giá, được chọn lọc kỹ càng để đảm bảo tính đại diện và độ chính xác. Phương pháp chọn mẫu là thu thập toàn bộ dữ liệu có sẵn trong phạm vi nghiên cứu nhằm đảm bảo tính toàn diện.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán Content-Based:
- Thuật toán Cosine Similarity và Gensim cho kết quả tương đồng sản phẩm với mức Similarity Level trung bình trên 0.7, cho thấy khả năng đề xuất sản phẩm có tính liên quan cao.
- Gensim có xu hướng đề xuất ít sản phẩm hơn Cosine khi sử dụng cùng ngưỡng tương đồng, do sự khác biệt trong cách tính TF-IDF với các tham số pivot và slope.
Hiệu quả của thuật toán Collaborative Filtering:
- Thuật toán ALS đạt RMSE trung bình khoảng 0.85 và MAE khoảng 0.65 trên bộ dữ liệu đánh giá, cho thấy khả năng dự đoán đánh giá khách hàng khá chính xác.
- So sánh với thuật toán SVD sử dụng thư viện Surprise, ALS có hiệu suất tương đương nhưng ưu thế về khả năng xử lý dữ liệu lớn nhờ tích hợp Apache Spark.
So sánh hai nhóm thuật toán:
- Content-Based phù hợp với dữ liệu sản phẩm có mô tả chi tiết, giúp đề xuất sản phẩm tương tự dựa trên đặc trưng.
- Collaborative Filtering tận dụng dữ liệu đánh giá người dùng, phù hợp với các trường hợp có nhiều đánh giá và tương tác.
- Kết hợp hai nhóm thuật toán có thể nâng cao độ chính xác và đa dạng của hệ thống khuyến nghị.
Triển khai ứng dụng web:
- Ứng dụng web xây dựng trên nền tảng Streamlit cho phép người dùng chọn sản phẩm và nhận đề xuất trực quan.
- Giao diện thân thiện, phản hồi nhanh, hỗ trợ đa thuật toán, giúp doanh nghiệp dễ dàng áp dụng và mở rộng.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao đến từ việc áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt phù hợp, kết hợp với các thuật toán máy học hiện đại. Việc sử dụng TF-IDF chuẩn hóa và các tham số điều chỉnh trong Gensim giúp cân bằng trọng số từ khóa, tránh thiên lệch khi văn bản ngắn hoặc dài. Thuật toán ALS tận dụng tốt ma trận đánh giá thưa thớt, phù hợp với dữ liệu TMĐT thực tế.

So với các nghiên cứu trước đây, kết quả đạt được có sự cải thiện về độ chính xác và khả năng xử lý dữ liệu lớn nhờ tích hợp Apache Spark và tối ưu thuật toán. Việc triển khai ứng dụng web cũng tạo điều kiện thuận lợi cho việc áp dụng thực tế, giúp doanh nghiệp tiết kiệm chi phí quảng cáo và nâng cao trải nghiệm khách hàng.

Dữ liệu có thể được trình bày qua biểu đồ so sánh RMSE và MAE giữa các thuật toán, biểu đồ phân bố Similarity Level, cũng như bảng tổng hợp số lượng sản phẩm đề xuất theo từng thuật toán, giúp minh họa rõ ràng hiệu quả từng phương pháp.

Đề xuất và khuyến nghị

Tăng cường thu thập và làm sạch dữ liệu: Động từ hành động: mở rộng quy mô thu thập dữ liệu sản phẩm và đánh giá, nâng cao chất lượng dữ liệu đầu vào để cải thiện độ chính xác mô hình. Chủ thể thực hiện: bộ phận phân tích dữ liệu của doanh nghiệp. Timeline: 6 tháng tiếp theo.
Kết hợp đa thuật toán khuyến nghị: Áp dụng mô hình hybrid kết hợp Content-Based và Collaborative Filtering để tận dụng ưu điểm của từng phương pháp, nâng cao hiệu quả đề xuất. Chủ thể thực hiện: nhóm phát triển công nghệ. Timeline: 3 tháng.
Phát triển giao diện người dùng thân thiện: Cải tiến ứng dụng web với các tính năng cá nhân hóa, phản hồi nhanh và dễ sử dụng, tăng trải nghiệm khách hàng. Chủ thể thực hiện: đội ngũ thiết kế UX/UI và phát triển phần mềm. Timeline: 4 tháng.
Đào tạo và nâng cao năng lực nhân sự: Tổ chức các khóa đào tạo về máy học, xử lý dữ liệu và phát triển hệ thống khuyến nghị cho nhân viên kỹ thuật và phân tích dữ liệu. Chủ thể thực hiện: phòng nhân sự và đào tạo. Timeline: 1 năm.
Theo dõi và đánh giá liên tục: Thiết lập hệ thống giám sát hiệu suất mô hình, cập nhật dữ liệu và thuật toán định kỳ để đảm bảo hệ thống luôn hoạt động hiệu quả. Chủ thể thực hiện: bộ phận vận hành công nghệ. Timeline: liên tục hàng quý.

Đối tượng nên tham khảo luận văn

Doanh nghiệp thương mại điện tử: Giúp xây dựng hệ thống khuyến nghị sản phẩm hiệu quả, tiết kiệm chi phí quảng cáo và nâng cao trải nghiệm khách hàng, từ đó tăng doanh thu và lợi thế cạnh tranh.
Nhà phát triển phần mềm và kỹ sư dữ liệu: Cung cấp kiến thức chuyên sâu về ứng dụng thuật toán máy học trong khuyến nghị sản phẩm, kỹ thuật xử lý dữ liệu và triển khai ứng dụng web.
Sinh viên và nghiên cứu sinh ngành Kỹ thuật Viễn thông, Khoa học Dữ liệu, Trí tuệ nhân tạo: Là tài liệu tham khảo thực tiễn về quy trình nghiên cứu, xây dựng và đánh giá mô hình khuyến nghị sản phẩm.
Các tổ chức đào tạo và nghiên cứu: Hỗ trợ phát triển chương trình đào tạo về ứng dụng máy học trong thương mại điện tử, đồng thời làm cơ sở cho các nghiên cứu tiếp theo về hệ thống khuyến nghị.

Câu hỏi thường gặp

Hệ thống khuyến nghị sản phẩm là gì và tại sao quan trọng?
Hệ thống khuyến nghị sản phẩm là công cụ giúp đề xuất sản phẩm phù hợp cho khách hàng dựa trên dữ liệu sản phẩm và hành vi người dùng. Nó quan trọng vì giúp cá nhân hóa trải nghiệm, tăng doanh thu và giảm chi phí quảng cáo. Ví dụ, Amazon sử dụng hệ thống này để tăng doanh số bán hàng.
Tại sao sử dụng hai nhóm thuật toán Content-Based và Collaborative Filtering?
Hai nhóm thuật toán bổ sung cho nhau: Content-Based dựa trên đặc trưng sản phẩm, còn Collaborative Filtering dựa trên đánh giá người dùng. Kết hợp giúp cải thiện độ chính xác và đa dạng đề xuất, phù hợp với nhiều loại dữ liệu khác nhau.
Làm thế nào để xử lý dữ liệu thiếu và ngoại lai trong nghiên cứu?
Dữ liệu thiếu dưới 1% được loại bỏ để đảm bảo chất lượng. Ngoại lai được phát hiện qua biểu đồ boxplot và xử lý bằng cách loại bỏ hoặc biến đổi phù hợp. Việc này giúp mô hình không bị sai lệch và tăng độ chính xác.
Các chỉ số RMSE và MAE có ý nghĩa gì trong đánh giá mô hình?
RMSE đo lường sai số bình phương trung bình, nhấn mạnh lỗi lớn hơn, còn MAE là trung bình sai số tuyệt đối. Cả hai giúp đánh giá độ chính xác dự đoán của mô hình, giá trị nhỏ hơn thể hiện mô hình tốt hơn.
Ứng dụng web được xây dựng có những tính năng gì nổi bật?
Ứng dụng cho phép người dùng chọn sản phẩm và nhận đề xuất trực quan theo từng thuật toán, giao diện thân thiện, phản hồi nhanh, hỗ trợ đa thuật toán và dễ dàng mở rộng. Đây là công cụ hữu ích cho doanh nghiệp và khách hàng trong TMĐT.

Kết luận

Luận văn đã xây dựng thành công hệ thống khuyến nghị sản phẩm sử dụng máy học, áp dụng hiệu quả hai nhóm thuật toán Content-Based và Collaborative Filtering.
Thuật toán ALS và Cosine/Gensim được đánh giá qua các chỉ số RMSE, MAE và Similarity Level, cho kết quả phù hợp với dữ liệu TMĐT thực tế.
Ứng dụng web trực quan được triển khai giúp doanh nghiệp dễ dàng áp dụng và nâng cao trải nghiệm khách hàng.
Nghiên cứu góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong thương mại điện tử tại Việt Nam, đáp ứng nhu cầu phát triển thị trường.
Các bước tiếp theo bao gồm mở rộng dữ liệu, kết hợp thuật toán, cải tiến giao diện và đào tạo nhân lực để phát triển hệ thống bền vững.

Hành động ngay hôm nay: Doanh nghiệp và nhà phát triển công nghệ nên áp dụng các giải pháp khuyến nghị sản phẩm dựa trên máy học để nâng cao hiệu quả kinh doanh và cạnh tranh trên thị trường TMĐT ngày càng phát triển.

Bài viết "Luận văn thạc sĩ: Hệ thống khuyến nghị sản phẩm sử dụng máy học trong kỹ thuật viễn thông" của tác giả Nguyễn Tấn Lộc, dưới sự hướng dẫn của PGS.TS Hồ Văn Khương, đã trình bày một hệ thống khuyến nghị sản phẩm dựa trên công nghệ máy học, áp dụng trong lĩnh vực kỹ thuật viễn thông. Luận văn này không chỉ cung cấp những kiến thức quan trọng về cách thức hoạt động của hệ thống khuyến nghị mà còn chỉ ra lợi ích của việc ứng dụng máy học để tối ưu hóa trải nghiệm người dùng và nâng cao hiệu quả kinh doanh trong ngành viễn thông.

Để mở rộng kiến thức của bạn trong lĩnh vực này, bạn có thể tham khảo thêm bài viết Phân loại bản tin online sử dụng máy học trong kỹ thuật viễn thông, nơi nghiên cứu về ứng dụng máy học trong việc phân loại thông tin. Ngoài ra, bài viết Luận văn thạc sĩ về thiết kế bộ tổng hợp tần số trong hệ thống GPS cũng mang lại cái nhìn sâu sắc về thiết kế hệ thống trong kỹ thuật viễn thông. Cuối cùng, bài viết Nâng cao chất lượng dịch vụ thời gian thực trong mạng LTE bằng thuật toán MLWDF sẽ giúp bạn hiểu thêm về cải thiện chất lượng dịch vụ trong viễn thông, một khía cạnh quan trọng liên quan đến hệ thống khuyến nghị. Những tài liệu này sẽ cung cấp cho bạn cái nhìn toàn diện hơn về các ứng dụng của máy học trong lĩnh vực viễn thông.

#Phân tích dữ liệu

#trí tuệ nhân tạo

#tối ưu hóa sản phẩm

#kỹ thuật viễn thông

#hệ thống khuyến nghị

#thuật toán khuyến nghị

Chủ đề

Công nghệ thông tin

Kỹ thuật viễn thông

Trí tuệ nhân tạo và máy học

Phát triển sản phẩm và dịch vụ