Luận văn thạc sĩ: Xây dựng hệ thống khuyến nghị dựa trên Graph Neural Network

Trường đại học

Đại học Bách Khoa - ĐHQG TP.HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF DISSERTATION

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu chung

1.2. Mô tả Bài toán khuyến nghị theo phiên

1.3. Mục tiêu và nhiệm vụ của luận văn

1.4. Giới hạn đề tài

1.5. Đóng góp của luận văn

1.6. Tóm tắt nội dung

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

3. CHƯƠNG 3: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

4. CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT

5. CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu chung

Trong bối cảnh công nghệ thông tin phát triển nhanh chóng, hệ thống khuyến nghị đã trở thành một công cụ quan trọng giúp các nhà cung cấp dịch vụ hiểu rõ hơn về nhu cầu và sở thích của người dùng. Hệ thống khuyến nghị không chỉ giúp tối ưu hóa doanh thu mà còn nâng cao trải nghiệm người dùng. Đặc biệt, bài toán khuyến nghị theo phiên (Session-based Recommendation) đã thu hút sự chú ý lớn nhờ vào khả năng xử lý dữ liệu tuần tự của các mô hình học sâu như Graph Neural Network (GNN). Luận văn này nghiên cứu việc ứng dụng GNN trong việc xây dựng hệ thống khuyến nghị, nhằm cải thiện độ chính xác và hiệu quả của các gợi ý sản phẩm trong các phiên hoạt động của người dùng.

1.1. Mô tả Bài toán khuyến nghị theo phiên

Bài toán khuyến nghị theo phiên tập trung vào việc dự đoán sản phẩm tiếp theo mà người dùng có khả năng quan tâm dựa trên các hành vi tương tác trước đó. Hệ thống khuyến nghị sẽ phân tích hành vi của người dùng trong một khoảng thời gian ngắn để đưa ra gợi ý chính xác hơn. Đặc điểm quan trọng nhất của bài toán này là tính ngắn hạn và tính tuần tự của các hành vi tương tác. Việc khai thác thông tin từ các phiên hoạt động giúp hệ thống khuyến nghị có thể đưa ra các gợi ý phù hợp hơn với nhu cầu thực tế của người dùng tại thời điểm đó.

II. Cơ sở lý thuyết

Chương này sẽ tổng hợp các lý thuyết và mô hình liên quan đến hệ thống khuyến nghị, đặc biệt là các phương pháp sử dụng Graph Neural Network. Mô hình GNN cho phép biểu diễn các phiên hoạt động dưới dạng đồ thị, từ đó khai thác mối quan hệ giữa các sản phẩm một cách hiệu quả. Cơ chế học sâu và các mô hình như Mạng nơ ron nhân tạo (ANN) và Mạng nơ ron hồi tiếp (RNN) cũng sẽ được phân tích để hiểu rõ hơn về cách thức hoạt động của hệ thống khuyến nghị. Việc áp dụng GNN trong hệ thống khuyến nghị không chỉ giúp cải thiện độ chính xác mà còn tối ưu hóa quá trình học tập của mô hình.

2.1. Mô hình Graph Neural Network

Mô hình Graph Neural Network (GNN) cho phép xử lý dữ liệu dưới dạng đồ thị, giúp khai thác các mối quan hệ phức tạp giữa các sản phẩm trong một phiên hoạt động. GNN có khả năng học hỏi từ cấu trúc đồ thị, từ đó tạo ra các đại diện cho sản phẩm dựa trên các kết nối của chúng. Điều này cực kỳ quan trọng trong bài toán khuyến nghị theo phiên, nơi mà mối quan hệ giữa các sản phẩm có thể ảnh hưởng lớn đến quyết định của người dùng. GNN không chỉ nâng cao khả năng dự đoán mà còn hỗ trợ việc tối ưu hóa quá trình tìm kiếm và đề xuất sản phẩm.

III. Mô hình đề xuất

Luận văn đề xuất hai mô hình cải tiến cho hệ thống khuyến nghị dựa trên GNN. Mô hình đầu tiên tập trung vào việc bổ sung thông tin về mức độ yêu thích của người dùng dựa trên thời gian tương tác với sản phẩm. Mô hình thứ hai sử dụng cơ chế Self-Attention để cải thiện khả năng học của mô hình. Cả hai mô hình này đều được kiểm nghiệm trên các tập dữ liệu thực tế, cho thấy sự cải thiện đáng kể về độ chính xác của các gợi ý sản phẩm. Điều này chứng tỏ rằng việc tích hợp thời gian và mối quan hệ giữa các sản phẩm có thể giúp hệ thống khuyến nghị hoạt động hiệu quả hơn.

3.1. Đề xuất 1 Đánh giá lại mức độ quan tâm

Đề xuất đầu tiên là cải thiện độ chính xác của hệ thống khuyến nghị bằng cách đánh giá lại mức độ quan tâm của người dùng dựa trên thời gian mà họ dành cho từng sản phẩm. Việc này giúp mô hình hiểu rõ hơn về sở thích thực sự của người dùng trong một phiên hoạt động, từ đó đưa ra các gợi ý phù hợp hơn. Kết quả thực nghiệm cho thấy rằng việc bổ sung yếu tố thời gian đã giúp cải thiện đáng kể độ chính xác của mô hình.

IV. Kết quả thực nghiệm và thảo luận

Kết quả thực nghiệm từ các mô hình đề xuất cho thấy rằng việc sử dụng Graph Neural Network trong hệ thống khuyến nghị đã mang lại những kết quả ấn tượng. Các mô hình đã được kiểm tra trên ba tập dữ liệu khác nhau và đều cho thấy sự cải thiện về độ chính xác so với các mô hình truyền thống. Điều này chứng tỏ rằng GNN có thể khai thác tốt hơn các mối quan hệ phức tạp giữa các sản phẩm, từ đó cải thiện chất lượng gợi ý cho người dùng. Hơn nữa, việc áp dụng cơ chế Self-Attention cũng giúp mô hình tăng cường khả năng học hỏi từ dữ liệu, tạo ra các gợi ý chính xác hơn.

4.1. Hạn chế và vấn đề tồn đọng

Dù đạt được nhiều kết quả khả quan, luận văn cũng chỉ ra một số hạn chế trong nghiên cứu. Một trong những vấn đề tồn đọng là việc khai thác thông tin từ các phiên hoạt động có thể gặp khó khăn khi dữ liệu không đầy đủ hoặc không chính xác. Hơn nữa, việc mở rộng mô hình để áp dụng cho các lĩnh vực khác cũng cần được xem xét. Nghiên cứu trong tương lai có thể tìm kiếm giải pháp cho những vấn đề này nhằm nâng cao hiệu quả của hệ thống khuyến nghị.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống khuyến nghị dựa trên graph neural network

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của thương mại điện tử và các nền tảng trực tuyến, việc cá nhân hóa trải nghiệm người dùng thông qua hệ thống khuyến nghị trở nên thiết yếu. Theo báo cáo của ngành, hơn 70% doanh thu của các trang thương mại điện tử đến từ các đề xuất sản phẩm phù hợp với sở thích người dùng. Bài toán khuyến nghị theo phiên (Session-based Recommendation System - SBRS) tập trung vào việc dự đoán sản phẩm tiếp theo người dùng có thể quan tâm trong một phiên hoạt động ngắn hạn, dựa trên các tương tác tuần tự của họ. Mục tiêu chính của luận văn là xây dựng hệ thống khuyến nghị dựa trên mô hình Graph Neural Network (GNN), khai thác đặc tính tuần tự và mối quan hệ phức tạp giữa các sản phẩm trong phiên hoạt động.

Phạm vi nghiên cứu tập trung trên ba tập dữ liệu thực tế phổ biến là Yoochoose, Diginetica và Otto, với thời gian thu thập dữ liệu trong khoảng vài năm gần đây. Luận văn đề xuất hai cải tiến chính: bổ sung thông tin về thời gian theo dõi sản phẩm như một dạng phản hồi gián tiếp để đánh giá mức độ yêu thích, và áp dụng cơ chế self-attention nhằm nâng cao khả năng học mối quan hệ giữa các sản phẩm trong phiên. Việc cải thiện độ chính xác của hệ thống khuyến nghị không chỉ giúp tăng trải nghiệm người dùng mà còn góp phần tối ưu hóa doanh thu và giữ chân khách hàng cho các nền tảng thương mại điện tử.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba nền tảng lý thuyết chính:

Lý thuyết đồ thị (Graph Theory): Đồ thị được biểu diễn dưới dạng G = (V, E), trong đó V là tập đỉnh (sản phẩm), E là tập cạnh (mối quan hệ giữa sản phẩm). Đồ thị có hướng được sử dụng để mô hình hóa các phiên hoạt động, thể hiện thứ tự tương tác giữa các sản phẩm.
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN): Mạng ANN gồm các perceptron kết nối, với các tầng đầu vào, ẩn và đầu ra. Mạng học sâu (Deep Learning) được sử dụng để trích xuất đặc trưng phức tạp từ dữ liệu tuần tự.
Graph Neural Network (GNN): GNN sử dụng cơ chế truyền thông điệp (Message Passing) để tổng hợp đặc trưng của các đỉnh dựa trên đặc trưng của các đỉnh lân cận. Cách tiếp cận này cho phép mô hình hóa mối quan hệ không gian và thời gian trong dữ liệu đồ thị.
Cơ chế Self-Attention: Được phát triển từ mô hình Transformer, self-attention tính trọng số tương quan giữa các phần tử trong chuỗi, giúp mô hình tập trung vào các mối quan hệ quan trọng trong phiên hoạt động. Multi-Head Self-Attention mở rộng khả năng này bằng cách sử dụng nhiều khối attention song song.

Phương pháp nghiên cứu

Nguồn dữ liệu: Ba tập dữ liệu thực tế Yoochoose, Diginetica và Otto được sử dụng, với tổng số phiên hoạt động lên đến hàng trăm nghìn, bao gồm các tương tác bấm chọn (click) của người dùng.
Phương pháp phân tích: Mô hình cơ sở SRGNN được lựa chọn để phát triển. Hai đề xuất cải tiến được thực nghiệm: (1) tích hợp trọng số dựa trên thời gian theo dõi sản phẩm và thời điểm tương tác để đánh giá mức độ yêu thích; (2) thay thế cơ chế attention trong SRGNN bằng Multi-Head Self-Attention để nâng cao khả năng học mối quan hệ phức tạp.
Cỡ mẫu và chọn mẫu: Dữ liệu được xử lý để giữ lại các phiên hoạt động có độ dài phù hợp, tập trung vào hành vi bấm chọn duy nhất trong phiên nhằm đơn giản hóa mô hình và phù hợp với thực tế ứng dụng.
Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 2/2023, hoàn thành vào tháng 6/2023, bao gồm các giai đoạn thu thập và xử lý dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải thiện độ chính xác nhờ thời gian theo dõi: Việc bổ sung thông tin thời gian người dùng xem sản phẩm giúp mô hình tăng Precision trung bình khoảng 3-5% so với mô hình SRGNN gốc trên cả ba tập dữ liệu. Ví dụ, trên tập Yoochoose, Precision tăng từ 0.68 lên 0.71.
Hiệu quả của cơ chế Multi-Head Self-Attention: Thay thế cơ chế attention truyền thống bằng Multi-Head Self-Attention giúp mô hình khai thác tốt hơn mối quan hệ giữa các sản phẩm trong phiên, tăng Mean Reciprocal Rank (MRR) lên khoảng 4% so với mô hình cơ sở.
Tương tác giữa hai đề xuất: Kết hợp cả hai đề xuất không chỉ cải thiện từng chỉ số riêng lẻ mà còn nâng cao tổng thể hiệu suất mô hình, thể hiện qua việc tăng đồng thời Precision và MRR trên tất cả các tập dữ liệu.
Khả năng tổng quát hóa: Mô hình đề xuất duy trì hiệu quả trên các tập dữ liệu có đặc điểm khác nhau về mật độ tương tác, chứng tỏ tính linh hoạt và khả năng áp dụng rộng rãi.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc khai thác thêm yếu tố thời gian theo dõi cung cấp thông tin phản hồi gián tiếp về mức độ quan tâm của người dùng, điều mà các mô hình trước đây thường bỏ qua. Cơ chế self-attention giúp mô hình nhận diện và tập trung vào các sản phẩm có ảnh hưởng lớn trong phiên, thay vì chỉ dựa vào các mối quan hệ cục bộ.

So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng GNN và attention trong khuyến nghị, đồng thời bổ sung thêm yếu tố thời gian như một tín hiệu quan trọng. Dữ liệu có thể được trình bày qua biểu đồ so sánh Precision và MRR giữa các mô hình, cũng như bảng tham số cấu hình và kết quả thực nghiệm chi tiết.

Đề xuất và khuyến nghị

Tích hợp thời gian theo dõi trong hệ thống khuyến nghị: Các nhà phát triển nên bổ sung thông tin thời gian người dùng tương tác với sản phẩm để cải thiện độ chính xác dự đoán, ưu tiên triển khai trong vòng 6 tháng tới.
Áp dụng cơ chế Multi-Head Self-Attention: Nâng cấp mô hình khuyến nghị hiện tại bằng cách thay thế cơ chế attention truyền thống, giúp tăng khả năng học mối quan hệ phức tạp, nên được thực hiện bởi đội ngũ phát triển AI trong 3-4 tháng.
Đào tạo và cập nhật mô hình định kỳ: Thực hiện huấn luyện lại mô hình với dữ liệu mới để duy trì hiệu suất, khuyến nghị mỗi quý một lần, do bộ phận dữ liệu và AI chịu trách nhiệm.
Mở rộng nghiên cứu sang các hành vi tương tác khác: Nghiên cứu thêm các loại hành vi như mua hàng, chia sẻ để đa dạng hóa dữ liệu đầu vào, dự kiến triển khai trong kế hoạch phát triển dài hạn.

Đối tượng nên tham khảo luận văn

Nhà phát triển hệ thống khuyến nghị: Có thể áp dụng các phương pháp và mô hình đề xuất để nâng cao hiệu quả đề xuất sản phẩm, giảm tỷ lệ bỏ giỏ hàng.
Nhà nghiên cứu khoa học máy tính: Tìm hiểu sâu về ứng dụng GNN và self-attention trong bài toán khuyến nghị, làm cơ sở cho các nghiên cứu tiếp theo.
Chuyên gia phân tích dữ liệu thương mại điện tử: Sử dụng các kết quả để hiểu rõ hơn về hành vi người dùng và tối ưu hóa chiến lược cá nhân hóa.
Quản lý sản phẩm và marketing: Áp dụng kiến thức để thiết kế các chiến dịch quảng cáo và khuyến mãi dựa trên dự đoán hành vi người dùng chính xác hơn.

Câu hỏi thường gặp

Graph Neural Network là gì và tại sao lại phù hợp cho bài toán khuyến nghị theo phiên?
GNN là mô hình học sâu xử lý dữ liệu dạng đồ thị, giúp tổng hợp thông tin từ các đỉnh lân cận. Trong khuyến nghị theo phiên, sản phẩm và mối quan hệ tuần tự được biểu diễn dưới dạng đồ thị có hướng, nên GNN giúp khai thác hiệu quả các mối liên hệ phức tạp giữa sản phẩm.
Tại sao yếu tố thời gian theo dõi sản phẩm lại quan trọng?
Thời gian theo dõi phản ánh mức độ quan tâm của người dùng đến sản phẩm, là dạng phản hồi gián tiếp giúp mô hình đánh giá chính xác hơn sở thích thực sự, từ đó cải thiện độ chính xác đề xuất.
Self-Attention khác gì so với attention truyền thống?
Self-Attention tính trọng số tương quan giữa tất cả các phần tử trong chuỗi, cho phép mô hình tập trung vào các mối quan hệ toàn cục, trong khi attention truyền thống thường chỉ tập trung vào các phần tử cục bộ hoặc theo thứ tự.
Các tập dữ liệu Yoochoose, Diginetica và Otto có đặc điểm gì?
Đây là các tập dữ liệu thực tế phổ biến trong nghiên cứu khuyến nghị, chứa hàng trăm nghìn phiên hoạt động với các tương tác bấm chọn sản phẩm, có mật độ và đặc điểm khác nhau, giúp đánh giá tính tổng quát của mô hình.
Mô hình đề xuất có thể áp dụng trong thực tế như thế nào?
Mô hình có thể được tích hợp vào các nền tảng thương mại điện tử để đề xuất sản phẩm theo phiên, giúp tăng tỷ lệ chuyển đổi và nâng cao trải nghiệm người dùng thông qua các đề xuất chính xác và kịp thời.

Kết luận

Luận văn đã xây dựng thành công hệ thống khuyến nghị theo phiên dựa trên Graph Neural Network, khai thác hiệu quả đặc tính tuần tự và mối quan hệ giữa sản phẩm.
Hai đề xuất chính là bổ sung thông tin thời gian theo dõi và áp dụng cơ chế Multi-Head Self-Attention đã cải thiện đáng kể độ chính xác và khả năng học của mô hình.
Kết quả thực nghiệm trên ba tập dữ liệu thực tế cho thấy tính tổng quát và hiệu quả của mô hình đề xuất.
Hạn chế hiện tại là chưa khai thác đa dạng các loại hành vi tương tác và chưa áp dụng trên quy mô dữ liệu lớn hơn.
Đề xuất các bước tiếp theo bao gồm mở rộng mô hình với các hành vi khác, tối ưu hóa hiệu suất tính toán và triển khai thử nghiệm thực tế trên nền tảng thương mại điện tử.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các giải pháp dựa trên nền tảng này để nâng cao hiệu quả hệ thống khuyến nghị trong tương lai.

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ: Xây dựng hệ thống khuyến nghị dựa trên Graph Neural Network của tác giả Bùi Bá Anh, dưới sự hướng dẫn của PGS. Quản Thành Thơ, được thực hiện tại Đại học Bách Khoa - ĐHQG TP.HCM vào năm 2023. Bài viết này tập trung vào việc phát triển một hệ thống khuyến nghị sử dụng công nghệ Graph Neural Network, một phương pháp tiên tiến trong lĩnh vực học máy, giúp cải thiện khả năng dự đoán và cá nhân hóa trải nghiệm người dùng. Hệ thống này không chỉ mang lại lợi ích trong việc tối ưu hóa các gợi ý cho người dùng mà còn mở ra nhiều cơ hội nghiên cứu và ứng dụng trong các lĩnh vực khác nhau.

Để mở rộng kiến thức của bạn về các ứng dụng trong lĩnh vực khoa học máy tính, bạn có thể tham khảo thêm các tài liệu liên quan như Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép, nơi nghiên cứu về mạng neural trong phát hiện xâm nhập, hay Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, một ứng dụng khác của học sâu trong nhận diện giọng nói. Bạn cũng có thể tìm hiểu về Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ, một nghiên cứu thú vị về ứng dụng học sâu trong lĩnh vực dịch thuật. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về các xu hướng và công nghệ hiện đại trong lĩnh vực khoa học máy tính.

#Phân tích dữ liệu

#khoa học máy tính

#Nghiên cứu thạc sĩ

#trí tuệ nhân tạo

#Graph Neural Network

#hệ thống khuyến nghị

Chủ đề

Công nghệ thông tin

Nghiên cứu và phát triển trong khoa học máy tính

Trí tuệ nhân tạo và học máy

Ứng dụng của mạng nơ-ron trong hệ thống khuyến nghị