## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Big Data và sự gia tăng dữ liệu phim ảnh lên đến hàng triệu bản ghi, việc tìm kiếm phim phù hợp với sở thích người dùng trở nên ngày càng khó khăn. Hệ thống khuyến nghị (Recommendation System - RS) đóng vai trò quan trọng trong việc hỗ trợ người dùng lựa chọn, mang lại lợi ích lớn cho nhiều lĩnh vực như thương mại điện tử, âm nhạc, phim ảnh. Luận văn tập trung nghiên cứu và phát triển mô hình khuyến nghị phim dựa trên học sâu, sử dụng dữ liệu từ bộ dữ liệu MovieLens 10M với khoảng 10 triệu lượt đánh giá của hơn 72.000 người dùng trên khoảng 10.000 bộ phim.

Vấn đề nghiên cứu chính là các phương pháp truyền thống như collaborative filtering và content-based filtering còn nhiều hạn chế, đặc biệt trong việc bắt kịp sở thích ngắn hạn và thay đổi theo thời gian của người dùng. Mục tiêu cụ thể của luận văn là xây dựng và kiểm thử mô hình khuyến nghị phim dựa trên mạng nơ-ron hồi tiếp LSTM, có tính đến yếu tố thời gian trong lịch sử tương tác của người dùng với phim, nhằm nâng cao độ chính xác và tính phù hợp của khuyến nghị.

Phạm vi nghiên cứu tập trung vào dữ liệu MovieLens 10M, thu thập trong khoảng thời gian từ năm 2000 đến 2003, tại một số địa phương có người dùng tham gia hệ thống. Ý nghĩa nghiên cứu được đánh giá qua các chỉ số như Precision@20 đạt 78.7%, Mean Reciprocal Rank (MRR) và Recall, cho thấy mô hình có khả năng cải thiện đáng kể hiệu quả khuyến nghị so với các phương pháp truyền thống.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mạng nơ-ron hồi tiếp (Recurrent Neural Network - RNN):** Là mô hình học sâu chuyên xử lý dữ liệu chuỗi, giúp mô hình hóa các phụ thuộc theo thời gian trong dữ liệu tương tác người dùng-phim.
- **Mạng LSTM (Long Short-Term Memory):** Một biến thể của RNN, khắc phục vấn đề biến mất và bùng nổ gradient, cho phép ghi nhớ thông tin dài hạn và xử lý hiệu quả các chuỗi dữ liệu lịch sử tương tác.
- **Word2Vec - CBOW (Continuous Bag of Words):** Phương pháp nhúng từ ngữ được áp dụng để tạo vector biểu diễn ngữ cảnh cho các phim dựa trên chuỗi tương tác, giúp mô hình hiểu được mối quan hệ ngữ cảnh giữa các phim.
- **Collaborative Filtering (CF):** Phương pháp khuyến nghị dựa trên sự tương đồng giữa người dùng hoặc sản phẩm, được sử dụng làm cơ sở so sánh.
- **Content-Based Filtering:** Phương pháp khuyến nghị dựa trên đặc điểm nội dung của phim, giúp đa dạng hóa đề xuất.

Các khái niệm chính bao gồm: session-based recommendation, embedding vectors, cross entropy loss, precision, recall, mean reciprocal rank (MRR).

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu MovieLens 10M, bao gồm khoảng 10 triệu lượt đánh giá của hơn 72.000 người dùng với khoảng 10.000 phim, thu thập trong giai đoạn 2000-2003. Cỡ mẫu nghiên cứu gồm khoảng 300.000 người dùng hoạt động và 3.410 phim được đánh giá.

Phương pháp phân tích sử dụng mô hình học sâu LSTM kết hợp với kỹ thuật nhúng Item2Vec để biểu diễn phim trong không gian vector, đồng thời tính đến yếu tố thời gian trong chuỗi tương tác. Mô hình được huấn luyện với batch size 64, embedding dimension 64, learning rate 0.0001, và sequence length 20 với interval 3 ngày.

Quá trình nghiên cứu gồm các bước: tiền xử lý dữ liệu, xây dựng mô hình LSTM dựa trên chuỗi tương tác, huấn luyện mô hình với hàm mất mát Cross Entropy, đánh giá mô hình qua các chỉ số Precision@20, Recall@20, MRR. Thời gian nghiên cứu kéo dài trong khoảng 12 tháng, từ tháng 1/2021 đến tháng 12/2021.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình LSTM có tính đến yếu tố thời gian trong lịch sử tương tác người dùng cải thiện đáng kể độ chính xác khuyến nghị, với Precision@20 đạt 78.7%, tăng khoảng 15% so với mô hình không tính thời gian.
- Mean Reciprocal Rank (MRR) của mô hình đạt 0.239, cho thấy khả năng xếp hạng phim phù hợp cao hơn so với các phương pháp truyền thống.
- Mô hình kết hợp Item2Vec giúp biểu diễn phim theo ngữ cảnh, tăng tính đa dạng và phù hợp của đề xuất, giảm thiểu hiện tượng khuyến nghị lặp lại các phim quá giống nhau.
- Thời gian huấn luyện mô hình trên bộ dữ liệu lớn khoảng 10 triệu lượt đánh giá mất khoảng vài tuần trên hệ thống CPU Intel Core i7, cho thấy tính khả thi trong thực tế triển khai.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là việc mô hình LSTM có khả năng ghi nhớ và xử lý các chuỗi tương tác dài hạn, đồng thời yếu tố thời gian giúp bắt kịp sở thích thay đổi của người dùng. So với các nghiên cứu trước đây chỉ sử dụng collaborative filtering hoặc content-based filtering, mô hình này vượt trội hơn về độ chính xác và khả năng cá nhân hóa.

Kết quả có thể được minh họa qua biểu đồ so sánh Precision@20 giữa các mô hình, bảng thống kê MRR và Recall, giúp trực quan hóa hiệu quả của mô hình đề xuất. Ý nghĩa của nghiên cứu là mở ra hướng phát triển các hệ thống khuyến nghị dựa trên học sâu, có tính đến yếu tố thời gian, phù hợp với xu hướng Big Data hiện nay.

## Đề xuất và khuyến nghị

- **Triển khai mô hình LSTM kết hợp Item2Vec** trong các hệ thống khuyến nghị phim để nâng cao trải nghiệm người dùng, mục tiêu tăng Precision@20 lên trên 80% trong vòng 6 tháng tới, do bộ phận phát triển sản phẩm thực hiện.
- **Tăng cường thu thập và xử lý dữ liệu thời gian thực** để cập nhật liên tục sở thích người dùng, giảm thiểu hiện tượng cold-start, thực hiện trong 3 tháng đầu năm.
- **Phát triển giao diện người dùng thân thiện** cho phép người dùng tương tác và phản hồi về đề xuất, giúp mô hình học và điều chỉnh chính xác hơn, hoàn thành trong vòng 4 tháng.
- **Đào tạo đội ngũ kỹ thuật và nghiên cứu** về các kỹ thuật học sâu và xử lý chuỗi thời gian, nâng cao năng lực phát triển mô hình, thực hiện liên tục trong năm.
- **Thực hiện đánh giá định kỳ** hiệu quả mô hình qua các chỉ số MRR, Recall, Precision để điều chỉnh và cải tiến, với chu kỳ 3 tháng/lần.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành khoa học máy tính, trí tuệ nhân tạo:** Nắm bắt kiến thức về mô hình học sâu LSTM, kỹ thuật nhúng Item2Vec và ứng dụng trong hệ thống khuyến nghị.
- **Chuyên gia phát triển hệ thống khuyến nghị:** Áp dụng mô hình và phương pháp nghiên cứu để cải thiện sản phẩm, tăng tính cá nhân hóa và hiệu quả đề xuất.
- **Doanh nghiệp thương mại điện tử và giải trí:** Tận dụng kết quả nghiên cứu để xây dựng hệ thống khuyến nghị phù hợp với khách hàng, nâng cao doanh thu và sự hài lòng.
- **Nhà quản lý dự án công nghệ thông tin:** Hiểu rõ các yếu tố kỹ thuật và quy trình triển khai mô hình học sâu trong thực tế, từ đó hoạch định chiến lược phát triển sản phẩm.

## Câu hỏi thường gặp

1. **Mô hình LSTM có ưu điểm gì so với các phương pháp truyền thống?**  
LSTM xử lý tốt dữ liệu chuỗi dài hạn, ghi nhớ sở thích thay đổi theo thời gian, giúp khuyến nghị chính xác và cá nhân hóa hơn so với collaborative filtering hay content-based filtering.

2. **Tại sao cần kết hợp Item2Vec trong mô hình?**  
Item2Vec tạo vector biểu diễn phim theo ngữ cảnh, giúp mô hình hiểu mối quan hệ giữa các phim, tăng tính đa dạng và phù hợp của đề xuất, tránh lặp lại phim quá giống nhau.

3. **Bộ dữ liệu MovieLens 10M có đặc điểm gì nổi bật?**  
Bộ dữ liệu gồm khoảng 10 triệu lượt đánh giá của hơn 72.000 người dùng trên 10.000 phim, thu thập trong giai đoạn 2000-2003, là chuẩn benchmark ổn định cho nghiên cứu hệ thống khuyến nghị.

4. **Các chỉ số đánh giá mô hình gồm những gì?**  
Các chỉ số chính gồm Precision@k, Recall@k, Mean Reciprocal Rank (MRR), và F1-score, giúp đánh giá độ chính xác, khả năng tìm kiếm và xếp hạng phim phù hợp.

5. **Mô hình có thể áp dụng cho lĩnh vực nào ngoài phim?**  
Mô hình có thể áp dụng cho các lĩnh vực như thương mại điện tử, âm nhạc, sách, tin tức, nơi cần khuyến nghị sản phẩm hoặc nội dung dựa trên lịch sử tương tác người dùng.

## Kết luận

- Xây dựng thành công mô hình khuyến nghị phim dựa trên LSTM kết hợp Item2Vec, cải thiện đáng kể độ chính xác và tính cá nhân hóa.  
- Mô hình xử lý hiệu quả dữ liệu chuỗi thời gian, bắt kịp sở thích thay đổi của người dùng.  
- Đánh giá mô hình qua bộ dữ liệu MovieLens 10M với Precision@20 đạt 78.7%, MRR 0.239, vượt trội so với phương pháp truyền thống.  
- Đề xuất các giải pháp triển khai và nâng cao mô hình trong thực tế, phù hợp với xu hướng Big Data và học sâu.  
- Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình để phát triển hệ thống khuyến nghị hiện đại, hiệu quả.

Hành động tiếp theo là triển khai mô hình trong môi trường thực tế, thu thập phản hồi người dùng và tiếp tục cải tiến để đạt hiệu quả tối ưu. Đọc luận văn để hiểu sâu hơn về phương pháp và ứng dụng của mô hình trong lĩnh vực khuyến nghị phim.