Luận văn thạc sĩ: Nghiên cứu phương pháp học bán giám sát cho hệ tư vấn lai

Luận văn thạc sĩ nghiên cứu phương pháp học bán giám sát cho hệ tư vấn lai, khám phá ứng dụng và hiệu quả trong lĩnh vực trí tuệ nhân tạo.

Trường đại học

Học viện Công nghệ Bưu chính Viễn Thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ kỹ thuật

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT

1.1. PHÁT BIỂU BÀI TOÁN LỌC CỘNG TÁC

1.2. LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT

1.3. HẠN CHẾ CỦA PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT

1.4. PHƯƠNG PHÁP CẢI TIẾN

1.5. PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC CỘNG TÁC

1.5.1. HỌC BÁN GIÁM SÁT DỰA VÀO NGƯỜI DÙNG

2. CHƯƠNG 2: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC KẾT HỢP

3. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. DỮ LIỆU THỬ NGHIỆM

3.2. PHƯƠNG PHÁP THỬ NGHIỆM

3.3. SO SÁNH VÀ KẾT QUẢ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phương pháp học bán giám sát

Phương pháp học bán giám sát đã trở thành một trong những kỹ thuật quan trọng trong lĩnh vực học máy. Nó kết hợp giữa học có giám sát và học không giám sát, cho phép sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn. Điều này giúp cải thiện độ chính xác của các mô hình dự đoán. Trong bối cảnh hệ tư vấn lai, phương pháp này đặc biệt hữu ích khi dữ liệu đánh giá của người dùng và sản phẩm thường không đầy đủ. Việc áp dụng học bán giám sát cho hệ tư vấn giúp tối ưu hóa quá trình dự đoán và khắc phục vấn đề dữ liệu thưa thớt. Theo nghiên cứu, việc sử dụng dữ liệu huấn luyện có gán nhãn kết hợp với dữ liệu chưa gán nhãn có thể cải thiện đáng kể hiệu suất của hệ thống. Điều này cho thấy giá trị thực tiễn của phương pháp trong việc phát triển các hệ thống tư vấn thông minh.

II. Lọc cộng tác bằng phương pháp học không giám sát

Phương pháp lọc cộng tác là một trong những kỹ thuật phổ biến trong hệ thống tư vấn. Nó dựa vào việc phân tích dữ liệu đánh giá của người dùng để đưa ra dự đoán cho các sản phẩm mà người dùng chưa biết đến. Tuy nhiên, phương pháp này gặp phải một số hạn chế, đặc biệt là vấn đề dữ liệu thưa. Khi số lượng sản phẩm có đánh giá khác rỗng nhỏ hơn nhiều so với số lượng sản phẩm có đánh giá rỗng, việc tính toán mức độ tương tự giữa các người dùng hoặc sản phẩm trở nên khó khăn. Điều này dẫn đến việc không thể xác định được mối quan hệ giữa các người dùng hoặc sản phẩm, ảnh hưởng đến chất lượng dự đoán. Để khắc phục, việc áp dụng học bán giám sát có thể giúp cải thiện độ chính xác của các dự đoán bằng cách bổ sung các nhãn phân loại chắc chắn từ quá trình huấn luyện theo người dùng và sản phẩm.

III. Phương pháp cải tiến cho lọc cộng tác

Để cải thiện hiệu suất của lọc cộng tác, việc áp dụng phương pháp học bán giám sát là cần thiết. Phương pháp này cho phép chuyển giao tri thức giữa hai quá trình huấn luyện: theo người dùng và theo sản phẩm. Khi một người dùng mới xuất hiện, hệ thống có thể sử dụng thông tin từ các người dùng đã có để dự đoán các sản phẩm phù hợp. Việc này không chỉ giúp giải quyết vấn đề người dùng mới mà còn cải thiện độ chính xác của các dự đoán cho các sản phẩm chưa được đánh giá. Hệ thống sẽ sử dụng các nhãn phân loại chắc chắn từ quá trình huấn luyện để bổ sung vào tập dữ liệu, từ đó nâng cao chất lượng tư vấn. Điều này cho thấy giá trị thực tiễn của phương pháp trong việc phát triển các hệ thống tư vấn lai hiệu quả.

IV. Kết luận và hướng phát triển tiếp theo

Luận văn đã trình bày rõ ràng về phương pháp học bán giám sát cho hệ tư vấn lai, nhấn mạnh tầm quan trọng của việc kết hợp giữa lọc cộng tác và lọc nội dung. Việc áp dụng phương pháp này không chỉ giúp cải thiện độ chính xác của các dự đoán mà còn khắc phục các vấn đề liên quan đến dữ liệu thưa thớt. Hướng phát triển tiếp theo có thể tập trung vào việc tối ưu hóa các thuật toán học máy để nâng cao hiệu suất của hệ thống tư vấn. Ngoài ra, việc nghiên cứu sâu hơn về các kỹ thuật phân tích dữ liệu và trí tuệ nhân tạo sẽ mở ra nhiều cơ hội mới cho việc phát triển các hệ thống tư vấn thông minh hơn trong tương lai.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Hệ thống tư vấn (recommender system) ngày càng trở nên thiết yếu trong các nền tảng thương mại điện tử, với các tên tuổi lớn như Amazon, Google, Yahoo hay Facebook ứng dụng rộng rãi. Theo báo cáo của ngành, các hệ thống này dựa chủ yếu vào hai kỹ thuật lọc thông tin: lọc theo nội dung (Content-Based Filtering) và lọc cộng tác (Collaborative Filtering). Lọc theo nội dung khai thác đặc trưng sản phẩm mà người dùng đã từng tương tác, trong khi lọc cộng tác dựa trên đánh giá của cộng đồng người dùng để dự đoán sở thích cá nhân. Tuy nhiên, mỗi phương pháp đều có hạn chế riêng: lọc theo nội dung gặp khó khăn với dữ liệu đa phương tiện, còn lọc cộng tác đối mặt với vấn đề dữ liệu thưa, người dùng mới và sản phẩm mới.

Mục tiêu nghiên cứu của luận văn là phát triển phương pháp học bán giám sát cho hệ tư vấn lai, kết hợp ưu điểm của lọc cộng tác và lọc nội dung nhằm cải thiện độ chính xác dự đoán và khắc phục hạn chế dữ liệu thưa. Nghiên cứu tập trung vào xây dựng mô hình đồng huấn luyện (co-training) giữa hai quá trình bán giám sát dựa trên người dùng và sản phẩm, đồng thời tích hợp các đặc trưng nội dung sản phẩm và người dùng vào ma trận đánh giá.

Phạm vi nghiên cứu áp dụng trên bộ dữ liệu MovieLens với các kích thước khác nhau (100K, 1M, 10M), trong đó tập 1M được sử dụng chính để thử nghiệm do có đầy đủ đặc trưng người dùng và sản phẩm. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả hệ thống tư vấn, đặc biệt trong bối cảnh dữ liệu thưa và đa dạng về loại hình sản phẩm.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba lý thuyết chính:

Lọc cộng tác (Collaborative Filtering): Phương pháp dự đoán sở thích người dùng dựa trên đánh giá của cộng đồng, gồm hai hướng tiếp cận chính là User-Based và Item-Based. Mô hình sử dụng ma trận đánh giá R giữa người dùng và sản phẩm, với các giá trị đánh giá từ 1 đến 5 hoặc rỗng (chưa đánh giá).
Lọc theo nội dung (Content-Based Filtering): Dựa trên đặc trưng nội dung của sản phẩm (ví dụ thể loại phim, diễn viên, đạo diễn) và đặc trưng người dùng (giới tính, độ tuổi, nghề nghiệp) để xây dựng hồ sơ người dùng và sản phẩm. Trọng số đặc trưng được ước lượng bằng kỹ thuật tf-idf hoặc trung bình đánh giá.
Học bán giám sát (Semi-Supervised Learning): Kết hợp dữ liệu có nhãn và chưa có nhãn để cải thiện độ chính xác dự đoán. Trong nghiên cứu, phương pháp đồng huấn luyện (co-training) được áp dụng để chuyển giao nhãn phân loại chắc chắn giữa hai quá trình huấn luyện dựa trên người dùng và sản phẩm.

Các khái niệm chính bao gồm: ma trận đánh giá R, ma trận đặc trưng sản phẩm C, ma trận đặc trưng người dùng T, tập láng giềng người dùng Si và sản phẩm Sx, mức độ tương tự Pearson giữa các cặp người dùng hoặc sản phẩm, và thuật toán đồng huấn luyện Cotraining-User Based và Cotraining-ItemBased.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu MovieLens 1M, gồm 1 triệu đánh giá của 6040 người dùng cho 3706 phim, với mức độ thưa thớt dữ liệu lên đến 99%. Dữ liệu đặc trưng sản phẩm bao gồm 19 thể loại phim, nước sản xuất, hãng phim, đạo diễn, diễn viên; đặc trưng người dùng gồm tuổi, giới tính, nghề nghiệp.

Phương pháp phân tích gồm:

Xây dựng ma trận đánh giá mở rộng bằng cách hợp nhất hồ sơ người dùng và hồ sơ sản phẩm vào ma trận đánh giá gốc.
Áp dụng thuật toán học bán giám sát đồng thời trên hai tập dữ liệu: tập đánh giá người dùng cùng đặc trưng sản phẩm và tập đánh giá sản phẩm cùng đặc trưng người dùng.
Tính toán mức độ tương tự giữa các cặp người dùng và sản phẩm trên các tập không thưa được xác định qua ngưỡng giao nhau về đánh giá và đặc trưng.
Thuật toán lặp lại cho đến khi hội tụ, tức là không còn giá trị dự đoán mới được bổ sung.
Đánh giá hiệu quả bằng chỉ số MAE (Mean Absolute Error) trên các tập kiểm tra với số lượng đánh giá đã biết lần lượt là 5, 10 và 20.

Timeline nghiên cứu kéo dài trong năm 2017, với các bước thu thập dữ liệu, xây dựng mô hình, thử nghiệm và đánh giá.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải thiện độ chính xác dự đoán: Thuật toán học bán giám sát cho lọc kết hợp đạt giá trị MAE thấp hơn đáng kể so với các phương pháp lọc cộng tác truyền thống. Ví dụ, trên tập MovieLens 1M, MAE giảm khoảng 10-15% khi số lượng đánh giá đã biết là 5, 10 và 20.
Giảm thiểu vấn đề dữ liệu thưa: Việc xây dựng tập không thưa Si và Sx dựa trên giao nhau về đánh giá và đặc trưng giúp tăng độ tin cậy trong tính toán mức độ tương tự. Tỷ lệ phần trăm các cặp người dùng và sản phẩm được xác định chính xác tăng lên khoảng 20% so với phương pháp không giám sát.
Hiệu quả của đồng huấn luyện: Quá trình chuyển giao nhãn phân loại chắc chắn giữa hai quá trình bán giám sát giúp bổ sung giá trị dự đoán cho ma trận đánh giá, làm tăng số lượng dự đoán chắc chắn lên đến 30% so với phương pháp học không giám sát.
Khả năng mở rộng với dữ liệu lớn: Thuật toán được thử nghiệm trên tập MovieLens 10M cho thấy tính hội tụ ổn định sau khoảng 10 vòng lặp, với thời gian xử lý hợp lý, phù hợp cho các hệ thống thực tế.

Thảo luận kết quả

Nguyên nhân cải thiện độ chính xác là do mô hình học bán giám sát tận dụng được thông tin từ cả đặc trưng nội dung và đánh giá người dùng, đồng thời khắc phục được hạn chế dữ liệu thưa vốn làm giảm hiệu quả của lọc cộng tác truyền thống. Việc xây dựng tập không thưa Si và Sx giúp loại bỏ các cặp người dùng hoặc sản phẩm không đủ dữ liệu chung, từ đó nâng cao độ tin cậy của mức độ tương tự Pearson.

So sánh với các nghiên cứu trước đây, phương pháp đồng huấn luyện kết hợp đặc trưng nội dung và đánh giá người dùng cho kết quả vượt trội hơn hẳn, đặc biệt trong các trường hợp dữ liệu ít hoặc người dùng mới. Kết quả này có thể được minh họa qua biểu đồ MAE giảm dần theo số vòng lặp và bảng so sánh MAE giữa các phương pháp.

Ý nghĩa của nghiên cứu là mở rộng khả năng ứng dụng của hệ thống tư vấn trong môi trường dữ liệu đa dạng và thưa thớt, đồng thời cung cấp cơ sở cho các nghiên cứu tiếp theo về học bán giám sát trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo.

Đề xuất và khuyến nghị

Triển khai thuật toán học bán giám sát trong hệ thống thực tế: Các doanh nghiệp thương mại điện tử nên áp dụng mô hình đồng huấn luyện để cải thiện chất lượng tư vấn, đặc biệt với các sản phẩm đa phương tiện và người dùng mới. Thời gian triển khai dự kiến trong vòng 6-12 tháng.
Tăng cường thu thập đặc trưng nội dung và người dùng: Đề xuất xây dựng hệ thống thu thập và cập nhật đặc trưng người dùng và sản phẩm liên tục để nâng cao độ chính xác dự đoán. Chủ thể thực hiện là bộ phận phát triển dữ liệu và phân tích khách hàng.
Tối ưu hóa tham số ngưỡng và tập không thưa: Khuyến nghị nghiên cứu thêm để xác định các ngưỡng giao nhau (ví dụ , ) phù hợp với từng lĩnh vực và tập dữ liệu cụ thể nhằm tối ưu hiệu quả thuật toán.
Phát triển giao diện trực quan cho quản trị hệ thống: Xây dựng công cụ giám sát quá trình học và kết quả dự đoán để hỗ trợ nhà quản lý và kỹ sư dữ liệu theo dõi, điều chỉnh kịp thời. Thời gian thực hiện dự kiến 3-6 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Nghiên cứu cung cấp nền tảng lý thuyết và thuật toán học bán giám sát ứng dụng trong hệ thống tư vấn, hỗ trợ phát triển các đề tài liên quan.
Chuyên gia phát triển hệ thống thương mại điện tử và recommender system: Áp dụng mô hình đồng huấn luyện để nâng cao hiệu quả tư vấn sản phẩm, đặc biệt trong môi trường dữ liệu thưa và đa dạng.
Nhà quản lý dữ liệu và phân tích khách hàng: Hiểu rõ cách tích hợp dữ liệu đặc trưng người dùng và sản phẩm để tối ưu hóa chiến lược cá nhân hóa và giữ chân khách hàng.
Các công ty cung cấp giải pháp phần mềm tư vấn và phân tích dữ liệu: Tham khảo để phát triển sản phẩm mới hoặc cải tiến thuật toán hiện có, tăng tính cạnh tranh trên thị trường.

Câu hỏi thường gặp

Phương pháp học bán giám sát khác gì so với học có giám sát và không giám sát?
Học bán giám sát sử dụng cả dữ liệu có nhãn và chưa có nhãn, tận dụng thông tin từ dữ liệu chưa gán nhãn để cải thiện độ chính xác, trong khi học có giám sát chỉ dùng dữ liệu có nhãn, học không giám sát không dùng nhãn.
Làm thế nào để giải quyết vấn đề dữ liệu thưa trong hệ thống tư vấn?
Bằng cách xây dựng tập không thưa dựa trên giao nhau về đánh giá và đặc trưng, đồng thời áp dụng thuật toán đồng huấn luyện để chuyển giao nhãn phân loại chắc chắn giữa các quá trình huấn luyện.
Tại sao cần kết hợp cả đặc trưng người dùng và sản phẩm trong mô hình?
Việc kết hợp giúp tận dụng tối đa thông tin từ cả hai phía, cải thiện khả năng dự đoán, đặc biệt khi dữ liệu đánh giá bị thiếu hoặc không đầy đủ.
Thuật toán có thể áp dụng cho các lĩnh vực ngoài phim ảnh không?
Có, mô hình và thuật toán có thể áp dụng cho các hệ thống tư vấn trong thương mại điện tử, dịch vụ, âm nhạc, sách, và các lĩnh vực có dữ liệu đa dạng và thưa thớt.
Làm sao để đánh giá hiệu quả của mô hình học bán giám sát?
Thông thường sử dụng chỉ số MAE để đo sai số trung bình tuyệt đối giữa giá trị dự đoán và giá trị thực tế, kết hợp với thử nghiệm trên các tập dữ liệu kiểm tra khác nhau.

Kết luận

Luận văn đã phát triển thành công mô hình học bán giám sát đồng thời cho hệ tư vấn lai, kết hợp lọc cộng tác và lọc nội dung.
Mô hình đồng huấn luyện giúp cải thiện đáng kể độ chính xác dự đoán và khắc phục vấn đề dữ liệu thưa, người dùng mới, sản phẩm mới.
Thuật toán được thử nghiệm trên bộ dữ liệu MovieLens 1M và 10M, cho thấy tính hội tụ ổn định và hiệu quả vượt trội so với các phương pháp truyền thống.
Nghiên cứu mở ra hướng phát triển mới cho các hệ thống tư vấn cá nhân hóa trong môi trường dữ liệu đa dạng và phức tạp.
Đề xuất tiếp tục tối ưu tham số, mở rộng ứng dụng và phát triển công cụ hỗ trợ triển khai thực tế.

Các nhà nghiên cứu và doanh nghiệp nên áp dụng và thử nghiệm mô hình trong các hệ thống thực tế để đánh giá hiệu quả và điều chỉnh phù hợp với đặc thù dữ liệu riêng.

Trích đoạn nội dung tài liệu

Chương 1 - LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: lọc cộng tác và lọc nội dung. Trong đó, lọc cộng tác được áp dụng rộng rãi hơn do tính đơn giản và hiệu quả trong cài đặt. Lọc cộng tác được tiếp cận theo hai xu hướng chính: lọc cộng tác dựa vào bộ nhớ và lọc cộng tác dựa vào mô hình. Trong chương này, đề tài tập trung trình bày phương pháp đồng huấn luyện cho lọc cộng tác.

Đây cũng là nền tảng cơ sở quan trọng để mở rộng phương pháp cho lọc kết hợp. Phát biểu bài toán lọc cộng tác Lọc cộng tác (collaborative filtering) là phương pháp dự đoán quan điểm của người dùng hiện thời đối với các sản phẩm phù hợp dựa trên thói quen sử dụng sản phẩm của cộng đồng người dùng có cùng chung sở thích. Hiện nay, lọc cộng tác được xem là phương pháp hiệu quả đã được áp dụng thành công cho nhiều hệ thống thương mại điện tử được cộng đồng quan tâm nghiên cứu. Bài toán của lọc cộng tác được phát biểu như sau: Cho tập hợp hữu hạn U = {u1, u2,…, uN} là tập gồm N người dùng, P = {p1, p2,., pM} là tập gồm M sản phẩm.

Mỗi sản phẩm pxP có thể là hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà người dùng cần đến. Để thuận tiện trong trình bày, ta viết pxP ngắn gọn thành xP; và uiU là iU. Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua ma trận đánh giá R={ rix }, i = 1. Mỗi giá trị rix thể hiện đánh giá của người dùng iU cho một số sản phẩm xP.

Giá trị rix có thể được thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng. Giá trị rix =  được hiểu người dùng i chưa đánh giá hoặc chưa bao giờ biết đến sản phẩm x. Tiếp đến ta ký hiệu, PiP là tập các sản phẩm được đánh giá bởi người dùng iU và UxU là tập các người dùng đã đánh giá sản phẩm xP. Với một người dùng cần Luan van 4 được tư vấn aU (được gọi là người dùng hiện thời, người dùng cần được tư vấn, hay người dùng tích cực), bài toán lọc cộng tác là dự đoán đánh giá của a đối với những mặt hàng x (P\ Pa), trên cơ sở đó tư vấn cho người dùng a những sản phẩm được đánh giá cao.1: Ma trận đánh giá của lọc cộng tác Sản phẩm Người dùng p1 p2 p3 p4 p5 p6 p7 u1 4 2 5  3  3 u2 5  5 5 4   u3 4   4 3 4 3 u4  3 5 5  5  u5 ? 5 ? ?  4 4 Bảng 1.1 thể hiện một ví dụ với ma trận đánh giá R = (rij) trong hệ gồm 5 người dùng U = {u1, u2, u3, u4, u5} và 7 sản phẩm P = {p1, p2, p3, p4, p5, p6, p7,}.

Mỗi người dùng đều đưa ra các đánh giá của mình về các sản phẩm theo thang bậc {, 1, 2, 3, 4, 5}. Giá trị rij= được hiểu là người dùng ui chưa đánh giá hoặc chưa bao giờ biết đến sản phẩm pj. Các giá trị r5,1 =? là sản phẩm hệ thống cần dự đoán cho người dùng u5. Lọc cộng tác bằng phương pháp học không giám sát Học máy cho lọc cộng tác được tiếp cận theo ba xu hướng chính: Học có giám sát (supervised learning), học không giám sát (unsupervised learning) và học bán giám sát (semi-supervised learning).

Mỗi phương pháp học khai thác những khía cạnh riêng của tập dữ liệu huấn luyện. Học có giám sát là phương pháp học máy được thực hiện bằng cách xây dựng một hàm (function) từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ) và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại).

Nhiệm vụ của phương pháp học có Luan van 5 giám sát là dự đoán giá trị của hàm cho một đối tượng bất kỳcó dữ liệu đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện. Học không có giám sát là phương pháp học máy nhằm tìm ra một mô hình phù hợp với các quan sát. Sự khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không biết trước. Trong học không có giám sát, một tập dữ liệu đầu vào được thu thập.

Học không có giám sát thường xem xét các đối tượng đầu vào như là một tập các biến ngẫu nhiên. Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó. Học không có giám sát có thể được dùng kết hợp với suy diễn Bayes (Bayesian inference) để cho ra xác suất có điều kiện (nghĩa là học có giám sát) cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác. Học nửa giám sát là phương pháp học máy sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn vào quá trình huấn luyện.

Tập dữ liệu huấn luyện bao gồm một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn. Học nửa giám sát đứng giữa học không giám sát (không có bất kỳ dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn). Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác. Một ví dụ cho kỹ thuật học máy nửa giám sát là đồng huấn luyện (co-training), trong đó một hay nhiều bộ học được huấn luyện cùng một tập ví dụ nhưng mỗi bộ sử dụng một tập đặc trưng khác nhau.

Xem xét bài toán lọc cộng tác theo hướng tiếp cận của đồng huấn luyện, hai quá trình quan sát theo người dùng (được gọi là UserBased) và quá trình quan sát theo sản phẩm (được gọi là ItemBased) có thể được thực hiện bằng phương pháp học bán giám sát. Phương pháp học bán giám sát cho phép ta chuyển giao tri thức từ quá trình huấn luyện theo người dùng đến quá trình huấn luyện theo sản phẩm. Quá trình quan sát theo người dùng sẽ xác định được một số nhãn phân loại chắc chắn chuyển đến quá trình huấn luyện theo sản phẩm. Ngược lại, quá trình quan sát theo sản phẩm bổ sung thêm các nhãn phân loại chắc chắn chuyển giao cho quá trình huấn luyện theo người dùng.

Việc bổ sung thêm vào các nhãn phân loại vào mỗi quá trình huấn luyện Luan van 6 sẽ nâng cao được kết quả dự đoán và hạn chế được vấn đề dữ liệu thưa của lọc cộng tác. Lọc cộng tác bằng phương pháp học không giám sát Lọc cộng tác bằng phương pháp học không giám sát được tiếp cận theo hai phương pháp chính: Phương pháp học dựa vào người dùng (UserBased [12]) và phương pháp học dựa vào sản phẩm (ItemBased [1]). Mỗi phương pháp đều có những ưu điểm riêng khai thác những khía cạnh liên quan đến người dùng hoặc sản phẩm. Đặc điểm chung của cả hai phương pháp này là sử dụng toàn bộ tập dữ liệu đánh giá để dự đoán quan điểm của người dùng cần được tư vấn về các sản phẩm mà họ chưa hề biết đến.

Phương pháp UserBased được thực hiện bằng cách ước lượng mức độ tương tự giữa các cặp người dùng dựa vào các độ đo tương tự để từ đó sinh ra dự đoán các sản phẩm mới phù hợp với người dùng cần được tư vấn. Phương pháp ItemBased được thực hiện bằng cách ước lượng mức độ tương tự giữa các cặp sản phẩm dựa vào các độ đo tương tự để từ đó sinh ra dự đoán các sản phẩm mới phù hợp với người dùng cần được tư vấn. Mỗi phương pháp đều được tiến hành theo ba bước như sau: Bước 1. Tính toán mức độ tương tự giữa các cặp người dùng hoặc sản phẩm.

Tại bước này ta có thể sử dụng các độ đo tương quan hoặc các độ đo tương tự để tính toán mức độ giống nhau giữa các cặp người dùng hoặc sản phẩm [1, 6, 12, 14]. Gọi uij là mức độ tương tự giữa người dùng iU và người dùng jU, pxy là mức độ tương tự giữa sản phẩm xP và sản phẩm yP. Khi đó, độ tương quan Pearson giữa người dùng iU và người dùng jU được xác định theo công thức (1.1), độ tương tự giữa sản phẩm xP và sản phẩm jP được xác định theo công thức (1.  r  r r  r  xPi  Pj ix i jx j uij  (1.1)  r  r   r  r  2 2 ix i jx j xPi  Pj xPi  Pj Luan van 7  r  r r  r  iU x U y ix x iy y p xy  (1.2)  r  r   r  r  2 2 ix x iy y iU x U y iU x U y Trong đó,  1 ri  rix (1.3) Pi  Pj xPi  Pj  1 rj  r jx (1.4) Pi  Pj xPi  Pj  1 rx  rix (1.

Xác định tập láng giềng cho người dùng cần tư vấn. Tại bước này ta chỉ cần sắp xếp các giá trị uij hoặc pxy theo thứ tự giảm dần, trong đó iU là người dùng cần được tư vấn các sản phẩm xP. Sau đó chọn tập K người dùng đầu tiên làm tập láng giềng của người dùng i , hoặc chọn K sản phẩm đầu tiên làm tập láng giềng của sản phẩm x [1, 12]. Sinh ra dự đoán cho người dùng cần tư vấn.

Phương pháp phổ biến nhất để sinh ra dự đoán quan điểm của người dùng iU cho sản phẩm mới xP theo công thức (1.7), đối với sản phẩm theo công thức (1.  r  r u jK i jx j ij rix  ri  (1.7) u jK i ij p r yK x xy iy r  (1.8) | p | ix xy yK x Luan van 8 Trong đó, Ki là tập láng giềng của người dùng hiện thời iU; Kx là tập láng giềng của sản phẩm xP.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Nghiên cứu phương pháp học bán giám sát cho hệ tư vấn lai" của tác giả Trần Ngọc Hưng, dưới sự hướng dẫn của TS. Nguyễn Duy Phương, được thực hiện tại Học viện Công nghệ Bưu chính Viễn Thông vào năm 2017. Bài viết tập trung vào việc phát triển và ứng dụng các phương pháp học bán giám sát trong hệ thống tư vấn, nhằm cải thiện hiệu quả của các hệ thống này trong việc cung cấp thông tin và hỗ trợ người dùng. Độc giả sẽ tìm thấy những lợi ích từ việc áp dụng phương pháp học này, bao gồm khả năng tối ưu hóa quy trình tư vấn và nâng cao độ chính xác trong việc phân tích dữ liệu.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến khoa học máy tính và quản lý giáo dục, bạn có thể tham khảo thêm bài viết "Luận văn về quản lý điều hành khoa học công nghệ thông tin và nguồn lực thông tin", nơi khám phá các giải pháp quản lý trong lĩnh vực công nghệ thông tin. Bên cạnh đó, bài viết "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt" cũng sẽ cung cấp cho bạn cái nhìn sâu sắc về ứng dụng công nghệ trong việc xử lý và phân tích văn bản. Cuối cùng, bài viết "Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ" sẽ giúp bạn hiểu rõ hơn về việc áp dụng công nghệ thông tin trong giáo dục, một lĩnh vực có liên quan mật thiết đến nghiên cứu của Trần Ngọc Hưng.

#phương pháp học máy

#học bán giám sát

#hệ tư vấn lai

#dữ liệu không nhãn

#tư vấn tự động

#thuật toán học bán giám sát

Chủ đề

Công nghệ thông tin

Trí tuệ nhân tạo

Hệ thống tư vấn

Luận văn thạc sĩ: Nghiên cứu phương pháp học bán giám sát cho hệ tư vấn lai

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT

1.1. PHÁT BIỂU BÀI TOÁN LỌC CỘNG TÁC

1.2. LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT

1.3. HẠN CHẾ CỦA PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT

1.4. PHƯƠNG PHÁP CẢI TIẾN

1.5. PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC CỘNG TÁC

1.5.1. HỌC BÁN GIÁM SÁT DỰA VÀO NGƯỜI DÙNG

2. CHƯƠNG 2: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC KẾT HỢP

3. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. DỮ LIỆU THỬ NGHIỆM

3.2. PHƯƠNG PHÁP THỬ NGHIỆM

3.3. SO SÁNH VÀ KẾT QUẢ

TÀI LIỆU THAM KHẢO

I. Giới thiệu về phương pháp học bán giám sát

II. Lọc cộng tác bằng phương pháp học không giám sát

III. Phương pháp cải tiến cho lọc cộng tác

IV. Kết luận và hướng phát triển tiếp theo

THÔNG TIN CHI TIẾT

Tác giả: Trần Ngọc Hưng

Người hướng dẫn: TS. Nguyễn Duy Phương

Trường học: Học viện Công nghệ Bưu chính Viễn Thông

Chuyên ngành: Khoa học máy tính

Đề tài: Nghiên Cứu Phương Pháp Học Bán Giám Sát Cho Hệ Tư Vấn Lai

Loại tài liệu: luận văn thạc sĩ kỹ thuật

Năm xuất bản: 2017

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Luận văn thạc sĩ: Nghiên cứu phương pháp học bán giám sát cho hệ tư vấn lai

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT

1.1. PHÁT BIỂU BÀI TOÁN LỌC CỘNG TÁC

1.2. LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT

1.3. HẠN CHẾ CỦA PHƯƠNG PHÁP HỌC KHÔNG GIÁM SÁT

1.4. PHƯƠNG PHÁP CẢI TIẾN

1.5. PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC CỘNG TÁC

1.5.1. HỌC BÁN GIÁM SÁT DỰA VÀO NGƯỜI DÙNG

2. CHƯƠNG 2: PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT CHO LỌC KẾT HỢP

3. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. DỮ LIỆU THỬ NGHIỆM

3.2. PHƯƠNG PHÁP THỬ NGHIỆM

3.3. SO SÁNH VÀ KẾT QUẢ

TÀI LIỆU THAM KHẢO

I. Giới thiệu về phương pháp học bán giám sát

II. Lọc cộng tác bằng phương pháp học không giám sát

III. Phương pháp cải tiến cho lọc cộng tác

IV. Kết luận và hướng phát triển tiếp theo

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trần Ngọc Hưng

Người hướng dẫn: TS. Nguyễn Duy Phương

Trường học: Học viện Công nghệ Bưu chính Viễn Thông

Chuyên ngành: Khoa học máy tính

Đề tài: Nghiên Cứu Phương Pháp Học Bán Giám Sát Cho Hệ Tư Vấn Lai

Loại tài liệu: luận văn thạc sĩ kỹ thuật

Năm xuất bản: 2017

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm