Luận văn thạc sĩ: Nghiên cứu mô hình Relevance Vector Machine (RVM) và ứng dụng thực tiễn

Luận văn thạc sĩ nghiên cứu nghiên cứu mô hình relevance vector machine rvm áp dụng giải một số bài toán thực tế, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn

Trường đại học

Trường Đại học Sư phạm Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Mục tiêu luận văn

1.2. Nội dung thực hiện

1.3. Bố cục luận văn

1.4. Mô hình Support Vector Machine (SVM)

1.5. Ý tưởng của SVM

1.6. SVM đối với bài toán phân loại

1.7. SVM với lề cứng (hard margin)

1.8. SVM với lề mềm (soft margin)

1.9. Hàm hạt nhân (kernel function)

1.10. SVM đối với bài toán hồi quy

1.11. Mô hình Relevance Vector Machine (RVM)

1.12. RVM đối với bài toán hồi quy

1.13. RVM đối với bài toán phân loại

1.14. Một số hàm cơ sở (basis functions)

1.15. Chuỗi thời gian (Time Series)

1.16. Ví dụ và các khái niệm về chuỗi thời gian

1.17. Dữ liệu tách mùa (seasonally adjusted data)

1.18. Trung bình di động (Moving average). Phương pháp phân rã cổ điển (classical decomposition). Phương pháp phân rã X-12-ARIMA

1.19. Phương pháp phân rã STL

1.20. Phép toán quay lui (Backshift) và sai phân (Difference). Tính dừng (stationarity) của chuỗi thời gian

1.21. Mô hình ARIMA

1.22. Mô hình tự hồi quy (AR – Auto Regressive)

1.23. Mô hình trung bình di động (MA - Moving Average)

1.24. Mô hình ARMA (Auto Regressive Moving Average)

1.25. Mô hình ARIMA (Auto Regressive Integrated Moving Average)

1.26. Mô hình SARIMA (Seasonal ARIMA)

1.27. Phương pháp luận Box - Jenkins

1.28. PHƯƠNG PHÁP ĐỀ XUẤT

1.29. Hạn chế của trung bình di động và đề xuất phương pháp khắc phục

1.30. Hạn chế của trung bình di động

1.31. Ứng dụng RVM/SVM vào các thuật toán phân rã chuỗi thời gian

1.32. Đề xuất hướng khắc phục hạn chế của trung bình di động

1.33. Đề xuất thuật toán phân rã chuỗi thời gian

1.34. Quy trình thực nghiệm

1.35. Phương pháp thực hiện

1.36. Độ đo sử dụng để so sánh tính hiệu quả của thuật toán. Kết quả thực nghiệm và đánh giá. Thuật toán phân rã chuỗi thời gian

1.37. Dự báo của thuật toán phân rã

1.38. Hướng phát triển

TÀI LIỆU THAM KHẢO

DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Mô hình Support Vector Machine (SVM)

2.2. SVM đối với bài toán phân loại

2.3. SVM với lề cứng (hard margin)

2.4. SVM với lề mềm (soft margin)

2.5. Hàm hạt nhân (kernel function)

Tóm tắt

I. Giới thiệu về mô hình Relevance Vector Machine RVM

Mô hình Relevance Vector Machine (RVM) là một trong những phương pháp tiên tiến trong lĩnh vực machine learning. RVM được phát triển dựa trên lý thuyết Bayes, cho phép thực hiện phân loại và hồi quy với độ chính xác cao. Khác với các mô hình truyền thống như Support Vector Machine (SVM), RVM sử dụng một số lượng nhỏ các vector liên quan để tạo ra dự đoán, giúp giảm thiểu độ phức tạp của mô hình. Điều này đặc biệt hữu ích khi làm việc với dữ liệu lớn và phân tích dữ liệu phức tạp. RVM không chỉ tối ưu hóa độ chính xác mà còn giảm thiểu khả năng overfitting, nhờ vào việc sử dụng các phân phối xác suất trong quá trình huấn luyện. Theo Tipping (2001), RVM có thể được coi là một mô hình xác suất, cho phép người dùng có thể ước lượng độ không chắc chắn trong các dự đoán của mình.

1.1. Nguyên lý hoạt động của RVM

RVM hoạt động dựa trên việc tìm kiếm các vector liên quan từ tập dữ liệu huấn luyện. Mô hình này sử dụng một hàm cơ sở để ánh xạ dữ liệu vào không gian đặc trưng, từ đó xác định các vector hỗ trợ. RVM tối ưu hóa hàm mục tiêu bằng cách giảm thiểu sai số giữa giá trị dự đoán và giá trị thực tế, đồng thời điều chỉnh các tham số của mô hình để đạt được độ chính xác cao nhất. Một trong những điểm mạnh của RVM là khả năng học phi tuyến, cho phép mô hình này xử lý các bài toán phức tạp mà không cần phải chuyển đổi dữ liệu về dạng tuyến tính. Điều này giúp RVM trở thành một công cụ mạnh mẽ trong học sâu và phân tích dữ liệu.

II. Ứng dụng của RVM trong giải quyết bài toán thực tế

Mô hình RVM đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ dự báo chuỗi thời gian đến phân tích dữ liệu trong kinh tế. Một trong những ứng dụng nổi bật của RVM là trong việc dự đoán các xu hướng kinh tế dựa trên dữ liệu lịch sử. RVM cho phép các nhà phân tích xác định các yếu tố ảnh hưởng đến biến động kinh tế và đưa ra các dự đoán chính xác hơn. Bên cạnh đó, RVM cũng được sử dụng trong các bài toán phân loại phức tạp, như phân loại văn bản và nhận diện hình ảnh. Việc sử dụng RVM trong các bài toán này giúp cải thiện độ chính xác và giảm thiểu thời gian tính toán, nhờ vào khả năng chọn lọc các vector liên quan một cách hiệu quả.

2.1. RVM trong dự báo chuỗi thời gian

Trong lĩnh vực dự báo chuỗi thời gian, RVM đã chứng minh được hiệu quả vượt trội so với các mô hình truyền thống. Bằng cách phân rã chuỗi thời gian thành các thành phần như xu thế, mùa vụ và sai số, RVM có thể dự đoán các giá trị tương lai một cách chính xác. Các nghiên cứu đã chỉ ra rằng RVM có khả năng xử lý các dữ liệu không ổn định và không đồng nhất, điều này rất quan trọng trong việc phân tích các chuỗi thời gian kinh tế. Hơn nữa, RVM cũng cho phép người dùng đánh giá độ không chắc chắn trong các dự đoán, từ đó đưa ra các quyết định chính xác hơn trong các chiến lược kinh doanh.

III. Đánh giá và phân tích kết quả thực nghiệm

Để đánh giá hiệu quả của mô hình RVM, các nghiên cứu thực nghiệm đã được thực hiện trên nhiều bộ dữ liệu khác nhau. Kết quả cho thấy RVM không chỉ đạt được độ chính xác cao mà còn có khả năng tổng quát tốt trên các dữ liệu chưa thấy. Việc sử dụng các chỉ số như Root Mean Square Error (RMSE) để đo lường độ chính xác của dự đoán cho thấy RVM thường xuyên vượt trội hơn so với các mô hình khác như SVM hay các phương pháp truyền thống khác. Điều này chứng tỏ rằng RVM là một công cụ hữu ích trong việc giải quyết các bài toán thực tế, đặc biệt là trong các lĩnh vực yêu cầu độ chính xác cao và khả năng xử lý dữ liệu lớn.

3.1. So sánh với các mô hình khác

Khi so sánh với các mô hình như SVM, RVM cho thấy lợi thế rõ rệt trong việc giảm thiểu số lượng vector hỗ trợ cần thiết để đạt được độ chính xác tương đương. Điều này không chỉ giúp giảm thiểu chi phí tính toán mà còn cải thiện khả năng giải thích của mô hình. Hơn nữa, RVM cho phép người dùng dễ dàng điều chỉnh các tham số để tối ưu hóa kết quả dự đoán, điều này rất quan trọng trong các ứng dụng thực tế. Các nghiên cứu đã chỉ ra rằng RVM có thể đạt được độ chính xác cao hơn trong các bài toán phân loại và hồi quy, nhờ vào khả năng học phi tuyến và sử dụng các phân phối xác suất trong quá trình huấn luyện.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu mô hình relevance vector machine rvm áp dụng giải một số bài toán thực tế

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của khoa học máy tính và ứng dụng trí tuệ nhân tạo, việc dự báo chuỗi thời gian kinh tế ngày càng trở nên quan trọng. Theo báo cáo của ngành, các chuỗi thời gian kinh tế như GDP, tỷ lệ thất nghiệp, doanh thu hàng tháng có tính biến động phức tạp và phi tuyến cao, đòi hỏi các mô hình dự báo tiên tiến. Luận văn tập trung nghiên cứu mô hình Relevance Vector Machine (RVM) và Support Vector Machine (SVM) nhằm giải quyết bài toán phân rã và dự báo chuỗi thời gian kinh tế, đặc biệt áp dụng phương pháp phân rã X-12-ARIMA cải tiến. Mục tiêu chính là phát triển thuật toán phân rã chuỗi thời gian dựa trên RVM/SVM để nâng cao độ chính xác dự báo, khắc phục hạn chế của kỹ thuật trung bình di động truyền thống như mất dữ liệu đầu-cuối và khó xử lý phi tuyến. Nghiên cứu thực hiện trên các bộ dữ liệu chuỗi thời gian kinh tế trong khoảng thời gian cập nhật đến năm 2017, với phạm vi áp dụng tại Việt Nam và một số dữ liệu quốc tế tham khảo. Ý nghĩa của luận văn thể hiện qua việc cải thiện các chỉ số đánh giá dự báo như Root Mean Square Error (RMSE), đồng thời mở rộng ứng dụng của mô hình RVM/SVM trong lĩnh vực kinh tế, góp phần hỗ trợ ra quyết định chính sách và kế hoạch kinh doanh hiệu quả hơn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai mô hình học máy chủ đạo là Support Vector Machine (SVM) và Relevance Vector Machine (RVM). SVM là mô hình học thống kê với khả năng phân loại và hồi quy phi tuyến thông qua hàm hạt nhân (kernel function), bao gồm các loại phổ biến như tuyến tính, đa thức và Gaussian (RBF). SVM tối ưu hóa siêu phẳng phân tách dữ liệu với lề cực đại, sử dụng biến nới lỏng để xử lý dữ liệu không tách tuyến tính hoàn hảo. RVM là mô hình xác suất dựa trên lý thuyết Bayes, kế thừa ưu điểm của SVM nhưng cung cấp dự báo dựa trên phân phối xác suất, giảm số lượng vector liên quan (relevance vectors) so với vector hỗ trợ của SVM, giúp tăng tốc độ dự báo. Cả hai mô hình đều có khả năng học phi tuyến cao, không yêu cầu chuỗi thời gian phải có tính dừng như các mô hình truyền thống.

Về chuỗi thời gian, luận văn trình bày các khái niệm cơ bản như thành phần xu thế (trend), mùa (seasonal), sai số (error), và các mô hình phân rã chuỗi thời gian phổ biến: phân rã cổ điển, X-12-ARIMA, STL. Mô hình ARIMA và SARIMA được sử dụng để xử lý chuỗi có tính dừng và tính mùa, kết hợp với phương pháp luận Box-Jenkins để lựa chọn mô hình tối ưu dựa trên các tiêu chí như AIC và kiểm định phần dư.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu bao gồm các bộ dữ liệu chuỗi thời gian kinh tế thực tế, ví dụ như chuỗi GDP của Kenya từ năm 1960, tỷ lệ thất nghiệp lao động Mỹ từ năm 1995, và các dữ liệu chuỗi thời gian kinh tế Việt Nam được thu thập và xử lý. Cỡ mẫu dao động khoảng vài trăm đến vài nghìn quan sát theo tháng hoặc năm, phù hợp với yêu cầu phân tích chuỗi thời gian.

Phương pháp phân tích chính là xây dựng và huấn luyện các mô hình RVM và SVM để phân rã chuỗi thời gian, thay thế kỹ thuật trung bình di động trong phương pháp phân rã X-12-ARIMA. Quy trình nghiên cứu gồm các bước: chuẩn bị dữ liệu (làm sạch, tách mùa, biến đổi log), xây dựng thuật toán phân rã chuỗi thời gian dựa trên RVM/SVM, thực hiện thử nghiệm trên các bộ dữ liệu mẫu, đánh giá kết quả dự báo bằng các chỉ số RMSE, độ lệch chuẩn và so sánh với các phương pháp truyền thống như X-12-ARIMA, STL. Thời gian nghiên cứu kéo dài trong năm 2017-2018, với sự hướng dẫn khoa học của TS. Huỳnh Văn Đức tại Trường Đại học Sư phạm TP. Hồ Chí Minh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân rã chuỗi thời gian bằng RVM/SVM: Thuật toán phân rã chuỗi thời gian dựa trên RVM/SVM cho thấy khả năng học phi tuyến vượt trội so với trung bình di động truyền thống. Ví dụ, sai số RMSE của thuật toán RVM/SVM giảm khoảng 15-20% so với phương pháp X-12-ARIMA trên bộ dữ liệu kinh tế mẫu. Đặc biệt, RVM sử dụng ít vector liên quan hơn SVM, giúp giảm thời gian dự báo khoảng 30%.
Khắc phục mất dữ liệu đầu-cuối: Kỹ thuật trung bình di động truyền thống mất khoảng 4-5 giá trị dữ liệu ở đầu và cuối chuỗi do tính chất làm trơn, trong khi RVM/SVM giữ nguyên toàn bộ dữ liệu, giúp cải thiện độ chính xác dự báo tại các thời điểm biên.
Khả năng xử lý dữ liệu phi tuyến và biến động mùa: RVM/SVM không yêu cầu chuỗi thời gian phải có tính dừng, phù hợp với các chuỗi kinh tế có xu thế và biến động phi tuyến phức tạp. So sánh với mô hình ARIMA/SARIMA, RVM/SVM cho kết quả dự báo chính xác hơn khoảng 10-12% trên các bộ dữ liệu có tính phi tuyến cao.
Ứng dụng trong các bước phân rã X-12-ARIMA: Thay thế các bước tính trung bình di động trong X-12-ARIMA bằng RVM/SVM giúp cải thiện độ mượt của thành phần xu thế và mùa, đồng thời giảm sai số phần dư. Ví dụ, sai số RMSE phần dư giảm từ 0.85 xuống còn khoảng 0.7 trên bộ dữ liệu thử nghiệm.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do RVM/SVM có khả năng học phi tuyến và mô hình hóa các mối quan hệ phức tạp trong chuỗi thời gian mà trung bình di động không thể xử lý hiệu quả. Việc giữ lại toàn bộ dữ liệu đầu-cuối giúp tránh mất thông tin quan trọng, đặc biệt trong các chuỗi kinh tế có biến động mạnh tại các thời điểm biên. So với các nghiên cứu trước đây chỉ tập trung vào SVM, việc ứng dụng RVM trong phân rã chuỗi thời gian là bước tiến mới, tận dụng ưu điểm của mô hình xác suất để dự báo chính xác hơn.

Dữ liệu có thể được trình bày qua các biểu đồ sai số RMSE so sánh giữa các phương pháp, biểu đồ phân rã chuỗi thời gian thể hiện thành phần xu thế, mùa và sai số, cũng như bảng thống kê số lượng vector liên quan và thời gian huấn luyện dự báo. Kết quả này có ý nghĩa thực tiễn lớn trong việc nâng cao chất lượng dự báo kinh tế, hỗ trợ các nhà hoạch định chính sách và doanh nghiệp trong việc ra quyết định kịp thời và chính xác.

Đề xuất và khuyến nghị

Triển khai mô hình RVM/SVM trong hệ thống dự báo kinh tế quốc gia: Cơ quan thống kê và các tổ chức nghiên cứu nên áp dụng mô hình RVM/SVM để phân rã và dự báo chuỗi thời gian kinh tế nhằm nâng cao độ chính xác dự báo GDP, CPI, tỷ lệ thất nghiệp trong vòng 1-2 năm tới.
Phát triển phần mềm tích hợp thuật toán phân rã RVM/SVM: Các đơn vị công nghệ thông tin cần xây dựng công cụ phần mềm hỗ trợ phân rã và dự báo chuỗi thời gian dựa trên RVM/SVM, tối ưu hóa giao diện và tốc độ xử lý, hoàn thành trong 12 tháng.
Đào tạo và nâng cao năng lực chuyên môn cho cán bộ phân tích dữ liệu: Tổ chức các khóa đào tạo chuyên sâu về mô hình RVM/SVM và phân tích chuỗi thời gian cho cán bộ thống kê, nhà nghiên cứu trong 6-12 tháng để đảm bảo vận hành hiệu quả mô hình.
Mở rộng nghiên cứu ứng dụng RVM/SVM cho các lĩnh vực khác: Khuyến khích nghiên cứu áp dụng mô hình RVM/SVM trong dự báo chuỗi thời gian lĩnh vực tài chính, năng lượng, chứng khoán với mục tiêu giảm sai số dự báo ít nhất 10% trong 2 năm tới.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và học viên ngành Khoa học máy tính, Thống kê: Luận văn cung cấp kiến thức chuyên sâu về mô hình RVM/SVM và ứng dụng trong phân rã chuỗi thời gian, hỗ trợ phát triển các đề tài nghiên cứu mới.
Chuyên gia phân tích dữ liệu kinh tế và tài chính: Cung cấp phương pháp dự báo tiên tiến giúp cải thiện độ chính xác dự báo các chỉ số kinh tế quan trọng, hỗ trợ ra quyết định chiến lược.
Cơ quan thống kê và hoạch định chính sách: Giúp nâng cao chất lượng dự báo kinh tế vĩ mô, từ đó xây dựng chính sách phù hợp với biến động thị trường và xu thế phát triển.
Doanh nghiệp và tổ chức tài chính: Ứng dụng mô hình để dự báo nhu cầu thị trường, giá cả, giúp tối ưu hóa kế hoạch sản xuất, kinh doanh và quản lý rủi ro.

Câu hỏi thường gặp

Mô hình RVM khác gì so với SVM trong dự báo chuỗi thời gian?
RVM dựa trên lý thuyết Bayes, cung cấp dự báo xác suất và sử dụng ít vector liên quan hơn, giúp giảm thời gian dự báo so với SVM. Ví dụ, RVM giảm khoảng 30% số vector so với SVM trên cùng bộ dữ liệu.
Tại sao cần thay thế trung bình di động bằng RVM/SVM trong phân rã chuỗi thời gian?
Trung bình di động mất dữ liệu đầu-cuối và không xử lý tốt dữ liệu phi tuyến. RVM/SVM giữ nguyên dữ liệu và học phi tuyến hiệu quả, cải thiện độ chính xác dự báo.
Phương pháp phân rã X-12-ARIMA được cải tiến như thế nào?
Các bước tính trung bình di động trong X-12-ARIMA được thay thế bằng mô hình RVM/SVM, giúp làm mượt thành phần xu thế và mùa, giảm sai số phần dư.
Mô hình RVM/SVM có yêu cầu chuỗi thời gian phải có tính dừng không?
Không. Khác với ARIMA, RVM/SVM không yêu cầu chuỗi có tính dừng, phù hợp với chuỗi kinh tế có xu thế và biến động phi tuyến.
Làm thế nào để đánh giá hiệu quả mô hình dự báo?
Sử dụng các chỉ số như Root Mean Square Error (RMSE), độ lệch chuẩn phần dư, so sánh với các mô hình truyền thống. Ví dụ, RMSE giảm 15-20% khi dùng RVM/SVM so với trung bình di động.

Kết luận

Luận văn đã nghiên cứu và phát triển thành công mô hình phân rã chuỗi thời gian dựa trên RVM/SVM, cải tiến phương pháp X-12-ARIMA truyền thống.
Mô hình RVM/SVM cho kết quả dự báo chính xác hơn, xử lý tốt dữ liệu phi tuyến và giữ nguyên dữ liệu đầu-cuối.
Thuật toán đề xuất giảm sai số RMSE trung bình 15-20% so với phương pháp truyền thống, đồng thời giảm thời gian dự báo nhờ số lượng vector liên quan ít hơn.
Nghiên cứu mở ra hướng ứng dụng rộng rãi RVM/SVM trong dự báo kinh tế, tài chính và các lĩnh vực chuỗi thời gian khác.
Các bước tiếp theo bao gồm triển khai thực tế tại các cơ quan thống kê, phát triển phần mềm hỗ trợ và đào tạo chuyên môn cho cán bộ phân tích dữ liệu.

Hãy áp dụng mô hình RVM/SVM để nâng cao hiệu quả dự báo chuỗi thời gian trong tổ chức của bạn ngay hôm nay!

Trích đoạn nội dung tài liệu

Chương 1 giới thiệu tổng quan về bài toán chuỗi thời gian, nêu lên mục tiêu, nội dung nghiên cứu và bố cục luận văn. Chương 2 trình bày cơ sở lý thuyết gồm: mô hình RVM/SVM, chuỗi thời gian và chuỗi ARIMA. Chương 3 phương pháp đề xuất: nêu hạn chế của trung bình di động và đề xuất hướng khắc phục, ứng dụng của mô hình RVM/SVM vào phương pháp phân rã chuỗi thời gian và đề xuất thuật toán phân rã chuỗi thời gian. Chương 4 thực nghiệm: nêu quy trình thực nghiệm và phân tích đánh giá kết quả thực nghiệm.

Chương 5 là phần tổng kết và phát thảo một số hướng phát triển trong tương lai của luận văn. Luan van 5 Chương 2. CƠ SỞ LÝ THUYẾT Chương 2 sẽ trình bày cở sở lý thuyết gồm: mô hình SVM, mô hình RVM, chuỗi thời gian tổng quát và chuỗi ARIMA. Mô hình Support Vector Machine (SVM) SVM là một trong phương pháp tiêu biểu nhất của nhánh phương pháp kernel.

SVM được sử dụng rất phổ biến áp dụng được cho bài toán phân loại, bài toán hồi quy và bài toán dò bất thường. Ý tưởng của SVM Trong không gian dữ liệu 𝒟 ban đầu không tách được, sử dụng một ánh xạ Φ để biến không gian dữ liệu 𝒟 ∈ ℝ𝑑 ban đầu (input space) vào không gian đặc trưng ℋ (feature space). Không gian đặc trưng có số chiều lớn hơn nhiều so với không gian dữ liệu ban đầu khả năng dữ liệu tách được tuyến tính, khi ánh xạ ngược trở lại không gian dữ liệu ban đầu có thể tạo ra các biên quyết định phi tuyến (Hình 2. X2 Biến đổi dữ liệu Z2 vào không gian đặc trưng 𝑧 = 𝚽(𝑥) X1 Dữ liệu tách được tuyến tính Z1 Dữ liệu không tách được tuyến tính trong không gian đặc trưng Hình 2.

Mô tả dữ liệu tách được tuyến tính trong không gian đặc trưng Z Luan van 6 2. SVM đối với bài toán phân loại Phương pháp này áp dụng được cho bài toán phân loại hai lớp. Nếu muốn áp dụng cho bài toán nhiều lớp, chúng ta cần sử dụng phiên bản SVM mở rộng hoặc kết hợp nhiều bài toán phân loại hai lớp lại với nhau [1]. Cho trước tập dữ liệu huấn luyện 𝒟 = {(𝑥1 , 𝑡1 ), … , (𝑥𝑁 , 𝑡𝑁 )} với N là số điểm dữ liệu, 𝑥𝑖 ∈ ℝ𝑑 với d là số chiều của dữ liệu, 𝑦𝑖 là nhãn của điểm dữ liệu và 𝑡𝑖 ∈ {−1, +1}.

Khi đó, tập huấn luyện trong ℋ có dạng 𝒟Φ = {(Φ(𝑥1 ), 𝑡1 ), … , (Φ(𝑥𝑁 ), 𝑡𝑁 )}. Giả sử tập huấn luyện 𝒟Φ tách được tuyến tính (linearly separate) trong không gian đặc trưng. Cần tìm siêu phẳng tối ưu để tách tập huấn luyện 𝒟Φ trong không gian đặc trưng. Support vectors lề Hình 2.

Mô tả lề của siêu phẳng Có nhiều siêu phẳng tách được 𝒟Φ , vậy siêu phẳng nào là siêu phẳng tối ưu? Trong SVM đưa ra khái niệm lề của siêu phẳng (Hình 2.2), được hiểu là khoảng cách từ điểm gần nhất của tập dữ liệu 𝒟Φ đến siêu phẳng. Vapnik và cộng sự đã sử dụng lý thuyết học thống kê (statistical learning) để chứng minh rằng siêu phẳng tối ưu là siêu phẳng có lề cực đại (maximum margin) [1] và [21]. Từ kết quả này dẫn đến bài toán SVM chính là bài toán tìm siêu phẳng (H) tách được tập huấn luyện 𝒟Φ mà có lề cực đại.1) trong đó: Φ(𝑥) là không gian đặc trưng, 𝑤 và 𝑏 là tham số. Luan van 7 Như vậy, khoảng cách tập 𝒟Φ tới siêu phẳng (H) có thể được định nghĩa: |𝑤 𝑇 Φ(𝑥𝑖 ) + 𝑏| 𝑑 (𝒟Φ , 𝐻) = min 1≤𝑖≤𝑁 ‖𝑤 ‖ Khi đó, bài toán SVM là bài toán học siêu phẳng tối ưu: 𝑡𝑖 (𝑤 𝑇 Φ(𝑥𝑖 ) + 𝑏) max min (2.

SVM với lề cứng (hard margin) Theo phân tích ở trên, để tìm siêu phẳng có lề cực đại chúng ta cần giải bài toán tối ưu: 𝑡𝑖 (𝑤 𝑇 Φ(𝑥𝑖 ) + 𝑏) max min (2.3) 𝑤,𝑏 1≤𝑖≤𝑁 ‖𝑤 ‖ Ràng buộc: 𝑡𝑖 (𝑤 𝑇 Φ(𝑥𝑖 ) + 𝑏) ≥ 0, ∀𝑖 = 1, … , 𝑁 Nếu thay đổi 𝑤 → 𝑘𝑤 và b→ 𝑘𝑏 với 𝑘 là hằng số dương, thì khoảng cách từ một điểm bất kỳ 𝑥𝑖 đến siêu phẳng sẽ không đổi. Chúng ta có thể giả sử rằng: 𝑡𝑖 (𝑤 𝑇 Φ(𝑥𝑖 ) + 𝑏) = 1 (2. Luan van 8 Tính đạo hàm 𝐿(𝑤, 𝑏, 𝜆) theo 𝑤 và 𝑏 và cho bằng không [4], ta thu được: 𝑁 𝑤 = ∑ 𝜆𝑖 𝑡𝑖 Φ(𝑥𝑖 ) (2.4) ta thu được 𝑔(𝜆) : 𝑁 𝑁 𝑁 1 𝑔(𝜆) = ∑ 𝜆𝑖 − ∑ ∑ 𝜆𝑖 𝜆𝑗 𝑡𝑖 𝑡𝑗 𝑘(𝑥𝑖 , 𝑥𝑗 ) 2 𝑖=1 𝑖=1 𝑗=1 Với 𝑘(𝑥𝑖 , 𝑥𝑗 ) = Φ𝑇 (𝑥𝑖 )Φ(𝑥𝑗 ) gọi là hàm hạt nhân. Bài toán đối ngẫu: 𝑎𝑔𝑟 max 𝑔(𝜆) 𝜆 Ràng buộc: 𝜆𝑖 ≥ 0 ∑𝑁 𝑖=1 𝜆𝑖 𝑡𝑖 = 0 Để phân lớp cho các điểm dữ liệu mới, ta cần xác định dấu của 𝑦(𝑥) được định nghĩa bởi công thức (2.5) vào biểu thức này ta thu được: 𝑁 𝑦(𝑥 ) = ∑ 𝜆𝑖 𝑡𝑖 𝑘(𝑥, 𝑥𝑖 ) + 𝑏 (2.7) 𝑖=1 Ta thấy các ràng buộc tối ưu thỏa hệ điều kiện KKT: 1 − 𝑡𝑖 (𝑤 𝑇 ϕ(𝑥𝑖 ) + 𝑏) ≤ 0, ∀𝑖 = 1, … , 𝑁 𝜆𝑖 ≥ 0, ∀𝑖 = 1, … , 𝑁 𝜆𝑖 (1 − 𝑡𝑖 (𝑤 𝑇 ϕ(𝑥𝑖 ) + 𝑏)) = 0, ∀𝑖 = 1, … , 𝑁 Thế thì tất cả điểm dữ liệu hoặc 𝜆𝑖 = 0, 𝑡𝑖 𝑦(𝑥𝑖 ) = 1.

Những điểm dữ liệu mà 𝜆𝑖 = 0 thì không thể hiện trong tổng (2.7) nên nó không đóng vai trò trong việc dự đoán dữ liệu mới. Những điểm còn lại gọi là vector hỗ trợ (support vector) bởi vì thỏa mãn 𝑡𝑖 𝑦(𝑥𝑖 ) = 1, những điểm dữ liệu này nằm trên lề cực đại của siêu phẳng trong không gian đặc trưng, các điểm khoanh tròn nằm trên đường màu xanh của Hình 2. Tính chất này là trọng tâm trong ứng dụng thực tế của SVM. Một mô hình huấn luyện, Luan van 9 một tỷ lệ đáng kể các điểm dữ liệu có thể bị loại bỏ và chỉ giữ lại các vector hỗ trợ (số lượng ít) [4].

Các vector hỗ trợ 𝑥𝑖 thỏa 𝑡𝑖 𝑦(𝑥𝑖 ) = 1 và điều kiện KKT, khi 𝜆𝑖 ≠ 0 thu được b. Để dự đoán một điểm x thuộc lớp nào, ta xác định dấu của biểu thức: 𝑁 𝑤 𝑇 Φ(𝑥) + b = ∑ 𝜆𝑖 𝑡𝑖 Φ(𝑥𝑖 )𝑇 Φ(𝑥) + 𝑏 𝑖=1 Với giả thiết tập huấn luyện tách được tuyến tính trong không gian đặc trưng Φ(𝑥), mô hình SVM với lề cứng sẽ cho ra kết quả tách chính xác trên không gian ban đầu (input space), tương ứng biên quyết định là phi tuyến. Tuy nhiên trong thực tế, các lớp dữ liệu có phân bố chồng lên nhau, trường hợp này SVM (với lề cứng) có thể không giải được hoặc kết quả không tốt [4]. Do đó, người ta đã cải tiến SVM với lề mềm.

SVM với lề mềm (soft margin) Để cải tiến SVM với lề cứng, người ta đưa thêm biến nới lỏng (slack) 𝜉𝑖 ≥ 0 tương ứng với mỗi điểm dữ liệu. Những điểm dữ liệu phân lớp đúng nằm về hai phía của biên thì 𝜉𝑖 = 0, ngược lại thì 𝜉𝑖 = |𝑡𝑖 − 𝑦(𝑥𝑖 )|. Nghĩa là những điểm nằm trên lề và ở bên phía phân lớp đúng của siêu phẳng thì 0 < 𝜉𝑖 ≤ 1, như 𝑥2 ; những điểm phân lớp sai thì 𝜉𝑖 > 1, như 𝑥1 , 𝑥3 (Hình 2. Mô tả biến nới lỏng 𝜉 Luan van 10 Bài toán tối ưu SVM với lề mềm: 𝑁 1 𝑎𝑟𝑔 𝑚𝑖𝑛 ( ‖𝑤‖2 + 𝐶 ∑ 𝜉𝑖 ) (2.8) 𝑤,𝑏,𝜉 2 𝑖=1 Ràng buộc: 1 − 𝜉𝑖 − 𝑡𝑖 (𝑤 𝑇 ϕ(𝑥𝑖 ) + 𝑏) ≤ 0, ∀𝑖 = 1, … , 𝑁 −𝜉𝑖 ≤ 0, ∀𝑖 = 1, … , 𝑁 Với điều kiện 𝐶 ≥ 0 gọi là tham số bù trừ (trade – off parameter), cân bằng giữa sự chấp nhận hy sinh các điểm lỗi và lề.

Dùng điều kiện KKT để xác định các quan hệ giữa 𝒘, 𝒃, 𝝀: Hàm Lagrange tương ứng của bài toán: 𝑁 𝑁 𝑁 1 𝐿(𝑤, 𝑏, 𝜉, 𝜆, 𝜇) = ‖𝑤‖2 + 𝐶 ∑ 𝜉𝑖 + ∑ 𝜆𝑖 (1 − 𝜉𝑖 − 𝑡𝑖 𝑦(𝑥𝑖 )) − ∑ 𝜇𝑖 𝜉𝑖 (2.9) 2 𝑖=1 𝑖=1 𝑖=1 Trong đó 𝜆𝑖 và 𝜇𝑖 là các nhân tử Lagrange và: 𝜆𝑖 ≥ 0, 𝑡𝑖 𝑦(𝑥𝑖 ) ≥ 1 − 𝜉𝑖 , 𝜆𝑖 (𝑡𝑖 𝑦(𝑥𝑖 ) − 1 + 𝜉𝑖 ) = 0 (2.11) là các điều kiện KKT. Hàm đối ngẫu: 𝑔(𝜆, 𝜇) = min 𝐿(𝑤, 𝑏, 𝜉, 𝜆, 𝜇) 𝑤,𝑏 Thiết lập đạo hàm của hàm Lagrange theo các biến chính 𝑤, 𝑏, 𝜉 và cho bằng không [4], ta thu được: 𝑁 𝑁 0 = ∇𝑤 𝐿 = 𝑤 − ∑ 𝑡𝑖 𝜆𝑖 Φ(𝑥𝑖 ) ⇒ 𝑤 = ∑ 𝑡𝑖 𝜆𝑖 Φ(𝑥𝑖 ) (2.14) Luan van 11 Thế (2.9) ta thu được hàm đối ngẫu: 𝑁 𝑁 𝑁 1 𝑔(𝜆, 𝜇) = ∑ 𝜆𝑖 − ∑ ∑ 𝜆𝑖 𝜆𝑗 𝑡𝑖 𝑡𝑗 𝑘(𝑥𝑖 , 𝑥𝑗 ) (2.15) không phụ thuộc vào 𝜇𝑖 , nên bài toán đối ngẫu có dạng: 𝑎𝑔𝑟 max 𝑔(𝜆) 𝜆 Ràng buộc: 0 ≤ 𝜆𝑖 ≤ 𝐶, ∀𝑖 = 1, … , 𝑁 ∑𝑁 𝑖=1 𝜆𝑖 𝑡𝑖 = 0 Điều kiện KKT (2.11) giúp ta suy ra được tính chất:  𝜆𝑖 = 0: 𝜇𝑖 = 𝐶 ⟹ 𝜉𝑖 = 0 ⟹ 𝑡𝑖 𝑦(𝑥𝑖 ) ≥ 1, đây là trường hợp các vectơ 𝑥𝑖 nằm ngoài lề và được phân lớp đúng.  0 < 𝜆𝑖 < 𝐶: 𝜇𝑖 > 0 ⟹ 𝜉𝑖 = 0 ⟹ 𝑡𝑖 𝑦(𝑥𝑖 ) = 1, đây là trường hợp các vectơ 𝑥𝑖 nằm trên lề (gọi là vectơ hỗ trợ) và được phân lớp đúng.  𝜆𝑖 = 𝐶 ⟹ 𝑡𝑖 𝑦(𝑥𝑖 ) = 1 − 𝜉𝑖 , đây là trường hợp các vectơ 𝑥𝑖 có thể được phân lớp đúng nếu 𝜉𝑖 ≤ 1 hoặc sai nếu 𝜉𝑖 > 1.1) ta dựa vào các vectơ hỗ trợ, là trường hợp 0 < 𝜆𝑖 < 𝐶 có 𝜉𝑖 = 0.

Để dự đoán một điểm x thuộc lớp nào, ta xác định dấu của biểu thức: 𝑁 𝑤 𝑇 Φ(𝑥) + b = ∑ 𝜆𝑖 𝑡𝑖 Φ(𝑥𝑖 )𝑇 Φ(𝑥) + 𝑏 𝑖=1 2. Hàm hạt nhân (kernel function) Hàm hạt nhân được định nghĩa [4]: 𝑘(𝑥, 𝑥 ′ ) = Φ𝑇 (𝑥)Φ(𝑥), trong đó Φ là một ánh xạ không gian dữ liệu vào không gian đặc trưng. Trường hợp đơn giản nhất Φ(𝑥 ) = 𝑥 thì 𝑘(𝑥, 𝑥 ′ ) = 𝑥 𝑇 𝑥 ′ đây là trường hợp tuyến tính.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ: Nghiên cứu mô hình Relevance Vector Machine (RVM) và ứng dụng thực tiễn" của tác giả Lê Quốc Vương, dưới sự hướng dẫn của TS. Huỳnh Văn Đức tại Trường Đại học Sư phạm Thành phố Hồ Chí Minh, tập trung vào việc nghiên cứu và phát triển mô hình RVM trong lĩnh vực khoa học máy tính. Luận văn không chỉ trình bày lý thuyết về mô hình này mà còn đề cập đến các ứng dụng thực tiễn của nó trong việc giải quyết các bài toán cụ thể, từ đó giúp người đọc hiểu rõ hơn về tiềm năng của RVM trong các lĩnh vực khác nhau.

Để mở rộng thêm kiến thức về các ứng dụng trong khoa học máy tính, bạn có thể tham khảo bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói", nơi nghiên cứu về việc áp dụng các phương pháp học máy trong nhận diện giọng nói. Ngoài ra, bài viết "Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ" cũng sẽ cung cấp cho bạn cái nhìn sâu sắc về ứng dụng của học sâu trong ngôn ngữ, một lĩnh vực liên quan mật thiết đến mô hình RVM. Cuối cùng, bạn có thể tìm hiểu thêm về "Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ", một nghiên cứu khác trong lĩnh vực nhận diện giọng nói, giúp bạn có cái nhìn tổng quát hơn về các ứng dụng của công nghệ học máy trong thực tiễn.

#Luận văn Thạc sĩ

#Relevance Vector Machine

#giải quyết bài toán thực tế

#mô hình RVM

#ứng dụng RVM

Chủ đề

Nghiên cứu và phát triển mô hình học máy

Ứng dụng của RVM trong các lĩnh vực thực tiễn

Phân tích và đánh giá hiệu quả của mô hình RVM

Xu hướng nghiên cứu trong lĩnh vực học máy