Một số phương pháp ngẫu nhiên tối ưu hóa xác suất hậu nghiệm không lồi trong học máy

Tài liệu nghiên cứu Một số phương pháp ngẫu nhiên cho bài toán cực đại hóa xác suất hậu nghiệm không lồi trong học máy, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Trường đại học

Trường Đại Học

Chuyên ngành

Học Máy

Người đăng

Ẩn danh

Thể loại

Luận Án
116
2
0

Phí lưu trữ

35 Point

Mục lục chi tiết

1. MỘT SỐ KIẾN THỨC NỀN TẢNG

1.1. Tối ưu không lồi

1.2. Tối ưu ngẫu nhiên

2. ĐỀ XUẤT PHƯƠNG PHÁP TỐI ƯU NGẪU NHIÊN CHO BÀI TOÁN SUY DIỄN HẬU NGHIỆM TRONG MÔ HÌNH CHỦ ĐỀ

3. THUẬT TOÁN CẢI TIẾN GOPE GIẢI BÀI TOÁN MAP KHÔNG LỒI TRONG MÔ HÌNH CHỦ ĐỀ

4. THUẬT TOÁN CẢI TIẾN BOPE GIẢI BÀI TOÁN MAP KHÔNG LỒI TỔNG QUÁT

Tóm tắt

I. Tổng quan về phương pháp ngẫu nhiên tối ưu hóa xác suất hậu nghiệm trong học máy

Phương pháp ngẫu nhiên tối ưu hóa xác suất hậu nghiệm (MAP) trong học máy đã trở thành một công cụ quan trọng trong việc ước lượng tham số mô hình. MAP không chỉ dựa vào dữ liệu huấn luyện mà còn kết hợp thông tin tiên nghiệm, giúp cải thiện độ chính xác của mô hình. Việc áp dụng phương pháp này giúp giải quyết nhiều bài toán phức tạp trong học máy, đặc biệt là trong các mô hình không lồi.

1.1. Khái niệm về xác suất hậu nghiệm trong học máy

Xác suất hậu nghiệm (posterior probability) là xác suất của tham số mô hình sau khi đã quan sát dữ liệu. Nó được tính toán thông qua quy tắc Bayes, kết hợp giữa xác suất tiên nghiệm và likelihood của dữ liệu. Điều này giúp cải thiện khả năng dự đoán của mô hình.

1.2. Tại sao phương pháp MAP lại quan trọng trong học máy

Phương pháp MAP giúp giảm thiểu hiện tượng quá khớp (overfitting) bằng cách đưa vào thông tin tiên nghiệm. Điều này đặc biệt hữu ích khi dữ liệu huấn luyện hạn chế, giúp mô hình có khả năng tổng quát tốt hơn.

II. Thách thức trong việc tối ưu hóa xác suất hậu nghiệm

Mặc dù phương pháp MAP mang lại nhiều lợi ích, nhưng việc tối ưu hóa xác suất hậu nghiệm không phải là điều dễ dàng. Các thách thức chính bao gồm tính phức tạp của hàm mục tiêu và sự tồn tại của nhiều cực trị địa phương. Điều này làm cho việc tìm kiếm nghiệm tối ưu trở nên khó khăn hơn.

2.1. Các vấn đề gặp phải khi tối ưu hóa hàm không lồi

Hàm không lồi thường có nhiều cực trị địa phương, khiến cho các thuật toán tối ưu truyền thống gặp khó khăn trong việc tìm ra nghiệm toàn cục. Điều này đòi hỏi các phương pháp tối ưu hóa mới và hiệu quả hơn.

2.2. Tác động của dữ liệu huấn luyện đến hiệu quả của MAP

Khi dữ liệu huấn luyện không đủ lớn, phương pháp MAP có thể không hoạt động hiệu quả. Việc lựa chọn prior phù hợp cũng là một yếu tố quan trọng ảnh hưởng đến kết quả tối ưu.

III. Phương pháp ngẫu nhiên trong tối ưu hóa xác suất hậu nghiệm

Các phương pháp ngẫu nhiên đã được phát triển để giải quyết bài toán tối ưu hóa xác suất hậu nghiệm. Những phương pháp này giúp cải thiện tốc độ hội tụ và khả năng tìm kiếm nghiệm tối ưu trong các bài toán không lồi.

3.1. Các thuật toán ngẫu nhiên phổ biến trong học máy

Một số thuật toán ngẫu nhiên như Stochastic Gradient Descent (SGD) và các biến thể của nó đã được áp dụng rộng rãi trong học máy. Những thuật toán này giúp cải thiện hiệu suất và khả năng tổng quát của mô hình.

3.2. Lợi ích của việc sử dụng phương pháp ngẫu nhiên

Phương pháp ngẫu nhiên giúp giảm thiểu chi phí tính toán và tăng tốc độ hội tụ. Điều này đặc biệt quan trọng trong các mô hình học máy phức tạp với dữ liệu lớn.

IV. Ứng dụng thực tiễn của phương pháp MAP trong học máy

Phương pháp MAP đã được áp dụng thành công trong nhiều lĩnh vực như xử lý ảnh, phân tích văn bản và mô hình đồ thị xác suất. Những ứng dụng này cho thấy tính linh hoạt và hiệu quả của phương pháp trong việc giải quyết các bài toán thực tiễn.

4.1. Ứng dụng trong xử lý ảnh

Trong xử lý ảnh, phương pháp MAP giúp cải thiện chất lượng hình ảnh và nhận diện đối tượng. Việc sử dụng prior phù hợp giúp mô hình đạt được kết quả tốt hơn.

4.2. Ứng dụng trong phân tích văn bản

Phương pháp MAP được sử dụng để phân tích văn bản, giúp cải thiện độ chính xác trong việc phân loại và gợi ý nội dung. Điều này cho thấy khả năng tổng quát của phương pháp trong các bài toán thực tế.

V. Kết luận và tương lai của phương pháp tối ưu hóa xác suất hậu nghiệm

Phương pháp tối ưu hóa xác suất hậu nghiệm đã chứng minh được giá trị của nó trong học máy. Tuy nhiên, vẫn còn nhiều thách thức cần được giải quyết để cải thiện hiệu quả của phương pháp. Tương lai của nghiên cứu này hứa hẹn sẽ mang lại nhiều đột phá mới.

5.1. Hướng nghiên cứu tiếp theo trong tối ưu hóa MAP

Nghiên cứu tiếp theo có thể tập trung vào việc phát triển các thuật toán mới giúp cải thiện tốc độ hội tụ và khả năng tổng quát của phương pháp MAP trong các mô hình phức tạp.

5.2. Tầm quan trọng của việc cải thiện phương pháp MAP

Cải thiện phương pháp MAP không chỉ giúp nâng cao hiệu quả của các mô hình học máy mà còn mở ra nhiều cơ hội mới trong nghiên cứu và ứng dụng thực tiễn.

16/07/2025

Trích đoạn nội dung tài liệu

Chương 1 MỘT SỐ KIẾN THỨC NỀN TẢNG Chương này trình bày về một số kiến thức cơ sở liên quan của luận án bao gồm: tổng quan về bài toán cực đại hóa xác suất hậu nghiệm, mô hình đồ thị xác suất và các phương pháp suy diễn, tối ưu ngẫu nhiên, mô hình chủ đề và một số thuật toán học trong mô hình chủ đề. Tối ưu không lồi 1. Bài toán tối ưu tổng quát Mô hình học máy thường được mô tả bởi bộ các tham số và bước học chính là đi tìm tham số tối ưu cho mô hình, từ đó dẫn về một bài toán tối ưu tham số. Nhiệm vụ của một thuật toán tối ưu trong học máy chính là tìm giá trị "tốt nhất" cho tham số của mô hình.

Giả sử tập hợp các tham số mô hình được ký hiệu bằng x, hàm đánh giá của mô hình thường được ký hiệu là f (x). Bài toán tìm tham số "tốt nhất" được đưa về bài toán tối ưu có dạng minx f (x) hoặc maxx f (x). Như vậy, học một mô hình học máy chính là giải một bài toán tối ưu toán. Do đó, tối ưu toán học, đặc biệt là tối ưu không lồi đã trở thành trung tâm của học máy [36].

Một tập Ω ⊆ Rp được gọi là một tập lồi nếu ∀x, y ∈ Ω và 0 ≤ α ≤ 1 ⇒ αx + (1 − α)y ∈ Ω. Một hàm số f xác định trên tập lồi Ω được gọi là hàm lồi trên Ω nếu f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y) ∀x, y ∈ Ω và 0 < α < 1. Chú ý rằng: (i) Một hàm số f xác định trên tập lồi Ω được gọi là lõm nếu −f là lồi trên Ω. (ii) Cho f và g là các hàm lồi trên tập lồi C và D tương ứng.

Khi đó các hàm số αf + βg (∀α, β ≥ 0) và max{f, g} cũng lồi trên C ∩ D. Xét bài toán tối ưu tổng quát min f (x) (1.1) x∈Ω 9 trong đó hàm mục tiêu f (x) là hàm trơn và không lồi trên miền đóng Ω ⊂ Rp. Khi Ω = Rp thì bài toán (1.1) đưa về bài toán tối ưu không ràng buộc có dạng min f (x) (1.2) x∈Rp Do maxx∈Ω f (x) = minx∈Ω [−f (x)], nên bài toán cực đại hóa max f (x) (1.3) x∈Ω được xem xét tương tự như bài toán cực tiểu hóa (1. Cho hàm f xác định và khả vi trên Rp.

Nếu x∗ ∈ Rp là nghiệm cực tiểu địa phương của bài toán (1. Giả sử hàm số f khả vi liên tục hai lần trên Rp. Khi đó: • Nếu x∗ ∈ Rp là điểm cực tiểu địa phương của hàm f trên Rp thì ∇f (x∗ ) = 0 và ∇2 f (x∗ ) = 0 nửa xác định dương. • Ngược lại, nếu ∇f (x∗ ) = 0 và ∇2 f (x∗ ) = 0 xác định dương thì x∗ là điểm cực tiểu địa phương chặt của f trên Rp.

Đối với bài toán tối ưu lồi, nghiệm tối ưu địa phương cũng là tối ưu toàn cục. Do đó, tối ưu lồi đã được nghiên cứu rất đầy đủ trên khía cạnh lý thuyết và ứng dụng, đồng thời có nhiều thuật toán hiệu quả được đề xuất để giải chúng. Ngược lại, giải các bài toán tối ưu không lồi thường gặp nhiều khó khăn bởi tính đa cực trị của hàm mục tiêu. Với mỗi lớp bài toán tối ưu không lồi thường có một số phương pháp giải phù hợp đi kèm.

Một trong những cách tiếp cận phù hợp và hiệu quả hiện nay chính là nhóm phương pháp dựa vào thông tin đạo hàm, trong đó có các phương pháp bậc nhất chỉ dựa vào thông tin đạo hàm cấp một, ví dụ như phương pháp GD hay SGD và các phương pháp bậc hai sử dụng đạo hàm cấp hai như phương pháp Newton và các biến thể [36]. Phương pháp bậc hai thường cho kết quả tốt hơn nhưng chi phí tính toán đạo hàm cấp hai thường tốn kém và thậm chí không tính được. Chính vì vậy, bài toán tối ưu trong học máy thường hay sử dụng phương pháp ngẫu nhiên bậc nhất, đảm bảo đủ đơn giản và độ chính xác cần thiết khi áp dụng. Tối ưu ngẫu nhiên Các phương pháp tối ưu tất định kinh điển thường chỉ áp dụng tốt cho bài toán tối ưu lồi và các bộ dữ liệu huấn luyện nhỏ [9, 36].

Do đó khi đối mặt với 10 các bài toán tối ưu không lồi, các phương pháp tất định thường kém hiệu quả. Các phương pháp tối ưu ngẫu nhiên như SGD [56] ra đời đã khắc phục nhược điểm của tối ưu tất định. Mục đích của một hệ thống học là tìm tham số tối ưu thông qua tối ưu hóa một hàm đánh giá, giả sử đi tìm giá trị cực tiểu hàm hàm kì vọng rủi ro J(w) như sau: Z J(w) , Ez Q(z, w) , Q(z, w)dP (z) (1.4) trong đó w là biến cần tìm để cực tiểu hóa hàm rủi ro J(w), z là các quan sát đã biết và Q(z, w) là hàm mô tả độ rủi ro của hệ thống với quan sát z. Thông thường hàm phân phối của dữ liệu P (z) là không biết trước, nên chúng ta phải xấp xỉ hàm kỳ vọng rủi ro J(w) bởi hàm rủi ro thực nghiệm JˆL (w) dựa trên L quan sát zn , n = 1, 2, .5) L n=1 Để cực tiểu hóa hàm JˆL (w) ta có thể sử dụng thuật toán GD cập nhật giá trị của w sau mỗi vòng lặp theo công thức: L 1 X wt+1 = wt + ρt 5w JˆL (wt ) = wt − ρt 5w Q(zn , wt ) (1.6) L n=1 Khi tốc độ học ρt đủ nhỏ, thuật toán hội tụ về cực tiểu địa phương.

Tuy nhiên, chúng tôi thấy rằng, mỗi lần cập nhật tham số, thuật toán GD phải duyệt qua tất cả các quan sát một lần, điều này gây tốn kém về mặt thời gian và bộ nhớ khi làm việc với dữ liệu lớn. Thuật toán tối ưu ngẫu nhiên SGD đã khắc phục được nhược điểm này [56]. Ý tưởng của SGD là thay ∇w JˆL (w) bằng một hàm ngẫu nhiên R(zi , w) thỏa mãn EQ(zi ) R(zi , w) = ∇w JˆL (w) (1.7) với zi là một quan sát ngẫu nhiên lấy theo phân phối đều từ tập quan sát. Việc thay thế như vậy là một xấp xỉ nhiễu tới đạo hàm đúng.

Tuy nhiên, với tốc độ học ρt phù hợp thỏa mãn điều kiện [9, 56]: ∞ X ∞ X ρt → ∞ , ρ2t < ∞ (1.8) t=1 t=1 thì SGD hội tụ tới một cực trị địa phương theo công thức cập nhật như sau: wt+1 = wt − ρt ∇w Q(zi , wt ) (1.9) 11 trong đó zi là một quan sát được chọn ngẫu nhiên trong tập quan sát. Điều này cho phép thuật toán lặp đi lặp lại giữa việc lấy mẫu dữ liệu và điều chỉnh cấu trúc ẩn dựa trên các mẫu được lấy. Một chuỗi ρt thỏa mãn điều kiện trên hay được sử dụng có dạng như sau: ρt = (t + τ )−κ (1. Tham số τ ≥ 0 là gọi là trọng số tiêu biến (decay weight) và κ ∈ (0.5, 1) là tham số quên (forgetting rate).

Tham số τ và κ có thể điều chỉnh thủ công sao cho thuật toán học thu được kết quả tốt nhất. Một lưu ý là thay vì việc lấy ngẫu nhiên một quan sát, ta cũng có thể thực hiện lấy ngẫu nhiên B quan sát, tức là lấy theo mẫu nhỏ (mini-batch) {zi1 ,zi2 ,. Công thức cập nhật khi sử dụng mẫu nhỏ kích thước B như sau: iB 1 X wt+1 = wt − ρt ∇w Q(zb , wt ) (1.11) B b=i1 Phương pháp này sử dụng bộ nhớ ít hơn cách tiếp cận tối ưu "batch" thông thường. Do tối ưu không lồi rất thường gặp trong học máy, nên ngày càng có nhiều nghiên cứu về các thuật toán giải bài toán không lồi trong học máy.

Thuật toán SVRG (Stochastic Variance Reduced Gradient) và Proximal SVRG (Prox- SVRG) [57] có thể áp dụng cho bài toán có hàm mục tiêu là tổng hữu hạn các hàm không lồi. Tuy nhiên, SVRG và Prox-SVRG có hạn chế là có thể không hội tụ đến nghiệm toàn cục. Thuật toán CCCP (Concave-convex procedure) [44] cũng được ứng dụng rộng rãi cho bài toán không lồi. CCCP biến đổi bài toán không lồi thành tổng của các hàm lồi và hàm lõm sau đó tuyến tính hóa hàm lõm.

Tuy nhiên độ phức tạp của CCCP lớn vì phải giải một bài toán quy hoạch toàn phương trong mỗi vòng lặp. GOA (graduated optimization algorithm) [58] cũng được phổ biến cho bài toán tối ưu không lồi nhưng lại đối mặt với việc tính toán trực tiếp các đạo hàm. Tác giả Hazan và các cộng sự [59] đề xuất thuật toán GradOpt (Graduated Optimization) có khả năng hội tụ đến nghiệm tối ưu toàn cục với tham số (a, σ) thích hợp. Hazan cũng chỉ ra GradOpt nhanh hơn mini-batch SGD.

Các tác giả trong [60] đề xuất SVRG-GOA và PSVRG-GOA để giải bài toán không lồi dựa trên GOA, đồng thời chỉ ra GradOpt có một số hạn chế như hội tụ chậm do việc giảm của tốc độ học, điều kiện trên hàm mục tiêu là chặt khiến cho việc ứng dụng GradOpt bị hạn chế. Ngoài ra, một số thuật 12 toán tối ưu đã và đang áp dụng hiệu quả trong trong học máy và học sâu như Adagrad [61], RMSProp [62], Adadelta [63], Adam [64], RSAG [65] Natasha2 [66], NEON2 [67]. Bên cạnh việc đề xuất các thuật toán mới hiệu quả cải tiến về tốc độ hội tụ, các nghiên cứu về việc thoát khỏi điểm yên ngựa trong tối ưu không lồi cũng là được quan tâm bởi Dauphin và các cộng sự [68, 69] hay Rong Ge và cộng sự [53, 70, 71]. Theo tìm hiểu của chúng tôi, để đánh giá sự hiệu quả của một thuật toán tối ưu, thường xem xét thuật toán đó trên rất nhiều khía cạnh: (i) Thuật toán áp dụng thành công trên lớp bài toán nào: bài toán lồi/không lồi, có ràng buộc/không ràng buộc? Ví dụ các phương pháp tất định kinh điển như GD, subgradient hay proximal GD, accelerate proximal GD áp dụng thành công trên tối ưu lồi với mẫu nhỏ, nhưng không hiệu quả khi làm việc với dữ liệu lớn và hàm không lồi.

Mặc dù nhóm ngẫu nhiên như SGD có tốc độ hội tụ chậm, đạt O(T −1/2 ) cho bài toán tối ưu lồi và O(T −1/4 ) cho bài toán không lồi sau T bước lặp, lại thích hợp cho bài toán tối ưu gắn với các mô hình có dữ liệu lớn. Hoặc khi làm việc với bài toán tối ưu có ràng buộc người ta thường hay sử dụng phương pháp Online Frank-Wolfe (OFW) và các biến thể của nó [46, 47, 72]. (ii) Tốc độ hội tụ của thuật toán đạt được là bao nhiêu?

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ