I. Tổng Quan Gradient Suy Rộng Định Nghĩa và Ký Hiệu
Chương này giới thiệu nền tảng về gradient suy rộng cho hàm không trơn. Gradient suy rộng là một công cụ quan trọng trong tối ưu hóa khi hàm mục tiêu không khả vi. Chúng ta bắt đầu bằng việc xác định các khái niệm cơ bản như hàm Lipschitz, đạo hàm theo hướng, đạo hàm theo hướng Dini trên, và đạo hàm suy rộng theo hướng. Luận văn dựa trên định nghĩa của Clarke về đạo hàm suy rộng, còn được gọi là đạo hàm theo hướng Clarke. Hàm f được gọi là khả vi theo hướng tại x nếu đạo hàm suy rộng theo mọi hướng tồn tại tại x. Nếu f khả vi theo hướng tại x và f'(x, d) = f'(x, d), thì f được gọi là chính quy tại x. Hàm f được gọi là hàm chính quy nếu nó chính quy ở mọi nơi. Một ví dụ về một hàm không trơn là hàm giá trị tuyệt đối. Những khái niệm này rất quan trọng để hiểu các phương pháp tối ưu hóa không trơn sẽ được trình bày trong các chương sau.
1.1. Định Nghĩa Hàm Lipschitz và Ý Nghĩa Trong Tối Ưu
Hàm f : Y → R được gọi là Lipschitz trên Y nếu tồn tại một hằng số K sao cho |f(x) - f(y)| ≤ K ||x - y|| với mọi x, y ∈ Y ⊆ X. Hằng số K được gọi là hằng số Lipschitz. Điều kiện Lipschitz đảm bảo rằng hàm không thay đổi quá nhanh, giúp cho việc xây dựng các thuật toán tối ưu trở nên khả thi. Tính Lipschitz là một điều kiện quan trọng trong lý thuyết tối ưu hóa không trơn vì nó cho phép chúng ta kiểm soát sự thay đổi của hàm và đảm bảo sự hội tụ của các thuật toán.
1.2. Đạo Hàm Theo Hướng Khái Niệm và Các Loại Đạo Hàm
Đạo hàm theo hướng d tại x, ký hiệu là f'(x, d), được định nghĩa là giới hạn lim (t↓0) (f(x + td) - f(x))/t, nếu giới hạn này tồn tại. Có thể thấy một hàm có tính Lipschitz ở gần một điểm không nhất thiết khả vi tại điểm đó và có thể không có đạo hàm theo hướng theo nghĩa cổ điển vừa nêu. Đạo hàm theo hướng Dini trên của f tại x theo hướng d, ký hiệu là f (D) (x, d) được định nghĩa là giới hạn f (x + td) − f (x) f (D) (x, d) = lim sup t↓0 t nếu giới hạn này tồn tại.
1.3. Vi Phân Suy Rộng Clarke Định Nghĩa và Liên Hệ
Cho f là hàm Lipschitz ở gần x và d là một vecto bất kì trong X. Đạo hàm suy rộng theo hướng của f tại x theo hướng d, ký hiệu là f'(x, d) được định nghĩa là giới hạn. Vi phân suy rộng (hay vi phân Clarke) của f tại x là tập ∂f (x) = {ξ ∈ X ∗ |f 0 (x, d) ≥ hξ, di, ∀d ∈ X} trong đó X ∗ là không gian liên hợp của X, ξ gọi là gradient suy rộng của f tại x.
II. Tính Chất Quan Trọng của Gradient và Vi Phân Suy Rộng
Gradient suy rộng và vi phân suy rộng sở hữu nhiều tính chất hữu ích cho việc phân tích và tối ưu hóa. Ví dụ, nếu f(x) là hàm lồi và Lipschitz gần x, thì vi phân suy rộng ∂f(x) trùng với dưới vi phân tại x. Điều này cho phép ta áp dụng các kết quả từ giải tích lồi vào bài toán tối ưu không trơn. Ngoài ra, các quy tắc tính toán vi phân suy rộng cho phép ta tính vi phân của các hàm phức tạp từ vi phân của các hàm thành phần. Theo tài liệu gốc, nếu fi (i = 1, 2, .., m) là một số hữu hạn các hàm Lipschitz gần x thì ∑fi cũng Lipschitz gần x và ∂(∑fi)(x) ⊂ ∑∂fi(x). Những tính chất này làm cho gradient suy rộng trở thành một công cụ mạnh mẽ để giải quyết các bài toán tối ưu không trơn.
2.1. Tính Lồi và Liên Hệ Với Dưới Vi Phân Trong Giải Tích Lồi
Nếu f(x) là hàm lồi và Lipschitz gần x, thì vi phân suy rộng ∂f(x) trùng với dưới vi phân tại x. Theo giải tích lồi thì f'(x, d) tồn tại với mỗi d và f'(x, d) là hàm tựa của dưới vi phân tại x. Do đó, ta chỉ cần chứng minh f'(x, d) = f'(x, d). Ta có f (x0 + td) − f (x0 ) f 0 (x, d) = lim sup sup ε↓0 kx0 −xk<εδ 0<t<ε t trong đó δ > 0 là một số cho trước tùy ý.
2.2. Quy Tắc Tính Toán Vi Phân Suy Rộng Cho Các Hàm Hợp
Nếu f(x) = g(h(x)) và h(x) = (h1(x), ..., hn(x))T với mỗi hi(x) là Lipschitz gần x và g(x) là Lipschitz gần h(x) thì f(x) là Lipschitz gần x và ∂f(x) ⊂ CO {∑αi ξi : ξi ∈ ∂hi(x), α ∈ ∂g(h)} trong đó CO là bao lồi compact yếu∗.
2.3. Tính Nửa Liên Tục Trên Của Vi Phân Suy Rộng X Hữu Hạn Chiều
Nếu f(x) Lipschitz gần x thì ξ ∈ ∂f(x) khi và chỉ khi f'(x, d) ≥ <ξ, d> với mọi d ∈ X. Nếu X hữu hạn chiều thì ∂f nửa liên tục trên.
III. Bài Toán Tối Ưu Không Trơn Thách Thức và Ví Dụ
Bài toán tối ưu không trơn có dạng min f(x) với x ∈ X, trong đó f(x) là hàm không khả vi thỏa mãn điều kiện Lipschitz. Một trong những thách thức lớn nhất là việc xác định tiêu chuẩn dừng phù hợp. Đối với hàm trơn, ta có thể sử dụng độ lớn của gradient làm tiêu chí dừng. Tuy nhiên, đối với hàm không trơn, gradient có thể không tồn tại hoặc có độ lớn không phản ánh độ gần của nghiệm tối ưu. Ngoài ra, việc sử dụng các phương pháp hướng giảm có thể dẫn đến việc hội tụ về các điểm không dừng. Việc sử dụng gradient suy rộng giúp ta giải quyết những vấn đề này.
3.1. Khó Khăn Trong Việc Xác Định Tiêu Chuẩn Dừng Phù Hợp
Với bài toán tối ưu trơn thì với x đủ gần điểm cực tiểu x∗ thì k ∇f (x) k rất nhỏ.2) thường được sử dụng làm tiêu chuẩn dừng. Tuy nhiên, với hàm không trơn thì không có kết quả tương tự. Xét bài toán tối ưu đơn giản với hàm f : R1 → R1 và f (x) = |x|. Khi đó, nếu x không phải là nghiệm cực tiểu của bài toán thì f (x) khả vi và ta có |∂f (x)| = |∇f (x)| = 1.
3.2. Khả Năng Hội Tụ Về Điểm Không Dừng Khi Sử Dụng Hướng Giảm
Nếu f(x) không khả vi mà ta sử dụng phương pháp hướng giảm nhanh nhất với thủ tục tìm chính xác theo tia để giải (2.1) có thể nhận được dãy {xk } hội tụ về điểm không dừng. Xét hàm f : R2 → R, x = (u, v)T và 1 1 f (x) = max[ u2 + (v − 1)2 ; u2 + (v − 1)2 ] 2 2
3.3. Ví Dụ Về Bài Toán Minimax và Bài Toán Chuẩn L1 L
Có nhiều ví dụ về bài toán tối ưu không trơn chẳng hạn bài toán minimax: min max fi (x.) x∈X 1≤i≤m Hơn nữa, để giải hệ phương trình phi tuyến fi (x) = 0, i = 1, ., m ta thường tìm nghiệm của bài toán cực tiểu min f (x) = min k f (x) k (2.5) x∈X x∈X với chuẩn nào đó, trong đó f (x) =k f (x) k, f (x) = (f1 (x), ., fm (x)) là một hàm vecto từ X vào Rn . Rõ ràng bài toán (2.5) là bài toán tối ưu không trơn.
IV. Điều Kiện Tối Ưu Cho Bài Toán Tối Ưu Không Trơn
Điều kiện tối ưu đóng vai trò quan trọng trong việc xác định nghiệm của bài toán tối ưu. Đối với hàm Lipschitz, điều kiện cần cấp 1 cho biết nếu f(x) đạt cực tiểu địa phương tại x**, thì 0 ∈ ∂f(x**)*. Điều kiện này suy ra trực tiếp từ các bổ đề về gradient suy rộng. Với hàm lồi và Lipschitz, điều kiện này trở thành điều kiện cần và đủ. Việc áp dụng các điều kiện tối ưu này giúp ta tìm ra các điểm tiềm năng là nghiệm của bài toán.
4.1. Điều Kiện Cần Cấp 1 Liên Hệ Giữa Gradient Suy Rộng và Cực Tiểu
Nếu f (x) đạt cực tiểu (hay cực đại) địa phương tại x∗ và f (x) Lipschitz gần x∗ thì 0 ∈ ∂f (x∗ ) Chứng minh. Do x∗ là điểm cực tiểu địa phương của f (x) nên theo định nghĩa 1.5 thì với mọi d ∈ X ta có f 0 (x∗ , d) ≥ 0.
4.2. Điều Kiện Đủ Cho Cực Tiểu Địa Phương Hàm Lồi và Lipschitz
Cho f (x) là hàm lồi và Lipschitz gần x∗ . Do f (x) là hàm lồi và Lipschitz gần x∗ nên theo bổ đề 1.3 vi phân suy rộng và dưới vi phân của f tại x∗ là trùng nhau, tức là {ξ ∈ X ∗ |f (z) − f (x∗ ) ≥ hξ, z − x∗ i, ∀z ∈ X} = {ξ ∈ X ∗ |f 0 (x∗ , d) ≥ hξ, di, ∀z ∈ X}. Vậy x∗ là điểm cực tiểu của f (x).
4.3. Điều Kiện Đủ Cho Cực Tiểu Chặt Ứng Dụng và Hạn Chế
Cho f (x) là hàm lồi và Lipschitz gần x∗ . Nếu f 0 (x, d) > 0, ∀d 6= 0, d ∈ X thì x∗ là điểm cực tiểu chặt của f (x), nghĩa là tồn tại số δ > 0 sao cho f (x) − f (x∗ ) > δ k x − x∗ k với mọi x đủ gần x∗ .
V. Phương Pháp Dưới Gradient Thuật Toán và Ứng Dụng Thực Tế
Phương pháp dưới gradient là một kỹ thuật quan trọng để giải quyết bài toán tối ưu không trơn. Thuật toán này sử dụng hướng âm của một dưới gradient tại điểm hiện tại để tìm kiếm điểm tối ưu. Mặc dù đơn giản, phương pháp này có thể hội tụ chậm và không đảm bảo hội tụ về điểm tối ưu. Tuy nhiên, nó vẫn được sử dụng rộng rãi trong các ứng dụng thực tế, đặc biệt là khi các phương pháp khác không khả thi. Cần lưu ý về việc chọn bước thích hợp để đảm bảo sự hội tụ.
5.1. Mô Tả Chi Tiết Thuật Toán Dưới Gradient và Các Bước Chính
Phương pháp dưới gradient được suy rộng trực tiếp từ phương pháp hướng giảm nhanh nhất bằng cách sử dụng hướng −gk trong đó gk ∈ ∂f (xk ) để sinh ra dãy {xk }. Ta đã biết hàm lồi và Lipschitz gần x thì khả vi hầu x∈R khắp nơi và ∂f (x) = convΩ(x) trong đó convΩ là bao lồi của Ω và Ω(x) = {g|g = lim ∇f (xi ), xi → x, ∃∇f (xi )}.
5.2. Lựa Chọn Bước và Ảnh Hưởng Đến Tốc Độ Hội Tụ
Việc lựa chọn bước là rất quan trọng trong phương pháp dưới gradient. Bước quá lớn có thể dẫn đến việc thuật toán dao động và không hội tụ. Bước quá nhỏ có thể làm cho thuật toán hội tụ rất chậm. Có nhiều chiến lược lựa chọn bước khác nhau, chẳng hạn như bước giảm dần, bước tỉ lệ với độ lớn của dưới gradient, hoặc bước được xác định thông qua tìm kiếm đường thẳng.
5.3. Ưu Điểm và Nhược Điểm Của Phương Pháp Dưới Gradient
Phương pháp dưới gradient có ưu điểm là đơn giản và dễ cài đặt. Nó cũng có thể được áp dụng cho các bài toán có hàm mục tiêu rất phức tạp. Tuy nhiên, phương pháp này có nhược điểm là hội tụ chậm và không đảm bảo hội tụ về điểm tối ưu. Nó cũng nhạy cảm với việc lựa chọn bước.
VI. Các Phương Pháp Tối Ưu Không Trơn Nâng Cao Tổng Quan
Bên cạnh phương pháp dưới gradient, có nhiều phương pháp tối ưu không trơn nâng cao hơn, chẳng hạn như phương pháp bó, phương pháp siêu phẳng cắt, phương pháp miền tin cậy đối với hàm hợp không trơn và phương pháp Newton không trơn. Những phương pháp này thường có tốc độ hội tụ nhanh hơn và độ chính xác cao hơn so với phương pháp dưới gradient. Tuy nhiên, chúng cũng phức tạp hơn và đòi hỏi nhiều tính toán hơn. Theo tài liệu, luận văn còn trình bày một số ví dụ về bài toán tối ưu không trơn và những khó khăn gặp phải khi giải bài toán này. Xây dựng điều kiện cần và đủ tối ưu cho bài toán tối ưu không trơn dựa trên tập vi phân suy rộng.
6.1. Giới Thiệu Phương Pháp Bó và Ưu Điểm So Với Phương Pháp Dưới Gradient
Phương pháp bó là một phương pháp tối ưu không trơn sử dụng thông tin từ nhiều dưới gradient để xây dựng một mô hình xấp xỉ của hàm mục tiêu. Mô hình này được sử dụng để xác định hướng tìm kiếm. Phương pháp bó thường có tốc độ hội tụ nhanh hơn so với phương pháp dưới gradient vì nó sử dụng nhiều thông tin hơn.
6.2. Phương Pháp Siêu Phẳng Cắt Ý Tưởng Cơ Bản và Ứng Dụng
Phương pháp siêu phẳng cắt là một phương pháp tối ưu không trơn sử dụng các siêu phẳng để xấp xỉ hàm mục tiêu. Các siêu phẳng được tạo ra từ các dưới gradient. Phương pháp này thường được sử dụng để giải các bài toán có hàm mục tiêu lồi và Lipschitz.
6.3. Phương Pháp Newton Không Trơn và Các Biến Thể
Phương pháp Newton không trơn là một phương pháp tối ưu không trơn sử dụng thông tin từ vi phân cấp hai của hàm mục tiêu để xác định hướng tìm kiếm. Phương pháp này thường có tốc độ hội tụ rất nhanh, nhưng nó cũng đòi hỏi nhiều tính toán hơn so với các phương pháp khác.