chương 1, nền tảng xây dựng một bài toán NAS bao gồm không gian tìm kiếm, phương pháp đánh giá và chiến lược tối ưu hóa. Dé xuất phương pháp Không gian tìm kiếm. Về mặt toán học, mạng neural có thể được coi như một hàm f chuyên một biến x thành một đầu ra y thông qua một loạt các phép biến đồi. Điều này có thé được biểu diễn dưới dạng đồ thị tính toán, trong đó mạng neural được biểu diễn dưới dạng đồ thị chu trình có hướng (DAG) với tập hợp các node, mỗi node hoạt động như một phép toán.
Hiện có ba loại không gian tìm kiếm: không gian tim kiếm vĩ mô (macro), không gian tìm kiếm vi mô (micro) và không gian tìm kiếm thuộc tính lớp (layer-attributes). Trong trường hợp này, không gian tim kiếm macro mã hóa các lớp mang neural dưới dang các node trong đồ thị DAG và mục đích của không gian tìm kiếm này là xác định kết nối giữa các node (hoặc các lớp). Kết nối ở đây có thé được coi là cách sử dụng đầu tiên của kết nối bỏ qua trong kiến trúc Res-Net. Điều này có nghĩa là dé cải thiện huấn luyện cho các thiết kế phức tạp.
Thay vì coi mỗi lớp là một node, &hông gian tim kiếm vi mô xử lý mỗi node như một phép toán biến đôi (ví dụ: tích chập chập 3 (conv3x3), pooling, v.) để xây dựng lớp hiệu quả nhất. Các lớp được thiết kế sau đó được xếp chồng lên nhau dé tạo thành toàn bộ kiến trúc. Mục dich của NAS trong không gian tìm kiếm thuộc tính lớp là tìm kiếm các thuộc tính của các lớp trong kiến trúc như độ sâu (số lớp). số lớp an), chiều rộng của mỗi lớp (số kênh trên mỗi lớp), kích thước kernel, v.
dé đảm bảo rằng kiến trúc được tối ưu hóa cho hiệu suất. Chiến lược tối ưu hóa. Nói chung, các kỹ thuật tìm kiếm NAS thường liên quan đến việc lay mẫu một nhóm các mạng con. Nó học cách tạo ra các kiến trúc ứng viên có hiệu suất cao bằng cách nhận các chỉ số hiệu suất của các mô hình con làm điểm đánh giá.
Tim kiếm ngẫu nhiên chọn ngẫu nhiên một ứng cử viên kiến trúc khả thi từ không gian tìm kiếm; không có mô hình hoc tập nao được sử dụng. Kỹ thuật này thường được sử dụng làm mô hình baseline cho các tuyến nghiên cứu khác nhau. Các phương pháp dựa trên lấy mdu là các kỹ thuật tối ưu hóa bậc 0 coi NAS Chương 3. Dé xuất phương pháp như một van đề tối ưu hóa hộp đen.
Một số phương pháp tiếp cận đại diện bao gồm Reinforcement Learning (Học tăng cường), Tìm kiếm trên cây Monte Carlo hoặc Thuật toán tiến hóa, chủ yếu dựa vào sự đánh đôi thăm dò và khai thác để phát triển kiến trúc của mạng sâu. Các phương pháp dựa trên Gradient (ví dụ: DARTS, One-shot NAS) coi NAS là một bài toán tối ưu hóa hai cấp, trong đó tối ưu hóa bên ngoài là tôi ưu hóa một kiên trúc a , là một tập hợp các tham sô liên tục được ánh xa từ không gian tìm kiếm rời rạc sao cho có bộ phù hợp của giá trị tham số 9, hàm mắt >. n > — mat L(8) => er Ũ x) vì trong tôi ưu hóa bên trong được tôi thiêu hóa. i=1 Phương pháp đánh giá.
Dé nhận được phản hồi cho việc tối ưu hóa thuật toán tìm kiếm, chúng ta cần đo lường, ước tính hoặc dự đoán hiệu suất của từng kiến trúc ứng viên. Đánh giá ứng viên có thể là một công việc tốn kém, do đó nhiều phương pháp đánh giá sáng tạo đã được phát triển dé tiết kiệm thời gian hoặc tinh toán. Khi đánh giá một mạng đã tạo, chúng tôi thường quan tâm đến độ chính xác của nó trên một tập dữ liệu nhất định. Nghiên cứu gần đây đã bắt đầu xem xét các khía cạnh khác của mô hình, chăng hạn như kích thước và độ trễ của mô hình, bởi vì các thiết bị cụ thê có thê có hạn chế về bộ nhớ hoặc yêu cầu thời gian phản hồi nhanh.
Ngoài chiến lược huấn luyện từ đầu, nhiều nỗ lực để tăng tốc quá trình huấn luyện đã được thực hiện, chăng hạn như dự đoán đường cong học tập, sử dụng các mô hình thay thế để dự đoán hiệu suất mạng hoặc sử dụng siêu mạng dé chia sẻ trọng số của no giữa các mô hình ứng viên (ví dụ: mang được lay mẫu từ supernet). Gần đây, Mellor và cộng sự. [33] và Chen và cộng sự. [4] giới thiệu các cách tiếp cận mới dé xếp hạng các kiến trúc ứng viên thông qua các số liệu được định hướng về mặt lý thuyết, có thé tăng tốc quá trình tìm kiếm rất nhiều trong khi vẫn cho thay khả năng tìm kiếm các kiến trúc xuất sắc.
Chỉ tiết được thảo luận trong phần 2. Đề xuất phương pháp 10 85 (Imrtaeg%Nso1)6-20 œo » uw 70 65 0 10 20 30 40 50 60 Floating point operations (Milions) Hình 2.1: Vi dụ về biên tối ưu hai mục tiêu tối ưu hóa độ lỗi mạng và số lượng phép tính dấu phẩy động trên tập dữ liệu ImageNet16-120 2.2 Tối ưu hóa đa mục tiêu Độ chính xác của mạng không phải là mục tiêu tối ưu hóa duy nhất khi áp dụng cho các vấn đề trong thực tiễn. Các mô hình nhận dạng hình ảnh qua mạng neural không nhất thiết phải luôn được triên khai trên các máy trạm có sức mạnh tính toán lớn dé dat được điểm số chính xác cao nhất. Xu hướng hiện nay là thiết kế các kiến trúc hiệu suất cao trong khi vẫn duy trì chi phí tính toán hợp lý cho các thiết bị di động hoặc hệ thống nhúng.
Chúng ta cần xem xét nhiều mục tiêu, có thé xung dot, chăng hạn như hiệu suất dự đoán, kích thước mô hình hoặc hiệu quả mạng, trong đó không tồn tại một kiến trúc /ý ưởng duy nhất đạt được độ chính xác cao nhất trong khi ít phức tạp tính toán. Thay vào đó, một tập hợp Pareto gồm các kiến trúc khác nhau đại diện cho sự đánh đổi tối ưu giữa các mục tiêu cạnh tranh. Bao gồm một mục tiêu bổ sung đại diện cho hiệu quả mạng, ví dụ: kích thước mô hình, độ trễ khi tối ưu hóa, sẽ thực tế và sâu sắc hơn, nơi các nhà nghiên cứu có thể cân nhắc các sự đánh đôi khác nhau cho Chương 3. Đề xuất phương pháp 11 Population Initialization Fitness Evaluabon No Selection Cross-ower and Mutation Hình 2.2: Một thuật toán EA điển hình các dang van đề khác nhau [31, 9].1 cho thấy một vi dụ về biên Pareto.
Do tính chất đa mục tiêu vốn có này, một số công trình gần đây trên NAS đã được ưu tiên xử lý bằng các thuật toán tiến hóa đa mục tiêu, duy trì và phát triển một tap hợp các giải pháp ứng viên dé gần đúng với tập hợp các kiến trúc tối ưu Pareto [31, 9].3 Các thuật toán tiến hóa và thuật toán di truyền sắp xếp không chi phối II 2.1 Các thuật toán tiến hóa (EA) Lần đầu tiên được giới thiệu bởi John Holland vào năm 1960, các quá trình tiễn hóa sinh học truyền cảm hứng cho thuật toán tiến hóa (EA). EAs thường được sử dụng để tìm kiếm giải pháp cho các bài toán tối ưu hóa hoặc các bài toán tìm kiếm cục bộ thông qua mô phỏng các quá trình sinh học như đột biến, lai ghép), lựa chọn, v., dé chọn giải pháp ứng viên tốt nhất cho bài toán đã cho. Trong EAs, mỗi giải pháp ứng cử viên cho vân đê tôi ưu hóa được EAs coi như một cá thê trong một Chương 3. Dé xuất phương pháp 12 quan thé.
Cá thé EA được biểu thị như một kiêu gen trong đó mỗi gen được kết hợp với một biến quyết định và mỗi nhiễm sắc thé đại diện cho một cá thé. Sự phù hợp (fitness) của mỗi cá thể, cho biết chất lượng của giải pháp tương ứng, được đánh giá thông qua một hàm đánh giá phù hợp, được xây dựng dựa trên hàm mục tiêu của bài toán tôi ưu hóa. Một EA điển hình có hai toán tử chính: 1) /a chọn dé chọn một tập hợp con các cá thể ưu tú có giá tri thể lực tốt hơn những cá thể khác trong quan thê và 2) biến đổi dé tạo ra con cái mới từ những cá thé hiện có. Vai trò của toán tử chọn lọc là duy trì những đặc điểm có lợi được biểu diễn ở những cá thể có thê trạng cao hơn của quần thể hiện tại để những đặc điểm này có thể được di truyền và cải thiện hơn nữa trong các thế hệ sau.
Toán tử biến thé có thé được thực hiện thông qua trao đổi lai ghép , t6 hợp lại các cá thé đã chọn (tức là các giải pháp ứng viên hiện tại) để tạo ra con cái (ví dụ, các giải pháp ứng viên mới) và đột biến, làm thay đối ngẫu nhiên các cá thể hiện tại với một xác suất nhỏ. Việc thăm đò và khai thác tìm kiếm được điều chỉnh thông qua các toán tử lựa chọn và biến thể này. Cùng nhau, quan thé được hội tụ về các vùng tốt hon trong không gian giải pháp sau mỗi lần lặp lại. Hiệu suất của một thuật toán tiến hóa (EA) cho một vấn đề nhất định phụ thuộc rất nhiều vào mức độ hiệu quả của các toán tử biến thé của nó trong việc tạo ra các giải pháp tốt hơn từ các giải pháp hiện tại trong tổng thé.
Tuy nhiên, các toán tử mặc định của EA cô điển, chăng hạn như lai ghép và đột biến, dễ gây ra sự gián đoạn của các nền tảng xây dựng quan trọng trong việc tạo ra các giải pháp đầy hứa hẹn.2 Thuật toán di truyền sắp xếp không bị thống trị II NSGA-II bắt đầu với một quan thé ban đầu gồm các cá thé được tạo ngẫu nhiên Chương 3. Đề xuất phương pháp 13 (nghĩa là, mỗi cá thể ban đầu là một kiến trúc ứng viên ngẫu nhiên). Một toán tử chọn lọc được sử dụng trong mọi thế hệ dé tạo thành một tập hợp chọn lọc các cá thể có triển vọng từ quần thé hiện tại. Các toán tử biến đối, chăng hạn như trao đôi lai ghép và đột biến, được thực hiện trên tập hợp chọn lọc dé tạo ra các cá thé con (tức là các kiến trúc ứng viên mới).
Các quần thé hiện tại và con cái sau đó được hợp nhất thành một nhóm. Một quy trình sắp xếp không thống trị của Pareto được chạy để phân chia các cá thể thành các cấp bậc không thống trị khác nhau. Các cá thé từ hạng 0, tạo thành cái gọi là bién không bi thống trị, không bị thống trị bởi bat kỳ cá thé nào khác. Một cá thé x!