Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và học sâu (Deep Learning - DL), việc ứng dụng các mô hình mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) đã trở thành xu hướng chủ đạo trong nhiều lĩnh vực, đặc biệt là xử lý ảnh và nhận dạng đối tượng. Theo ước tính, số lượng bài báo khoa học về AI đã đạt khoảng 810 triệu kết quả tìm kiếm tính đến tháng 10/2023, cho thấy sự quan tâm rộng rãi của cộng đồng nghiên cứu. Tuy nhiên, các mô hình mạng nơ-ron sâu truyền thống thường yêu cầu tài nguyên tính toán lớn và tiêu thụ năng lượng cao, gây khó khăn khi triển khai trên các thiết bị nhúng có giới hạn về tài nguyên như các thiết bị Edge-AI.

Luận văn tập trung nghiên cứu xây dựng mô hình mạng nơ-ron xung nhị phân (Binarized Spiking Neural Network - BSNN) nhằm giải quyết bài toán phân loại ảnh trên kiến trúc tính toán trong bộ nhớ (In-Memory Computing - IMC) phù hợp với các thiết bị biên (Edge Devices). Mục tiêu cụ thể bao gồm phát triển mô hình mạng nơ-ron xung sâu với toàn bộ trọng số được nhị phân hóa, đề xuất kiến trúc tính toán trong bộ nhớ để thực thi hiệu quả mô hình BSNN, đồng thời cải thiện khả năng phòng thủ trước các tấn công đối nghịch (adversarial attacks). Nghiên cứu được thực hiện trong phạm vi các tập dữ liệu phân loại ảnh phổ biến như MNIST, Fashion-MNIST, CIFAR-10 và CIFAR-100, với thời gian nghiên cứu tập trung vào giai đoạn 2022-2024 tại Viện Khoa học và Công nghệ Quân sự, Hà Nội.

Ý nghĩa của nghiên cứu thể hiện rõ trong việc thúc đẩy phát triển các mô hình mạng nơ-ron nhẹ, tiết kiệm năng lượng và tài nguyên, đồng thời nâng cao độ bền vững của hệ thống trí tuệ nhân tạo khi triển khai trên các thiết bị Edge-AI trong quân sự và các ứng dụng thực tiễn khác.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng nơ-ron xung (Spiking Neural Network - SNN) và mạng nơ-ron nhị phân (Binarized Neural Network - BNN). SNN mô phỏng hoạt động của nơ-ron sinh học thông qua các xung điện thế màng, cho phép xử lý dữ liệu theo sự kiện, tiết kiệm năng lượng và phù hợp với các hệ thống nhúng. BNN sử dụng trọng số và đầu vào nhị phân hóa, thay thế các phép toán nhân phức tạp bằng các phép toán logic bit như XNOR và POPCOUNT, giúp giảm đáng kể yêu cầu về bộ nhớ và tính toán.

Mô hình BSNN kết hợp ưu điểm của SNN và BNN, trong đó toàn bộ trọng số được nhị phân hóa, đầu vào và đầu ra là các xung nhị phân, giúp giảm thiểu tài nguyên lưu trữ và tăng tốc độ tính toán. Các khái niệm chính bao gồm:

  • Tích lũy và phát xung (Integrate-and-Fire - IF): Mô hình nơ-ron xung cơ bản tích lũy điện thế màng và phát xung khi vượt ngưỡng.
  • Kiến trúc tính toán trong bộ nhớ (In-Memory Computing - IMC): Thực hiện các phép tính ngay tại bộ nhớ để giảm thiểu chi phí truyền dữ liệu và tăng hiệu suất.
  • Tấn công đối nghịch (Adversarial Attack): Phương pháp thêm nhiễu tinh vi vào dữ liệu đầu vào nhằm đánh lừa mô hình mạng nơ-ron.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp tổng hợp lý thuyết và thực nghiệm. Dữ liệu được thu thập từ các tập dữ liệu chuẩn trong lĩnh vực phân loại ảnh gồm MNIST (70.000 ảnh), Fashion-MNIST (70.000 ảnh), CIFAR-10 (60.000 ảnh) và CIFAR-100 (60.000 ảnh). Cỡ mẫu nghiên cứu tương ứng với số lượng ảnh trong các tập dữ liệu này.

Phương pháp phân tích bao gồm:

  • Xây dựng và huấn luyện mô hình BSNN với toàn bộ trọng số nhị phân hóa.
  • Đề xuất kiến trúc tính toán trong bộ nhớ dựa trên phép tính XNOR để thực thi mô hình BSNN trên phần cứng nhúng.
  • Thử nghiệm các phương pháp huấn luyện nâng cao như Enhanced Fast Adversarial Training (EFAT) để cải thiện khả năng phòng thủ trước tấn công đối nghịch.
  • Đánh giá hiệu năng mô hình qua các chỉ số độ chính xác phân loại, khả năng chống chịu tấn công và hiệu quả sử dụng tài nguyên.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ 2022 đến 2024, sử dụng ngôn ngữ lập trình Python và framework PyTorch để mô phỏng và đánh giá các mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả mô hình BSNN: Mô hình BSNN với toàn bộ trọng số nhị phân hóa đạt độ chính xác phân loại lần lượt là 92% trên Fashion-MNIST, 85% trên CIFAR-10 và 65% trên CIFAR-100. So với các mô hình BNN truyền thống, BSNN giảm được khoảng 30-50% yêu cầu bộ nhớ và tăng tốc độ tính toán lên đến 58 lần nhờ sử dụng phép tính XNOR trong kiến trúc IMC.

  2. Kiến trúc tính toán trong bộ nhớ: Kiến trúc IMC đề xuất dựa trên mảng XNOR giúp thực thi các phép tính nhân-cộng (MAC) hiệu quả, giảm thiểu đáng kể chi phí truyền dữ liệu giữa bộ nhớ và bộ xử lý. Thời gian thực thi mô hình trên phần cứng nhúng giảm khoảng 40% so với kiến trúc truyền thống.

  3. Khả năng phòng thủ trước tấn công đối nghịch: Phương pháp huấn luyện EFAT cải thiện khả năng chống chịu tấn công FGSM và PGD trên BSNN, tăng độ chính xác phân loại sau tấn công từ khoảng 50% lên trên 75% trên tập CIFAR-10. So sánh với huấn luyện Fast Adversarial Training (FAT), EFAT cho thấy hiệu quả vượt trội trong việc duy trì độ chính xác và ổn định mô hình.

  4. Ảnh hưởng của các tham số huấn luyện: Việc điều chỉnh bậc thời gian không đồng nhất và hệ số tỷ lệ stochastic (SNG) trong quá trình huấn luyện BSNN ảnh hưởng tích cực đến độ chính xác và khả năng kháng nhiễu, với mức tăng độ chính xác lên đến 5% khi tối ưu các tham số này.

Thảo luận kết quả

Kết quả cho thấy BSNN là mô hình mạng nơ-ron xung nhị phân phù hợp để triển khai trên các thiết bị Edge-AI với yêu cầu tiết kiệm năng lượng và tài nguyên. Việc nhị phân hóa toàn bộ trọng số giúp giảm đáng kể kích thước mô hình và chi phí tính toán, đồng thời kiến trúc IMC dựa trên phép tính XNOR tận dụng hiệu quả khả năng xử lý song song và giảm thiểu truyền dữ liệu.

Khả năng phòng thủ trước tấn công đối nghịch được cải thiện rõ rệt nhờ phương pháp huấn luyện EFAT, điều này rất quan trọng trong các ứng dụng quân sự và an ninh, nơi tính bảo mật và độ tin cậy của hệ thống AI là ưu tiên hàng đầu. So sánh với các nghiên cứu trước đây, luận văn đã lần đầu tiên công bố kết quả phòng thủ trên mô hình BSNN, mở ra hướng nghiên cứu mới cho các mô hình mạng nơ-ron xung nhị phân.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác phân loại giữa các mô hình, biểu đồ hiệu năng tính toán trên phần cứng và bảng tổng hợp kết quả tấn công đối nghịch với các phương pháp huấn luyện khác nhau, giúp minh họa rõ ràng hiệu quả của các đề xuất.

Đề xuất và khuyến nghị

  1. Triển khai mô hình BSNN trên thiết bị Edge-AI: Khuyến nghị các nhà phát triển phần cứng tích hợp kiến trúc tính toán trong bộ nhớ dựa trên phép tính XNOR để thực thi BSNN, nhằm giảm thiểu tiêu thụ năng lượng và tăng tốc độ xử lý. Thời gian thực hiện đề xuất trong vòng 1-2 năm.

  2. Áp dụng phương pháp huấn luyện EFAT: Đề xuất các nhóm nghiên cứu và doanh nghiệp triển khai huấn luyện nâng cao EFAT cho các mô hình mạng nơ-ron nhị phân và xung để tăng cường khả năng phòng thủ trước tấn công đối nghịch, đặc biệt trong các ứng dụng an ninh và quân sự. Thời gian áp dụng từ 6 tháng đến 1 năm.

  3. Tối ưu tham số huấn luyện BSNN: Khuyến nghị nghiên cứu tiếp tục tối ưu các tham số như bậc thời gian không đồng nhất và hệ số tỷ lệ stochastic để nâng cao độ chính xác và độ bền vững của mô hình, phù hợp với từng ứng dụng cụ thể. Thời gian nghiên cứu tiếp theo khoảng 1 năm.

  4. Phát triển phần cứng chuyên dụng cho BSNN: Đề xuất thiết kế và sản xuất các vi mạch chuyên dụng hỗ trợ tính toán mạng nơ-ron xung nhị phân, tận dụng ưu điểm của kiến trúc IMC để phục vụ các thiết bị nhúng và Edge-AI. Thời gian phát triển dự kiến 2-3 năm.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và phát triển AI: Luận văn cung cấp kiến thức chuyên sâu về mô hình mạng nơ-ron xung nhị phân và phương pháp huấn luyện phòng thủ, hỗ trợ nghiên cứu phát triển các mô hình AI tiết kiệm năng lượng.

  2. Kỹ sư phần cứng nhúng: Các kỹ sư thiết kế phần cứng có thể áp dụng kiến trúc tính toán trong bộ nhớ và các phép toán XNOR để tối ưu hóa hiệu năng và tiết kiệm năng lượng cho thiết bị Edge-AI.

  3. Chuyên gia an ninh mạng và AI: Những người quan tâm đến bảo mật AI sẽ tìm thấy các phương pháp phòng thủ hiệu quả trước tấn công đối nghịch, giúp nâng cao độ tin cậy của hệ thống AI trong môi trường thực tế.

  4. Doanh nghiệp phát triển thiết bị Edge-AI: Các công ty sản xuất thiết bị nhúng, thiết bị không người lái, cảm biến thông minh có thể ứng dụng kết quả nghiên cứu để cải thiện hiệu suất và bảo mật sản phẩm.

Câu hỏi thường gặp

  1. Mô hình BSNN khác gì so với mạng nơ-ron truyền thống?
    BSNN sử dụng trọng số và đầu vào nhị phân hóa, kết hợp với cơ chế phát xung của mạng nơ-ron xung, giúp giảm đáng kể tài nguyên tính toán và năng lượng tiêu thụ so với mạng nơ-ron truyền thống sử dụng giá trị thực liên tục.

  2. Kiến trúc tính toán trong bộ nhớ (IMC) có ưu điểm gì?
    IMC thực hiện các phép tính ngay tại bộ nhớ, giảm thiểu chi phí truyền dữ liệu giữa bộ nhớ và bộ xử lý, từ đó tăng tốc độ xử lý và tiết kiệm năng lượng, rất phù hợp với các thiết bị nhúng.

  3. Tấn công đối nghịch là gì và tại sao cần phòng thủ?
    Tấn công đối nghịch là kỹ thuật thêm nhiễu tinh vi vào dữ liệu đầu vào để đánh lừa mô hình AI, gây ra kết quả sai lệch nghiêm trọng. Phòng thủ giúp bảo vệ hệ thống AI khỏi các mối đe dọa này, đảm bảo độ tin cậy và an toàn.

  4. Phương pháp huấn luyện EFAT có điểm gì nổi bật?
    EFAT là phương pháp huấn luyện nâng cao giúp cải thiện khả năng phòng thủ của mô hình trước các tấn công đối nghịch, duy trì độ chính xác cao ngay cả khi dữ liệu đầu vào bị nhiễu.

  5. Ứng dụng thực tế của BSNN trên thiết bị Edge-AI là gì?
    BSNN phù hợp với các thiết bị nhúng như camera giám sát, thiết bị không người lái, cảm biến thông minh, nơi yêu cầu tiết kiệm năng lượng và tài nguyên, đồng thời cần xử lý dữ liệu thời gian thực và bảo mật cao.

Kết luận

  • Luận văn đã phát triển thành công mô hình mạng nơ-ron xung nhị phân (BSNN) với toàn bộ trọng số nhị phân hóa, phù hợp cho các thiết bị Edge-AI.
  • Đề xuất kiến trúc tính toán trong bộ nhớ dựa trên phép tính XNOR giúp giảm thiểu chi phí tính toán và tăng tốc độ xử lý.
  • Phương pháp huấn luyện EFAT nâng cao khả năng phòng thủ trước tấn công đối nghịch, bảo vệ độ chính xác của mô hình.
  • Kết quả thực nghiệm trên các tập dữ liệu MNIST, Fashion-MNIST, CIFAR-10 và CIFAR-100 chứng minh hiệu quả và tính ứng dụng cao của các đề xuất.
  • Đề xuất các bước tiếp theo bao gồm phát triển phần cứng chuyên dụng và tối ưu tham số huấn luyện để ứng dụng rộng rãi trong các hệ thống nhúng và quân sự.

Hành động tiếp theo: Các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng và phát triển các giải pháp BSNN và EFAT để nâng cao hiệu quả và bảo mật cho các thiết bị Edge-AI trong thực tế.