Tổng quan nghiên cứu

Trong bối cảnh đại dịch Covid-19 đã và đang ảnh hưởng sâu rộng đến toàn cầu, việc kiểm soát và phòng chống dịch bệnh trở thành ưu tiên hàng đầu. Theo WHO, việc đeo khẩu trang và kiểm tra nhiệt độ cơ thể là những biện pháp hiệu quả nhằm hạn chế sự lây lan của virus. Tại Việt Nam, trong trạng thái “bình thường mới”, các biện pháp này càng được chú trọng nhằm vừa bảo vệ sức khỏe cộng đồng vừa thúc đẩy phục hồi kinh tế. Trước thực tế đó, việc ứng dụng công nghệ nhận diện khuôn mặt đeo khẩu trang kết hợp đo nhiệt độ cơ thể để kiểm soát ra vào các khu vực công cộng là một giải pháp thiết thực.

Mục tiêu nghiên cứu là thiết kế và triển khai một hệ thống mở cửa tự động dựa trên công nghệ nhận diện khuôn mặt có đeo khẩu trang và đo nhiệt độ cơ thể thấp, nhằm đảm bảo an toàn dịch bệnh. Hệ thống được phát triển trên nền tảng phần cứng Raspberry Pi 4 và vi điều khiển STM32, sử dụng mô hình mạng nơ-ron MobileNetV2 để nhận diện khẩu trang trong thời gian thực. Phạm vi nghiên cứu tập trung vào việc xử lý hình ảnh khuôn mặt trong điều kiện ánh sáng ban ngày và khoảng cách nhận diện tối ưu khoảng 40cm, tại môi trường thực tế trong các khu vực có lưu lượng người qua lại cao.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả kiểm soát dịch bệnh, giảm thiểu tiếp xúc trực tiếp và tăng tính tự động hóa trong các hệ thống kiểm soát ra vào. Hệ thống còn góp phần thúc đẩy ứng dụng trí tuệ nhân tạo và công nghệ nhúng trong lĩnh vực an ninh và y tế công cộng, đồng thời cung cấp nền tảng cho các giải pháp tương tự trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết và mô hình chính:

  1. Kiến trúc mạng MobileNetV2: Đây là mạng nơ-ron tích chập (CNN) được thiết kế tối ưu cho các thiết bị nhúng với ưu điểm là số lượng tham số ít, tốc độ xử lý nhanh và độ chính xác cao. MobileNetV2 sử dụng khối Inverted Residual với Linear Bottleneck, giúp giảm thiểu mất mát thông tin do các phép biến đổi phi tuyến tính như ReLU, đồng thời tận dụng lớp tích chập phân tách theo chiều sâu (Depthwise Separable Convolution) để giảm độ phức tạp tính toán.

  2. Xử lý ảnh và nhận diện khuôn mặt: Sử dụng các thuật toán phát hiện khuôn mặt dựa trên thư viện OpenCV và mô hình đã được huấn luyện sẵn để xác định vị trí khuôn mặt trong ảnh. Sau đó, ảnh khuôn mặt được đưa vào mô hình MobileNetV2 để phân loại có đeo khẩu trang hay không.

Các khái niệm chính bao gồm: Depthwise Separable Convolution (DSC), khối Inverted Residual, Linear Bottleneck, hàm kích hoạt ReLU6, và kỹ thuật tăng cường dữ liệu (data augmentation) nhằm cải thiện hiệu suất mô hình.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng gồm khoảng 1900 ảnh khuôn mặt có khẩu trang và 1900 ảnh không có khẩu trang, thu thập từ các bộ dữ liệu công khai như Kaggle và Real-World Face Dataset (RWFD). Dữ liệu được tiền xử lý bao gồm resize ảnh về kích thước phù hợp, chuẩn hóa giá trị pixel về khoảng (-1,1), mã hóa nhãn và chia thành tập huấn luyện và kiểm tra.

Phương pháp phân tích bao gồm:

  • Huấn luyện mô hình MobileNetV2 trên tập dữ liệu đã tăng cường bằng kỹ thuật ImageDataGenerator với các tham số như xoay ảnh, phóng to, dịch chuyển và lật ngang.
  • Đánh giá mô hình bằng các chỉ số precision, recall, f1-score và accuracy thông qua confusion matrix.
  • Thiết kế phần cứng gồm Raspberry Pi 4 làm bộ xử lý trung tâm nhận diện khuôn mặt, vi điều khiển STM32F051R8T6 điều khiển cảm biến nhiệt độ và servo đóng mở cửa.
  • Giao tiếp giữa Raspberry Pi và STM32 qua chuẩn UART với module FT232RL làm mạch trung gian.
  • Thời gian nghiên cứu kéo dài trong khoảng năm 2022, tập trung tại môi trường thực nghiệm của Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh.

Cỡ mẫu phần cứng được lựa chọn dựa trên khả năng xử lý và chi phí hợp lý: Raspberry Pi 4 với 4GB RAM và vi điều khiển STM32 với 64kB ROM, 8kB RAM, đủ đáp ứng yêu cầu xử lý và điều khiển thiết bị ngoại vi.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất mô hình nhận diện khẩu trang: Mô hình MobileNetV2 đạt độ chính xác cao trên tập kiểm tra với accuracy khoảng 95%, đồng thời các chỉ số precision và recall đều trên 93%, cho thấy khả năng phân biệt chính xác giữa người đeo và không đeo khẩu trang. Đồ thị loss và accuracy thể hiện sự hội tụ ổn định sau khoảng 20 epoch huấn luyện.

  2. Khả năng nhận diện trong điều kiện thực tế: Hệ thống nhận diện tốt nhất ở khoảng cách 40cm trong điều kiện ánh sáng ban ngày. Khi ánh sáng yếu hoặc khoảng cách vượt quá 60cm, độ chính xác giảm khoảng 15-20%, do ảnh hưởng của chất lượng hình ảnh và độ phân giải camera.

  3. Độ trễ và hiệu năng hệ thống: Thời gian xử lý trung bình cho mỗi khung hình là khoảng 0.3 giây trên Raspberry Pi 4, đảm bảo khả năng nhận diện gần như thời gian thực. Vi điều khiển STM32 xử lý tín hiệu nhiệt độ và điều khiển servo đóng mở cửa với độ trễ dưới 0.1 giây.

  4. Tiêu thụ năng lượng: Tổng công suất tiêu thụ của hệ thống khoảng 38.7W, trong đó Raspberry Pi 4 chiếm 10W, STM32 chiếm 15.75W, các module cảm biến và thiết bị ngoại vi chiếm phần còn lại. Hệ thống có thể hoạt động liên tục trong nhiều giờ với nguồn cấp ổn định.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình đạt hiệu quả cao là do việc áp dụng kiến trúc MobileNetV2 với khối Inverted Residual và Linear Bottleneck, giúp giảm thiểu mất mát thông tin và tăng khả năng trích xuất đặc trưng từ ảnh khuôn mặt. Việc tăng cường dữ liệu trong quá trình huấn luyện cũng góp phần nâng cao khả năng tổng quát của mô hình trong các điều kiện ánh sáng và góc nhìn khác nhau.

So sánh với các nghiên cứu trước đây sử dụng CNN truyền thống hoặc các phương pháp dựa trên điểm đặc trưng khuôn mặt, mô hình MobileNetV2 cho thấy ưu thế vượt trội về tốc độ và độ chính xác, đồng thời phù hợp với các thiết bị nhúng có tài nguyên hạn chế như Raspberry Pi.

Việc tách riêng phần nhận diện và phần điều khiển cảm biến giúp hệ thống hoạt động ổn định và dễ dàng mở rộng. Tuy nhiên, hạn chế hiện tại là độ chính xác giảm khi điều kiện ánh sáng kém hoặc khoảng cách xa, điều này có thể được cải thiện trong các nghiên cứu tiếp theo bằng cách sử dụng camera có độ phân giải cao hơn hoặc thuật toán xử lý ảnh nâng cao.

Dữ liệu có thể được trình bày qua biểu đồ accuracy và loss theo epoch, bảng so sánh các chỉ số precision, recall, f1-score giữa các điều kiện thử nghiệm, cũng như bảng thống kê công suất tiêu thụ từng bộ phận.

Đề xuất và khuyến nghị

  1. Tối ưu hóa thuật toán nhận diện: Nâng cấp mô hình bằng cách tích hợp các kỹ thuật xử lý ảnh tiền đề như cân bằng sáng tự động, lọc nhiễu để cải thiện độ chính xác trong điều kiện ánh sáng yếu. Mục tiêu tăng độ chính xác thêm 5% trong vòng 6 tháng, do nhóm phát triển phần mềm thực hiện.

  2. Cải tiến phần cứng camera: Sử dụng camera có độ phân giải cao hơn hoặc camera hồng ngoại để tăng khả năng nhận diện trong môi trường thiếu sáng. Thời gian triển khai dự kiến 3 tháng, do bộ phận kỹ thuật phần cứng đảm nhiệm.

  3. Mở rộng tính năng hệ thống: Thêm chức năng nhận diện khẩu trang sai cách (khẩu trang không che mũi hoặc cằm) và cảnh báo tự động. Mục tiêu nâng cao tính an toàn và tuân thủ quy định phòng dịch, thực hiện trong 9 tháng, phối hợp giữa nhóm nghiên cứu và đơn vị quản lý.

  4. Tối ưu năng lượng và thiết kế hệ thống: Nghiên cứu sử dụng nguồn năng lượng tiết kiệm hơn, đồng thời thiết kế vỏ bảo vệ chống nước, bụi để hệ thống có thể hoạt động ổn định ngoài trời. Thời gian thực hiện 6 tháng, do nhóm kỹ thuật phần cứng và thiết kế sản phẩm đảm nhận.

  5. Đào tạo và hướng dẫn sử dụng: Xây dựng tài liệu hướng dẫn vận hành và bảo trì hệ thống cho các đơn vị sử dụng, nhằm đảm bảo hiệu quả lâu dài. Thời gian chuẩn bị 2 tháng, do nhóm nghiên cứu phối hợp với phòng đào tạo.

Đối tượng nên tham khảo luận văn

  1. Các nhà nghiên cứu và sinh viên ngành Công nghệ Kỹ thuật Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng mạng MobileNetV2 trong xử lý ảnh và nhận diện khuôn mặt, đồng thời minh họa cách tích hợp phần mềm và phần cứng trong hệ thống nhúng.

  2. Các kỹ sư phát triển hệ thống nhúng và IoT: Nội dung chi tiết về thiết kế phần cứng, giao tiếp giữa Raspberry Pi và STM32, cũng như quản lý năng lượng giúp các kỹ sư có thể áp dụng hoặc phát triển các hệ thống tương tự trong thực tế.

  3. Đơn vị quản lý an ninh và y tế công cộng: Hệ thống mở cửa tự động kết hợp nhận diện khẩu trang và đo nhiệt độ cơ thể là giải pháp hữu ích trong kiểm soát dịch bệnh tại các khu vực công cộng, giúp giảm thiểu tiếp xúc và tăng cường an toàn.

  4. Các nhà phát triển phần mềm ứng dụng AI trong thực tế: Luận văn trình bày quy trình xây dựng, huấn luyện và đánh giá mô hình AI trên nền tảng thực tế, cung cấp ví dụ cụ thể về cách triển khai mô hình trên thiết bị nhúng với các thư viện phổ biến như TensorFlow, Keras, OpenCV.

Câu hỏi thường gặp

  1. Hệ thống có thể nhận diện khẩu trang trong điều kiện ánh sáng yếu không?
    Hệ thống hoạt động tốt nhất trong điều kiện ánh sáng ban ngày với khoảng cách nhận diện tối ưu khoảng 40cm. Trong điều kiện ánh sáng yếu, độ chính xác giảm khoảng 15-20% do chất lượng hình ảnh kém. Việc sử dụng camera hồng ngoại hoặc cải tiến thuật toán xử lý ảnh có thể cải thiện vấn đề này.

  2. Mô hình MobileNetV2 có phù hợp để triển khai trên các thiết bị nhúng khác không?
    MobileNetV2 được thiết kế tối ưu cho các thiết bị nhúng với tài nguyên hạn chế, do đó có thể triển khai trên nhiều nền tảng như điện thoại di động, các board nhúng khác ngoài Raspberry Pi 4, miễn là có đủ bộ nhớ và khả năng xử lý.

  3. Hệ thống có thể phát hiện người không đeo khẩu trang hoặc đeo khẩu trang sai cách không?
    Hiện tại hệ thống chỉ phân loại được hai trạng thái: có đeo khẩu trang và không đeo khẩu trang. Việc nhận diện khẩu trang sai cách chưa được tích hợp nhưng có thể được phát triển thêm trong các phiên bản tiếp theo.

  4. Thời gian xử lý một khung hình của hệ thống là bao lâu?
    Thời gian xử lý trung bình trên Raspberry Pi 4 là khoảng 0.3 giây cho mỗi khung hình, đảm bảo khả năng nhận diện gần như thời gian thực, phù hợp với các ứng dụng kiểm soát ra vào.

  5. Hệ thống có thể mở rộng để tích hợp thêm các cảm biến khác không?
    Có, thiết kế phần cứng và phần mềm của hệ thống cho phép tích hợp thêm các cảm biến như cảm biến chuyển động, cảm biến khoảng cách, hoặc các thiết bị IoT khác để nâng cao tính năng và hiệu quả hoạt động.

Kết luận

  • Đã thiết kế và triển khai thành công hệ thống mở cửa tự động dựa trên nhận diện khuôn mặt có đeo khẩu trang và đo nhiệt độ cơ thể thấp, sử dụng Raspberry Pi 4 và STM32.
  • Mô hình MobileNetV2 được huấn luyện với độ chính xác trên 95%, phù hợp cho ứng dụng trên thiết bị nhúng với tốc độ xử lý nhanh và hiệu quả.
  • Hệ thống hoạt động ổn định trong điều kiện ánh sáng ban ngày và khoảng cách nhận diện tối ưu 40cm, tiêu thụ năng lượng khoảng 38.7W.
  • Các đề xuất cải tiến tập trung vào nâng cao khả năng nhận diện trong điều kiện ánh sáng yếu, mở rộng tính năng và tối ưu năng lượng.
  • Khuyến nghị triển khai thử nghiệm thực tế tại các khu vực công cộng để đánh giá hiệu quả và thu thập dữ liệu cải tiến trong giai đoạn tiếp theo.

Để tiếp tục phát triển, nhóm nghiên cứu kêu gọi các đơn vị, tổ chức quan tâm phối hợp thử nghiệm và ứng dụng hệ thống trong thực tế, đồng thời mở rộng nghiên cứu về các thuật toán nhận diện nâng cao và tích hợp đa cảm biến nhằm tăng cường hiệu quả phòng chống dịch bệnh.