Tổng quan nghiên cứu
Trạm biến áp (TBA) đóng vai trò then chốt trong việc đảm bảo tính ổn định cung cấp điện năng cho các khu vực dân cư, công nghiệp và dịch vụ. Theo ước tính, mỗi trạm biến áp thường được trang bị từ 15 đến 20 camera giám sát với tốc độ trung bình khoảng 25 FPS, tạo ra một lượng dữ liệu hình ảnh lớn cần xử lý liên tục. Tuy nhiên, việc giám sát hiện nay chủ yếu dựa vào lực lượng bảo vệ thủ công, dẫn đến nhiều sai sót và thiếu hiệu quả trong phát hiện các hành vi đột nhập trái phép, vi phạm an toàn lao động như không đội mũ bảo hộ.
Mục tiêu của luận văn là xây dựng một hệ thống giám sát thông minh tích hợp mô hình Deep Learning có khả năng nhận diện người với độ chính xác cao trong môi trường đặc thù của trạm biến áp. Hệ thống này sẽ phát hiện người đột nhập, cảnh báo khi người vi phạm phạm vi làm việc cho phép hoặc không đội mũ bảo hộ, đồng thời tối ưu hóa mô hình để triển khai trên các nền tảng phần cứng khác nhau, bao gồm cả máy chủ và thiết bị biên (Edge Devices). Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ các camera giám sát tại trạm biến áp, với thời gian thực hiện từ tháng 2 đến tháng 6 năm 2022.
Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao an toàn lao động, giảm thiểu rủi ro cháy nổ và thiệt hại tài sản, đồng thời giảm tải công việc cho lực lượng bảo vệ bằng hệ thống giám sát tự động, xử lý dữ liệu thời gian thực với tốc độ xử lý lên đến 441 FPS trên máy chủ và 168 FPS trên thiết bị biên.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn áp dụng các mô hình Deep Learning tiên tiến trong lĩnh vực nhận diện vật thể và phân loại ảnh, bao gồm:
Mô hình EfficientDet: Một mô hình Object Detection được phát triển dựa trên mạng EfficientNet với kiến trúc Bi-directional Feature Pyramid Network (Bi-FPN). EfficientDet nổi bật với khả năng đạt 55% COCO AP trong khi sử dụng ít FLOPS, giúp nhận diện vật thể nhỏ như người trong môi trường phức tạp của trạm biến áp.
Mô hình YOLOv5: Mô hình Object Detection nhanh và chính xác, sử dụng kiến trúc CSP DarkNet kết hợp với Path Aggregation Network (PA Net) để cải thiện khả năng định vị vật thể. YOLOv5 hỗ trợ xử lý đa kích thước vật thể, phù hợp với các góc nhìn khác nhau trong trạm biến áp.
Mô hình ResNet-50: Mạng Residual Network 50 lớp dùng cho bài toán phân loại ảnh, đặc biệt được sử dụng để phân biệt người đội mũ bảo hộ hay không. ResNet-50 giải quyết vấn đề vanishing gradient bằng các kết nối tắt (skip connections), giúp tăng độ sâu mạng mà vẫn duy trì hiệu quả huấn luyện.
Các khái niệm chính bao gồm Intersection over Union (IoU), Precision, Recall, mAP (mean Average Precision) cho đánh giá mô hình Object Detection, cùng với Accuracy, Confusion Matrix, F1-score và AUC cho đánh giá mô hình Classification.
Phương pháp nghiên cứu
Nguồn dữ liệu được sử dụng bao gồm ba bộ dataset chính: COCO 2017 (34,212 ảnh người trong tập huấn luyện), Substation Dataset (483 ảnh người trong trạm biến áp), và Youtube Dataset (2,821 ảnh người trong điều kiện thiếu sáng). Ngoài ra, các ảnh không có người cũng được bổ sung để giảm tỷ lệ False Positive, với khoảng 5,259 ảnh không người từ các bộ dữ liệu trên.
Phương pháp phân tích gồm:
Huấn luyện mô hình EfficientDet-D1 và YOLOv5-m trên tập dữ liệu kết hợp, sử dụng GPU RTX 3090 với batch size lần lượt 16 và 32, learning rate 8e-2 và 1e-3.
Huấn luyện mô hình ResNet-50 cho bài toán phân loại đội mũ bảo hộ với dữ liệu cân bằng gồm 2,464 ảnh huấn luyện và 817 ảnh validation.
Tối ưu hóa mô hình bằng NVIDIA TensorRT với kỹ thuật Reduce Mixed Precision và Layer Tensor Fusion để tăng tốc độ suy luận.
Triển khai hệ thống giám sát kết hợp giữa Cloud Computing và Edge Computing, sử dụng NVIDIA Triton Inference Server và DeepStream SDK để xử lý luồng video RTSP từ các camera.
Timeline nghiên cứu kéo dài từ tháng 2 đến tháng 6 năm 2022, bao gồm các giai đoạn thu thập dữ liệu, huấn luyện mô hình, tối ưu hóa và triển khai hệ thống.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Độ chính xác mô hình nhận diện người: Mô hình EfficientDet-D1 đạt độ chính xác AP@50 là 79.43% trong môi trường trạm biến áp, tương đương với YOLOv5-m nhưng với hiệu năng tính toán thấp hơn.
Tốc độ xử lý mô hình: Hệ thống đạt tốc độ suy luận AI lên đến 441 FPS trên máy chủ và 168 FPS khi thực thi trên thiết bị biên, cho phép xử lý đồng thời 16 camera với tốc độ 25 FPS mỗi camera.
Hiệu quả mô hình phân loại mũ bảo hộ: Mô hình ResNet-50 phân loại chính xác người đội mũ bảo hộ với độ chính xác trên 90%, giúp giảm thiểu nhầm lẫn trong cảnh báo an toàn.
Tối ưu hóa mô hình: Việc áp dụng TensorRT với kỹ thuật giảm độ chính xác hỗn hợp và hợp nhất lớp mạng giúp tăng tốc độ xử lý lên đến 2-3 lần mà không làm giảm đáng kể độ chính xác.
Thảo luận kết quả
Nguyên nhân của hiệu quả cao đến từ việc lựa chọn mô hình phù hợp với đặc thù dữ liệu trạm biến áp, kết hợp với kỹ thuật tăng cường dữ liệu (data augmentation) giúp mô hình nhận diện tốt trong nhiều điều kiện ánh sáng và góc nhìn khác nhau. So với các nghiên cứu trước đây chỉ tập trung vào phát hiện thiết bị hoặc sự cố, luận văn đã mở rộng phạm vi sang phát hiện con người và vi phạm an toàn lao động, góp phần nâng cao tính ứng dụng thực tiễn.
Biểu đồ Precision-Recall và đường cong ROC minh họa rõ sự cân bằng giữa độ chính xác và khả năng phát hiện của các mô hình. Bảng so sánh hiệu năng cho thấy mô hình YOLOv5-m có tốc độ xử lý nhanh hơn nhưng chiếm nhiều tài nguyên hơn so với EfficientDet-D1. Việc triển khai kết hợp giữa Edge Devices và Server giúp cân bằng tải, đảm bảo hệ thống hoạt động ổn định và thời gian thực.
Đề xuất và khuyến nghị
Triển khai hệ thống giám sát thông minh tại các trạm biến áp: Áp dụng mô hình nhận diện người và phân loại mũ bảo hộ để tự động phát hiện và cảnh báo vi phạm an toàn, giảm thiểu rủi ro cháy nổ và tai nạn lao động. Thời gian thực hiện trong vòng 6 tháng, chủ thể là các đơn vị quản lý trạm biến áp.
Tối ưu hóa phần cứng và phần mềm: Sử dụng các thiết bị biên có khả năng xử lý AI như Jetson Nano kết hợp với máy chủ GPU mạnh để đảm bảo tốc độ xử lý và độ ổn định hệ thống. Đề xuất nâng cấp hạ tầng công nghệ trong 12 tháng.
Đào tạo và nâng cao nhận thức cho nhân viên vận hành: Tổ chức các khóa đào tạo về sử dụng hệ thống giám sát và an toàn lao động, giúp nhân viên hiểu rõ các cảnh báo và quy trình xử lý. Thời gian đào tạo 3 tháng, do phòng nhân sự phối hợp với kỹ thuật.
Nghiên cứu mở rộng ứng dụng AI trong giám sát thiết bị và sự cố: Phát triển thêm các mô hình phát hiện sự cố thiết bị, cháy nổ, và các yếu tố ngoại cảnh khác để tăng cường an toàn toàn diện cho trạm biến áp. Kế hoạch nghiên cứu trong 1-2 năm tiếp theo, phối hợp với các viện nghiên cứu và doanh nghiệp công nghệ.
Đối tượng nên tham khảo luận văn
Các kỹ sư và chuyên gia trong lĩnh vực kỹ thuật điều khiển và tự động hóa: Nghiên cứu cung cấp giải pháp ứng dụng Deep Learning trong giám sát công nghiệp, giúp cải thiện hiệu quả và độ chính xác trong phát hiện sự cố.
Nhà quản lý và vận hành trạm biến áp: Hệ thống giám sát thông minh giúp giảm thiểu rủi ro an toàn, nâng cao hiệu quả quản lý và giảm chi phí nhân lực.
Các nhà phát triển phần mềm và công nghệ AI: Luận văn trình bày chi tiết quy trình huấn luyện, tối ưu và triển khai mô hình Deep Learning trên nền tảng phần cứng đa dạng, là tài liệu tham khảo quý giá cho phát triển sản phẩm AI thực tế.
Sinh viên và nghiên cứu sinh ngành kỹ thuật điện, điện tử và tự động hóa: Cung cấp kiến thức chuyên sâu về mô hình Deep Learning, kỹ thuật xử lý ảnh và ứng dụng trong môi trường công nghiệp đặc thù.
Câu hỏi thường gặp
Mô hình Deep Learning nào được sử dụng để nhận diện người trong trạm biến áp?
Luận văn sử dụng hai mô hình chính là EfficientDet-D1 và YOLOv5-m, trong đó EfficientDet-D1 đạt độ chính xác AP@50 là 79.43% và được tối ưu để phù hợp với môi trường trạm biến áp.Hệ thống có thể xử lý bao nhiêu camera cùng lúc?
Hệ thống được triển khai có khả năng xử lý đồng thời 16 camera với tốc độ xử lý 25 FPS mỗi camera, đảm bảo giám sát thời gian thực hiệu quả.Làm thế nào để hệ thống phát hiện người không đội mũ bảo hộ?
Sau khi phát hiện người, hệ thống sử dụng mô hình phân loại ResNet-50 để xác định người có đội mũ bảo hộ hay không với độ chính xác trên 90%, từ đó gửi cảnh báo kịp thời.Phương pháp tối ưu hóa mô hình Deep Learning được áp dụng là gì?
Luận văn áp dụng NVIDIA TensorRT với kỹ thuật Reduce Mixed Precision và Layer Tensor Fusion giúp tăng tốc độ suy luận mà không làm giảm đáng kể độ chính xác của mô hình.Hệ thống có thể triển khai trên nền tảng phần cứng nào?
Hệ thống được thiết kế để triển khai linh hoạt trên máy chủ GPU mạnh mẽ và các thiết bị biên như Jetson Nano, giúp giảm tải cho máy chủ và tăng tính ổn định.
Kết luận
- Luận văn đã xây dựng thành công mô hình nhận diện người với độ chính xác AP@50 đạt 79.43% trong môi trường trạm biến áp đặc thù.
- Hệ thống giám sát thông minh kết hợp giữa Edge Devices và Server đạt tốc độ xử lý lên đến 441 FPS trên máy chủ và 168 FPS trên thiết bị biên, xử lý đồng thời 16 camera với 25 FPS mỗi camera.
- Mô hình phân loại ResNet-50 giúp phát hiện người không đội mũ bảo hộ với độ chính xác cao, góp phần nâng cao an toàn lao động.
- Việc tối ưu hóa mô hình bằng TensorRT giúp tăng tốc độ xử lý mà vẫn duy trì độ chính xác, phù hợp với yêu cầu thời gian thực của hệ thống.
- Các bước tiếp theo bao gồm triển khai thực tế tại các trạm biến áp, đào tạo nhân viên vận hành và mở rộng nghiên cứu ứng dụng AI trong giám sát thiết bị và sự cố.
Để nâng cao hiệu quả và an toàn trong vận hành trạm biến áp, các đơn vị quản lý và kỹ thuật nên cân nhắc áp dụng hệ thống giám sát thông minh dựa trên các kết quả nghiên cứu này.