## Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và trí tuệ nhân tạo, việc ứng dụng các giải pháp tự động hóa trong giám sát an ninh ngày càng trở nên cấp thiết. Tại Việt Nam, các nhà mạng lớn như VNPT, Viettel, FPT đang vận hành hơn 1000 trạm viễn thông mỗi đơn vị, trong đó nhiều trạm không có người trực để giảm chi phí nhân sự nhưng vẫn phải đảm bảo hoạt động liên tục 24/7. Thực tế, trong năm 2020, đã ghi nhận khoảng 7 vụ trộm cắp ắc quy tại các trạm viễn thông ở các khu vực xa dân cư, cùng với các sự cố cháy nổ và ngập nước gây gián đoạn dịch vụ, ảnh hưởng nghiêm trọng đến chất lượng mạng.
Luận văn tập trung nghiên cứu và phát triển giải pháp nhận diện người xâm nhập nhà trạm viễn thông dựa trên công nghệ nhận dạng hành động trong video, nhằm nâng cao hiệu quả giám sát và cảnh báo kịp thời. Mục tiêu chính là xây dựng mô hình kết hợp trình rút trích đặc trưng 2D và 3D để nhận dạng chính xác các hành động như đi, đứng, cầm, nắm, chạm… của người trong video giám sát. Phạm vi nghiên cứu tập trung tại các nhà trạm của VNPT Đồng Nai, sử dụng bộ dữ liệu chuẩn UCF101-24 và AVA để huấn luyện và đánh giá mô hình. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc giảm thiểu rủi ro an ninh, tiết kiệm chi phí vận hành và nâng cao chất lượng dịch vụ viễn thông.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
- **Phát hiện đối tượng (Object Detection):** Là tác vụ nhận diện và định vị các đối tượng trong hình ảnh hoặc video, cung cấp thông tin về loại đối tượng và vị trí xuất hiện. Các thuật toán hiện đại như Faster-RCNN, SSD, YOLO được sử dụng phổ biến trong lĩnh vực này.
- **Hiểu video (Video Understanding):** Bao gồm nhận dạng hành động (Action Recognition), phát hiện hành động (Action Detection) và xác định vị trí hành động (Action Localization). Khác với xử lý ảnh tĩnh, xử lý video cần khai thác thông tin không gian và thời gian (spatial-temporal).
- **Mạng nơ-ron tích chập 2D và 3D (2D CNN & 3D CNN):** 2D CNN rút trích đặc trưng từ từng khung hình, trong khi 3D CNN mở rộng phép tích chập sang chiều thời gian để nắm bắt chuyển động liên tiếp trong video.
- **Mạng thần kinh hồi quy (RNN) và LSTM:** Dùng để xử lý dữ liệu chuỗi, giúp mô hình ghi nhớ thông tin dài hạn trong video, hỗ trợ nhận dạng hành động chính xác hơn.
- **Mô hình YOLO (You Only Look Once):** Thuật toán phát hiện đối tượng nhanh, hiệu quả, được sử dụng làm trình rút trích đặc trưng 2D trong nghiên cứu.
Các khái niệm chính bao gồm: bounding box, anchor box, non-max suppression (NMS), precision, recall, IoU (Intersection over Union), mAP (mean Average Precision).
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Sử dụng bộ dữ liệu chuẩn UCF101-24 gồm 3207 video với 24 lớp hành động và bộ dữ liệu AVA với 437 video clip và 80 loại hành động, có chú thích không gian và thời gian chi tiết.
- **Phương pháp phân tích:** Kết hợp mô hình YOLOv2 cho trình rút trích đặc trưng 2D từ key frame và mô hình 3D-ResNext-101 cho trình rút trích đặc trưng 3D từ chuỗi khung hình liên tiếp. Hai đặc trưng này được hợp nhất và áp dụng cơ chế attention dựa trên ma trận Gram để tăng cường hiệu quả nhận dạng.
- **Timeline nghiên cứu:**
- Thu thập và gán nhãn dữ liệu từ video giám sát.
- Phân chia dữ liệu thành tập huấn luyện, kiểm tra và đánh giá.
- Huấn luyện mô hình trên bộ dữ liệu UCF101-24 và AVA.
- Thử nghiệm và đánh giá mô hình trên dữ liệu thực tế tại nhà trạm VNPT Đồng Nai.
- Triển khai phần mềm nhận dạng hành động và cảnh báo tự động.
- **Cỡ mẫu:** Hơn 3200 video cho UCF101-24 và 437 video clip cho AVA, đảm bảo tính đa dạng và độ tin cậy của kết quả.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- Mô hình đề xuất đạt **Frame-mAP 87.8%** trên bộ dữ liệu UCF101-24, vượt trội so với phương pháp AVA gốc đạt 76.3%, thể hiện khả năng nhận dạng hành động chính xác trên từng khung hình.
- Trên bộ dữ liệu AVA, mô hình đạt **mAP 20.5%**, cải thiện 4.6 điểm phần trăm so với phương pháp gốc, dù chưa vượt qua mô hình Slowfast (28.3%) nhưng có ưu điểm là mô hình single-stage, dễ huấn luyện và triển khai.
- Ứng dụng thực tế tại nhà trạm VNPT Đồng Nai cho thấy mô hình có thể nhận diện chính xác các hành động xâm nhập như đi vào khu vực cấm, cầm nắm đồ vật, đụng chạm thiết bị, với tỷ lệ cảnh báo sai thấp.
- Thuật toán non-max suppression (NMS) hiệu quả trong việc loại bỏ các dự đoán trùng lặp, nâng cao độ chính xác tổng thể của hệ thống.
### Thảo luận kết quả
Kết quả cho thấy sự kết hợp giữa trình rút trích đặc trưng 2D và 3D cùng cơ chế attention giúp mô hình tận dụng tốt thông tin không gian và thời gian trong video, cải thiện đáng kể độ chính xác nhận dạng hành động. So với các phương pháp chỉ sử dụng 2D CNN hoặc RNN, mô hình đề xuất giảm thiểu được nhầm lẫn giữa các hành động tương tự nhờ khai thác đặc trưng chuyển động liên tiếp.
Việc áp dụng mô hình YOLOv2 làm trình rút trích 2D giúp cân bằng giữa tốc độ và độ chính xác, phù hợp với yêu cầu giám sát thời gian thực tại các nhà trạm viễn thông. Mặc dù mô hình chưa đạt hiệu quả tối ưu trên toàn bộ bộ dữ liệu AVA, nhưng với tính đơn giản và khả năng huấn luyện từ đầu đến cuối, mô hình có tiềm năng phát triển và mở rộng trong thực tế.
Dữ liệu thực nghiệm có thể được trình bày qua biểu đồ so sánh Frame-mAP và mAP giữa các phương pháp, bảng thống kê tỷ lệ cảnh báo chính xác và sai lệch tại nhà trạm, giúp minh họa rõ ràng hiệu quả của giải pháp.
## Đề xuất và khuyến nghị
- **Triển khai hệ thống giám sát tự động:** Áp dụng mô hình nhận dạng hành động vào hệ thống camera giám sát tại các nhà trạm viễn thông để phát hiện sớm các hành vi xâm nhập, giảm thiểu rủi ro mất mát thiết bị.
- **Nâng cấp phần cứng và phần mềm:** Đầu tư nâng cấp camera có độ phân giải cao và máy chủ xử lý để đảm bảo mô hình hoạt động hiệu quả, đáp ứng yêu cầu xử lý video thời gian thực.
- **Đào tạo nhân viên vận hành:** Tổ chức các khóa đào tạo cho nhân viên kỹ thuật và giám sát viên về cách sử dụng hệ thống, xử lý cảnh báo và bảo trì phần mềm.
- **Mở rộng phạm vi ứng dụng:** Nghiên cứu áp dụng mô hình cho các khu vực khác như kho bãi, nhà máy, nhằm tăng cường an ninh và quản lý tự động.
- **Cải tiến mô hình:** Tiếp tục nghiên cứu nâng cao độ chính xác bằng cách tích hợp thêm các kỹ thuật học sâu mới, mở rộng bộ dữ liệu huấn luyện và tối ưu thuật toán.
Các giải pháp trên nên được thực hiện trong vòng 12-18 tháng, phối hợp giữa các đơn vị quản lý nhà trạm, phòng công nghệ thông tin và các nhà cung cấp công nghệ.
## Đối tượng nên tham khảo luận văn
- **Các nhà quản lý hệ thống viễn thông:** Giúp hiểu rõ về công nghệ nhận dạng hành động tự động, từ đó áp dụng để nâng cao an ninh và giảm thiểu rủi ro tại các nhà trạm.
- **Chuyên gia công nghệ thông tin và phát triển phần mềm:** Cung cấp kiến thức về mô hình học sâu kết hợp 2D và 3D CNN, kỹ thuật attention và ứng dụng thực tế trong giám sát video.
- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin:** Là tài liệu tham khảo quý giá về các phương pháp nhận dạng hành động trong video, các thuật toán YOLO, RNN, LSTM và 3D CNN.
- **Doanh nghiệp cung cấp giải pháp an ninh và giám sát:** Hỗ trợ phát triển các sản phẩm giám sát thông minh, nâng cao hiệu quả và độ chính xác trong phát hiện hành vi bất thường.
Mỗi nhóm đối tượng có thể áp dụng kết quả nghiên cứu vào thực tiễn hoặc phát triển thêm các ứng dụng mới phù hợp với nhu cầu chuyên môn.
## Câu hỏi thường gặp
1. **Giải pháp nhận diện người xâm nhập nhà trạm viễn thông là gì?**
Là hệ thống sử dụng mô hình học sâu kết hợp giữa trình rút trích đặc trưng 2D và 3D để nhận dạng hành động của người trong video giám sát, phát hiện các hành vi xâm nhập và cảnh báo kịp thời.
2. **Mô hình sử dụng những công nghệ nào?**
Mô hình chính sử dụng YOLOv2 cho đặc trưng 2D, 3D-ResNext-101 cho đặc trưng 3D, kết hợp cơ chế attention dựa trên ma trận Gram để tăng cường hiệu quả nhận dạng.
3. **Bộ dữ liệu nào được dùng để huấn luyện và đánh giá?**
Sử dụng bộ dữ liệu UCF101-24 với 3207 video và 24 lớp hành động, cùng bộ dữ liệu AVA với 437 video clip và 80 loại hành động, có chú thích chi tiết về không gian và thời gian.
4. **Hiệu quả của mô hình trong thực tế như thế nào?**
Mô hình đạt Frame-mAP 87.8% trên UCF101-24 và mAP 20.5% trên AVA, đồng thời đã được thử nghiệm thành công tại nhà trạm VNPT Đồng Nai với khả năng nhận dạng chính xác các hành động xâm nhập.
5. **Làm thế nào để triển khai hệ thống này tại các nhà trạm khác?**
Cần chuẩn bị hệ thống camera giám sát chất lượng cao, máy chủ xử lý đủ mạnh, đào tạo nhân viên vận hành và tích hợp phần mềm nhận dạng hành động vào hệ thống giám sát hiện có.
## Kết luận
- Đã phát triển thành công mô hình nhận dạng người xâm nhập nhà trạm viễn thông kết hợp đặc trưng 2D và 3D, nâng cao độ chính xác nhận dạng hành động trong video.
- Mô hình đạt hiệu quả cao trên bộ dữ liệu chuẩn UCF101-24 và AVA, đồng thời ứng dụng thực tế tại VNPT Đồng Nai cho kết quả khả quan.
- Giải pháp góp phần giảm thiểu rủi ro mất mát thiết bị, nâng cao an ninh và chất lượng dịch vụ viễn thông.
- Đề xuất triển khai hệ thống giám sát tự động tại các nhà trạm, đồng thời tiếp tục nghiên cứu cải tiến mô hình và mở rộng ứng dụng.
- Khuyến khích các đơn vị quản lý và doanh nghiệp công nghệ phối hợp để đưa giải pháp vào vận hành thực tế trong vòng 12-18 tháng tới.
Hành động tiếp theo là triển khai thử nghiệm mở rộng, thu thập thêm dữ liệu thực tế và tối ưu hóa mô hình để đáp ứng yêu cầu giám sát đa dạng và phức tạp hơn.