Giải Pháp Nhận Diện Người Xâm Nhập Nhà Trạm Viễn Thông

Tài liệu nghiên cứu Giải pháp nhận diện người xâm nhập nhà trạm viễn thông, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Đại học Lạc Hồng

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: LÝ DO CHỌN ĐỀ TÀI

1.1. Ý nghĩa khoa học, ứng dụng của đề tài

1.1.1. Tính khoa học đề tài

1.1.2. Tính ứng dụng

1.2. Mục tiêu của luận văn

1.3. Phát biểu bài toán

1.4. Phạm vi bài toán

1.5. Mô tả chung về hệ thống

1.6. Đóng góp của luận văn

1.7. Bố cục luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Giới thiệu

2.2. Một số cơ sở lý thuyết về bài toán phát hiện đối tượng

2.2.1. Bài toán phát hiện đối tượng

2.2.2. Phương pháp hiểu video

2.2.3. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN)

2.2.4. Mạng nơ-ron tích chập 3D (3D CNN)

2.2.5. Mạng thần kinh hồi quy (Recurrent Neural Network – RNN)

2.2.6. Mô hình YOLO

2.3. Các công trình nghiên cứu liên quan

2.3.1. Các phương pháp 2D-CNN hai luồng

2.3.2. Các phương pháp dựa trên RNN

2.3.3. Phương pháp dựa trên 3D CNN

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT

3.1. Trình rút trích đặc trưng 2D

3.2. Trình rút trích đặc trưng 3D

3.3. Huấn luyện mô hình

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Các bộ dữ liệu để thực nghiệm

4.2. Cài đặt chương trình ứng dụng demo

4.2.1. Môi trường và ngôn ngữ cài đặt

4.2.2. Cấu hình mô hình

4.2.3. Huấn luyện mô hình

4.2.4. Kết quả đánh giá

4.3. So sánh phương pháp đề xuất với các phương pháp khác

4.4. Áp dụng vào giám sát tại trạm viễn thông VNPT

4.4.1. Sơ đồ hệ thống thực nghiệm giám sát tại trạm viễn thông

4.4.2. Một số hình ảnh thực tế trạm viễn thông

4.4.3. Kết quả thực nghiệm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Giải Pháp Nhận Diện Người Xâm Nhập Nhà Trạm Viễn Thông

Giải pháp nhận diện người xâm nhập nhà trạm viễn thông là một vấn đề quan trọng trong việc bảo vệ an ninh cho các cơ sở hạ tầng viễn thông. Với sự phát triển của công nghệ, việc áp dụng các hệ thống an ninh thông minh trở nên cần thiết hơn bao giờ hết. Hệ thống này không chỉ giúp phát hiện kịp thời các hành động xâm nhập mà còn giảm thiểu rủi ro cho các thiết bị và tài sản bên trong trạm.

1.1. Tầm quan trọng của việc bảo vệ trạm viễn thông

Trạm viễn thông là nơi chứa đựng nhiều thiết bị quan trọng. Việc bảo vệ chúng khỏi những kẻ xâm nhập là rất cần thiết để đảm bảo hoạt động liên tục của dịch vụ viễn thông.

1.2. Công nghệ nhận diện hiện đại

Công nghệ nhận diện hiện đại sử dụng trí tuệ nhân tạo và học sâu để phát hiện và phân loại hành động của con người trong video, từ đó đưa ra cảnh báo kịp thời.

II. Vấn đề và Thách thức trong Nhận Diện Người Xâm Nhập

Mặc dù công nghệ nhận diện đã phát triển, nhưng vẫn còn nhiều thách thức trong việc phát hiện người xâm nhập. Các vấn đề như độ chính xác của hệ thống, khả năng nhận diện trong điều kiện ánh sáng yếu, và sự khác biệt trong hành vi của con người cần được giải quyết.

2.1. Độ chính xác trong nhận diện

Độ chính xác của hệ thống nhận diện phụ thuộc vào chất lượng dữ liệu đầu vào và thuật toán sử dụng. Việc cải thiện độ chính xác là một thách thức lớn.

2.2. Điều kiện môi trường

Các điều kiện môi trường như ánh sáng yếu hoặc thời tiết xấu có thể ảnh hưởng đến khả năng nhận diện của hệ thống, làm giảm hiệu quả hoạt động.

III. Phương Pháp Giải Quyết Vấn Đề Nhận Diện Người Xâm Nhập

Để giải quyết vấn đề nhận diện người xâm nhập, nhiều phương pháp đã được đề xuất. Các phương pháp này bao gồm việc sử dụng mạng nơ-ron tích chập (CNN) và các thuật toán học sâu khác để phân tích video từ camera giám sát.

3.1. Sử dụng mạng nơ ron tích chập

Mạng nơ-ron tích chập giúp rút trích đặc trưng từ hình ảnh và video, từ đó nhận diện các hành động của con người một cách chính xác.

3.2. Phát hiện hành động trong video

Phát hiện hành động trong video cho phép hệ thống nhận diện các hành động đáng ngờ, như cầm nắm đồ vật hay đụng chạm vào thiết bị.

IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu

Các ứng dụng thực tiễn của giải pháp nhận diện người xâm nhập đã cho thấy hiệu quả rõ rệt trong việc bảo vệ an ninh cho các trạm viễn thông. Nghiên cứu đã chỉ ra rằng việc áp dụng công nghệ này giúp giảm thiểu rủi ro và tăng cường an ninh cho các cơ sở hạ tầng.

4.1. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy hệ thống có khả năng phát hiện người xâm nhập với độ chính xác cao, giúp cảnh báo kịp thời cho người quản lý.

4.2. Ứng dụng trong giám sát

Hệ thống nhận diện đã được áp dụng thành công trong việc giám sát tại các trạm viễn thông, đảm bảo an toàn cho thiết bị và tài sản.

V. Kết Luận và Tương Lai của Giải Pháp Nhận Diện

Giải pháp nhận diện người xâm nhập nhà trạm viễn thông không chỉ mang lại giá trị bảo mật mà còn mở ra hướng đi mới cho việc ứng dụng công nghệ trong lĩnh vực an ninh. Tương lai của công nghệ này hứa hẹn sẽ tiếp tục phát triển với nhiều cải tiến và ứng dụng mới.

5.1. Hướng phát triển trong tương lai

Công nghệ nhận diện sẽ tiếp tục được cải tiến để đáp ứng tốt hơn các yêu cầu về an ninh trong tương lai.

5.2. Tích hợp với các hệ thống an ninh khác

Việc tích hợp công nghệ nhận diện với các hệ thống an ninh khác sẽ tạo ra một hệ sinh thái an ninh toàn diện hơn cho các trạm viễn thông.

09/07/2025

Bạn đang xem trước tài liệu:

Giải pháp nhận diện người xâm nhập nhà trạm viễn thông

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và trí tuệ nhân tạo, việc ứng dụng các giải pháp tự động hóa trong giám sát an ninh ngày càng trở nên cấp thiết. Tại Việt Nam, các nhà mạng lớn như VNPT, Viettel, FPT đang vận hành hơn 1000 trạm viễn thông mỗi đơn vị, trong đó nhiều trạm không có người trực để giảm chi phí nhân sự nhưng vẫn phải đảm bảo hoạt động liên tục 24/7. Thực tế, trong năm 2020, đã ghi nhận khoảng 7 vụ trộm cắp ắc quy tại các trạm viễn thông ở các khu vực xa dân cư, cùng với các sự cố cháy nổ và ngập nước gây gián đoạn dịch vụ, ảnh hưởng nghiêm trọng đến chất lượng mạng. 

Luận văn tập trung nghiên cứu và phát triển giải pháp nhận diện người xâm nhập nhà trạm viễn thông dựa trên công nghệ nhận dạng hành động trong video, nhằm nâng cao hiệu quả giám sát và cảnh báo kịp thời. Mục tiêu chính là xây dựng mô hình kết hợp trình rút trích đặc trưng 2D và 3D để nhận dạng chính xác các hành động như đi, đứng, cầm, nắm, chạm… của người trong video giám sát. Phạm vi nghiên cứu tập trung tại các nhà trạm của VNPT Đồng Nai, sử dụng bộ dữ liệu chuẩn UCF101-24 và AVA để huấn luyện và đánh giá mô hình. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc giảm thiểu rủi ro an ninh, tiết kiệm chi phí vận hành và nâng cao chất lượng dịch vụ viễn thông.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Phát hiện đối tượng (Object Detection):** Là tác vụ nhận diện và định vị các đối tượng trong hình ảnh hoặc video, cung cấp thông tin về loại đối tượng và vị trí xuất hiện. Các thuật toán hiện đại như Faster-RCNN, SSD, YOLO được sử dụng phổ biến trong lĩnh vực này.

- **Hiểu video (Video Understanding):** Bao gồm nhận dạng hành động (Action Recognition), phát hiện hành động (Action Detection) và xác định vị trí hành động (Action Localization). Khác với xử lý ảnh tĩnh, xử lý video cần khai thác thông tin không gian và thời gian (spatial-temporal).

- **Mạng nơ-ron tích chập 2D và 3D (2D CNN & 3D CNN):** 2D CNN rút trích đặc trưng từ từng khung hình, trong khi 3D CNN mở rộng phép tích chập sang chiều thời gian để nắm bắt chuyển động liên tiếp trong video.

- **Mạng thần kinh hồi quy (RNN) và LSTM:** Dùng để xử lý dữ liệu chuỗi, giúp mô hình ghi nhớ thông tin dài hạn trong video, hỗ trợ nhận dạng hành động chính xác hơn.

- **Mô hình YOLO (You Only Look Once):** Thuật toán phát hiện đối tượng nhanh, hiệu quả, được sử dụng làm trình rút trích đặc trưng 2D trong nghiên cứu.

Các khái niệm chính bao gồm: bounding box, anchor box, non-max suppression (NMS), precision, recall, IoU (Intersection over Union), mAP (mean Average Precision).

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng bộ dữ liệu chuẩn UCF101-24 gồm 3207 video với 24 lớp hành động và bộ dữ liệu AVA với 437 video clip và 80 loại hành động, có chú thích không gian và thời gian chi tiết.

- **Phương pháp phân tích:** Kết hợp mô hình YOLOv2 cho trình rút trích đặc trưng 2D từ key frame và mô hình 3D-ResNext-101 cho trình rút trích đặc trưng 3D từ chuỗi khung hình liên tiếp. Hai đặc trưng này được hợp nhất và áp dụng cơ chế attention dựa trên ma trận Gram để tăng cường hiệu quả nhận dạng.

- **Timeline nghiên cứu:** 
  - Thu thập và gán nhãn dữ liệu từ video giám sát.
  - Phân chia dữ liệu thành tập huấn luyện, kiểm tra và đánh giá.
  - Huấn luyện mô hình trên bộ dữ liệu UCF101-24 và AVA.
  - Thử nghiệm và đánh giá mô hình trên dữ liệu thực tế tại nhà trạm VNPT Đồng Nai.
  - Triển khai phần mềm nhận dạng hành động và cảnh báo tự động.

- **Cỡ mẫu:** Hơn 3200 video cho UCF101-24 và 437 video clip cho AVA, đảm bảo tính đa dạng và độ tin cậy của kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình đề xuất đạt **Frame-mAP 87.8%** trên bộ dữ liệu UCF101-24, vượt trội so với phương pháp AVA gốc đạt 76.3%, thể hiện khả năng nhận dạng hành động chính xác trên từng khung hình.

- Trên bộ dữ liệu AVA, mô hình đạt **mAP 20.5%**, cải thiện 4.6 điểm phần trăm so với phương pháp gốc, dù chưa vượt qua mô hình Slowfast (28.3%) nhưng có ưu điểm là mô hình single-stage, dễ huấn luyện và triển khai.

- Ứng dụng thực tế tại nhà trạm VNPT Đồng Nai cho thấy mô hình có thể nhận diện chính xác các hành động xâm nhập như đi vào khu vực cấm, cầm nắm đồ vật, đụng chạm thiết bị, với tỷ lệ cảnh báo sai thấp.

- Thuật toán non-max suppression (NMS) hiệu quả trong việc loại bỏ các dự đoán trùng lặp, nâng cao độ chính xác tổng thể của hệ thống.

### Thảo luận kết quả

Kết quả cho thấy sự kết hợp giữa trình rút trích đặc trưng 2D và 3D cùng cơ chế attention giúp mô hình tận dụng tốt thông tin không gian và thời gian trong video, cải thiện đáng kể độ chính xác nhận dạng hành động. So với các phương pháp chỉ sử dụng 2D CNN hoặc RNN, mô hình đề xuất giảm thiểu được nhầm lẫn giữa các hành động tương tự nhờ khai thác đặc trưng chuyển động liên tiếp.

Việc áp dụng mô hình YOLOv2 làm trình rút trích 2D giúp cân bằng giữa tốc độ và độ chính xác, phù hợp với yêu cầu giám sát thời gian thực tại các nhà trạm viễn thông. Mặc dù mô hình chưa đạt hiệu quả tối ưu trên toàn bộ bộ dữ liệu AVA, nhưng với tính đơn giản và khả năng huấn luyện từ đầu đến cuối, mô hình có tiềm năng phát triển và mở rộng trong thực tế.

Dữ liệu thực nghiệm có thể được trình bày qua biểu đồ so sánh Frame-mAP và mAP giữa các phương pháp, bảng thống kê tỷ lệ cảnh báo chính xác và sai lệch tại nhà trạm, giúp minh họa rõ ràng hiệu quả của giải pháp.

## Đề xuất và khuyến nghị

- **Triển khai hệ thống giám sát tự động:** Áp dụng mô hình nhận dạng hành động vào hệ thống camera giám sát tại các nhà trạm viễn thông để phát hiện sớm các hành vi xâm nhập, giảm thiểu rủi ro mất mát thiết bị.

- **Nâng cấp phần cứng và phần mềm:** Đầu tư nâng cấp camera có độ phân giải cao và máy chủ xử lý để đảm bảo mô hình hoạt động hiệu quả, đáp ứng yêu cầu xử lý video thời gian thực.

- **Đào tạo nhân viên vận hành:** Tổ chức các khóa đào tạo cho nhân viên kỹ thuật và giám sát viên về cách sử dụng hệ thống, xử lý cảnh báo và bảo trì phần mềm.

- **Mở rộng phạm vi ứng dụng:** Nghiên cứu áp dụng mô hình cho các khu vực khác như kho bãi, nhà máy, nhằm tăng cường an ninh và quản lý tự động.

- **Cải tiến mô hình:** Tiếp tục nghiên cứu nâng cao độ chính xác bằng cách tích hợp thêm các kỹ thuật học sâu mới, mở rộng bộ dữ liệu huấn luyện và tối ưu thuật toán.

Các giải pháp trên nên được thực hiện trong vòng 12-18 tháng, phối hợp giữa các đơn vị quản lý nhà trạm, phòng công nghệ thông tin và các nhà cung cấp công nghệ.

## Đối tượng nên tham khảo luận văn

- **Các nhà quản lý hệ thống viễn thông:** Giúp hiểu rõ về công nghệ nhận dạng hành động tự động, từ đó áp dụng để nâng cao an ninh và giảm thiểu rủi ro tại các nhà trạm.

- **Chuyên gia công nghệ thông tin và phát triển phần mềm:** Cung cấp kiến thức về mô hình học sâu kết hợp 2D và 3D CNN, kỹ thuật attention và ứng dụng thực tế trong giám sát video.

- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin:** Là tài liệu tham khảo quý giá về các phương pháp nhận dạng hành động trong video, các thuật toán YOLO, RNN, LSTM và 3D CNN.

- **Doanh nghiệp cung cấp giải pháp an ninh và giám sát:** Hỗ trợ phát triển các sản phẩm giám sát thông minh, nâng cao hiệu quả và độ chính xác trong phát hiện hành vi bất thường.

Mỗi nhóm đối tượng có thể áp dụng kết quả nghiên cứu vào thực tiễn hoặc phát triển thêm các ứng dụng mới phù hợp với nhu cầu chuyên môn.

## Câu hỏi thường gặp

1. **Giải pháp nhận diện người xâm nhập nhà trạm viễn thông là gì?**  
Là hệ thống sử dụng mô hình học sâu kết hợp giữa trình rút trích đặc trưng 2D và 3D để nhận dạng hành động của người trong video giám sát, phát hiện các hành vi xâm nhập và cảnh báo kịp thời.

2. **Mô hình sử dụng những công nghệ nào?**  
Mô hình chính sử dụng YOLOv2 cho đặc trưng 2D, 3D-ResNext-101 cho đặc trưng 3D, kết hợp cơ chế attention dựa trên ma trận Gram để tăng cường hiệu quả nhận dạng.

3. **Bộ dữ liệu nào được dùng để huấn luyện và đánh giá?**  
Sử dụng bộ dữ liệu UCF101-24 với 3207 video và 24 lớp hành động, cùng bộ dữ liệu AVA với 437 video clip và 80 loại hành động, có chú thích chi tiết về không gian và thời gian.

4. **Hiệu quả của mô hình trong thực tế như thế nào?**  
Mô hình đạt Frame-mAP 87.8% trên UCF101-24 và mAP 20.5% trên AVA, đồng thời đã được thử nghiệm thành công tại nhà trạm VNPT Đồng Nai với khả năng nhận dạng chính xác các hành động xâm nhập.

5. **Làm thế nào để triển khai hệ thống này tại các nhà trạm khác?**  
Cần chuẩn bị hệ thống camera giám sát chất lượng cao, máy chủ xử lý đủ mạnh, đào tạo nhân viên vận hành và tích hợp phần mềm nhận dạng hành động vào hệ thống giám sát hiện có.

## Kết luận

- Đã phát triển thành công mô hình nhận dạng người xâm nhập nhà trạm viễn thông kết hợp đặc trưng 2D và 3D, nâng cao độ chính xác nhận dạng hành động trong video.  
- Mô hình đạt hiệu quả cao trên bộ dữ liệu chuẩn UCF101-24 và AVA, đồng thời ứng dụng thực tế tại VNPT Đồng Nai cho kết quả khả quan.  
- Giải pháp góp phần giảm thiểu rủi ro mất mát thiết bị, nâng cao an ninh và chất lượng dịch vụ viễn thông.  
- Đề xuất triển khai hệ thống giám sát tự động tại các nhà trạm, đồng thời tiếp tục nghiên cứu cải tiến mô hình và mở rộng ứng dụng.  
- Khuyến khích các đơn vị quản lý và doanh nghiệp công nghệ phối hợp để đưa giải pháp vào vận hành thực tế trong vòng 12-18 tháng tới.

Hành động tiếp theo là triển khai thử nghiệm mở rộng, thu thập thêm dữ liệu thực tế và tối ưu hóa mô hình để đáp ứng yêu cầu giám sát đa dạng và phức tạp hơn.

Trích đoạn nội dung tài liệu

đặt vấn đề cho bài toán, động lực, các thách thức và đóng góp của luận văn. - Chương 2: Trình bày chi tiết về bài toán, các lý thuyết quan trọng và phân tích các công trình nghiên cứu liên quan đến bài toán. - Chương 3: Mô tả chi tiết về hệ thống. - Chương 4: Tiến hành xây dựng hệ thống, cài đặt thử nghiệm và đánh giá.

- Chương 5: Kết luận. Cơ Sở Lý Thuyết Và Các Công Trình Nghiên Cứu Liên Quan 2.1 Giới thiệu Nội dung chương này sẽ giới thiệu về các cơ sở lý thuyết các phương pháp được sử dụng trong luận văn. Từ đó kết hợp các điểm mạnh của từng phương pháp để đề xuất mô hình nhận dạng hành động.2 Một số cơ sở lý thuyết về bài toán phát hiện đối tượng 2.1 Bài toán phát hiện đối tượng Phát hiện đối tượng (Object detection) là một tác vụ quan trọng của thị giác máy tính, nó liên quan đến việc nhận diện các đối tượng trong hình ảnh số, chẳng hạn như người, động vật hoặc xe hơi. Mục tiêu của phát hiện đối tượng là xây dựng các mô hình và thuật toán để cung cấp thông tin cơ bản về đối tượng: Đối tượng nào, ở đâu? Phát hiện đối tượng là một trong những vấn đề cơ bản của lĩnh vực thị giác máy tính, cung cấp cơ sở cho nhiều tác vụ khác như phân đoạn đối tượng (object segmentation), chú thích hình ảnh (image captioning), theo dõi đối tượng (object tracking)… Phát hiện đối tượng đòi hỏi từ hệ thống máy tính và phần mềm để xác định vị trí và nhận dạng từng đối tượng trong hình ảnh.

Từ quan điểm ứng dụng, phát hiện đối tượng có thể được nhóm thành hai chủ đề nghiên cứu phát hiện đối tượng chung (general object detection) và ứng dụng phát hiện (detection applications), trong đó chủ đề thứ nhất nhằm mục đích khám phá các phương pháp phát hiện các loại đối tượng khác nhau trong một khuôn khổ thống nhất để mô phỏng tầm nhìn của con người và nhận thức, trong khi cái sau đề cập đến khả năng phát hiện trong các tình huống ứng dụng cụ thể, chẳng hạn như phát hiện người đi bộ, nhận diện khuôn mặt, phát hiện văn bản. dẫn đến những bước đột phá đáng chú ý và đẩy nó trở thành một điểm nóng trong nghiên cứu về lĩnh vực thị giác máy tính. Phát hiện đối tượng hiện nay đã được đem vào ứng dụng rộng rãi trong nhiều phần mềm mang tính ứng dụng trong thế giới thực, chẳng hạn như lái xe tự hành, tầm nhìn của rô-bốt, giám sát video… 7 Hình 2. Mô tả việc phát hiện đối tượng [2] Giống như mọi công nghệ khác, phát hiện đối tượng được sử dụng trong một loạt các ứng dụng sáng tạo và tuyệt vời đến từ các nhà lập trình cũng như các công ty phát triển phần mềm.

Nhờ đó, họ bắt đầu sử dụng các kỹ thuật nhận diện đối tượng hiện đại trong các ứng dụng và hệ thống, và xây dựng các ứng dụng mới dựa trên chúng. Gần đây, việc nhận diện đối tượng đã liên quan đến việc sử dụng các thuật toán cổ điển, như các thuật toán được hỗ trợ trong thư viện OpenCV, một thư viện thị giác máy tính phổ biến. Tuy nhiên, các thuật toán cổ điển này không đạt được hiệu suất cao đủ để hoạt động trong các điều kiện thực tế khác nhau. Nhờ sự đột phát và phát triển nhanh chóng của học sâu (deep learning), các thuật toán và phương pháp nhận diện đối tượng hiện đại và chính xác như Faster-RCNN [1], SSD [3] và YOLO [4] đã xuất hiện.

Đây là những phương pháp đi tiên phong trong việc phát hiện đối tượng trong video, tức là mô hình sẽ đủ đơn giản và nhanh để có thể áp dụng chạy trong thời gian thực. Tuy nhiên đa số các phương pháp này chỉ dừng lại ở việc phát hiện đối tượng trong ảnh hoặc video mà chưa phân loại được đây là hành động gì.2 Phương pháp hiểu video 8 Đối với các tác vụ xử lý liên quan đến đầu vào video (Video Understanding), các nhà nghiên cứu sử dụng thuật ngữ hiểu video để mô tả các phương pháp đó. Một trong những tác vụ thông dụng nhất của các bài toán hiểu video là nhận dạng hành động (Video Action Recognition) trong video. Song song với đó, còn có các tác vụ liên quan đến nhận dạng hành động như: Phát hiện hành động (Action Detection) trong video, xác định vị trí hành động (Action Localization) trong video… Ở đây, việc nhận dạng hành động cũng có thể hiểu là vừa phát hiện hành động và vừa xác định vị trí hành động.

Người ta thường sử dụng từ phát hiện (Detection) để mô tả việc vừa phân loại (Classification) vừa xác định vị trí (Localization). Trong khi đó, từ nhận dạng (Recognition) dùng để thể hiện kỹ thuật xác định đối tượng có trong ảnh hoặc video. Vì thế để tránh nhầm lẫn, trong luận văn này, học viên sử dụng từ nhận dạng để thể hiện việc vừa phân loại hành động và vừa xác định vị trí hành động. Cần nắm được thông tin thời gian để nhận dạng hành động [5] Đối với những bài toán xử lý ảnh thông thường như phân loại (Classification) hình ảnh; nhận dạng, phát hiện (Detection) đối tượng, người ta chỉ tập trung vào 1 hình ảnh, khi xử lý trên video, hình ảnh này sẽ được lấy từ key frame được tách từ video.

Vì thế, khi chuyển sang xử lý trên video, các phương pháp này sẽ rút trích được ít thông tin hơn vì video là các frame ảnh chạy liên tục. Đối với các tác vụ truy vết (tracking), yêu cầu đặt ra cũng chỉ là xử lý trên từng frame ảnh và tập trung vào việc hiểu được các liên kết giữa 9 đối tượng được truy vết. Tuy nhiên, đối với đa số các tác vụ liên quan đến hiểu video thì một thông tin quan trọng giúp tạo nên sự khác biệt giữa các tác vụ xử lý trong video và trong ảnh tĩnh là thông tin về thời gian (Temporal). Trong khi các tác vụ trên ảnh tĩnh quan tâm đến thông tin về không gian (spatial) thì các tác vụ xử lý trên video cần sử dụng cả hai loại thông tin về không gian và thời gian hay nói cách khác là thông tin không gian – thời gian.

Thông tin không gian ở đây là thông tin của một frame ảnh và thông tin thời gian là thời lượng của video.3 Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) Mạng Nơ-ron tích chập (Convolutional neural networks – CNN) là một mạng nơ-ron bao gồm các tầng tích chập, pooling, kết nối đầy đủ và thường được sử dụng để phân lớp ảnh. Trong đó, tầng tích chập và tầng pooling có thể được đào tạo dựa trên việc sử dụng siêu tham số (hyper- parameters). Mô tả CNN cơ bản. 1 - Trong mạng nơ-ron tích chập, tầng tích chập sử dụng các bộ lọc (filter) để thực hiện các phép toán tích chập trong quá trình di chuyển qua mạng.

Các tham số của bộ lọc bao gồm kích cỡ (size) và bước nhảy (stride). Kết quả cuối cùng của mạng gọi là bản đồ đặc trưng (feature map). Quá trình nhân tích chập giữa ma trận đầu vào và bộ lọc sẽ giúp tạo nên một đơn vị trong một tầng mới. Việc thực hiện nhân tích chập sẽ diễn ra liên tục và để kích hoạt tuyến tính, mô hình thường sử dụng với hàm kích hoạt ReLU.

Tầng 1 https://stanford.edu/~shervine/l/vi/teaching/cs-230/cheatsheet-convolutional-neural-networks 10 tích chập sẽ nắm giữ nhiệm vụ rút trích đặc trưng hai chiều.4 mô tả cách tính tích chập của các bộ lọc. - Tầng pooling thực chất là một phép giảm kích thước mẫu (down- sampling). Để tăng tính bất biến trong không gian và thường được đặt sau tầng tích chập. Số lượng tham số sẽ tăng dần qua các tầng khi thực hiện rút trích đặc trưng vì số lượng các kênh ở tầng sau thường tăng rất nhanh làm tăng độ khó tính toán.

Vì thế, để giảm khối lượng tính toán, mô hình sẽ giảm kích thước các chiều bằng phép pooling. Việc giảm kích thước không làm mất đi các đặc trưng chính mà còn giúp chọn ra giá trị đại diện. Cụ thể, tồn tại hai loại phép pooling: Max Pooling và Average Pooling. Trong phép Max Pooling, giá trị lớn nhất trong phần hình ảnh được bao phủ bởi bộ lọc sẽ được trả về.

Còn phép Average Pooling trả về giá trị trung bình của tất cả các giá trị trong phần hình ảnh được bao phủ bởi bộ lọc. Max Pooling có tác dụng giảm nhiễu và giảm kích thước cùng một lúc. Tuy nhiên, Average Pooling chỉ thực hiện việc giảm kích thước như một phương pháp khử nhiễu. Mô tả cách tính tích chập của các bộ lọc 2 2 http://cs231n.io/convolutional-networks/ 11 - Tầng kết nối đầy đủ (Fully-connection) thường được để ở cuối mô hình nơ-ron tích chập.

Tầng này có đầu vào là các dữ liệu đã được làm phẳng và sẽ có sự kết nối đến tất cả các nơ-ron. Nhiệm vụ của tầng này là tối ưu hóa mục tiêu của mạng. Sau khi kích thước đã được giảm đến mức độ hợp lý, các ma trận trọng số được làm phẳng (flatten) thành một véc-tơ hai chiều. Từ đây, các kết nối đầy đủ sẽ được sử dụng để liên kết giữa các tầng.

Quá trình kết nối đầy đủ thường sẽ được đặt ở cuối mô hình CNN và hàm ReLU sẽ được chọn làm hàm kích hoạt tuyến tính. Để tính được phân phối xác xuất của các lớp muốn phân loại, tầng kết nối đầy đủ cuối cùng (final fully-connected layer) sẽ áp dụng hàm kích hoạt là softmax (tổng giá trị xác suất là 1) và có số nút đầu ra bằng với số lớp cần phân loại.4 Mạng nơ-ron tích chập 3D (3D CNN) Trong 2D CNN, phép tích chập được áp dụng trên bản đồ đặc trưng 2D để tính toán đặc trưng từ các kích thước không gian hai chiều (ảnh). Khi áp dụng cho các vấn đề phân tích video, ngưởi ta mong muốn nắm bắt thông tin chuyển động được mã hóa trong nhiều khung liền kề nhau. Để làm được điều này, 3D CNN sẽ thay đổi đầu vào là xử lý trên đặc trưng 3 chiều (3D) (1 chiều thể hiện chiều cao, 1 chiều thể hiện chiều rộng và 1 chiều thể hiện độ dài của video (số frame ảnh trong video), thay vì chỉ sử dụng bản đồ đặc trưng 2 chiều (2D) trong những bài toán xử lý ảnh thông thường.

Nhờ vào việc rút trích được đặc trưng 3D, mô hình có thể mô hình hóa đồng thời cả thông tin về không gian và thông tin về thời gian hay nói cách khác là thông tin không gian – thời gian (spatial-temporal information). Để đạt được điều này, 3D CNN sử dụng các phép tích chập 3D trong các giai đoạn tích chập của CNN để tính toán các đặc trưng từ cả chiều không gian và thời gian.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Giải Pháp Nhận Diện Người Xâm Nhập Nhà Trạm Viễn Thông" cung cấp những giải pháp hiệu quả để phát hiện và ngăn chặn các hành vi xâm nhập trái phép vào các trạm viễn thông. Nội dung chính của tài liệu tập trung vào việc áp dụng công nghệ hiện đại, như hệ thống camera giám sát và các thuật toán phân tích hình ảnh, nhằm nâng cao khả năng bảo mật cho các cơ sở hạ tầng quan trọng. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các giải pháp này, bao gồm việc giảm thiểu rủi ro an ninh và bảo vệ tài sản.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ hệ thống thông tin quản lý đánh giá các nhân tố ảnh hưởng đến việc sử dụng hệ thống camera giám sát hành vi đối tượng, nơi phân tích các yếu tố tác động đến hiệu quả của hệ thống giám sát. Bên cạnh đó, tài liệu Luận văn thạc sĩ quản lý khoa học và công nghệ nâng cao hiệu quả khai thác phương tiện kỹ thuật giám sát an ninh trong ngành công an nghiên cứu hệ thống camera giám sát an ninh công cộng do bộ công an đầu tư triển khai sẽ giúp bạn hiểu rõ hơn về việc ứng dụng công nghệ camera trong bảo đảm an ninh công cộng. Cuối cùng, tài liệu Phát hiện bất thường từ video sử dụng kỹ thuật học sâu sẽ cung cấp cái nhìn sâu sắc về các phương pháp học máy trong việc phát hiện các hành vi bất thường từ video. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các giải pháp bảo mật hiện đại.

#công nghệ thông tin

#mạng nơ-ron tích chập

#phân tích dữ liệu video

#ứng dụng trí tuệ nhân tạo

#nhà trạm viễn thông

#hệ thống giám sát tự động

Chủ đề

Công nghệ giám sát an ninh

Phát triển hệ thống nhận diện

Ứng dụng học sâu trong video

Nhận diện người xâm nhập trong viễn thông