Luận Văn Thạc Sĩ Về Phân Tích Chuyển Động Từ Bitstream Video Mã Hóa

Tài liệu chuyên sâu Phân Tích Chuyển Động Từ Bitstream Video Mã Hóa, phân tích đa chiều, cung cấp kiến thức nền tảng vững chắc cho chuyên ngành

Trường đại học

Vietnam National University, Hanoi University of Engineering and Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

master’s thesis

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

AUTHORSHIP

1. INTRODUCTION

2. LITERATURE REVIEW

2.1. Moving object detection in the pixel domain

2.2. Moving object detection in the compressed domain

3. METHODOLOGY

3.1. Video compression standard h264

3.2. Process video bitstream

LIST OF FIGURES

LIST OF TABLES

Tóm tắt

I. Giới thiệu

Trong bối cảnh hiện nay, phân tích video trở thành một lĩnh vực quan trọng trong nhiều ứng dụng như giám sát an ninh, theo dõi giao thông và phân tích hành vi. Sự gia tăng nhanh chóng của video được chia sẻ trên Internet đã tạo ra một thách thức lớn trong việc xử lý và phân tích khối lượng lớn dữ liệu video. Theo thống kê, hàng trăm giờ video được tải lên Youtube mỗi phút. Đặc biệt, các camera giám sát thường xuyên ghi lại video mà không có sự can thiệp của con người. Khi xảy ra sự cố, việc tìm kiếm các đoạn video có chuyển động trở nên cần thiết. Do đó, việc phát triển các công cụ để xác định thời điểm có chuyển động trong video là rất quan trọng. Việc nén video để giảm kích thước tệp là một quy trình phổ biến, tuy nhiên, việc phân tích video nén đòi hỏi các kỹ thuật tiên tiến để trích xuất thông tin mà không cần giải nén hoàn toàn. Nghiên cứu này đề xuất một phương pháp mới để xác định chuyển động trong video nén bằng cách sử dụng các kỹ thuật ước lượng chuyển động trong miền nén video.

II. Phân tích chuyển động trong miền pixel

Phương pháp phân tích video truyền thống thường dựa vào dữ liệu từ miền pixel, nơi mà các giá trị màu sắc và các đặc điểm hình ảnh được sử dụng để phát hiện chuyển động. Các thuật toán như trừ nền thường được áp dụng để xác định các đối tượng chuyển động. Tuy nhiên, việc này yêu cầu giải nén video hoàn toàn, điều này tiêu tốn nhiều tài nguyên tính toán. Theo định nghĩa, trừ nền là một phương pháp phổ biến để phát hiện chuyển động từ các camera tĩnh. Kết quả nghiên cứu cho thấy rằng việc sử dụng dữ liệu pixel có thể dẫn đến việc tiêu tốn thời gian và bộ nhớ lớn. Do đó, cần có một phương pháp hiệu quả hơn để xử lý video mà không cần giải nén hoàn toàn.

2.1. Các phương pháp phát hiện chuyển động

Các phương pháp phát hiện chuyển động trong miền pixel thường sử dụng các thuật toán như Gaussian average và Temporal median filter. Những phương pháp này yêu cầu giải nén video để lấy dữ liệu pixel, dẫn đến việc tiêu tốn nhiều tài nguyên. Do đó, việc phát triển các phương pháp mới có thể hoạt động trực tiếp trên dữ liệu nén là rất cần thiết.

III. Phân tích chuyển động trong miền nén

Việc sử dụng dữ liệu trong miền nén, đặc biệt là từ tiêu chuẩn nén H264, đã mở ra những khả năng mới cho phân tích video. Dữ liệu như vector chuyển động và kích thước macroblock có thể được sử dụng để phát hiện chuyển động mà không cần giải nén video. Nghiên cứu cho thấy rằng việc sử dụng dữ liệu nén có thể giảm đáng kể thời gian xử lý so với các phương pháp truyền thống. Các thuật toán như phân loại vector chuyển động và sử dụng kích thước macroblock đã được chứng minh là hiệu quả trong việc phát hiện chuyển động trong video nén.

3.1. Các phương pháp sử dụng vector chuyển động

Nhiều nghiên cứu đã chỉ ra rằng vector chuyển động có thể được sử dụng để phát hiện các đối tượng chuyển động trong video nén. Các phương pháp này thường phân loại vector chuyển động thành nhiều loại khác nhau và nhóm chúng lại để xác định các đối tượng chuyển động. Việc sử dụng vector chuyển động giúp giảm thiểu tiếng ồn và cải thiện độ chính xác trong việc phát hiện chuyển động.

3.2. Kích thước macroblock

Kích thước macroblock cũng đóng vai trò quan trọng trong việc phát hiện chuyển động. Các nghiên cứu cho thấy rằng macroblock chứa cạnh của một đối tượng chuyển động thường khó nén hơn, do đó có thể được sử dụng để xác định chuyển động. Việc kết hợp thông tin từ vector chuyển động và kích thước macroblock có thể cải thiện đáng kể độ chính xác của các phương pháp phát hiện chuyển động.

IV. Ứng dụng thực tiễn

Nghiên cứu này không chỉ dừng lại ở lý thuyết mà còn hướng tới việc phát triển một ứng dụng thực tiễn hỗ trợ tìm kiếm chuyển động trong video giám sát. Việc áp dụng các phương pháp phân tích chuyển động trong miền nén sẽ giúp tiết kiệm thời gian và tài nguyên trong việc xử lý video. Ứng dụng này có thể được sử dụng trong nhiều lĩnh vực như an ninh, giám sát giao thông và phân tích hành vi. Sự phát triển của công nghệ video codec và công nghệ video sẽ tiếp tục thúc đẩy khả năng phân tích video trong tương lai.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ motion analysis from encoded video bitstream luận văn ths máy tính 604801

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, video giám sát được sử dụng rộng rãi trong nhiều lĩnh vực như giám sát an ninh trong nhà, giao thông, và các ứng dụng Internet of Things (IoT). Theo ước tính, hàng trăm giờ video được tải lên các nền tảng trực tuyến mỗi phút, tạo ra một lượng dữ liệu khổng lồ cần xử lý. Vấn đề đặt ra là làm thế nào để nhanh chóng xác định các khoảnh khắc có chuyển động trong các đoạn video dài mà không cần phải xem toàn bộ nội dung. Mục tiêu của luận văn là đề xuất một phương pháp phát hiện đối tượng chuyển động trong miền nén của video, cụ thể là video được mã hóa theo chuẩn H264, nhằm giảm thiểu thời gian và tài nguyên tính toán so với các phương pháp truyền thống dựa trên dữ liệu miền điểm ảnh.

Phạm vi nghiên cứu tập trung vào các video giám sát trong môi trường trong nhà và ngoài trời, với độ phân giải cao (tối đa 1920x1080), thu thập từ hơn 100 camera tại Hà Nội và Đà Nẵng. Luận văn không chỉ phát triển thuật toán mà còn xây dựng ứng dụng thực tiễn hỗ trợ tìm kiếm nhanh các khoảnh khắc có chuyển động trong video. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện tốc độ xử lý lên đến 22-27 khung hình/giây trên thiết bị Raspberry Pi, đồng thời duy trì độ chính xác phát hiện chuyển động với độ recall trung bình khoảng 84% và precision khoảng 80%, giúp tiết kiệm đáng kể thời gian và công sức trong việc phân tích video giám sát.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính trong lĩnh vực xử lý video và thị giác máy tính:

Lý thuyết mã hóa video H264/AVC: Chuẩn nén video H264 chia video thành các khung hình, mỗi khung được phân thành các macroblock (MB). Mỗi MB chứa thông tin về vector chuyển động (motion vector - MV), kích thước mã hóa (bit size), và các tham số lượng tử hóa. Vector chuyển động biểu diễn sự dịch chuyển tương đối của MB so với khung tham chiếu, trong khi kích thước MB phản ánh mức độ chi tiết và phức tạp của vùng ảnh tương ứng.
Phân đoạn và phát hiện chuyển động trong miền nén: Thay vì giải mã toàn bộ video để lấy dữ liệu điểm ảnh, phương pháp sử dụng dữ liệu trong miền nén như MV và kích thước MB để phát hiện chuyển động. Các khái niệm chính bao gồm:
- Macroblock-based segmentation: Phân loại MB dựa trên kích thước bit, MB có kích thước lớn hơn ngưỡng Ts được xem là chứa chuyển động.
- Object-based segmentation: Phân tích tính nhất quán của trường vector chuyển động trong từng đoạn (segment) để phân biệt chuyển động thực sự và nhiễu.
- Object refinement: Mở rộng vùng chuyển động bằng cách kiểm tra các MB lân cận dựa trên thống kê vector chuyển động để phục hồi các vùng chuyển động bị bỏ sót.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các video giám sát thực tế được mã hóa theo chuẩn H264, với độ phân giải từ 1280x720 đến 1920x1080, thu thập từ hơn 100 camera tại Hà Nội và Đà Nẵng. Ngoài ra, bộ dữ liệu chuẩn từ IEEE Change Detection Workshop 2014 cũng được sử dụng để đánh giá thuật toán.

Phương pháp phân tích gồm các bước:

Thu thập và giải mã một phần dữ liệu video bằng thư viện LIVE555 và công cụ JM 19.0 đã được chỉnh sửa để trích xuất thông tin MV và kích thước MB mà không giải mã toàn bộ video.
Áp dụng thuật toán phát hiện chuyển động gồm ba giai đoạn: phân đoạn dựa trên MB, phân đoạn dựa trên đối tượng, và tinh chỉnh đối tượng.
Đánh giá hiệu quả thuật toán qua các chỉ số precision, recall và F1-score, so sánh với phương pháp tham khảo của Poppe.
Thời gian nghiên cứu kéo dài trong khoảng thời gian thu thập và xử lý dữ liệu thực tế, kết hợp với các thử nghiệm trên bộ dữ liệu chuẩn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện chuyển động trên video độ phân giải thấp: Trên bộ dữ liệu gồm 4 video chuẩn IEEE (PETS2006, Pedestrians, Highway, Office), phương pháp đề xuất đạt precision trung bình 80%, recall 84%, và F1-score 81%, tương đương với phương pháp Poppe (precision 81%, recall 83%, F1-score 81%).
Ưu thế trên video độ phân giải cao: Trên bộ dữ liệu thực tế gồm 7 video giám sát độ phân giải cao (1280x720 và 1920x1080), phương pháp đề xuất có recall cao hơn đáng kể so với Poppe, giảm thiểu số lượng đối tượng chuyển động bị bỏ sót. Ví dụ, video TrongNha_02 đạt precision 87.22%, recall 88.15%, F1-score 87.68%.
Tốc độ xử lý thực tế: Thuật toán chạy với tốc độ từ 17 đến 23 khung hình/giây trên máy tính Intel Core i5, và từ 22 đến 27 khung hình/giây trên thiết bị Raspberry Pi 2, đáp ứng yêu cầu xử lý thời gian thực.
Giới hạn về ngưỡng phân loại Ts: Việc lựa chọn ngưỡng Ts ảnh hưởng lớn đến hiệu quả phát hiện. Video ít nhiễu yêu cầu Ts thấp hơn, trong khi video nhiều nhiễu cần Ts cao hơn để tránh phát hiện sai.

Thảo luận kết quả

Nguyên nhân hiệu quả cao của phương pháp là do kết hợp thông tin kích thước MB và tính nhất quán của trường vector chuyển động, giúp phát hiện chính xác các vùng chuyển động, kể cả các vùng có màu sắc đồng nhất mà các phương pháp chỉ dựa vào kích thước MB thường bỏ sót. So với các phương pháp dựa trên dữ liệu điểm ảnh, phương pháp này giảm đáng kể tài nguyên tính toán do không cần giải mã toàn bộ video.

Kết quả cũng cho thấy phương pháp có thể áp dụng hiệu quả trong môi trường thực tế với nhiều điều kiện ánh sáng và môi trường khác nhau, từ trong nhà đến ngoài trời, có gió, mưa, ánh sáng nhân tạo hay tự nhiên. Tuy nhiên, việc lựa chọn ngưỡng Ts vẫn còn mang tính kinh nghiệm, là điểm hạn chế cần cải tiến trong tương lai.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh precision, recall và F1-score giữa phương pháp đề xuất và phương pháp Poppe trên từng video, cũng như bảng thống kê tốc độ xử lý trên các thiết bị khác nhau.

Đề xuất và khuyến nghị

Tự động điều chỉnh ngưỡng Ts bằng học máy: Áp dụng các thuật toán học máy để tự động điều chỉnh ngưỡng phân loại dựa trên đặc điểm video đầu vào, nhằm nâng cao độ chính xác và giảm thiểu sự phụ thuộc vào kinh nghiệm người dùng. Thời gian thực hiện: 6-12 tháng; chủ thể: nhóm nghiên cứu và phát triển phần mềm.
Mở rộng ứng dụng cho các chuẩn nén video khác: Nghiên cứu và phát triển phương pháp tương tự cho các chuẩn nén video phổ biến khác như H265/HEVC để tăng tính linh hoạt và khả năng ứng dụng rộng rãi. Thời gian thực hiện: 12 tháng; chủ thể: nhóm kỹ thuật codec.
Tích hợp hệ thống phát hiện chuyển động vào thiết bị IoT: Triển khai thuật toán trên các thiết bị IoT có cấu hình thấp như Raspberry Pi, camera thông minh để xử lý tại chỗ, giảm tải cho hệ thống trung tâm. Thời gian thực hiện: 6 tháng; chủ thể: nhóm phát triển phần cứng và phần mềm nhúng.
Phát triển giao diện người dùng thân thiện: Xây dựng giao diện ứng dụng cho phép người dùng dễ dàng chọn vùng quan tâm và tìm kiếm chuyển động nhanh chóng, nâng cao trải nghiệm sử dụng. Thời gian thực hiện: 3-6 tháng; chủ thể: nhóm thiết kế giao diện và phát triển ứng dụng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác Máy tính: Nghiên cứu các phương pháp xử lý video trong miền nén, phát triển thuật toán phát hiện chuyển động hiệu quả.
Kỹ sư phát triển hệ thống giám sát an ninh: Áp dụng thuật toán để xây dựng hệ thống giám sát thông minh, giảm tải xử lý và tăng tốc độ phản hồi.
Nhà quản lý và vận hành hệ thống camera giám sát đô thị: Tối ưu hóa công tác lưu trữ và tìm kiếm sự kiện trong kho dữ liệu video lớn, tiết kiệm thời gian và chi phí vận hành.
Nhà phát triển phần mềm IoT và thiết bị nhúng: Tích hợp thuật toán vào các thiết bị có cấu hình thấp để xử lý video tại nguồn, nâng cao hiệu quả và khả năng mở rộng của hệ thống.

Câu hỏi thường gặp

Phương pháp phát hiện chuyển động trong miền nén có ưu điểm gì so với phương pháp truyền thống?
Phương pháp trong miền nén sử dụng dữ liệu như vector chuyển động và kích thước macroblock mà không cần giải mã toàn bộ video, giúp giảm đáng kể tài nguyên tính toán và tăng tốc độ xử lý, phù hợp với các thiết bị có cấu hình thấp.
Ngưỡng Ts trong thuật toán được xác định như thế nào?
Ngưỡng Ts được chọn dựa trên đặc điểm video và mức độ nhiễu. Video ít nhiễu thường có Ts thấp hơn, còn video nhiều nhiễu cần Ts cao hơn để tránh phát hiện sai. Hiện tại, việc chọn Ts vẫn dựa trên kinh nghiệm và thử nghiệm.
Phương pháp có thể áp dụng cho các chuẩn nén video khác ngoài H264 không?
Hiện tại, phương pháp được phát triển cho chuẩn H264. Tuy nhiên, về nguyên tắc có thể mở rộng sang các chuẩn khác như H265, nhưng cần nghiên cứu thêm về cấu trúc dữ liệu và vector chuyển động của từng chuẩn.
Tốc độ xử lý của phương pháp trên các thiết bị thực tế như thế nào?
Trên máy tính Intel Core i5, tốc độ xử lý đạt từ 17 đến 23 khung hình/giây. Trên thiết bị Raspberry Pi 2, tốc độ đạt từ 22 đến 27 khung hình/giây, đáp ứng yêu cầu xử lý thời gian thực.
Phương pháp xử lý thế nào với các chuyển động nhiễu như lá cây đung đưa hay ánh sáng nhấp nháy?
Thuật toán phân biệt chuyển động thực và nhiễu dựa trên tính nhất quán của trường vector chuyển động và mật độ macroblock. Tuy nhiên, với một số nhiễu có chuyển động mạnh như lá cây đung đưa, việc loại bỏ hoàn toàn vẫn còn hạn chế và là hướng nghiên cứu tiếp theo.

Kết luận

Đã đề xuất thành công phương pháp phát hiện đối tượng chuyển động trong miền nén video chuẩn H264, kết hợp thông tin kích thước macroblock và vector chuyển động.
Phương pháp đạt hiệu quả cao trên cả video độ phân giải thấp và cao, với precision trung bình khoảng 80% và recall khoảng 84%.
Thuật toán có khả năng xử lý thời gian thực trên các thiết bị cấu hình thấp như Raspberry Pi, phù hợp ứng dụng thực tế.
Đã xây dựng ứng dụng hỗ trợ tìm kiếm chuyển động trong video giám sát, giúp tiết kiệm thời gian và công sức cho người dùng.
Hướng phát triển tiếp theo là tự động điều chỉnh ngưỡng phân loại bằng học máy để nâng cao độ chính xác và khả năng thích ứng của hệ thống.

Để tiếp tục phát triển và ứng dụng rộng rãi, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng phương pháp này, đồng thời tham gia cải tiến thuật toán nhằm giải quyết các hạn chế hiện tại.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY NGUYEN MINH HOA MOTION ANALYSIS FROM ENCODED VIDEO BITSTREAM MASTER’S THESIS HA NOI – 2018 z VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY NGUYEN MINH HOA MOTION ANALYSIS FROM ENCODED VIDEO BITSTREAM Major: Computer Science MASTER’S THESIS Supervisor: Dr. Do Van Nguyen Co-Supervisor: Dr. Tran Quoc Long HA NOI - 2018 z i AUTHORSHIP “I hereby declare that the work contained in this thesis is of my own and I have not submitted this thesis at any other institution in order to obtain a degree. To the best of my knowledge and belief, the thesis contains no materials previously published or written by another person other than those listed in the bibliography and identified as references.” Signature: ……………………………………………… z ii SUPERVISOR’S APPROVAL “I hereby approve that the thesis in its current form is ready for committee examination as a requirement for the Master of Computer Science degree at the University of Engineering and Technology.” Signature: ……………………………………………… Signature: ……………………………………………… z iii ACKNOWLEDGMENTS First of all, I would like to express special gratitude to my supervisors, Dr.

Do Van Nguyen and Dr. Tran Quoc Long, for their enthusiasm for instructions, the technical explanation as well as advices during this project. I also want to give sincere thanks to Assoc. Ha Le Thanh, Assoc.

Nguyen Thi Thuy for the instructions as well as the background knowledge for this thesis. And I would like to also thank my teachers, my friends in Human Machine Interaction Lab for their support. Thank my friends, my colleagues in the project "Nghiên Cứu Công Nghệ Tóm Tắt Video", and project “Multimedia application tools for intangible cultural heritage conservation and promotion”, project number ĐTDL.CN-34/16 for their working and support. Last but not least, I want to thank my family and all of my friends for their motivation and support as well.

They stand by and inspire me whenever I face the tough time. z 1 TABLE OF CONTENTS AUTHORSHIP. iii TABLE OF CONTENTS. 3 List of Figures.

4 List of Tables. 9 Moving object detection in the pixel domain. 9 Moving object detection in the compressed domain. Motion vector approaches.

Size of Macroblock approaches. 15 Video compression standard h264. Process video bitstream. Macroblock-based Segmentation.

Object-based Segmentation. 30 The moving object detection application. The process of application. The motion information.

Synthesizing movement information. Storing Movement Information. 45 List of of author’s publications related to thesis. 47 z 3 ABBREVIATIONS MB Macroblock MV Motion vector NALU Network Abstraction Layer Unit RBSP Raw Byte Sequence Payload SODB String Of Data Bits z 4 List of Figures Figure 1.

The process of moving object detection with data in the pixel domain. The process of moving object detection with data in the compressed domain. The structure of a H264 file. The motion vector of a Macroblock.

The process of moving object detection method. (a) An outdoor and in-door frames (b) The "size-map" of frames, (c) The "motion-map" of frames. Example about the “consistent” of motion vector. The implementation process of the approach.

Data struct to storage motion information. Example frames of test videos. Example frames and their ground truth. An example frame of Pedestrians (a) and ground truth image (b).

40 z 5 List of Tables Table 2. The information of test videos. The information of test sequences in group 1. The performance of two approachs with Pedestrians, PETS2006, Highway, and Office.

The experimental result of Poppe’s approach on 2nd group. The experimental result of proposed method on 2nd group. 43 z 6 INTRODUCTION Today, video content is extensively used in the areas of life such as indoor monitoring, traffic monitoring, etc. The number of videos sharing over the Internet at any given time is also extremely large.

According to statistics, hundreds of hours of video are uploaded to Youtube every minute [1]. Not only that, the general trend today is the surveillance cameras installed in homes for surveillance and sercurity purposes. These cameras will normally operate and store the surveillance videos automatically. Only when there are some special situations, or some special events occur, humans will use the video data to revisit.

The problem is that in a short amount of time, how can such a large video volume be evaluated? For example, when there is a burglary, an intrusion occurs, we can not spend hours to check each video previously stored. Then, a tool that lets you determine the moment when an object is moving in a long video is essential to reducing the time and effort of searching. Normally, in order to reduce the size of videos for transmission or storing, a video compression procedure is performed at surveillance cameras. After that, the compressed information in form of bit stream is stored, or transmitted to a server for analysis.

The video analysis process needs a lot of features to describe different aspects of vision. Typically, these features are extracted from the pixel values of each video frame by fully decompressing bitstream. The decompression procedure requires high computation capacity device to perform. However, with the trend of "Internet of Things", there are many low processing capacity devices which are not capable for performing this full video decompression at high speed.

So, it is difficult to perform an approach that requires a lot of computing power in real time. Another way to extract the feature from the video is using the data on the compressed video. These data can be: transform coefficients, motion vectors, quantization steps, quantization parameters, etc. From the above data, through the process and analysis, we can handle some important tasks in the computer vision include moving objects detection, human actions detection, face recognition, motion objects tracking.

This thesis proposes a new method to determine moving object by exploring and applying some motion estimation techniques in the video compression domain. After that, the method will be used to build an application that supports movement searching in the surveillance videos in the families. The compression format of z 7 the videos in the thesis is the H264 compression standard (MPEG-4 part10), a popular video compression standard today. Aims The goal of the thesis is to propose a method for determining moving objects in the compressed domain of a video.

Then, I try to build an application using the method for support searching the moments which have moving objects in the video. Object and Scope of the study Within the framework of the thesis, I study the algorithms related to determining moving objects in video, especially the algorithms that determine moving objects in the compressed domain. The video compression standard is used in the thesis is H264/AVC. The theory of video compression and computer vision are taken from scientific articles related to the video analysis problem on the compression domain, determine the motion form on the compression domain of the video.

The videos for test and experiment are obtained from the surveillance cameras both indoor and outdoor. Method and procedures - Research on motion analysis and evaluation systems on existing compressed video, scientific articles related to the analysis and evaluation of motion on compressed video. - Experimental research: Conduct experiential settings for each theoretical part such as extracting video data, compiling data, and evaluating motion based on the obtained data. - Experimental evaluation: Each experiment will be conducted independently on each module and then integrated and deployed.

Contributions The thesis proposes a new moving object detection method in surveillance video encoded with H264 compression standard using the motion vector and size of macroblock. z 8 Thesis structure Apart from the introduction, the conclution and the references, this thesis is organized into 3 chapters with the following main contents: Chapter 1 is literature review. This chapter will show the related work of the thesis include the moving object detection methods in the pixel domain and the moving object detection methods in the compressed domain. Chapter 2 mentiones the basic knowledge about video compression standard H264 such as H264 file structure, macroblocks, motion vectors and describes the detail of moving object detection method including processing video bitstreams, macroblock-based segmentation phase, object-based segmentation phase, and object refinement phase.

Chapter 3 shows the results of method including an application using proposed method and experimental results. LITERATURE REVIEW Today, surveillance cameras are used extensively in the world. The volume of video surveillance has also grown tremendously. Some problems that are often encountered with video surveillance include event searching, motion tracking, abnormal behavior detection, etc.

In order to handle these tasks, it is necessary to have a method that can determine which the moments in each videos exist movements. Usually, the video is compressed for storage and transmission. The previous moving object detection method usually use the data from the pixel images such as color value, edges, etc. To get the images that can be displayed, or processed, the system must decode video fully.

This consumes a large number of computing resources, time and memory of the device. I suggest a method that can quickly determine the moving objects in high resolution videos. The data used in the method will be taken from the compressed video domain including information about the motion vector and the size of the macroblock (in bit) after encoding. The method reduces the processing time of the method considerably compared to methods implemented with data on the pixel domain.

The problem of motion detection in a video has long been studied. This is the first step in a series of computer vision problems such as object tracking, object detection, abnormal movement detection, etc. There are usually two approaches to address this problem: using fully decoded video data (pixel domain data) or using live data from an undecoded video (compressed domain data). The following section will outline the studies based on these two approaches.

Moving object detection in the pixel domain Typically, to reduce the size of the video for transmission, a video encoding process is performed inside the surveillance camera and the compressed information is transmitted as a bit stream to a server for video analysis. Common video compression standards used today including mp4, H264, H265. To be viewable, these compressed videos need to be decoded to image frames. We call these image frames are the pixel domain and the data obtained from these image frames are the data in the pixel domain.1 describes the process of moving object detection methods in the pixel domain.

The data in the pixel domain include the color values of the pixels, the number of color channels of each pixel, the edges, etc. The process of moving object detection with data in the pixel domain To determine moving objects in the pixel domain, background subtraction algorithms are commonly used. There are many research results that have been introduced long ago. These methods usually use data as the relationship between frames in a time series.

Background subtraction in [2] is defined as: “Background subtraction is a widely used approach for detecting moving objects in videos from static cameras. The rationale in the approach is that of detecting the moving objects from the difference between the current frame and a reference frame, often called The “background image”, or “background model”. As a basic, the background image must be a representation of the scene with no moving objects and must be kept regularly updated so as to adapt to the varying luminarice conditions and geometry settings. Results of the researchs may include the methods use Gaussian average such as the method of Wren et al.

[3], the method of Koller et al. [4]; the methods use Temporal median filter such as the method of Lo and Velasti [5], the method of Cucchiara et al.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận Văn Thạc Sĩ Về Phân Tích Chuyển Động Từ Bitstream Video Mã Hóa" của tác giả Nguyễn Minh Hoa, dưới sự hướng dẫn của PGS.TS. Đỗ Văn Nguyên và PGS.TS. Trần Quốc Long, được thực hiện tại Trường Đại học Bách Khoa - Đại học Quốc gia Hà Nội vào năm 2018. Bài viết tập trung vào việc phân tích chuyển động trong video mã hóa từ bitstream, một lĩnh vực quan trọng trong công nghệ thông tin và truyền thông. Bằng cách áp dụng các phương pháp phân tích hiện đại, nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách thức hoạt động của video mã hóa mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực truyền thông đa phương tiện.

Để mở rộng thêm kiến thức về các khía cạnh liên quan đến công nghệ thông tin và giáo dục, bạn có thể tham khảo các bài viết sau:

Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ. Bài viết này cũng đề cập đến việc ứng dụng công nghệ thông tin trong giáo dục, tương tự như trong nghiên cứu về video mã hóa.
Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt. Bài viết này liên quan đến công nghệ thông tin và các ứng dụng của nó trong việc xử lý văn bản, có thể bổ sung thêm kiến thức cho bạn về các kỹ thuật phân tích dữ liệu.
Luận Văn Thạc Sĩ Về Phân Tích Dữ Liệu Sinh Viên Ngành CNTT Tại Trường Đại Học Tài Chính Marketing. Bài viết này cũng liên quan đến phân tích dữ liệu trong lĩnh vực công nghệ thông tin, giúp bạn có cái nhìn tổng quát hơn về các ứng dụng của phân tích dữ liệu trong giáo dục.

Những tài liệu này sẽ giúp bạn mở rộng hiểu biết về các ứng dụng công nghệ thông tin trong giáo dục và phân tích dữ liệu, từ đó nâng cao kiến thức chuyên môn của mình.

#Luận văn Thạc sĩ

#kỹ thuật mã hóa

#xử lý hình ảnh

#công nghệ video

#Mã Hóa Video

#Phân Tích Chuyển Động

Chủ đề

Công nghệ thông tin

nghiên cứu khoa học

Nén và Mã Hóa Dữ Liệu

Luận Văn Thạc Sĩ Về Phân Tích Chuyển Động Từ Bitstream Video Mã Hóa

AUTHORSHIP

TABLE OF CONTENTS

1. INTRODUCTION

2. LITERATURE REVIEW

2.1. Moving object detection in the pixel domain

2.2. Moving object detection in the compressed domain

3. METHODOLOGY

3.1. Video compression standard h264

3.2. Process video bitstream

LIST OF FIGURES

LIST OF TABLES

I. Giới thiệu

II. Phân tích chuyển động trong miền pixel

2.1. Các phương pháp phát hiện chuyển động

III. Phân tích chuyển động trong miền nén

3.1. Các phương pháp sử dụng vector chuyển động

3.2. Kích thước macroblock

IV. Ứng dụng thực tiễn

THÔNG TIN CHI TIẾT

Tác giả: Nguyen Minh Hoa

Người hướng dẫn: Dr. Do Van Nguyen

Trường học: Vietnam National University, Hanoi University of Engineering and Technology

Chuyên ngành: Computer Science

Đề tài: Phân Tích Chuyển Động Từ Bitstream Video Mã Hóa

Loại tài liệu: master’s thesis

Năm xuất bản: 2018

Địa điểm: Ha Noi

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Luận Văn Thạc Sĩ Về Phân Tích Chuyển Động Từ Bitstream Video Mã Hóa

AUTHORSHIP

TABLE OF CONTENTS

1. INTRODUCTION

2. LITERATURE REVIEW

2.1. Moving object detection in the pixel domain

2.2. Moving object detection in the compressed domain

3. METHODOLOGY

3.1. Video compression standard h264

3.2. Process video bitstream

LIST OF FIGURES

LIST OF TABLES

I. Giới thiệu

II. Phân tích chuyển động trong miền pixel

2.1. Các phương pháp phát hiện chuyển động

III. Phân tích chuyển động trong miền nén

3.1. Các phương pháp sử dụng vector chuyển động

3.2. Kích thước macroblock

IV. Ứng dụng thực tiễn

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyen Minh Hoa

Người hướng dẫn: Dr. Do Van Nguyen

Trường học: Vietnam National University, Hanoi University of Engineering and Technology

Chuyên ngành: Computer Science

Đề tài: Phân Tích Chuyển Động Từ Bitstream Video Mã Hóa

Loại tài liệu: master’s thesis

Năm xuất bản: 2018

Địa điểm: Ha Noi

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

SINH VIÊN CŨNG XEM