Luận Văn Thạc Sĩ: Nhận Dạng Hoạt Động Con Người Dựa Trên Khung Xương Bằng Kỹ Thuật Học Sâu

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu chung

1.2. Mô tả bài toán nhận dạng hành động của con người theo hướng tiếp cận bằng các mô hình học sâu

1.3. Mục tiêu và nhiệm vụ của luận văn

1.3.1. Mục tiêu luận văn

1.3.2. Nhiệm vụ luận văn

1.4. Giới hạn đề tài

1.5. Tóm tắt nội dung luận văn

2. CHƯƠNG 2: KIẾN THỨC NỀN TẢNG

2.1. Mạng nơ-ron nhân tạo

2.1.1. Một số hàm kích hoạt phổ biến

2.1.2. Mạng nơ-ron tích chập

2.1.3. Mạng nơ-ron hồi quy

2.1.3.1. LSTM - Long Short Term Memory

2.2. Tổng quan về đồ thị và mạng đồ thị

2.2.1. Biểu diễn đồ thị

2.2.2. Mạng nơ-ron tích chập đồ thị

3. CHƯƠNG 3: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Tổng quan về các mạng học sâu dựa trên CNN cho việc nhận dạng hoạt động của người dựa trên khung xương

3.2. Tổng quan về các mạng học sâu dựa trên RNN cho việc nhận dạng hoạt động của người dựa trên khung xương

3.3. Tổng quan về các mạng học sâu dựa trên GNN cho việc nhận dạng hoạt động của người dựa trên khung xương

4. CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT

4.1. Mô hình tham khảo

4.2. Phương pháp đánh giá

4.3. Tập dữ liệu và phương pháp xử lý

4.3.1. Phương pháp xử lý

4.4. Đề xuất: Đánh giá lại mức độ quan tâm từng khung xương dựa trên thời gian theo dõi

4.4.1. Động lực và ý tưởng

4.4.2. Mô tả mô hình

4.4.3. Tham số cấu hình của mô hình

4.4.4. Mô tả thực nghiệm

4.4.5. Kết quả thực nghiệm và thảo luận

5. CHƯƠNG 5: HỆ THỐNG NHẬN DẠNG HÀNH ĐỘNG

5.1. Tổng quan hệ thống

5.2. Chuẩn bị dữ liệu

5.3. Xây dựng mô hình và đánh giá kết quả

6. CHƯƠNG 6: KẾT LUẬN

6.1. Kết quả đạt được

6.2. Hạn chế và vấn đề tồn đọng

6.3. Hướng phát triển

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu chung

Nhận diện hoạt động con người (HAR) là một bài toán quan trọng trong lĩnh vực thị giác máy tính. Bài toán này tập trung vào việc xây dựng hệ thống có khả năng phát hiện và phân loại các hành động của con người từ dữ liệu đầu vào, chủ yếu là hình ảnh từ camera. Học sâu và machine learning đã đóng góp đáng kể vào việc cải thiện độ chính xác của các mô hình HAR. Khung xương được sử dụng như một phương pháp hiệu quả để biểu diễn dữ liệu, giúp giảm chi phí tính toán và tăng tính ổn định trước các yếu tố bên ngoài như ánh sáng và góc quay.

1.1. Mục tiêu và nhiệm vụ

Mục tiêu chính của luận văn là xây dựng hệ thống nhận dạng hoạt động con người dựa trên khung xương sử dụng học sâu. Nhiệm vụ bao gồm nghiên cứu các phương pháp cải thiện độ chính xác của mô hình, thực nghiệm và đánh giá kết quả. Phân tích hình ảnh và deep learning là các công cụ chính được sử dụng để đạt được mục tiêu này.

II. Kiến thức nền tảng

Luận văn cung cấp kiến thức nền tảng về các mô hình học sâu như mạng nơ-ron nhân tạo, mạng nơ-ron tích chập (CNN), và mạng nơ-ron hồi quy (RNN). Đặc biệt, mạng nơ-ron đồ thị (GNN) được nhấn mạnh như một phương pháp hiệu quả để xử lý dữ liệu khung xương. Các khái niệm về đồ thị và cách biểu diễn dữ liệu dưới dạng đồ thị cũng được trình bày chi tiết.

2.1. Mạng nơ ron đồ thị

Mạng nơ-ron đồ thị (GNN) là một phương pháp tiên tiến trong học sâu, đặc biệt phù hợp cho việc xử lý dữ liệu khung xương. GNN biểu diễn chuỗi khung xương dưới dạng đồ thị và áp dụng các cơ chế học sâu để trích xuất đặc trưng. Phương pháp này đã chứng minh hiệu quả trong việc cải thiện độ chính xác của các mô hình nhận dạng hoạt động con người.

III. Công trình nghiên cứu liên quan

Luận văn tổng quan các nghiên cứu trước đây về nhận dạng hoạt động con người dựa trên khung xương. Các phương pháp sử dụng CNN, RNN, và GNN được phân tích và so sánh. Đặc biệt, ST-GCN (Spatial-Temporal Graph Convolutional Networks) được đề cập như một mô hình tiên tiến, sử dụng đồ thị không gian-thời gian để xử lý chuỗi khung xương.

3.1. Phương pháp dựa trên GNN

Các mô hình dựa trên GNN như ST-GCN và HD-GCN (Hierarchically Decomposed Graph Convolutional Networks) đã đạt được kết quả ấn tượng trong việc nhận dạng hoạt động con người. Các mô hình này tập trung vào việc tối ưu hóa cấu trúc đồ thị và trích xuất đặc trưng từ các khung xương, giúp cải thiện độ chính xác và hiệu suất của hệ thống.

IV. Mô hình đề xuất

Luận văn đề xuất một mô hình mới dựa trên GNN, tập trung vào việc đánh giá mức độ quan trọng của từng khung xương trong chuỗi dữ liệu. Mô hình này sử dụng cơ chế temporal attention để lọc thông tin nhiễu và tăng cường các đặc trưng quan trọng, giúp cải thiện độ chính xác của hệ thống nhận dạng hoạt động con người.

4.1. Cơ chế Temporal Attention

Cơ chế temporal attention được sử dụng để đánh giá mức độ đóng góp của từng khung xương trong chuỗi dữ liệu. Bằng cách gán trọng số khác nhau cho các khung xương, mô hình có thể tập trung vào các khung chứa thông tin quan trọng, loại bỏ các khung nhiễu, từ đó cải thiện hiệu suất nhận dạng hoạt động con người.

V. Kết quả và đánh giá

Luận văn trình bày kết quả thực nghiệm của mô hình đề xuất trên các bộ dữ liệu NTU-RGB+D60 và NTU-RGB+D120. Mô hình đạt được độ chính xác cao hơn so với các phương pháp truyền thống, chứng minh hiệu quả của việc sử dụng temporal attention và GNN trong nhận dạng hoạt động con người.

5.1. So sánh với các phương pháp tiên tiến

Kết quả thực nghiệm cho thấy mô hình đề xuất vượt trội so với các phương pháp tiên tiến như ST-GCN và HD-GCN trên cả hai bộ dữ liệu NTU-RGB+D60 và NTU-RGB+D120. Điều này khẳng định giá trị thực tiễn của mô hình trong việc ứng dụng vào các hệ thống giám sát và phân tích hình ảnh.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính nhận dạng hoạt động của con người dựa trên khung xương bằng kỹ thuật học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng hành động của con người (Human Action Recognition - HAR) dựa trên khung xương là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, đặc biệt trong thị giác máy tính và trí tuệ nhân tạo. Theo ước tính, việc ứng dụng các hệ thống HAR trong giám sát an ninh, y tế, và phân tích thể thao ngày càng gia tăng, góp phần nâng cao chất lượng cuộc sống và an toàn xã hội. Bài toán này tập trung vào việc xây dựng hệ thống tự động nhận diện các hành động của con người thông qua dữ liệu khung xương thu thập từ camera hoặc cảm biến, với ưu điểm vượt trội về chi phí tính toán và khả năng chống chịu với các yếu tố môi trường như ánh sáng, góc quan sát, và nhiễu nền so với dữ liệu hình ảnh RGB truyền thống.

Mục tiêu chính của nghiên cứu là phát triển một mô hình học sâu dựa trên mạng nơ-ron đồ thị (Graph Neural Networks - GNN) để nhận dạng chính xác các hành động của con người dựa trên chuỗi dữ liệu khung xương. Nghiên cứu tập trung vào việc khai thác mức độ quan trọng của từng khung xương trong chuỗi nhằm cải thiện hiệu suất phân loại hành động. Phạm vi nghiên cứu được giới hạn trong việc sử dụng các bộ dữ liệu mô phỏng khung xương 3D phổ biến như NTU-RGB+D60, NTU-RGB+D120 và NW-UCLA, với thời gian thực hiện từ tháng 01 đến tháng 05 năm 2024 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác nhận dạng hành động, giảm thiểu sai số trong các ứng dụng thực tế như phát hiện té ngã người già, giám sát an ninh đô thị, và phân tích hành vi trong thể thao. Việc cải tiến mô hình không chỉ giúp tăng hiệu quả nhận dạng mà còn giảm thiểu chi phí tính toán và tăng khả năng ứng dụng trong các hệ thống giám sát thời gian thực.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên ba lý thuyết và mô hình chính:

Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN): Là nền tảng cho các mô hình học sâu, ANN mô phỏng hoạt động của nơ-ron sinh học, bao gồm các tầng đầu vào, tầng ẩn và tầng đầu ra. Các hàm kích hoạt phi tuyến như Sigmoid, ReLU, và Tanh được sử dụng để tăng khả năng học các mối quan hệ phi tuyến trong dữ liệu.
Mạng nơ-ron đồ thị (Graph Neural Networks - GNN): GNN là mô hình học sâu chuyên xử lý dữ liệu có cấu trúc đồ thị, phù hợp với dữ liệu khung xương người được biểu diễn dưới dạng các nút (khớp) và các cạnh (liên kết vật lý). GNN cho phép tổng hợp thông tin từ các nút láng giềng, giúp mô hình hóa mối quan hệ không gian và thời gian trong chuỗi khung xương.
Cơ chế Attention (Self-Attention và Multihead-Attention): Cơ chế này giúp mô hình tập trung vào các phần quan trọng của chuỗi dữ liệu, đặc biệt là các khung xương có mức độ đóng góp cao trong việc nhận dạng hành động. Việc tích hợp cơ chế Attention vào GNN giúp lọc bỏ thông tin nhiễu và nâng cao độ chính xác phân loại.

Các khái niệm chuyên ngành quan trọng bao gồm: khung xương 3D, ma trận kề (adjacency matrix), mạng tích chập đồ thị (Graph Convolutional Networks - GCN), mạng nơ-ron hồi quy (Recurrent Neural Networks - RNN), và các biến thể như LSTM (Long Short-Term Memory).

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là các bộ dữ liệu công khai mô phỏng khung xương người trong không gian 3D, gồm NTU-RGB+D60, NTU-RGB+D120 và NW-UCLA. Các bộ dữ liệu này cung cấp chuỗi tọa độ 3D của 25 khớp trên cơ thể người, được thu thập từ nhiều góc camera và trong các điều kiện môi trường khác nhau.

Phương pháp phân tích bao gồm:

Tiền xử lý dữ liệu: Chuẩn hóa và làm sạch dữ liệu khung xương, loại bỏ nhiễu và chuẩn hóa tọa độ để đảm bảo tính nhất quán.
Xây dựng mô hình học sâu: Dựa trên mô hình HD-GCN (Hierarchically Decomposed Graph Convolutional Networks) làm mô hình cơ sở, nghiên cứu đề xuất tích hợp mô-đun Temporal Attention nhằm đánh giá mức độ quan trọng của từng khung xương trong chuỗi.
Huấn luyện và đánh giá: Mô hình được huấn luyện trên tập huấn luyện của các bộ dữ liệu, sử dụng hàm mất mát Cross Entropy và thuật toán tối ưu Adam. Độ chính xác (Accuracy) được sử dụng làm chỉ số đánh giá hiệu suất.
Timeline nghiên cứu: Nghiên cứu được thực hiện trong khoảng 5 tháng, từ tháng 01 đến tháng 05 năm 2024, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, huấn luyện, đánh giá và phát triển hệ thống nhận dạng hành động thời gian thực.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải thiện độ chính xác nhận dạng: Mô hình đề xuất tích hợp Temporal Attention trên cơ sở HD-GCN đạt độ chính xác trung bình trên 85% trên bộ dữ liệu NTU-RGB+D120, cao hơn khoảng 5% so với mô hình cơ sở HD-GCN không có cơ chế Attention.
Tăng khả năng phân biệt các hành động phức tạp: Các lớp hành động khó phân biệt như "Kicking other person" và "Hugging" được mô hình đề xuất nhận dạng chính xác hơn với tỷ lệ tăng từ 65% lên 75% so với mô hình cơ sở.
Giảm thời gian dự đoán: Mô hình đề xuất có thời gian dự đoán trung bình khoảng 12 ms cho một mẫu dữ liệu, nhanh hơn 10% so với mô hình cơ sở, phù hợp với yêu cầu xử lý thời gian thực.
Khả năng lọc nhiễu hiệu quả: Cơ chế Temporal Attention giúp mô hình tập trung vào các khung xương có thông tin quan trọng, giảm ảnh hưởng của các khung xương nhiễu hoặc không liên quan, từ đó nâng cao độ ổn định của mô hình trong các điều kiện môi trường khác nhau.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất là do việc tích hợp cơ chế Temporal Attention giúp mô hình đánh giá và trọng số hóa các khung xương trong chuỗi dữ liệu, tương tự như việc lọc thông tin nhiễu và tăng cường các đặc trưng quan trọng. So với các nghiên cứu trước đây chỉ sử dụng GNN thuần túy, việc bổ sung Attention giúp mô hình có khả năng học sâu hơn về mối quan hệ thời gian giữa các khung xương.

Kết quả này phù hợp với xu hướng hiện đại trong học sâu, khi các mô hình Transformer và Attention được áp dụng rộng rãi trong nhiều lĩnh vực, từ xử lý ngôn ngữ tự nhiên đến thị giác máy tính. Việc áp dụng thành công cơ chế này trong bài toán HAR dựa trên khung xương mở ra hướng phát triển mới cho các nghiên cứu tiếp theo.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác giữa mô hình cơ sở và mô hình đề xuất trên các bộ dữ liệu khác nhau, cũng như bảng confusion matrix thể hiện hiệu suất phân loại từng lớp hành động. Các biểu đồ thời gian dự đoán cũng minh họa hiệu quả tính toán của mô hình.

Đề xuất và khuyến nghị

Triển khai hệ thống nhận dạng hành động thời gian thực: Xây dựng và tích hợp mô hình đề xuất vào hệ thống giám sát video để phát hiện các hành vi bất thường như té ngã, leo rào trong vòng 6 tháng tới, nhằm nâng cao an ninh và an toàn trong cộng đồng.
Mở rộng bộ dữ liệu huấn luyện: Thu thập và bổ sung thêm dữ liệu khung xương từ các môi trường thực tế đa dạng để tăng khả năng tổng quát hóa của mô hình, dự kiến thực hiện trong 12 tháng tiếp theo.
Tối ưu hóa mô hình cho thiết bị di động: Nghiên cứu và phát triển phiên bản mô hình nhẹ, giảm thiểu tài nguyên tính toán để ứng dụng trên các thiết bị di động hoặc camera thông minh, hướng đến việc triển khai rộng rãi trong 18 tháng tới.
Kết hợp đa nguồn dữ liệu: Đề xuất tích hợp dữ liệu RGB, dữ liệu âm thanh hoặc cảm biến khác để nâng cao độ chính xác và khả năng nhận dạng hành động phức tạp, với kế hoạch nghiên cứu thử nghiệm trong 24 tháng.

Các giải pháp trên cần sự phối hợp giữa các nhà nghiên cứu, kỹ sư phần mềm và các đơn vị ứng dụng thực tế để đảm bảo tính khả thi và hiệu quả.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác máy tính: Luận văn cung cấp kiến thức nền tảng và các phương pháp học sâu tiên tiến trong nhận dạng hành động dựa trên khung xương, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển hệ thống giám sát an ninh: Các giải pháp và mô hình đề xuất giúp cải thiện khả năng phát hiện hành vi bất thường, hỗ trợ xây dựng các hệ thống giám sát thông minh và cảnh báo kịp thời.
Nhà phát triển ứng dụng y tế và chăm sóc người cao tuổi: Hệ thống nhận dạng hành động có thể ứng dụng trong phát hiện té ngã và theo dõi sức khỏe người già, giúp nâng cao chất lượng chăm sóc và giảm thiểu rủi ro.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI: Luận văn cung cấp cơ sở để phát triển các sản phẩm ứng dụng trí tuệ nhân tạo trong nhận dạng hành động, mở rộng thị trường và nâng cao giá trị sản phẩm.

Câu hỏi thường gặp

Tại sao chọn dữ liệu khung xương thay vì dữ liệu hình ảnh RGB?
Dữ liệu khung xương giảm thiểu ảnh hưởng của các yếu tố môi trường như ánh sáng, góc nhìn và nền phức tạp, đồng thời giảm chi phí tính toán và lưu trữ so với dữ liệu hình ảnh RGB, giúp mô hình ổn định và hiệu quả hơn.
Mô hình GNN có ưu điểm gì so với CNN và RNN trong bài toán này?
GNN tận dụng cấu trúc đồ thị tự nhiên của khung xương, mô hình hóa mối quan hệ không gian giữa các khớp và mối quan hệ thời gian giữa các khung xương, từ đó trích xuất đặc trưng hiệu quả hơn so với CNN và RNN.
Cơ chế Temporal Attention hoạt động như thế nào?
Temporal Attention đánh giá mức độ quan trọng của từng khung xương trong chuỗi, gán trọng số cao cho các khung chứa thông tin hữu ích và trọng số thấp cho các khung nhiễu, giúp mô hình tập trung vào dữ liệu quan trọng để cải thiện độ chính xác.
Mô hình có thể áp dụng trong các điều kiện thực tế khác nhau không?
Với khả năng xử lý dữ liệu khung xương và cơ chế Attention, mô hình có độ bền cao trước các biến đổi môi trường như ánh sáng và góc nhìn, phù hợp với nhiều điều kiện thực tế khác nhau.
Thời gian dự đoán của mô hình có đáp ứng yêu cầu thời gian thực không?
Mô hình đề xuất có thời gian dự đoán trung bình khoảng 12 ms cho một mẫu, đủ nhanh để ứng dụng trong các hệ thống giám sát thời gian thực, hỗ trợ phát hiện và cảnh báo kịp thời.

Kết luận

Đã xây dựng thành công mô hình nhận dạng hành động dựa trên khung xương sử dụng mạng nơ-ron đồ thị kết hợp cơ chế Temporal Attention, cải thiện độ chính xác nhận dạng lên trên 85%.
Mô hình đề xuất vượt trội hơn mô hình cơ sở HD-GCN về cả độ chính xác và tốc độ dự đoán, phù hợp với ứng dụng thời gian thực.
Nghiên cứu đã chứng minh hiệu quả của việc trọng số hóa các khung xương trong chuỗi dữ liệu nhằm lọc nhiễu và tăng cường thông tin quan trọng.
Hệ thống nhận dạng hành động thời gian thực được phát triển dựa trên mô hình đề xuất, có tiềm năng ứng dụng trong giám sát an ninh, y tế và các lĩnh vực khác.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tối ưu hóa mô hình cho thiết bị di động và tích hợp đa nguồn dữ liệu để nâng cao hiệu quả và khả năng ứng dụng thực tế.

Để tiếp tục phát triển và ứng dụng mô hình, các nhà nghiên cứu và doanh nghiệp được khuyến khích hợp tác triển khai thử nghiệm trong các môi trường thực tế, đồng thời cập nhật mô hình với dữ liệu mới nhằm duy trì hiệu suất cao.

Tài liệu "Nhận Dạng Hoạt Động Con Người Qua Khung Xương Sử Dụng Học Sâu" khám phá cách mà công nghệ học sâu có thể được áp dụng để nhận diện và phân tích các hoạt động của con người thông qua khung xương. Bằng cách sử dụng các mô hình học sâu, tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp hiện đại trong nhận diện hoạt động mà còn chỉ ra những ứng dụng tiềm năng trong các lĩnh vực như an ninh, thể thao và chăm sóc sức khỏe. Độc giả sẽ được trang bị kiến thức về cách thức hoạt động của các thuật toán học sâu, từ đó có thể áp dụng vào các dự án nghiên cứu hoặc phát triển công nghệ.

Nếu bạn muốn mở rộng thêm kiến thức về các ứng dụng của học sâu trong các lĩnh vực khác, hãy tham khảo tài liệu Hcmute ứng dụng giải thuật fastica trong tách nguồn mù và trích đặc trưng, nơi bạn sẽ tìm hiểu về các thuật toán tách nguồn âm thanh. Bên cạnh đó, tài liệu Luận văn thạc sĩ nghiên cứu và ứng dụng deep learning phát hiện người xâm nhập sẽ giúp bạn hiểu rõ hơn về việc ứng dụng học sâu trong an ninh mạng. Cuối cùng, tài liệu Luận văn advanced data mining techniques sẽ cung cấp cho bạn những kỹ thuật khai thác dữ liệu tiên tiến, mở rộng thêm kiến thức về phân tích dữ liệu trong các lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#xử lý hình ảnh

#mô hình học máy

#nhận dạng hoạt động

#kỹ thuật học sâu

#khung xương con người

Chủ đề

Trí tuệ nhân tạo

Xử lý hình ảnh

nhận dạng hoạt động