Tổng quan nghiên cứu

Nhận dạng hình trạng người là một lĩnh vực nghiên cứu quan trọng trong kỹ thuật điều khiển và tự động hóa, với ứng dụng rộng rãi trong giám sát an ninh, chăm sóc sức khỏe, tương tác người-máy và robot. Theo ước tính, việc nhận dạng chính xác các hình thái cơ bản của con người như đứng, ngồi, cúi và nằm có thể nâng cao hiệu quả của các hệ thống tự động hóa và tương tác thông minh. Luận văn tập trung nghiên cứu nhận dạng hình trạng người dựa trên dữ liệu khớp xương thu thập từ nhiều thiết bị Kinect phiên bản 2.0, nhằm khắc phục hạn chế của việc sử dụng một Kinect đơn lẻ như mất dữ liệu do che khuất hoặc góc nhìn không thuận lợi.

Mục tiêu cụ thể của nghiên cứu là đề xuất mô hình nhận dạng hình trạng người từ nhiều Kinect, xây dựng hệ thống thu thập và đồng bộ dữ liệu khớp xương, trích chọn đặc trưng phù hợp và áp dụng thuật toán học máy SVM để phân loại bốn hình thái cơ bản: đứng, ngồi, cúi và nằm. Phạm vi nghiên cứu được thực hiện tại phòng thí nghiệm Viện Nghiên cứu Quốc tế MICA, Trường Đại học Bách Khoa Hà Nội, với dữ liệu thu thập từ hai Kinect đặt vuông góc nhau, trong khoảng thời gian năm 2016.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác nhận dạng hình trạng người trong các điều kiện thực tế khác nhau, giảm thiểu sai số do góc nhìn và che khuất, đồng thời cung cấp nền tảng cho các ứng dụng tự động hóa và tương tác thông minh trong đời sống và công nghiệp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: lý thuyết nhận dạng hình dạng người từ dữ liệu hình ảnh và lý thuyết học máy phân lớp SVM (Support Vector Machine).

  1. Nhận dạng hình dạng người từ Kinect: Kinect phiên bản 2.0 cung cấp dữ liệu tọa độ 3D của 25 khớp xương trên cơ thể người, cho phép mô hình hóa hình thái cơ thể dựa trên các đặc trưng hình học như góc giữa các khớp và tỉ lệ khoảng cách giữa các điểm khớp xương. Việc sử dụng nhiều Kinect giúp thu thập dữ liệu đa chiều từ nhiều góc nhìn, tăng độ chính xác và giảm thiểu mất mát thông tin do che khuất.

  2. Thuật toán SVM: SVM là thuật toán học có giám sát, phân lớp dữ liệu dựa trên siêu phẳng tối ưu với khoảng cách lề cực đại giữa các lớp. Thuật toán này phù hợp với bài toán phân loại bốn hình thái cơ bản của cơ thể người do tính đơn giản, độ chính xác cao và thời gian huấn luyện ngắn. Hàm nhân RBF được lựa chọn để xử lý dữ liệu đặc trưng rời rạc và không tuyến tính.

Các khái niệm chính bao gồm: đồng bộ dữ liệu theo thời gian và không gian, trích chọn đặc trưng góc và tỉ lệ khoảng cách giữa các khớp xương, ma trận chuyển đổi hệ tọa độ giữa các Kinect, và mô hình phân lớp SVM với các tham số huấn luyện được tối ưu.

Phương pháp nghiên cứu

Nguồn dữ liệu được thu thập trực tiếp từ hai thiết bị Kinect phiên bản 2.0 đặt vuông góc nhau tại phòng thí nghiệm Viện Nghiên cứu Quốc tế MICA. Mỗi Kinect kết nối với một máy tính client, dữ liệu khớp xương được truyền về máy chủ để đồng bộ và xử lý.

Phương pháp phân tích bao gồm:

  • Đồng bộ dữ liệu theo thời gian: Dữ liệu được chuẩn hóa về 25 khung hình mỗi giây, chọn khung hình gần nhất với mốc thời gian chuẩn để đồng bộ.
  • Đồng bộ dữ liệu theo không gian: Xác định ma trận quay và vector tịnh tiến giữa hai hệ tọa độ Kinect dựa trên các điểm khớp xương chung, sử dụng phép quay quanh trục Y với góc 90 độ.
  • Trích chọn đặc trưng: Lựa chọn 10 đặc trưng chính gồm các góc giữa các khớp xương và tỉ lệ khoảng cách đặc trưng cho từng hình thái cơ thể.
  • Huấn luyện mô hình SVM: Sử dụng tập dữ liệu đã gán nhãn gồm 4 lớp hình thái, áp dụng hàm nhân RBF với tham số σ = 2.0, loại hình C-Support Vector Classification (C_SVC).
  • Thời gian nghiên cứu: Quá trình thu thập và xử lý dữ liệu diễn ra trong năm 2016, với các bước thử nghiệm và đánh giá kết quả thực nghiệm tại phòng thí nghiệm.

Cỡ mẫu thu thập gồm 50 mẫu cho mỗi hình thái và mỗi góc nhìn, tổng cộng khoảng 1600 mẫu dữ liệu cho bốn hình thái và nhiều góc độ khác nhau.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác nhận dạng tăng khi sử dụng nhiều Kinect: Kết quả thử nghiệm cho thấy, khi sử dụng một Kinect, độ chính xác nhận dạng hình thái người đạt khoảng 85-90%, trong khi khi sử dụng hai Kinect đồng bộ, độ chính xác tăng lên trên 95%. Việc đồng bộ dữ liệu không gian và thời gian giúp giảm thiểu sai số do che khuất và góc nhìn không thuận lợi.

  2. Đặc trưng góc và tỉ lệ khoảng cách có khả năng phân biệt cao: Các đặc trưng như góc BEH đặc trưng cho hình thái cúi, tỉ lệ chiều cao các điểm A, B, E so với H, I, M, N đặc trưng cho hình thái nằm, được xác định có giá trị phân loại rõ ràng với sai số dưới 5%.

  3. Thuật toán SVM với hàm nhân RBF phù hợp cho bài toán phân loại: So sánh các hàm nhân Linear, Sigmoid, Poly và RBF, hàm RBF cho kết quả nhận dạng tốt nhất với tỉ lệ chính xác trên 94%, thời gian huấn luyện ngắn và khả năng xử lý dữ liệu không tuyến tính hiệu quả.

  4. Đồng bộ dữ liệu theo thời gian và không gian là yếu tố quyết định: Việc đồng bộ dữ liệu theo thời gian với tần số 25 fps và đồng bộ không gian bằng ma trận quay quanh trục Y giúp kết hợp chính xác các tọa độ khớp xương từ hai Kinect, tạo ra dữ liệu đầu vào chất lượng cho mô hình nhận dạng.

Thảo luận kết quả

Nguyên nhân chính của việc tăng độ chính xác khi sử dụng nhiều Kinect là do khả năng thu thập dữ liệu đa chiều từ nhiều góc nhìn, giảm thiểu các trường hợp khớp xương bị che khuất hoặc không được phát hiện khi chỉ dùng một Kinect. Kết quả này phù hợp với các nghiên cứu trong ngành cho thấy việc kết hợp nhiều cảm biến giúp cải thiện độ tin cậy của hệ thống nhận dạng.

So sánh với các phương pháp nhận dạng hình thái người dựa trên ảnh màu hoặc cảm biến vật lý, phương pháp sử dụng Kinect có ưu điểm vượt trội về khả năng hoạt động trong điều kiện ánh sáng yếu hoặc bóng tối nhờ cảm biến hồng ngoại, đồng thời giảm thiểu chi phí và sự phức tạp trong việc gắn cảm biến lên cơ thể người.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác nhận dạng giữa một Kinect và hai Kinect, cũng như bảng thống kê các đặc trưng góc và tỉ lệ khoảng cách theo từng hình thái, giúp minh họa rõ ràng hiệu quả của mô hình đề xuất.

Đề xuất và khuyến nghị

  1. Mở rộng số lượng Kinect trong hệ thống: Đề xuất triển khai hệ thống với 4 Kinect đặt vuông góc để bao phủ toàn bộ 360 độ, nhằm nâng cao độ chính xác nhận dạng trong các môi trường phức tạp và nhiều người.

  2. Tối ưu hóa thuật toán đồng bộ dữ liệu: Cải tiến thuật toán đồng bộ thời gian và không gian để giảm thiểu độ trễ và tăng tốc độ xử lý, hướng tới ứng dụng trong thời gian thực.

  3. Phát triển giao diện người dùng trực quan: Xây dựng module hiển thị kết quả nhận dạng với hình ảnh khớp xương và camera màu, hỗ trợ người dùng dễ dàng theo dõi và điều chỉnh hệ thống.

  4. Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu từ nhiều đối tượng với các hình thái đa dạng và điều kiện môi trường khác nhau để nâng cao khả năng tổng quát hóa của mô hình.

  5. Ứng dụng trong các lĩnh vực thực tế: Khuyến nghị áp dụng hệ thống nhận dạng hình thái người trong giám sát an ninh, chăm sóc sức khỏe người cao tuổi, và tương tác người-máy trong robot dịch vụ, với lộ trình thử nghiệm trong vòng 12 tháng.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành kỹ thuật điều khiển và tự động hóa: Có thể áp dụng phương pháp và mô hình nhận dạng hình thái người từ nhiều Kinect để phát triển các đề tài nghiên cứu liên quan.

  2. Chuyên gia phát triển hệ thống giám sát và an ninh: Sử dụng kết quả nghiên cứu để xây dựng hệ thống giám sát tự động nhận dạng hành vi và hình thái người trong các khu vực công cộng.

  3. Nhà phát triển ứng dụng chăm sóc sức khỏe và hỗ trợ người cao tuổi: Áp dụng công nghệ nhận dạng hình thái để theo dõi tình trạng vận động và phát hiện các sự cố như ngã hoặc bất động.

  4. Lập trình viên và kỹ sư phần mềm trong lĩnh vực tương tác người-máy: Tham khảo mô hình và thuật toán SVM kết hợp dữ liệu Kinect để phát triển các ứng dụng tương tác thông minh, robot dịch vụ.

Câu hỏi thường gặp

  1. Tại sao lại sử dụng nhiều Kinect thay vì một Kinect duy nhất?
    Việc sử dụng nhiều Kinect giúp thu thập dữ liệu từ nhiều góc nhìn khác nhau, giảm thiểu mất mát thông tin do che khuất hoặc góc nhìn không thuận lợi, từ đó nâng cao độ chính xác nhận dạng hình thái người.

  2. Các đặc trưng nào được sử dụng để phân biệt các hình thái cơ thể?
    Các đặc trưng chính bao gồm các góc giữa các khớp xương như góc BEH, góc tạo bởi các khớp HM, IK, NO, IKL, NOP và các tỉ lệ khoảng cách giữa các điểm khớp xương đặc trưng cho từng hình thái như đứng, ngồi, cúi và nằm.

  3. Tại sao chọn thuật toán SVM với hàm nhân RBF?
    SVM với hàm nhân RBF có khả năng xử lý dữ liệu không tuyến tính hiệu quả, cho độ chính xác cao và thời gian huấn luyện ngắn, phù hợp với dữ liệu đặc trưng rời rạc và đa chiều trong bài toán nhận dạng hình thái người.

  4. Làm thế nào để đồng bộ dữ liệu từ nhiều Kinect?
    Dữ liệu được đồng bộ theo thời gian bằng cách chuẩn hóa về tần số 25 khung hình mỗi giây và chọn khung hình gần nhất với mốc thời gian chuẩn. Đồng bộ không gian được thực hiện bằng ma trận quay và vector tịnh tiến xác định từ các điểm khớp xương chung giữa các Kinect.

  5. Hệ thống có thể áp dụng trong điều kiện ánh sáng yếu không?
    Có, Kinect sử dụng cảm biến hồng ngoại để thu thập dữ liệu độ sâu và khớp xương, do đó hệ thống có thể hoạt động hiệu quả trong điều kiện ánh sáng yếu hoặc bóng tối, khác với các phương pháp dựa trên ảnh màu truyền thống.

Kết luận

  • Đề tài đã xây dựng thành công mô hình nhận dạng hình thái người dựa trên dữ liệu khớp xương thu thập từ nhiều Kinect, nâng cao độ chính xác nhận dạng lên trên 95%.
  • Phương pháp đồng bộ dữ liệu theo thời gian và không gian là yếu tố then chốt giúp kết hợp dữ liệu từ nhiều Kinect hiệu quả.
  • Thuật toán SVM với hàm nhân RBF được chứng minh phù hợp cho bài toán phân loại bốn hình thái cơ bản: đứng, ngồi, cúi và nằm.
  • Hệ thống được triển khai với kiến trúc client-server, hỗ trợ thu thập, đồng bộ, huấn luyện và nhận dạng dữ liệu trong môi trường thực nghiệm.
  • Các bước tiếp theo bao gồm mở rộng số lượng Kinect, tối ưu thuật toán đồng bộ, phát triển giao diện người dùng và ứng dụng hệ thống trong các lĩnh vực thực tế.

Quý độc giả và nhà nghiên cứu quan tâm có thể áp dụng mô hình và phương pháp trong luận văn để phát triển các hệ thống nhận dạng hình thái người đa hướng, góp phần nâng cao hiệu quả ứng dụng công nghệ trong đời sống và công nghiệp.