Tổng quan nghiên cứu

Nhận dạng hành vi con người dựa trên dữ liệu cảm biến từ điện thoại thông minh đang trở thành lĩnh vực nghiên cứu quan trọng với sự phát triển nhanh chóng của công nghệ di động. Theo ước tính, hơn 30 người tình nguyện trong độ tuổi từ 19 đến 48 đã tham gia thu thập dữ liệu với thiết bị Samsung Galaxy S II, sử dụng cảm biến gia tốc kế và con quay hồi chuyển ở tần số 50Hz. Bài toán nhận dạng hành vi nhằm phân loại chính xác các hoạt động như đi bộ, leo cầu thang, ngồi, đứng và nằm, phục vụ cho các ứng dụng chăm sóc sức khỏe, giám sát người cao tuổi và hỗ trợ luyện tập thể dục.

Mục tiêu nghiên cứu của luận văn là áp dụng giải thuật di truyền để thu gọn vector đặc trưng từ 561 đặc trưng ban đầu, nhằm tìm ra bộ đặc trưng tối ưu cho hai mô hình học máy phổ biến là Support Vector Machine (SVM) và 2-Stages Continuous Hidden Markov Model (2SCHMM). Qua đó, nâng cao độ chính xác phân lớp, đồng thời cải thiện hiệu suất thực thi về thời gian và bộ nhớ sử dụng trên các thiết bị có phần cứng hạn chế như điện thoại thông minh.

Phạm vi nghiên cứu tập trung trên tập dữ liệu UCI HAR, thu thập trong khoảng thời gian thực nghiệm với 30 người dùng, chia thành 70% dữ liệu huấn luyện và 30% dữ liệu kiểm tra. Ý nghĩa nghiên cứu không chỉ nằm ở việc cải thiện độ chính xác phân lớp (đạt 96.64% với SVM và 88.36% với 2SCHMM) mà còn giúp giảm gần 50% kích thước vector đặc trưng, từ đó giảm đáng kể thời gian thực thi và tài nguyên bộ nhớ, mở rộng khả năng ứng dụng trong thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai mô hình học máy chính:

  • Support Vector Machine (SVM): Mô hình phân lớp dựa trên việc tìm siêu phẳng tối ưu phân tách dữ liệu trong không gian đặc trưng. SVM sử dụng phương pháp kernel (đặc biệt là Radial Basis Function - RBF) để xử lý các bài toán phân lớp phi tuyến tính, tối ưu hóa khoảng cách margin giữa các lớp nhằm giảm thiểu sai phân lớp. Các tham số quan trọng gồm hệ số C (điều chỉnh mức phạt sai phân lớp) và gamma (γ) của kernel RBF, ảnh hưởng đến vùng quyết định của mô hình.

  • 2-Stages Continuous Hidden Markov Model (2SCHMM): Mô hình thống kê chuỗi thời gian gồm hai tầng phân lớp. Tầng 1 phân loại thô thành nhóm hành vi động và tĩnh, tầng 2 phân loại chính xác thành 6 hành vi cụ thể. Mỗi trạng thái trong HMM được mô hình hóa bằng phân phối Gaussian, với các tham số gồm số trạng thái và số phân phối Gaussian trong mỗi trạng thái. Mô hình này tận dụng tính nhớ Markov bậc nhất và khả năng mô hình hóa chuỗi quan sát liên tục.

Ngoài ra, giải thuật di truyền (Genetic Algorithm - GA) được áp dụng để thu gọn vector đặc trưng. GA mô phỏng quá trình tiến hóa tự nhiên qua các bước: khởi tạo quần thể, đánh giá độ thích nghi, chọn lọc, lai ghép và đột biến. Mỗi cá thể trong quần thể biểu diễn một tập con đặc trưng dưới dạng chuỗi nhị phân, với mục tiêu tối ưu hóa độ chính xác phân lớp đồng thời giảm kích thước vector đặc trưng.

Các khái niệm chính bao gồm: vector đặc trưng, margin trong SVM, kernel RBF, trạng thái và phân phối Gaussian trong HMM, các toán tử di truyền (selection, crossover, mutation).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập UCI HAR, gồm dữ liệu cảm biến gia tốc kế và con quay hồi chuyển thu thập từ 30 tình nguyện viên thực hiện 6 hoạt động khác nhau. Dữ liệu được chuẩn hóa và chia ngẫu nhiên thành 70% huấn luyện và 30% kiểm tra.

Phương pháp nghiên cứu gồm:

  • Nghiên cứu lý thuyết: Tổng hợp kiến thức về SVM, HMM, giải thuật di truyền và các kỹ thuật lựa chọn đặc trưng.

  • Nghiên cứu thực nghiệm: Xây dựng mô hình SVM và 2SCHMM tối ưu trên dữ liệu đầy đủ 561 đặc trưng. Tối ưu tham số SVM bằng phương pháp lưới tìm kiếm (grid search) để xác định bộ (C, γ) tối ưu. Tối ưu tham số HMM dựa trên số trạng thái và số phân phối Gaussian, đánh giá kết hợp giữa độ chính xác và thời gian thực thi.

  • Áp dụng giải thuật di truyền: Khởi tạo quần thể 561 cá thể, mỗi cá thể là chuỗi nhị phân biểu diễn việc chọn hay loại bỏ đặc trưng. Tỉ lệ đột biến 1/561, tỉ lệ lai ghép 100%. Đánh giá độ thích nghi dựa trên độ chính xác phân lớp của mô hình học máy tương ứng. Thuật toán dừng khi không cải thiện sau 5 thế hệ hoặc đạt điều kiện hội tụ.

  • Đánh giá kết quả: So sánh độ chính xác, kích thước vector đặc trưng, thời gian thực thi và bộ nhớ sử dụng giữa mô hình với vector đầy đủ và vector thu gọn. Sử dụng biểu đồ cột để minh họa sự khác biệt.

Timeline nghiên cứu kéo dài từ tháng 7/2017 đến tháng 6/2018, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, tối ưu tham số, áp dụng giải thuật di truyền và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả thu gọn vector đặc trưng: Giải thuật di truyền đã giảm kích thước vector đặc trưng từ 561 xuống còn 284 đặc trưng, tương đương giảm gần 50%. Điều này giúp giảm đáng kể chi phí tính toán và bộ nhớ.

  2. Độ chính xác phân lớp:

    • Mô hình SVM đạt độ chính xác 96.64% với vector thu gọn, gần như không đổi so với 96.56% khi dùng vector đầy đủ.
    • Mô hình 2SCHMM cải thiện độ chính xác từ 86.56% lên 88.36% sau khi thu gọn vector đặc trưng, tăng khoảng 1.8%.
  3. Hiệu suất thực thi:

    • Thời gian thực thi của SVM giảm từ 3.70 giây xuống còn 2.15 giây, giảm gần 42%.
    • Thời gian thực thi của 2SCHMM giảm từ 13 giây xuống còn 7.28 giây, giảm hơn 44%.
    • Bộ nhớ sử dụng của 2SCHMM giảm từ 247MB xuống còn 190MB, cải thiện khoảng 23%. Tuy nhiên, bộ nhớ của SVM chỉ giảm nhẹ từ 366MB xuống 354MB.
  4. So sánh tổng thể:
    Biểu đồ so sánh cho thấy việc thu gọn vector đặc trưng bằng giải thuật di truyền giúp duy trì hoặc cải thiện độ chính xác trong khi giảm đáng kể thời gian và tài nguyên sử dụng, đặc biệt hiệu quả với mô hình 2SCHMM.

Thảo luận kết quả

Việc thu gọn vector đặc trưng không làm giảm đáng kể độ chính xác phân lớp của SVM, cho thấy bộ đặc trưng được chọn vẫn giữ được thông tin quan trọng. Đối với 2SCHMM, sự cải thiện độ chính xác có thể do loại bỏ các đặc trưng nhiễu, giúp mô hình thống kê hoạt động hiệu quả hơn.

Giảm kích thước vector đặc trưng đồng nghĩa với giảm số chiều dữ liệu, từ đó giảm thời gian huấn luyện và kiểm tra, phù hợp với các thiết bị có phần cứng hạn chế như điện thoại thông minh. Bộ nhớ sử dụng giảm rõ rệt ở 2SCHMM do mô hình này phụ thuộc nhiều vào số lượng đặc trưng trong việc tính toán xác suất trạng thái.

So với các nghiên cứu trước đây, kết quả này khẳng định tính hiệu quả của giải thuật di truyền trong lựa chọn đặc trưng cho bài toán nhận dạng hành vi, đồng thời mở rộng khả năng ứng dụng thực tế trên nền tảng di động.

Dữ liệu có thể được trình bày qua các biểu đồ cột so sánh độ chính xác, kích thước vector, thời gian thực thi và bộ nhớ sử dụng giữa các trường hợp có và không thu gọn vector đặc trưng, giúp minh họa rõ ràng hiệu quả của phương pháp.

Đề xuất và khuyến nghị

  1. Triển khai giải thuật di truyền trên nền tảng di động:
    Thực hiện tích hợp giải thuật lựa chọn đặc trưng trực tiếp trên điện thoại thông minh để đánh giá hiệu quả thực tế, giảm tải cho máy chủ và tăng tính bảo mật dữ liệu cá nhân.

  2. Phát triển chỉ số đánh giá tổng hợp:
    Xây dựng một tiêu chí đánh giá kết hợp giữa độ chính xác phân lớp, kích thước vector đặc trưng, thời gian thực thi và bộ nhớ sử dụng nhằm tối ưu hóa toàn diện hiệu suất mô hình.

  3. Nghiên cứu mối tương quan đặc trưng:
    Phân tích sâu hơn về mối quan hệ giữa các đặc trưng được chọn để giải thích tại sao một số đặc trưng đóng vai trò quan trọng hơn, từ đó cải tiến thuật toán lựa chọn đặc trưng.

  4. Cải tiến mô hình 2SCHMM:
    Tìm kiếm và áp dụng các kỹ thuật nâng cao cho mô hình 2SCHMM nhằm tăng độ chính xác phân lớp, ví dụ như kết hợp với các mô hình học sâu hoặc thuật toán lựa chọn đặc trưng khác như rừng ngẫu nhiên.

  5. Mở rộng phạm vi nghiên cứu:
    Thử nghiệm trên các tập dữ liệu khác và các hoạt động phức tạp hơn để đánh giá tính tổng quát và khả năng ứng dụng rộng rãi của phương pháp.

Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, phối hợp giữa các nhà nghiên cứu, kỹ sư phần mềm và chuyên gia y tế để phát triển các ứng dụng giám sát sức khỏe hiệu quả.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo:
    Luận văn cung cấp kiến thức sâu về ứng dụng giải thuật di truyền trong lựa chọn đặc trưng và mô hình học máy SVM, HMM cho bài toán nhận dạng hành vi, hỗ trợ phát triển các đề tài nghiên cứu liên quan.

  2. Kỹ sư phát triển ứng dụng di động và IoT:
    Thông tin về tối ưu hóa hiệu suất mô hình trên thiết bị phần cứng hạn chế giúp cải thiện thiết kế ứng dụng nhận dạng hành vi, giảm tiêu thụ tài nguyên và tăng trải nghiệm người dùng.

  3. Chuyên gia y tế và chăm sóc sức khỏe từ xa:
    Kết quả nghiên cứu hỗ trợ xây dựng hệ thống giám sát hoạt động thể chất, phát hiện sớm các vấn đề sức khỏe, đặc biệt cho người cao tuổi và bệnh nhân cần theo dõi liên tục.

  4. Doanh nghiệp công nghệ và startup trong lĩnh vực sức khỏe số:
    Luận văn cung cấp cơ sở khoa học và kỹ thuật để phát triển sản phẩm nhận dạng hành vi chính xác, hiệu quả, phù hợp với xu hướng phát triển thiết bị di động và ứng dụng chăm sóc sức khỏe cá nhân.

Câu hỏi thường gặp

  1. Giải thuật di truyền giúp gì trong bài toán nhận dạng hành vi?
    Giải thuật di truyền giúp chọn ra bộ đặc trưng tối ưu từ tập dữ liệu lớn, giảm số chiều dữ liệu mà vẫn giữ được hoặc cải thiện độ chính xác phân lớp, từ đó tăng hiệu suất tính toán và giảm tài nguyên sử dụng.

  2. Tại sao chọn SVM và 2SCHMM làm mô hình phân lớp?
    SVM có khả năng phân lớp hiệu quả trong không gian chiều cao với kernel phi tuyến, còn 2SCHMM phù hợp với dữ liệu chuỗi thời gian và có cấu trúc phân lớp hai tầng giúp phân loại chính xác hơn các hành vi phức tạp.

  3. Kích thước vector đặc trưng giảm ảnh hưởng thế nào đến hiệu suất?
    Giảm kích thước vector đặc trưng giúp giảm thời gian huấn luyện và kiểm tra, giảm bộ nhớ sử dụng, đặc biệt quan trọng khi triển khai trên thiết bị có phần cứng hạn chế như điện thoại thông minh.

  4. Có thể áp dụng phương pháp này cho các loại dữ liệu khác không?
    Có, giải thuật di truyền và các mô hình học máy được sử dụng có tính tổng quát cao, có thể áp dụng cho các bài toán nhận dạng mẫu, phân loại dữ liệu trong nhiều lĩnh vực khác nhau.

  5. Làm thế nào để đánh giá hiệu quả của bộ đặc trưng thu gọn?
    Hiệu quả được đánh giá qua độ chính xác phân lớp, kích thước vector đặc trưng, thời gian thực thi và bộ nhớ sử dụng. Việc kết hợp các tiêu chí này giúp đảm bảo bộ đặc trưng vừa đủ thông tin vừa tối ưu hiệu suất.

Kết luận

  • Luận văn đã thành công trong việc áp dụng giải thuật di truyền để thu gọn vector đặc trưng từ 561 xuống còn 284 đặc trưng, giảm gần 50% kích thước dữ liệu.
  • Mô hình SVM duy trì độ chính xác cao 96.64% sau khi thu gọn, trong khi 2SCHMM cải thiện độ chính xác lên 88.36%.
  • Thời gian thực thi và bộ nhớ sử dụng của cả hai mô hình đều được cải thiện đáng kể, phù hợp với ứng dụng trên thiết bị di động.
  • Nghiên cứu mở ra hướng phát triển các hệ thống nhận dạng hành vi hiệu quả, tiết kiệm tài nguyên cho các ứng dụng chăm sóc sức khỏe và giám sát người dùng.
  • Các bước tiếp theo bao gồm phát triển chỉ số đánh giá tổng hợp, phân tích mối tương quan đặc trưng, cải tiến mô hình 2SCHMM và triển khai thực tế trên nền tảng di động.

Để tiếp tục phát triển lĩnh vực này, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng và mở rộng phương pháp lựa chọn đặc trưng bằng giải thuật di truyền, đồng thời tích hợp các mô hình học máy tối ưu vào các ứng dụng thực tế nhằm nâng cao chất lượng dịch vụ và trải nghiệm người dùng.