Luận Văn Thạc Sĩ Khoa Học Máy Tính: Ứng Dụng Giải Thuật Di Truyền Trong Nhận Dạng Hành Vi

Luận văn thạc sĩ khoa học máy tính nghiên cứu ứng dụng giải thuật di truyền trong lựa chọn đặc trưng cho bài toán nhận dạng hành vi.

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

TÓM TẮT

SUMMARY

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng nghiên cứu

1.4. Phạm vi nghiên cứu

1.5. Ý nghĩa khoa học và thực tiễn

1.5.1. Ý nghĩa thực tiễn

1.5.2. Ý nghĩa khoa học

2. CHƯƠNG 2: TỔNG QUAN

2.1. Các công trình liên quan

2.2. Tóm tắt các công trình nghiên cứu về nhận dạng hành vi

2.3. Tổng quan

3. CHƯƠNG 3: NHỮNG NGHIÊN CỨU LÝ THUYẾT VÀ THỰC NGHIỆM

3.1. Mô hình Support Vector Machine

3.1.1. Siêu phẳng trong mô hình SVM

3.1.2. Maximum Margin trong mô hình SVM

3.1.3. Các phương pháp hạt nhân (Kernel Methods)

3.2. Mô hình 2-Stages Continuous Hidden Markov Model (2SCHMM)

3.3. Giải thuật di truyền (GAS)

3.4. Phương pháp nghiên cứu

3.4.1. Phương pháp nghiên cứu lý thuyết

3.4.2. Phương pháp nghiên cứu thực nghiệm

3.4.3. Phương pháp đánh giá kết quả nghiên cứu

4. CHƯƠNG 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN KẾT QUẢ

4.1. Quá trình thực nghiệm

4.2. Quá trình phân lớp để đánh giá cá thể

4.3. Quá trình thu gọn vector đặc trưng bằng giải thuật di truyền

4.4. Quá trình đánh giá kết quả

4.5. Kết quả thực nghiệm

4.5.1. Giải thuật SVM

4.5.2. Giải thuật 2SCHMM

4.5.3. So sánh kết quả

5. CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ

5.1. Những công việc đã thực hiện

5.2. Những hạn chế hiện tại

5.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Giới thiệu và mục tiêu nghiên cứu

Luận văn thạc sĩ tập trung vào việc áp dụng giải thuật di truyền để lựa chọn đặc trưng trong bài toán nhận dạng hành vi. Mục tiêu chính là tối ưu hóa vector đặc trưng, giúp cải thiện hiệu suất của các mô hình học máy như Support Vector Machine (SVM) và 2-Stages Continuous Hidden Markov Model (2SCHMM). Việc thu gọn vector đặc trưng không chỉ nâng cao độ chính xác phân lớp mà còn giảm thời gian thực thi và bộ nhớ sử dụng, đặc biệt quan trọng khi triển khai trên các thiết bị có phần cứng hạn chế như điện thoại thông minh.

1.1. Lý do chọn đề tài

Nhận dạng hành vi con người thông qua cảm biến cá nhân đã trở thành một lĩnh vực nghiên cứu quan trọng, đặc biệt trong các ứng dụng giám sát sức khỏe và hoạt động thể chất. Sự phổ biến của điện thoại thông minh với các cảm biến tích hợp như gia tốc kế và con quay hồi chuyển đã tạo điều kiện thuận lợi cho việc thu thập dữ liệu chuyển động. Tuy nhiên, hạn chế về phần cứng của các thiết bị này đòi hỏi các giải pháp tối ưu hóa để đảm bảo hiệu suất và độ chính xác.

1.2. Mục tiêu nghiên cứu

Mục tiêu của luận văn là sử dụng giải thuật di truyền để thu gọn vector đặc trưng, tìm ra bộ đặc trưng tối ưu cho các mô hình học máy. Cụ thể, luận văn tập trung vào hai mô hình: SVM và 2SCHMM, với mục tiêu nâng cao độ chính xác phân lớp và giảm thời gian thực thi.

II. Phương pháp nghiên cứu và công trình liên quan

Luận văn sử dụng tập dữ liệu UCI HAR, một bộ dữ liệu phổ biến trong nghiên cứu nhận dạng hành vi, được thu thập từ cảm biến gia tốc và con quay hồi chuyển trên điện thoại thông minh. Phương pháp nghiên cứu bao gồm việc áp dụng giải thuật di truyền để thu gọn vector đặc trưng, sau đó đánh giá hiệu quả thông qua các mô hình học máy.

2.1. Công trình liên quan

Các công trình nghiên cứu trước đây đã sử dụng các phương pháp như Random Forest và Hidden Markov Model (HMM) để thu gọn vector đặc trưng. Ví dụ, công trình của C. Cho đã giảm số chiều vector từ 561 xuống còn 119, đạt độ chính xác 91.76%. Công trình của Rodrigo Cilla et al. kết hợp giải thuật di truyền với HMM, đạt độ chính xác 75.01%.

2.2. Phương pháp nghiên cứu

Luận văn áp dụng giải thuật di truyền để tối ưu hóa vector đặc trưng, với mục tiêu giảm kích thước vector mà vẫn duy trì độ chính xác phân lớp trong phạm vi sai số 5%. Quá trình nghiên cứu bao gồm việc thực nghiệm trên hai mô hình SVM và 2SCHMM, đánh giá hiệu quả thông qua độ chính xác và thời gian thực thi.

III. Kết quả và đánh giá

Kết quả thực nghiệm cho thấy việc sử dụng giải thuật di truyền để thu gọn vector đặc trưng đã mang lại hiệu quả đáng kể. Độ chính xác của mô hình SVM đạt 96.64%, trong khi mô hình 2SCHMM đạt 88%. Điều này chứng tỏ rằng việc tối ưu hóa vector đặc trưng không chỉ cải thiện độ chính xác mà còn giảm thiểu thời gian và tài nguyên tính toán.

3.1. Kết quả thực nghiệm

Kết quả thực nghiệm trên tập dữ liệu UCI HAR cho thấy, việc thu gọn vector đặc trưng bằng giải thuật di truyền đã giúp cải thiện đáng kể hiệu suất của cả hai mô hình SVM và 2SCHMM. Độ chính xác của SVM tăng lên 96.64%, trong khi 2SCHMM đạt 88%.

3.2. Đánh giá hiệu quả

Việc thu gọn vector đặc trưng không chỉ nâng cao độ chính xác mà còn giảm thời gian thực thi và bộ nhớ sử dụng. Điều này đặc biệt quan trọng khi triển khai các ứng dụng trên thiết bị di động, nơi tài nguyên phần cứng bị hạn chế.

IV. Kết luận và hướng phát triển

Luận văn đã chứng minh hiệu quả của việc sử dụng giải thuật di truyền trong lựa chọn đặc trưng cho bài toán nhận dạng hành vi. Kết quả nghiên cứu không chỉ mang lại giá trị khoa học mà còn có ứng dụng thực tiễn cao, đặc biệt trong lĩnh vực y tế và giám sát sức khỏe. Hướng phát triển trong tương lai có thể bao gồm việc áp dụng phương pháp này trên các bộ dữ liệu lớn hơn và tích hợp vào các hệ thống IoT.

4.1. Kết luận

Luận văn đã thành công trong việc áp dụng giải thuật di truyền để tối ưu hóa vector đặc trưng, cải thiện hiệu suất của các mô hình học máy trong bài toán nhận dạng hành vi. Kết quả nghiên cứu cho thấy tiềm năng lớn của phương pháp này trong việc triển khai trên các thiết bị di động.

4.2. Hướng phát triển

Trong tương lai, nghiên cứu có thể mở rộng bằng cách áp dụng phương pháp này trên các bộ dữ liệu lớn hơn, tích hợp vào các hệ thống IoT, và thử nghiệm với các mô hình học máy tiên tiến hơn để tiếp tục nâng cao hiệu quả.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính lựa chọn đặc trưng bằng giải thuật di truyền trong bài toán nhận dạng hành vi

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng hành vi con người dựa trên dữ liệu cảm biến từ điện thoại thông minh đang trở thành lĩnh vực nghiên cứu quan trọng với sự phát triển nhanh chóng của công nghệ di động. Theo ước tính, hơn 30 người tình nguyện trong độ tuổi từ 19 đến 48 đã tham gia thu thập dữ liệu với thiết bị Samsung Galaxy S II, sử dụng cảm biến gia tốc kế và con quay hồi chuyển ở tần số 50Hz. Bài toán nhận dạng hành vi nhằm phân loại chính xác các hoạt động như đi bộ, leo cầu thang, ngồi, đứng và nằm, phục vụ cho các ứng dụng chăm sóc sức khỏe, giám sát người cao tuổi và hỗ trợ luyện tập thể dục.

Mục tiêu nghiên cứu của luận văn là áp dụng giải thuật di truyền để thu gọn vector đặc trưng từ 561 đặc trưng ban đầu, nhằm tìm ra bộ đặc trưng tối ưu cho hai mô hình học máy phổ biến là Support Vector Machine (SVM) và 2-Stages Continuous Hidden Markov Model (2SCHMM). Qua đó, nâng cao độ chính xác phân lớp, đồng thời cải thiện hiệu suất thực thi về thời gian và bộ nhớ sử dụng trên các thiết bị có phần cứng hạn chế như điện thoại thông minh.

Phạm vi nghiên cứu tập trung trên tập dữ liệu UCI HAR, thu thập trong khoảng thời gian thực nghiệm với 30 người dùng, chia thành 70% dữ liệu huấn luyện và 30% dữ liệu kiểm tra. Ý nghĩa nghiên cứu không chỉ nằm ở việc cải thiện độ chính xác phân lớp (đạt 96.64% với SVM và 88.36% với 2SCHMM) mà còn giúp giảm gần 50% kích thước vector đặc trưng, từ đó giảm đáng kể thời gian thực thi và tài nguyên bộ nhớ, mở rộng khả năng ứng dụng trong thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai mô hình học máy chính:

Support Vector Machine (SVM): Mô hình phân lớp dựa trên việc tìm siêu phẳng tối ưu phân tách dữ liệu trong không gian đặc trưng. SVM sử dụng phương pháp kernel (đặc biệt là Radial Basis Function - RBF) để xử lý các bài toán phân lớp phi tuyến tính, tối ưu hóa khoảng cách margin giữa các lớp nhằm giảm thiểu sai phân lớp. Các tham số quan trọng gồm hệ số C (điều chỉnh mức phạt sai phân lớp) và gamma (γ) của kernel RBF, ảnh hưởng đến vùng quyết định của mô hình.
2-Stages Continuous Hidden Markov Model (2SCHMM): Mô hình thống kê chuỗi thời gian gồm hai tầng phân lớp. Tầng 1 phân loại thô thành nhóm hành vi động và tĩnh, tầng 2 phân loại chính xác thành 6 hành vi cụ thể. Mỗi trạng thái trong HMM được mô hình hóa bằng phân phối Gaussian, với các tham số gồm số trạng thái và số phân phối Gaussian trong mỗi trạng thái. Mô hình này tận dụng tính nhớ Markov bậc nhất và khả năng mô hình hóa chuỗi quan sát liên tục.

Ngoài ra, giải thuật di truyền (Genetic Algorithm - GA) được áp dụng để thu gọn vector đặc trưng. GA mô phỏng quá trình tiến hóa tự nhiên qua các bước: khởi tạo quần thể, đánh giá độ thích nghi, chọn lọc, lai ghép và đột biến. Mỗi cá thể trong quần thể biểu diễn một tập con đặc trưng dưới dạng chuỗi nhị phân, với mục tiêu tối ưu hóa độ chính xác phân lớp đồng thời giảm kích thước vector đặc trưng.

Các khái niệm chính bao gồm: vector đặc trưng, margin trong SVM, kernel RBF, trạng thái và phân phối Gaussian trong HMM, các toán tử di truyền (selection, crossover, mutation).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập UCI HAR, gồm dữ liệu cảm biến gia tốc kế và con quay hồi chuyển thu thập từ 30 tình nguyện viên thực hiện 6 hoạt động khác nhau. Dữ liệu được chuẩn hóa và chia ngẫu nhiên thành 70% huấn luyện và 30% kiểm tra.

Phương pháp nghiên cứu gồm:

Nghiên cứu lý thuyết: Tổng hợp kiến thức về SVM, HMM, giải thuật di truyền và các kỹ thuật lựa chọn đặc trưng.
Nghiên cứu thực nghiệm: Xây dựng mô hình SVM và 2SCHMM tối ưu trên dữ liệu đầy đủ 561 đặc trưng. Tối ưu tham số SVM bằng phương pháp lưới tìm kiếm (grid search) để xác định bộ (C, γ) tối ưu. Tối ưu tham số HMM dựa trên số trạng thái và số phân phối Gaussian, đánh giá kết hợp giữa độ chính xác và thời gian thực thi.
Áp dụng giải thuật di truyền: Khởi tạo quần thể 561 cá thể, mỗi cá thể là chuỗi nhị phân biểu diễn việc chọn hay loại bỏ đặc trưng. Tỉ lệ đột biến 1/561, tỉ lệ lai ghép 100%. Đánh giá độ thích nghi dựa trên độ chính xác phân lớp của mô hình học máy tương ứng. Thuật toán dừng khi không cải thiện sau 5 thế hệ hoặc đạt điều kiện hội tụ.
Đánh giá kết quả: So sánh độ chính xác, kích thước vector đặc trưng, thời gian thực thi và bộ nhớ sử dụng giữa mô hình với vector đầy đủ và vector thu gọn. Sử dụng biểu đồ cột để minh họa sự khác biệt.

Timeline nghiên cứu kéo dài từ tháng 7/2017 đến tháng 6/2018, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, tối ưu tham số, áp dụng giải thuật di truyền và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thu gọn vector đặc trưng: Giải thuật di truyền đã giảm kích thước vector đặc trưng từ 561 xuống còn 284 đặc trưng, tương đương giảm gần 50%. Điều này giúp giảm đáng kể chi phí tính toán và bộ nhớ.
Độ chính xác phân lớp:
- Mô hình SVM đạt độ chính xác 96.64% với vector thu gọn, gần như không đổi so với 96.56% khi dùng vector đầy đủ.
- Mô hình 2SCHMM cải thiện độ chính xác từ 86.56% lên 88.36% sau khi thu gọn vector đặc trưng, tăng khoảng 1.8%.
Hiệu suất thực thi:
- Thời gian thực thi của SVM giảm từ 3.70 giây xuống còn 2.15 giây, giảm gần 42%.
- Thời gian thực thi của 2SCHMM giảm từ 13 giây xuống còn 7.28 giây, giảm hơn 44%.
- Bộ nhớ sử dụng của 2SCHMM giảm từ 247MB xuống còn 190MB, cải thiện khoảng 23%. Tuy nhiên, bộ nhớ của SVM chỉ giảm nhẹ từ 366MB xuống 354MB.
So sánh tổng thể:
Biểu đồ so sánh cho thấy việc thu gọn vector đặc trưng bằng giải thuật di truyền giúp duy trì hoặc cải thiện độ chính xác trong khi giảm đáng kể thời gian và tài nguyên sử dụng, đặc biệt hiệu quả với mô hình 2SCHMM.

Thảo luận kết quả

Việc thu gọn vector đặc trưng không làm giảm đáng kể độ chính xác phân lớp của SVM, cho thấy bộ đặc trưng được chọn vẫn giữ được thông tin quan trọng. Đối với 2SCHMM, sự cải thiện độ chính xác có thể do loại bỏ các đặc trưng nhiễu, giúp mô hình thống kê hoạt động hiệu quả hơn.

Giảm kích thước vector đặc trưng đồng nghĩa với giảm số chiều dữ liệu, từ đó giảm thời gian huấn luyện và kiểm tra, phù hợp với các thiết bị có phần cứng hạn chế như điện thoại thông minh. Bộ nhớ sử dụng giảm rõ rệt ở 2SCHMM do mô hình này phụ thuộc nhiều vào số lượng đặc trưng trong việc tính toán xác suất trạng thái.

So với các nghiên cứu trước đây, kết quả này khẳng định tính hiệu quả của giải thuật di truyền trong lựa chọn đặc trưng cho bài toán nhận dạng hành vi, đồng thời mở rộng khả năng ứng dụng thực tế trên nền tảng di động.

Dữ liệu có thể được trình bày qua các biểu đồ cột so sánh độ chính xác, kích thước vector, thời gian thực thi và bộ nhớ sử dụng giữa các trường hợp có và không thu gọn vector đặc trưng, giúp minh họa rõ ràng hiệu quả của phương pháp.

Đề xuất và khuyến nghị

Triển khai giải thuật di truyền trên nền tảng di động:
Thực hiện tích hợp giải thuật lựa chọn đặc trưng trực tiếp trên điện thoại thông minh để đánh giá hiệu quả thực tế, giảm tải cho máy chủ và tăng tính bảo mật dữ liệu cá nhân.
Phát triển chỉ số đánh giá tổng hợp:
Xây dựng một tiêu chí đánh giá kết hợp giữa độ chính xác phân lớp, kích thước vector đặc trưng, thời gian thực thi và bộ nhớ sử dụng nhằm tối ưu hóa toàn diện hiệu suất mô hình.
Nghiên cứu mối tương quan đặc trưng:
Phân tích sâu hơn về mối quan hệ giữa các đặc trưng được chọn để giải thích tại sao một số đặc trưng đóng vai trò quan trọng hơn, từ đó cải tiến thuật toán lựa chọn đặc trưng.
Cải tiến mô hình 2SCHMM:
Tìm kiếm và áp dụng các kỹ thuật nâng cao cho mô hình 2SCHMM nhằm tăng độ chính xác phân lớp, ví dụ như kết hợp với các mô hình học sâu hoặc thuật toán lựa chọn đặc trưng khác như rừng ngẫu nhiên.
Mở rộng phạm vi nghiên cứu:
Thử nghiệm trên các tập dữ liệu khác và các hoạt động phức tạp hơn để đánh giá tính tổng quát và khả năng ứng dụng rộng rãi của phương pháp.

Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, phối hợp giữa các nhà nghiên cứu, kỹ sư phần mềm và chuyên gia y tế để phát triển các ứng dụng giám sát sức khỏe hiệu quả.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo:
Luận văn cung cấp kiến thức sâu về ứng dụng giải thuật di truyền trong lựa chọn đặc trưng và mô hình học máy SVM, HMM cho bài toán nhận dạng hành vi, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Kỹ sư phát triển ứng dụng di động và IoT:
Thông tin về tối ưu hóa hiệu suất mô hình trên thiết bị phần cứng hạn chế giúp cải thiện thiết kế ứng dụng nhận dạng hành vi, giảm tiêu thụ tài nguyên và tăng trải nghiệm người dùng.
Chuyên gia y tế và chăm sóc sức khỏe từ xa:
Kết quả nghiên cứu hỗ trợ xây dựng hệ thống giám sát hoạt động thể chất, phát hiện sớm các vấn đề sức khỏe, đặc biệt cho người cao tuổi và bệnh nhân cần theo dõi liên tục.
Doanh nghiệp công nghệ và startup trong lĩnh vực sức khỏe số:
Luận văn cung cấp cơ sở khoa học và kỹ thuật để phát triển sản phẩm nhận dạng hành vi chính xác, hiệu quả, phù hợp với xu hướng phát triển thiết bị di động và ứng dụng chăm sóc sức khỏe cá nhân.

Câu hỏi thường gặp

Giải thuật di truyền giúp gì trong bài toán nhận dạng hành vi?
Giải thuật di truyền giúp chọn ra bộ đặc trưng tối ưu từ tập dữ liệu lớn, giảm số chiều dữ liệu mà vẫn giữ được hoặc cải thiện độ chính xác phân lớp, từ đó tăng hiệu suất tính toán và giảm tài nguyên sử dụng.
Tại sao chọn SVM và 2SCHMM làm mô hình phân lớp?
SVM có khả năng phân lớp hiệu quả trong không gian chiều cao với kernel phi tuyến, còn 2SCHMM phù hợp với dữ liệu chuỗi thời gian và có cấu trúc phân lớp hai tầng giúp phân loại chính xác hơn các hành vi phức tạp.
Kích thước vector đặc trưng giảm ảnh hưởng thế nào đến hiệu suất?
Giảm kích thước vector đặc trưng giúp giảm thời gian huấn luyện và kiểm tra, giảm bộ nhớ sử dụng, đặc biệt quan trọng khi triển khai trên thiết bị có phần cứng hạn chế như điện thoại thông minh.
Có thể áp dụng phương pháp này cho các loại dữ liệu khác không?
Có, giải thuật di truyền và các mô hình học máy được sử dụng có tính tổng quát cao, có thể áp dụng cho các bài toán nhận dạng mẫu, phân loại dữ liệu trong nhiều lĩnh vực khác nhau.
Làm thế nào để đánh giá hiệu quả của bộ đặc trưng thu gọn?
Hiệu quả được đánh giá qua độ chính xác phân lớp, kích thước vector đặc trưng, thời gian thực thi và bộ nhớ sử dụng. Việc kết hợp các tiêu chí này giúp đảm bảo bộ đặc trưng vừa đủ thông tin vừa tối ưu hiệu suất.

Kết luận

Luận văn đã thành công trong việc áp dụng giải thuật di truyền để thu gọn vector đặc trưng từ 561 xuống còn 284 đặc trưng, giảm gần 50% kích thước dữ liệu.
Mô hình SVM duy trì độ chính xác cao 96.64% sau khi thu gọn, trong khi 2SCHMM cải thiện độ chính xác lên 88.36%.
Thời gian thực thi và bộ nhớ sử dụng của cả hai mô hình đều được cải thiện đáng kể, phù hợp với ứng dụng trên thiết bị di động.
Nghiên cứu mở ra hướng phát triển các hệ thống nhận dạng hành vi hiệu quả, tiết kiệm tài nguyên cho các ứng dụng chăm sóc sức khỏe và giám sát người dùng.
Các bước tiếp theo bao gồm phát triển chỉ số đánh giá tổng hợp, phân tích mối tương quan đặc trưng, cải tiến mô hình 2SCHMM và triển khai thực tế trên nền tảng di động.

Để tiếp tục phát triển lĩnh vực này, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng và mở rộng phương pháp lựa chọn đặc trưng bằng giải thuật di truyền, đồng thời tích hợp các mô hình học máy tối ưu vào các ứng dụng thực tế nhằm nâng cao chất lượng dịch vụ và trải nghiệm người dùng.

Trích đoạn nội dung tài liệu

CHƯƠNG 1. Lý do chọn đề tài Nhận dạng hành vi con người sử dụng cảm biến cá nhân đã trở thành một lĩnh vực nghiên cứu quan trọng nhằm tạo ra hay cải thiện các ứng dụng giám sát hoạt động con người. Khả năng phi lại và nhận dạng các hoạt động cá nhân hàng ngày là điêu cân thiệt đê xác định mức độ thực hiện hoạt động của con người. Những hệ thống nay có những ứng dụng thực tế trong việc chăm sóc sức khỏe và theo dõi luyện tập sức khỏe.

Hoạt động thể chất có tác dụng tích cực lên tất cả các chức năng của cơ thể và các nghiên cứu đã chứng minh rằng nguy cơ tim mạch giảm tới 50% đối với người có hoạt động thể chất tích cực. Với sự già hóa dân số, kinh phí hạn chế cho việc chăm sóc sức khỏe cộng đồng, sự quan tâm nhiều hơn được trả để giám sát hoạt động con người, nâng cao khả năng hỗ trợ các bệnh nhân và giúp họ tự chăm sóc bản thân, giảm sự chăm sóc y tế thông thường và chuyền qua chăm sóc từ xa. Trong lĩnh vực y tế, việc theo dõi hoạt động người dùng trong thời gian dài có thể hữu ích trong việc phát hiện sớm các bệnh hoặc có thé khuyén khích người dùng cải thiện mức độ hoạt động của họ. Một trong những phương pháp được sử dụng để giám sát hoạt động của con người là dựa trên các hệ thống video ghi chuyển động được liên kết với nền cảm nhận áp lực ở dưới.

Nhưng phương pháp này gây khó chịu, đòi hỏi thiết bị lớn và chỉ có thể được sử dụng bên trong phòng thí nghiệm đòi hỏi các thiết lập cao, thời gian xử lý cũng như không gian bộ nhớ để ghi lại nó. Phân tích hành vi sử dụng các cảm biến của điện thoại thông minh đã trở thành một lựa chọn phù hợp cho yêu cầu này vì kích thước nhỏ, chỉ phí thấp và khả năng ghi lại các tín hiệu chuyển động một cách kín đáo. Hơn nữa ngay nay hau hết các điện thoại thông minh đều được tích hợp các cảm biến phù hợp cho việc phân tích hành vi người dùng. Cảm biến gia tốc và con quay hồi chuyển được sử dụng dé nghiên cứu các hoạt động hàng ngày của con người.

MO ĐẦU Phân loại thông tin chuyển động dựa trên dữ liệu được thu thập từ các cảm biến trong điện thoại thông minh, việc phân lớp thường được thực hiện với kỹ thuật học máy, đòi hỏi phải khai thác các thông số dữ liệu chuyển động để huấn luyện phân lớp trước khi dự đoán dữ liệu hoạt động mới với mô hình huấn luyện. Muc tiêu nghiên cứu Mục tiêu của luận văn là áp dụng giải thuật di truyền để thu giảm kích thước của vector đặc trưng, tìm được vector đặc trưng tối ưu cho các mô hình học máy khác nhau giúp nâng cao kết quả phân lớp cũng như hiệu suất khi thực thi mô hình phân lớp (thời gian thực thi và bộ nhớ sử dụng). Cụ thể luận văn đã thực hiện: - Tim ra bộ vector đặc trưng tối ưu cho mô hình Support Vector Machine (SVM). - Tim ra bộ vector đặc trưng tối ưu cho mô hình 2-Stages Continous Hidden Markovs (2SCHMM).

Doi tượng nghiên cứu Luận van sử dụng tập dữ liệu UCI HAR, là tập dữ liệu dùng cho nhận dạng hành vi của con người sử dụng dữ liệu cảm biến từ điện thoại thông minh. Chi tiết hon, tập dữ liệu được lay tir két qua thử nghiệm trên một nhóm 30 tình nguyện viên có độ tuổi từ 19-48. Mỗi tình nguyện viên sẽ thực hiện 6 hoạt động trong khi đeo điện thoại (Samsung Galaxy S II) trên eo. Dữ liệu được thu thập là giá tri của gia tốc kế va con quay hồi chuyên ở tan số 50Hz.

Tập dữ liệu được chia một cách ngẫu nhiên thành tập huẫn luyện (70%) va tập kiểm tra (30%). Luận văn sử dụng giải thuật di truyên đê cải tiên bộ vector đặc trưng. Luận văn áp dụng cho hai mô hình học máy là SVM và 2-Stages CHMM dé nhận dạng hành vi từ đó đánh giá hiệu quả về kết quả phân lớp và hiệu suất của việc thu gọn vector đặc trưng. Pham vi nghiên cứu Luận văn tìm bộ vector đặc trưng dựa trên 2 ràng buộc: - Vector đặc trưng thu được phải giúp cho giải thuật phân lớp nâng cao được hiệu suất thực thi.

MO ĐẦU - _ Kết quả phân lớp của mô hình học máy khi sử dụng bộ vector đặc trưng đã thu gọn so với kết quả phân lớp khi sử dụng bộ vector day đủ 561 đặc trưng phải trong phạm vi sai số là 5%. Ý nghĩa khoa hoc và thực tiễn 1. Y nghĩa thực tiễn Phân tích hoạt động con người đã nhận được sự quan tâm ngày càng nhiều của những người chăm sóc người cao tuôi, vận động viên, bác sỹ, chuyên gia dinh dưỡng. các nhà vật lý trị liệu và cả những người muôn kiêm tra mức độ hoạt động hăng ngày.

Với tài liệu tham khảo của các nghiên cứu trước đây trong lĩnh vực này, điện thoại thông minh với cảm biến gia tốc đã được sử dụng để thu thập dữ liệu chuyển động của người dùng vì chúng nhỏ gon, ít vướng viu hơn khi so với các cảm biến đeo được và đặc biệt là người dùng thường xuyên điện thoại mang theo người. Các dữ liệu thu thập được từ gia tốc kế cung cấp thông tin về gia tốc do chuyển động cơ thể của con người và do trọng lực kết hợp với thông tin về hướng của điện thoại từ con quay hồi chuyển. Các tín hiệu được trích xuất như cường độ, góc, độ lệch chuân của bién đôi FFT cũng có thé được dùng để huấn luyện mô hình hoc máy. Y nghĩa khoa học Việc thu gọn vector đặc trưng giúp tăng được hiệu suất cho các mô hình học máy trong bài toán nhận dạng hành vi, tạo điều kiện dé triển khai các ứng dụng trên các thiết bị có phần cứng giới hạn như điện thoại hoặc các hệ thống IOT.

Ngoài ra thu gon vector đặc trưng còn giúp giảm thời gian và chi phí phát triển phần mềm do chỉ cần trích xuất những đặc trưng đủ cho mô hình học máy. TONG QUAN CHUONG 2. Cac công trình liên quan Nhận dang hành vi từ dữ liệu quan sát thu được từ cam biến là một bài toán rât quan trọng, được nghiên cứu rât nhiêu trong nhóm các bài toán nhận dạng. Kêt quả của bài toán nay ứng dụng rộng rãi trong nhiêu lĩnh vực của đời sông xã hội.

Sau đây là kết quả khảo sát của báo cáo [1] về các công trình nghiên cứu nhận dang hành vi sử dụng thiết bị cảm biến trang bị trên người. Tóm tắt các công trình nghiên cứu về nhận dạng hành vi Tác giả Nhóm hành vi Cảm biến Đặc trưng MÃ hình phân lớp Kết quả ACC (cô tay, cổ chân, dui, KNN, C4.5, 3 Bao AMB, DA khuỷu tay, TD, FD NB 84% hông) Hanal AMB ACC (ngực) HAAR filters | C4.91% ACC, ENV, Parkka AMB, DA VS (22 TD, FD DR, KNN 86% signals) He AMB ACC AR SVM 92.25% He AMB ACC quan) (tht DCT,PCA | SVM 97.51% Zhu AMB,TR — | AC Olay, that lung) Tay 3pp | HMM 90% ACC, GYR BN, LS, Altun AMB (nguc, canh PCA, SFFS KNN, DTW, 87% - 99% tay, chan) ANN Electrodes Cheng UB (cô, ngực, TD LDA 77% chân, cô tay) McGlynn DA ACC (đùi, hông, cô tay) DTW DIW ensemble 84.3% ACC (áo Relative 97% (SD), Pham AMB, DA khoát) Energy NB, HMM 95% (SI) Vinh AMB,pA | ACC hông) (0 tay, | pp SMCRF 88. ACC, VS TD, FD, PR, Bagging, 0 Centinela AMB (nguc) TF C4.7% BN AR, SMA, Khan AMB, TR ACC (nguc) TA, ANN 97.9% LDA 86% (SI), Jatoba AMB ACC, SPI TD/FD CART, KNN 95% (SD) Chen aw DA, ACC (cổ tay) | TD, FD FBF 93% Minnen AMB, MIL ACC (6 vị trí) | TD, FD Boosting 90% TONG QUAN Trong các tài liệu luận văn đã tìm hiểu ở TAI LIEU THAM KHAO thi hai tai liệu sau đây là gần với hướng nghiên cứu của luận văn nhất. Công trình của C.

Cho [2] Bài báo sử dụng giải thuật Random Forest (RF) và mô hình 2-Stages Continuous Hidden Markovs trên bộ dữ liệu UCI HAR. Trong đó nhóm tác gia đã sử dụng giải thuật RF để thu gon số chiều của vector đặc trưng từ 561 đặc trưng xuống còn 119 đặc trưng. Bài báo đạt độ chính xác tong thé đo được là 91.76% với 2947 mẫu được kiêm tra. Kết quả thực nghiệm của Ronao [2].76% Predicted WA UP DO SI ST LA Recall WA 469 7 20 0 0 0 94.

Cong trinh cua Rodrigo Cilla et al. [3] Bai báo sử dụng mô hình phân lớn Hidden Markov Model (HMM) dé nhận dạng hành động từ video. Trong đó, bài báo kết hợp sử dụng giải thuật Best First Search và giải thuật di truyền để thu gọn vector đặc trưng với mục đích cực đại độ chính xác của mô hình học máy. Bài báo nhận dạng 7 hoạt động: đi, đứng, ngồi x6m, trượt té, nam xuống, đứng lên và hành động không thuộc 6 hành động trên.

=" Độ chính xác cho Best First Search và mô hình HMM là 74. " Độ chính xác cho giải thuật di truyền và mô hình HMM là 75,01%. Chỉ tiết về giải thuật di truyền trong bai báo như sau: Tập dân số gồm 780 cá thé ứng với vector đặc trưng có 780 đặc trưng, mỗi cá thé sẽ có tập ngẫu nhiên các gen được gán giá trị bằng 0 hoặc 1 (gen được gán băng 1 đồng nghĩa với đặc trưng 5 TONG QUAN EMMMWNR đó được sử dụng trong mô hình học may), tỉ lệ đột biến được sử dụng là 1/780. Sau mỗi lượt đánh giá sẽ chọn 3 cá thê tốt nhất cho lần tạo dân số sau.

Giải thuật được dừng lại khi độ chính xác của mô hình học máy cho cá thé tốt nhất không đổi sau 10 thế hệ. Vì giải thuật di truyền là kỹ thuật tìm kiếm ngẫu nhiên nên nhóm tác giả đã lặp lại 20 lần tìm kiếm với mong muốn tìm được cá thé tốt nhất. NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THUC NGHIỆM CHƯƠNG 3. NHỮNG NGHIÊN CỨU LÝ THUYET VÀ THỰC NGHIỆM 3.

Mô hình Support Vector Machine Đặc trưng 1 (Trọng lượng) Hình 3-1. Mô hình Support Vector Machine SVM được sử dụng dé tìm ra một siêu phăng nhằm phân tách tập dữ liệu thành hai phần riêng biệt - tư tưởng của bài toán phân lớp (classification). Ví dụ trong Hình 3-1, chúng ta có một mặt bàn đựng hai loại quả lê và táo. Siêu phăng phân tách đống quả này thành hai lớp, bản chất là đi tìm một hàm toán học phụ thuộc tọa độ của một quả trên mặt bàn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Luận Văn Thạc Sĩ: Giải Thuật Di Truyền Trong Lựa Chọn Đặc Trưng Nhận Dạng Hành Vi" trình bày một cái nhìn sâu sắc về việc áp dụng giải thuật di truyền trong việc lựa chọn đặc trưng cho nhận dạng hành vi. Tác giả phân tích các phương pháp và kỹ thuật hiện có, đồng thời chỉ ra những lợi ích của việc sử dụng giải thuật di truyền, như khả năng tối ưu hóa và cải thiện độ chính xác trong nhận dạng hành vi. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà giải thuật này có thể được áp dụng trong các lĩnh vực khác nhau, từ công nghệ thông tin đến tâm lý học.

Nếu bạn muốn mở rộng kiến thức của mình về các ứng dụng của giải thuật di truyền, hãy tham khảo tài liệu Luận văn thạc sĩ kỹ thuật công nghiệp nghiên cứu sử dụng giải thuật di truyền lập thời khóa biểu cho trường trung học phổ thông. Tài liệu này sẽ cung cấp cho bạn cái nhìn sâu hơn về cách giải thuật di truyền có thể được áp dụng trong việc lập kế hoạch và tổ chức thời gian, mở ra nhiều cơ hội nghiên cứu và ứng dụng trong thực tiễn.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khoa học máy tính

#giải thuật di truyền

#thuật toán tối ưu

#nhận dạng hành vi

Chủ đề

Ứng dụng giải thuật di truyền

nhận dạng hành vi trong AI

khoa học máy tính và nghiên cứu

phương pháp tối ưu hóa trong học máy

Luận Văn Thạc Sĩ Khoa Học Máy Tính: Ứng Dụng Giải Thuật Di Truyền Trong Nhận Dạng Hành Vi

LỜI CÁM ƠN

TÓM TẮT

SUMMARY

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng nghiên cứu

1.4. Phạm vi nghiên cứu

1.5. Ý nghĩa khoa học và thực tiễn

1.5.1. Ý nghĩa thực tiễn

1.5.2. Ý nghĩa khoa học

2. CHƯƠNG 2: TỔNG QUAN

2.1. Các công trình liên quan

2.2. Tóm tắt các công trình nghiên cứu về nhận dạng hành vi

2.3. Tổng quan

3. CHƯƠNG 3: NHỮNG NGHIÊN CỨU LÝ THUYẾT VÀ THỰC NGHIỆM

3.1. Mô hình Support Vector Machine

3.1.1. Siêu phẳng trong mô hình SVM

3.1.2. Maximum Margin trong mô hình SVM

3.1.3. Các phương pháp hạt nhân (Kernel Methods)

3.2. Mô hình 2-Stages Continuous Hidden Markov Model (2SCHMM)

3.3. Giải thuật di truyền (GAS)

3.4. Phương pháp nghiên cứu

3.4.1. Phương pháp nghiên cứu lý thuyết

3.4.2. Phương pháp nghiên cứu thực nghiệm

3.4.3. Phương pháp đánh giá kết quả nghiên cứu

4. CHƯƠNG 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN KẾT QUẢ

4.1. Quá trình thực nghiệm

4.2. Quá trình phân lớp để đánh giá cá thể

4.3. Quá trình thu gọn vector đặc trưng bằng giải thuật di truyền

4.4. Quá trình đánh giá kết quả

4.5. Kết quả thực nghiệm

4.5.1. Giải thuật SVM

4.5.2. Giải thuật 2SCHMM

4.5.3. So sánh kết quả

5. CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ

5.1. Những công việc đã thực hiện

5.2. Những hạn chế hiện tại

5.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC

I. Giới thiệu và mục tiêu nghiên cứu

1.1. Lý do chọn đề tài

1.2. Mục tiêu nghiên cứu

II. Phương pháp nghiên cứu và công trình liên quan

2.1. Công trình liên quan

2.2. Phương pháp nghiên cứu

III. Kết quả và đánh giá

3.1. Kết quả thực nghiệm

3.2. Đánh giá hiệu quả

IV. Kết luận và hướng phát triển

4.1. Kết luận

4.2. Hướng phát triển

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Huỳnh Trung Tín

Người hướng dẫn: TS. Phạm Hoàng Anh

Trường học: Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Lựa chọn đặc trưng bằng giải thuật di truyền trong bài toán nhận dạng hành vi

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2018

Địa điểm: TP. Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm