Nghiên cứu bài toán phân loại tư thế ngủ bằng phương pháp ước lượng tư thế sử dụng mạng học sâu

Nghiên cứu phân loại tư thế ngủ sử dụng mạng học sâu và ước lượng tư thế. Giải pháp cải thiện độ chính xác, ứng dụng thực tế trong y tế và sức khỏe.

Trường đại học

Đại học Bách khoa Hà Nội

Chuyên ngành

Kỹ thuật điện tử

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Giới thiệu chung về mạng học sâu

1.2. Tổng quan về mạng học sâu

1.3. Một số thành tựu của mạng học sâu trong lĩnh vực y tế và chăm sóc sức khỏe trong những năm gần đây

1.4. Cơ sở toán học của các mạng học sâu trong lĩnh vực thị giác máy tính

1.4.1. Tính phi tuyến

1.4.2. Thuật toán huấn luyện

1.4.3. Phép tích chập – cốt lõi của mạng CNN

1.5. Bài toán ước lượng tư thế sử dụng mạng CNN

1.5.1. Giới thiệu về bài toán

1.5.2. Ứng dụng trong thực tế

1.6. Bài toán phân loại hình ảnh sử dụng mạng CNN

1.6.1. Giới thiệu về bài toán

1.6.2. Ứng dụng trong thực tế

2. CHƯƠNG 2: ỨNG DỤNG PHÂN LOẠI TƯ THẾ NGỦ DỰA TRÊN PHƯƠNG PHÁP ƯỚC LƯỢNG TƯ THẾ

2.1. Giới thiệu về tập dữ liệu thí nghiệm

2.2. Tổng quan về phương pháp

2.2.1. Mô đun ước lượng tư thế

2.2.2. Mô đun phân loại tư thế

2.2.3. Tham số huấn luyện cho các mô đun

3. CHƯƠNG 3: KẾT QUẢ VÀ THẢO LUẬN

3.1. Giới thiệu về các độ đo sử dụng để đánh giá mô hình

3.2. Các độ đo phổ biến cho bài toán phân loại

3.2.1. Kết quả cơ sở

3.2.2. Kết quả của phương pháp đề xuất

3.2.2.1. Kết quả đánh giá riêng biệt từng mô đun

3.2.2.2. Kết quả đánh giá tổng thể mô hình

3.3. Hướng phát triển của đồ án trong tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan về Phân Loại Tư Thế Ngủ Ứng dụng và Lợi ích

Bài toán phân loại tư thế ngủ ngày càng trở nên quan trọng trong lĩnh vực chăm sóc sức khỏe và nâng cao chất lượng cuộc sống. Ứng dụng này giúp theo dõi và đưa ra gợi ý điều chỉnh tư thế ngủ phù hợp, tránh các vấn đề về cột sống. Đặc biệt hữu ích trong việc theo dõi tư thế người bệnh nằm lâu ngày, giúp bác sĩ kịp thời thay đổi, tránh loét do tiếp xúc nhiều với giường bệnh. Các ứng dụng này đều cần trích xuất thông tin về tư thế người nằm, biến phân loại tư thế ngủ thành nền tảng quan trọng. Theo R.Yousefi và cộng sự [1], từ năm 2011, bản đồ nhiệt từ tư thế nằm đã hỗ trợ theo dõi điểm tiếp xúc với giường bệnh, giúp điều chỉnh tư thế bệnh nhân. Những nghiên cứu gần đây tập trung cải thiện độ chính xác và ứng dụng trong nhiều lĩnh vực khác nhau của y tế.

1.1. Tầm quan trọng của ước lượng tư thế trong y tế

Ước lượng tư thế đóng vai trò then chốt trong phân loại tư thế ngủ, cung cấp dữ liệu chính xác để đánh giá và theo dõi. Từ đó, các ứng dụng y tế có thể hỗ trợ chẩn đoán, điều trị và cải thiện chất lượng cuộc sống cho bệnh nhân. Việc sử dụng công nghệ này còn giúp giảm tải công việc cho nhân viên y tế, đặc biệt trong việc chăm sóc bệnh nhân nằm viện lâu ngày. Ước lượng tư thế cũng giúp đánh giá sự thoải mái trong tư thế ngủ để cải thiện giấc ngủ.

1.2. Ứng dụng của phân loại tư thế ngủ trong đời sống hàng ngày

Ngoài lĩnh vực y tế, phân loại tư thế ngủ còn có nhiều ứng dụng trong đời sống hàng ngày. Các thiết bị theo dõi giấc ngủ thông minh sử dụng công nghệ này để phân tích chất lượng giấc ngủ và đưa ra các lời khuyên cải thiện. Bên cạnh đó, thông tin về tư thế ngủ cũng có thể giúp lựa chọn loại nệm và gối phù hợp, tạo sự thoải mái và hỗ trợ tốt nhất cho cơ thể. Sự phát triển của công nghệ phân loại tư thế ngủ hứa hẹn mang lại nhiều tiện ích thiết thực cho người dùng.

II. Thách Thức trong Phân Loại Tư Thế Ngủ Chính Xác bằng AI

Việc phân loại tư thế ngủ chính xác đối mặt với nhiều thách thức, đặc biệt là trong điều kiện thiếu sáng và khi người dùng đắp chăn. Các đặc trưng thị giác dễ bị ảnh hưởng bởi yếu tố ngoại cảnh, làm giảm độ chính xác của các mô hình trí tuệ nhân tạo. Luận văn này đề xuất phương pháp cải thiện độ chính xác bằng cách tăng cường thông tin từ các điểm keypoint trên cơ thể người. Thay vì chỉ dựa vào các đặc trưng trích xuất từ mạng học sâu, quá trình phân loại còn sử dụng thông tin về tọa độ các điểm keypoint. Mục tiêu là xây dựng phương pháp cho kết quả tốt hơn, kết hợp đặc trưng thị giác và đặc trưng không gian.

2.1. Ảnh hưởng của điều kiện ánh sáng và vật cản đến độ chính xác

Ánh sáng yếu và sự hiện diện của vật cản như chăn, gối có thể gây khó khăn cho việc ước lượng tư thế và phân loại tư thế ngủ. Điều này làm giảm độ chính xác của các mô hình học sâu dựa trên thị giác máy tính. Do đó, cần có các phương pháp xử lý ảnh và tăng cường dữ liệu để cải thiện khả năng nhận diện trong điều kiện không thuận lợi. Cần có các thuật toán robust có thể xử lý các yếu tố nhiễu này.

2.2. Sự phức tạp của dữ liệu tư thế Đa dạng và biến đổi

Dữ liệu tư thế rất đa dạng và biến đổi, tùy thuộc vào nhiều yếu tố như thói quen ngủ, tình trạng sức khỏe và môi trường xung quanh. Điều này đòi hỏi các mô hình học sâu phải có khả năng học và khái quát hóa tốt để có thể phân loại chính xác trong nhiều tình huống khác nhau. Các phương pháp tăng cường dữ liệu có thể giúp mô hình học được các biến thể khác nhau của tư thế ngủ.

III. Mạng Học Sâu CNN Phương Pháp Ước Lượng Tư Thế Ngủ

Mạng học sâu (Deep Learning) đang trở thành công cụ mạnh mẽ trong lĩnh vực ước lượng tư thế và phân loại tư thế ngủ. Các mạng nơ-ron tích chập (CNN) thể hiện ưu thế vượt trội trong việc trích xuất đặc trưng từ ảnh và video. CNN có khả năng tự động học các đặc trưng quan trọng, giúp cải thiện đáng kể độ chính xác so với các phương pháp truyền thống. Theo Lindsay Stern và cộng sự [3], việc sử dụng kết hợp mô hình 2D và 3D (Resnet18 và I3D) cho kết quả ấn tượng trên tập dữ liệu ảnh bản đồ nhiệt.

3.1. Tổng quan về mạng CNN và ứng dụng trong thị giác máy tính

Mạng CNN là một loại mạng học sâu được thiết kế đặc biệt để xử lý dữ liệu ảnh và video. CNN sử dụng các lớp tích chập để trích xuất các đặc trưng từ hình ảnh, sau đó sử dụng các lớp kết nối đầy đủ để phân loại hoặc dự đoán. CNN đã đạt được những thành công to lớn trong nhiều lĩnh vực của thị giác máy tính, bao gồm nhận diện vật thể, phân loại hình ảnh và ước lượng tư thế. CNN hoạt động bằng cách học các bộ lọc đặc trưng từ dữ liệu đào tạo và áp dụng chúng vào dữ liệu mới.

3.2. Cách mạng CNN trích xuất đặc trưng cho bài toán tư thế ngủ

Trong bài toán tư thế ngủ, mạng CNN có thể được sử dụng để trích xuất các đặc trưng liên quan đến hình dạng cơ thể, vị trí các khớp và hướng của các chi. Các đặc trưng này sau đó có thể được sử dụng để phân loại tư thế ngủ thành các loại khác nhau như nằm ngửa, nằm nghiêng hoặc nằm sấp. Việc sử dụng mạng CNN giúp tự động hóa quá trình trích xuất đặc trưng và giảm thiểu sự can thiệp của con người. Mô hình có thể tự học để trích xuất những đặc trưng quan trọng nhất cho việc phân loại.

IV. Kết Hợp Keypoint và Mạng Học Sâu Giải Pháp Nâng Cao

Luận văn này đề xuất phương pháp kết hợp thông tin từ các điểm keypoint trên cơ thể người với đặc trưng trích xuất từ mạng học sâu. Thay vì chỉ dựa vào thông tin thị giác, phương pháp này tận dụng cả thông tin về tọa độ các điểm keypoint. Quá trình phân loại sẽ sử dụng thêm thông tin này để tăng cường độ chính xác. Ý tưởng này dựa trên việc các điểm keypoint cung cấp thông tin không gian quan trọng, giúp mô hình hiểu rõ hơn về cấu trúc cơ thể và tư thế của người.

4.1. Vai trò của Keypoint trong ước lượng tư thế và nhận dạng tư thế

Keypoint là các điểm đặc trưng trên cơ thể người, ví dụ như khớp vai, khớp khuỷu tay, đầu gối... Keypoint cung cấp thông tin quan trọng về cấu trúc cơ thể và tư thế. Trong ước lượng tư thế, keypoint được sử dụng để xác định vị trí và hướng của các bộ phận cơ thể. Trong nhận dạng tư thế, keypoint được sử dụng để phân loại tư thế thành các loại khác nhau. Việc sử dụng keypoint giúp mô hình trở nên robust hơn với các biến đổi về ánh sáng, góc nhìn và vật cản.

4.2. Phương pháp kết hợp Keypoint và đặc trưng từ mạng học sâu

Phương pháp đề xuất kết hợp thông tin keypoint với đặc trưng trích xuất từ mạng học sâu bằng cách sử dụng một mạng nơ-ron bổ sung để học cách kết hợp hai loại thông tin này. Mạng nơ-ron này có thể là một mạng kết nối đầy đủ hoặc một mạng CNN. Đầu vào của mạng nơ-ron là các tọa độ của keypoint và các đặc trưng trích xuất từ mạng học sâu. Đầu ra của mạng nơ-ron là phân loại tư thế ngủ. Việc kết hợp thông tin keypoint và đặc trưng từ mạng học sâu giúp cải thiện đáng kể độ chính xác của bài toán phân loại tư thế ngủ.

V. Thử Nghiệm và Đánh Giá Hiệu Suất Mô Hình Phân Loại Tư Thế Ngủ

Để đánh giá hiệu quả của phương pháp đề xuất, luận văn sử dụng tập dữ liệu ảnh IR thuộc bộ dữ liệu SLP. Tập dữ liệu này đa dạng, thể hiện sự phức tạp của tư thế ngủ trong thực tế. Mục tiêu là xây dựng một phương pháp phân loại cho kết quả tốt hơn tập kết quả cơ sở, thông qua việc kết hợp đặc trưng thị giác và đặc trưng không gian. Quá trình đánh giá sẽ sử dụng các độ đo phổ biến như độ chính xác, độ chính xác, độ recall và F1-score.

5.1. Tập dữ liệu SLP Đặc điểm và Thống kê

Tập dữ liệu SLP (Sleep Posture Dataset) là một tập dữ liệu ảnh IR đa dạng, chứa các ảnh về tư thế ngủ được thu thập từ nhiều nguồn cảm biến khác nhau. Tập dữ liệu này thể hiện sự đa dạng và phức tạp của tư thế ngủ trong thực tế. SLP chứa các ảnh về nhiều loại tư thế ngủ, bao gồm nằm ngửa, nằm nghiêng, nằm sấp, và các tư thế biến thể khác. Tập dữ liệu này cũng chứa các ảnh về người đắp chăn mỏng, chăn dày và không đắp chăn. Các thống kê về tập dữ liệu SLP giúp hiểu rõ hơn về phân phối của các tư thế và các yếu tố ảnh hưởng đến độ chính xác của mô hình.

5.2. Các Độ Đo Đánh Giá Hiệu Suất Mô Hình Phân Loại Tư Thế

Độ chính xác (Accuracy), Độ chính xác (Precision), Độ recall (Recall) và F1-score là các độ đo phổ biến được sử dụng để đánh giá hiệu suất của mô hình phân loại tư thế. Độ chính xác cho biết tỉ lệ các tư thế được phân loại đúng trên tổng số các tư thế. Độ chính xác cho biết tỉ lệ các tư thế được dự đoán là thuộc một lớp nhất định thực sự thuộc lớp đó. Độ recall cho biết tỉ lệ các tư thế thuộc một lớp nhất định được dự đoán đúng. F1-score là trung bình điều hòa của độ chính xác và độ recall. Các độ đo này cung cấp một cái nhìn toàn diện về hiệu suất của mô hình.

VI. Ứng Dụng và Tương Lai Của Nghiên Cứu Phân Loại Tư Thế Ngủ

Nghiên cứu về phân loại tư thế ngủ bằng mạng học sâu mở ra nhiều ứng dụng tiềm năng trong lĩnh vực chăm sóc sức khỏe và nâng cao chất lượng cuộc sống. Các ứng dụng này bao gồm theo dõi giấc ngủ, phát hiện các vấn đề sức khỏe liên quan đến tư thế ngủ, và cung cấp các giải pháp cải thiện giấc ngủ. Trong tương lai, nghiên cứu này có thể được mở rộng để phân tích các yếu tố khác ảnh hưởng đến giấc ngủ, như nhiệt độ, độ ẩm và tiếng ồn.

6.1. Ứng Dụng Y Tế Chẩn Đoán và Theo Dõi Bệnh Liên Quan Giấc Ngủ

Phân loại tư thế ngủ có thể hỗ trợ chẩn đoán và theo dõi các bệnh liên quan đến giấc ngủ, như chứng ngưng thở khi ngủ, hội chứng chân không yên và chứng nghiến răng khi ngủ. Thông tin về tư thế ngủ có thể giúp bác sĩ xác định nguyên nhân gây ra các vấn đề này và đưa ra các phương pháp điều trị phù hợp. Hơn nữa, các ứng dụng theo dõi giấc ngủ sử dụng phân loại tư thế ngủ có thể giúp người dùng tự theo dõi giấc ngủ của mình và phát hiện sớm các dấu hiệu bất thường. Các hệ thống có thể cảnh báo người dùng thay đổi tư thế khi phát hiện các dấu hiệu của bệnh lý.

6.2. Hướng Phát Triển Tích Hợp Với Các Công Nghệ Cảm Biến và IoT

Trong tương lai, nghiên cứu về phân loại tư thế ngủ có thể được tích hợp với các công nghệ cảm biến và IoT để tạo ra các hệ thống theo dõi giấc ngủ thông minh và toàn diện hơn. Các cảm biến có thể được sử dụng để thu thập dữ liệu về nhiều yếu tố khác nhau ảnh hưởng đến giấc ngủ, như nhiệt độ, độ ẩm, tiếng ồn và nhịp tim. Dữ liệu này sau đó có thể được phân tích bằng các thuật toán học sâu để cung cấp thông tin chi tiết về chất lượng giấc ngủ và đưa ra các lời khuyên cải thiện. Sự tích hợp với IoT cho phép các thiết bị theo dõi giấc ngủ kết nối với các thiết bị thông minh khác trong nhà, tạo ra một môi trường ngủ lý tưởng.

24/04/2025

Bạn đang xem trước tài liệu:

Nghiên cứu bài toán tư thế ngủ bằng phương pháp ước lượng tư thế sử dụng mạng học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghệ 4.0, trí tuệ nhân tạo (AI) và học sâu (Deep Learning) đã trở thành những công nghệ trọng điểm, đặc biệt trong lĩnh vực y tế và chăm sóc sức khỏe. Theo báo cáo của ngành, việc theo dõi tư thế ngủ có vai trò quan trọng trong việc cải thiện chất lượng giấc ngủ và phòng tránh các bệnh lý liên quan đến cột sống. Tuy nhiên, bài toán phân loại tư thế ngủ gặp nhiều thách thức do ảnh chụp thường trong điều kiện thiếu sáng, người dùng có thể đắp chăn gây che khuất đặc trưng hình ảnh. Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp phân loại tư thế ngủ chính xác hơn bằng cách kết hợp đặc trưng hình ảnh và thông tin về các điểm keypoint trên cơ thể người, sử dụng mạng học sâu. Nghiên cứu tập trung trên tập dữ liệu SLP thu thập từ 109 người với 9 tư thế ngủ mở rộng, trong điều kiện ánh sáng và che phủ khác nhau, nhằm đánh giá hiệu quả của phương pháp đề xuất. Kết quả nghiên cứu có ý nghĩa thiết thực trong việc ứng dụng AI để theo dõi và cải thiện sức khỏe người dùng, đồng thời mở rộng phạm vi ứng dụng trong các hệ thống giám sát y tế thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của trí tuệ nhân tạo, học máy và học sâu, trong đó mạng nơ ron tích chập (CNN) là công nghệ cốt lõi. CNN được thiết kế để trích xuất đặc trưng từ ảnh thông qua các lớp tích chập, giúp mô hình học được các đặc điểm phức tạp của dữ liệu hình ảnh. Hai lý thuyết chính được áp dụng là:

Ước lượng tư thế (Pose Estimation): Mô hình HRNet được sử dụng để dự đoán tọa độ 14 điểm keypoint trên cơ thể người trong ảnh, bao gồm đầu, cổ, vai, khuỷu tay, cổ tay, hông, đầu gối và cổ chân. HRNet nổi bật với khả năng duy trì độ phân giải cao trong quá trình học, giúp tăng độ chính xác của dự đoán.
Phân loại hình ảnh (Image Classification): Mạng CNN được sử dụng để phân loại tư thế ngủ dựa trên đặc trưng hình ảnh và tọa độ keypoint. Mô đun phân loại tư thế thô sử dụng mạng CNN 1 chiều để phân loại 3 tư thế chính, trong khi mô đun phân loại tư thế chân sử dụng ResNet18 để phân loại chi tiết tư thế chân thành 3 nhóm: duỗi 2 chân, co 1 chân, co cả 2 chân.

Các khái niệm chính bao gồm: hàm kích hoạt ReLU, hàm mất mát Cross-Entropy, thuật toán tối ưu Adam và SGD, cũng như các phép toán tích chập, tích chập giãn nở và tích chập chuyển vị trong CNN.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập SLP (Simultaneously-collected multimodel Lying Pose) với ảnh hồng ngoại thu thập từ 109 người, gồm 9 tư thế ngủ được phân loại dựa trên tư thế chân. Dữ liệu được chia thành tập huấn luyện và kiểm thử theo tỷ lệ 8:2, đảm bảo phân phối đồng đều giữa các lớp.

Phương pháp nghiên cứu gồm hai mô đun chính:

Mô đun ước lượng tư thế: Sử dụng HRNet kết hợp với YOLOv4 để phát hiện người và dự đoán tọa độ keypoint. Quá trình huấn luyện sử dụng hàm mất mát MSE, thuật toán Adam, learning rate 0.001, trong 80 epoch.
Mô đun phân loại tư thế: Bao gồm phân loại tư thế thô (3 lớp) bằng CNN 1 chiều với hàm mất mát Cross-Entropy, SGD, learning rate 0.0001, 100 epoch; và phân loại tư thế chân bằng ResNet18 với hàm mất mát Focal Cross-Entropy, learning rate 0.005, 100 epoch.

Quá trình huấn luyện được thực hiện trên nền tảng Ubuntu 22.04 LTS, sử dụng Torch 1.1 và GPU NVIDIA GeForce GTX 3090 với CUDA Toolkit 11.4 để tăng tốc tính toán. Kỹ thuật tăng cường dữ liệu (data augmentation) được áp dụng nhằm cải thiện độ đa dạng và độ chính xác của mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác ước lượng keypoint: Mô đun ước lượng tư thế đạt độ đo PCK@0.2 khoảng 92%, cho thấy khả năng dự đoán tọa độ keypoint chính xác cao trên tập dữ liệu SLP.
Hiệu quả phân loại tư thế thô: Mô đun phân loại tư thế thô đạt độ chính xác (accuracy) trên 95% cho 3 lớp tư thế chính, thể hiện khả năng phân biệt rõ ràng giữa nằm ngửa, nghiêng trái và nghiêng phải.
Phân loại tư thế chân chi tiết: Mô đun phân loại tư thế chân sử dụng ResNet18 đạt F1-score trên 90% trong việc phân loại 3 dạng tư thế chân, góp phần nâng tổng thể độ chính xác phân loại 9 tư thế lên trên 88%.
So sánh với mô hình cơ sở: Phương pháp đề xuất cải thiện độ chính xác trung bình khoảng 5-7% so với các mô hình học sâu phổ biến chỉ sử dụng đặc trưng hình ảnh, đặc biệt trong điều kiện người đắp chăn dày, khi các đặc trưng hình ảnh bị che khuất.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là việc kết hợp thông tin về tọa độ keypoint giúp mô hình có thêm đặc trưng không gian, giảm thiểu ảnh hưởng của các yếu tố ngoại cảnh như ánh sáng yếu hay vật thể che khuất. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực ước lượng tư thế và phân loại hành động, đồng thời mở rộng phạm vi phân loại từ 3 tư thế truyền thống lên 9 tư thế chi tiết hơn.

Biểu đồ confusion matrix cho thấy các lớp tư thế được phân loại chính xác với tỷ lệ nhầm lẫn thấp, đặc biệt là các lớp nằm ngửa duỗi 2 chân và nằm nghiêng phải co 1 chân. Tuy nhiên, một số nhầm lẫn nhỏ vẫn xảy ra giữa các tư thế có đặc điểm tương tự, ví dụ như nằm nghiêng trái co 1 chân và co 2 chân, do sự tương đồng về hình dạng.

Kết quả cũng cho thấy mô hình có khả năng duy trì hiệu suất tốt trong các điều kiện đắp chăn khác nhau, chứng tỏ tính ứng dụng thực tế cao của phương pháp đề xuất trong môi trường giám sát y tế.

Đề xuất và khuyến nghị

Triển khai hệ thống giám sát tư thế ngủ tự động: Áp dụng mô hình phân loại tư thế ngủ vào các thiết bị giám sát tại bệnh viện và gia đình nhằm theo dõi liên tục tư thế người bệnh, giảm thiểu nguy cơ loét do nằm lâu. Thời gian triển khai dự kiến trong 12 tháng, chủ thể thực hiện là các đơn vị công nghệ y tế.
Phát triển ứng dụng hỗ trợ cải thiện giấc ngủ: Tích hợp công nghệ phân loại tư thế ngủ vào ứng dụng di động để cung cấp phản hồi và gợi ý điều chỉnh tư thế ngủ cho người dùng, hướng tới nâng cao chất lượng giấc ngủ. Mục tiêu tăng độ chính xác dự báo trên 90% trong vòng 6 tháng.
Mở rộng nghiên cứu với dữ liệu đa dạng: Thu thập thêm dữ liệu từ các nhóm đối tượng khác nhau, bao gồm người già, trẻ em và bệnh nhân có bệnh lý đặc thù để cải thiện khả năng tổng quát của mô hình. Thời gian thực hiện 18 tháng, phối hợp giữa viện nghiên cứu và bệnh viện.
Tối ưu hóa mô hình cho thiết bị di động: Nghiên cứu giảm kích thước mô hình và tăng tốc độ xử lý để triển khai trên các thiết bị di động hoặc thiết bị IoT, giúp ứng dụng rộng rãi trong thực tế. Mục tiêu giảm thời gian xử lý xuống dưới 100ms, hoàn thành trong 9 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành kỹ thuật điện tử, trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng mạng học sâu trong thị giác máy tính, đặc biệt là bài toán ước lượng tư thế và phân loại hình ảnh.
Chuyên gia phát triển sản phẩm y tế thông minh: Tham khảo để phát triển các hệ thống giám sát tư thế ngủ, theo dõi bệnh nhân nằm viện, góp phần nâng cao chất lượng chăm sóc sức khỏe.
Nhà quản lý và hoạch định chính sách y tế: Hiểu rõ tiềm năng ứng dụng AI trong chăm sóc sức khỏe, từ đó xây dựng các chương trình hỗ trợ nghiên cứu và ứng dụng công nghệ mới.
Doanh nghiệp công nghệ và startup: Tận dụng kết quả nghiên cứu để phát triển các sản phẩm công nghệ phục vụ chăm sóc sức khỏe cá nhân và cộng đồng, mở rộng thị trường ứng dụng AI.

Câu hỏi thường gặp

Phương pháp đề xuất có thể áp dụng cho các loại dữ liệu ảnh khác không?
Phương pháp chủ yếu sử dụng ảnh hồng ngoại từ tập dữ liệu SLP, tuy nhiên kiến trúc mạng học sâu có thể được điều chỉnh để áp dụng cho ảnh màu hoặc ảnh độ sâu, với hiệu quả phụ thuộc vào chất lượng và đặc trưng dữ liệu.
Làm thế nào để mô hình xử lý trường hợp người bị che khuất bởi chăn?
Việc kết hợp thông tin keypoint giúp mô hình giảm thiểu ảnh hưởng của che khuất, bởi keypoint cung cấp đặc trưng không gian bổ sung cho đặc trưng hình ảnh, nâng cao độ chính xác trong điều kiện ánh sáng yếu hoặc che phủ.
Tại sao chọn HRNet và ResNet18 cho các mô đun chính?
HRNet duy trì độ phân giải cao trong quá trình học, phù hợp cho bài toán ước lượng keypoint chính xác. ResNet18 có kiến trúc residual giúp tránh hiện tượng vanishing gradient, đồng thời có số lượng tham số vừa phải, phù hợp cho phân loại tư thế chân.
Mô hình có thể mở rộng để phân loại nhiều tư thế hơn không?
Có thể mở rộng bằng cách thu thập thêm dữ liệu và điều chỉnh mô hình phân loại, tuy nhiên cần cân nhắc độ phức tạp và khả năng phân biệt giữa các lớp tư thế tương tự để tránh giảm hiệu quả.
Ứng dụng thực tế của nghiên cứu này là gì?
Nghiên cứu hỗ trợ phát triển các hệ thống giám sát tư thế ngủ tự động, giúp cải thiện chất lượng giấc ngủ, phòng tránh các bệnh liên quan đến tư thế nằm, đồng thời hỗ trợ theo dõi bệnh nhân nằm viện lâu ngày, giảm nguy cơ loét do nằm lâu.

Kết luận

Luận văn đã phát triển thành công phương pháp phân loại tư thế ngủ kết hợp đặc trưng hình ảnh và tọa độ keypoint, nâng cao độ chính xác so với các phương pháp truyền thống.
Mô hình HRNet và ResNet18 được áp dụng hiệu quả cho bài toán ước lượng tư thế và phân loại chi tiết tư thế chân.
Kết quả trên tập dữ liệu SLP với 9 tư thế ngủ đa dạng cho thấy độ chính xác trên 88%, đặc biệt trong điều kiện che khuất và ánh sáng yếu.
Nghiên cứu mở ra hướng phát triển ứng dụng AI trong giám sát sức khỏe cá nhân và y tế thông minh.
Các bước tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình cho thiết bị di động và triển khai ứng dụng thực tế nhằm nâng cao chất lượng cuộc sống người dùng.

Khuyến khích các nhà nghiên cứu và doanh nghiệp công nghệ tiếp tục khai thác và phát triển các giải pháp AI trong lĩnh vực chăm sóc sức khỏe để tạo ra những sản phẩm có giá trị thực tiễn cao.

Trích đoạn nội dung tài liệu

Chương 1: Cơ sở lý thuyết Chương này tập trung trình bày nhưng thông tin nền tảng về trí tuệ nhân tạo nói chung và mạng nơ ron nói riêng. Cùng với đó những lý thuyết cơ bản của mạng nơ ron tích chập CNN như các phép toán trên ma trận ảnh, thuật toán tối ưu, ứng dụng,… cũng sẽ được trình bày trong chương này. Chương 2: Ứng dụng phân loại tư thế ngủ dưa trên phương pháp ước lượng tư thế Chương này trình bày cụ thể ý tưởng mô hình hóa bài toán để có thể giải quyết bằng mạng học sâu. Tiếp đó, thông tin tổng quan cũng như các thông số về thống kê của tập dữ liệu được sử dụng trong luận văn cũng được đề cập.

Sau cùng, kiến trúc của phương pháp đề xuất sẽ được làm rõ để nổi bật lên cách kết hợp thông tin giữa các đặc trưng để đưa ra dự báo cuối cùng. Chương 3: Kết quả và bàn luận Chương cuối cùng sẽ nêu ra các độ đo được sử dụng nhằm đánh giá hiệu quả của mô hình, kết quả cơ sở, kết quả của mô hình đề xuất trên tập dữ liệu kiểm thử và những đánh giá về kết quả cũng như ý tưởng cải tiến phương pháp đề xuất cũng sẽ được đề cập trong chương này. CƠ SỞ LÝ THUYẾT Trong chương này, các cơ sở lý thuyết được sử dụng cho quá trình nghiên cứu đề tài sẽ được trình bày. Thông tin sẽ tập trung nhằm khái quát hoạt động của mạng học sâu, một số thành tựu của mạng học sâu trong lĩnh vực y tế, chăm sóc sức khỏe trong những năm gần đây và cuối cùng là ứng dụng của mạng học sâu trong hai lớp bài toán phổ biến của thị giác máy tính đó là ước lượng tư thế và phân loại.1 Giới thiệu chung về mạng học sâu 1.1 Tổng quan về mạng học sâu Trước khi đi vào tìm hiểu mạng học sâu, chúng ta cần nắm được một số khái niệm cơ bản về trí tuệ nhân tạo (Artificial Intelligence) và học máy (Machine Learning).

3 khái niệm này có mối quan hệ vô cùng mật thiết với nhau tuy nhiên vẫn còn gây nhầm lẫn với một số bộ phận trong công chúng. Đầu tiên chúng ta nên bắt đầu từ khái niệm trí tuệ nhân tạo (Artificial Intelligence). Có rất nhiều khái niệm đã được đưa ra cho thuật ngữ này. Trong số đó, chúng ta có thể tham khảo định nghĩa đưa ra bởi John McCarthy vào năm 2004 trong bài báo có tiêu đề “What is Artificial Intelligence?” [4].

Nguyên văn định nghĩa này trong tiếng Anh được tác giả trình bày như sau: “It is science and engineering of making intelligent machines, especially intelligent computer programs. It is related to similar task of using computers to understand human intelligence, but AI does not have to confine itself to methods that are biologically observable”. Khái quát sang tiếng Việt, chúng ta có thể coi trí tuệ nhân tạo là một ngành khoa học kĩ thuật giúp cho máy móc có được trí thông minh, đặc biệt là trí thông mình của các chương trình máy tính. Nó tương tự như việc sử dụng máy tính để hiểu được trí thông minh của con người, tuy nhiên nó cũng không hề chịu sự ràng buộc của các quá trình sinh học tự nhiên.

Trong thực tế, ý tưởng về trí tuệ nhân tạo đã được đưa ra cách đây hơn 1 nửa thế kỉ, khi mà Alan Turing – người được coi là cha đẻ của khoa học máy tính đã đưa ra một câu hỏi trong bài báo “Computing Machinery and Intelligence” [5] của mình rằng “Can machines think” – “Liệu máy móc có suy nghĩ được không?”. Tại thời điểm năm 1950, câu hỏi này đối với nhiều người rõ ràng là sự ngớ ngẩn và viển vông. Tuy nhiên tại thời điểm hiện tại, câu trả lời cho câu hỏi này đã khác rất nhiều khi mà máy móc đã thể hiện được trí thông minh trong rất nhiều lĩnh vực như y tế, giáo dục, giao thông, tài chính,… Thậm chí trong một số lĩnh vực máy móc còn cho thấy trí thông minh vượt xa con người. Điển hình có thể nhắc đến sự kiện AlphaGo do Google Deepmind phát triển đã thắng nhà vô địch cờ vây thế giới người Hàn Quốc vào năm 2016 [6].

Nhìn chung, dù định nghĩa có thể thay đổi về mặt câu từ thì trí tuệ nhân tạo luôn được nhấn mạnh là trí thông minh được thể hiện bởi máy móc. Từ khi khái niệm trí tuệ nhân tạo được phổ biến và nhận nhiều sự quan tâm của công chúng, 2 thuật ngữ liên quan đến trí tuệ nhân tạo đó là học máy (Machine Learning) và học sâu (Deep Learning) đang nổi lên như một làn gió mới trong khoa học máy tính với những ứng dụng thú vị mà nó đem lại. Nhìn chung, chúng ta có thể nói rằng học sâu được bao hàm bởi học máy, học máy lại được bao hàm bởi trí tuệ nhân tạo. Hay nói cách khác, học sâu chính là trí tuệ nhân tạo 1 nhưng trí tuệ nhân tạo chưa chắc đã là học sâu.

Mối quan hệ này có thể biểu thị bằng hình bên dưới. 1 Mối quan hệ giữa trí tuệ nhân tạo, học máy và học sâu [7] Ta có thể thấy, 3 thuật ngữ này có những đặc điểm chung khá giống nhau tuy nhiên chúng vẫn có những nét đặc trưng nhất định để chúng ta có thể phân biệt được. Đối với học máy, thuật ngữ này ám chỉ khả năng học của hệ thống máy tính, các chương trình sẽ có tính mềm dẻo, linh hoạt, thay vì những chương trình chỉ được hoạt động theo logic cố định được lập trình sẵn. Hoạt động của các mô hình học máy dựa trên những thuộc tính mà nó học được từ dữ liệu, từ đó đưa ra những dự đoán và quyết định khi tiếp nhận một đầu vào mới từ môi trường.

Một số mô hình thuật toán kinh điển của học máy mà chúng ta có thể nhắc đến đó là Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Random Forest, K-Means, Linear Regression, Logistic Regresion, … Mặc dù học máy cho độ chính xác khá tốt trên một số tác vụ đơn giản. Tuy nhiên, sau một thời gian nghiên cứu các nhà nghiên cứu nhận ra một điểm yếu cố hữu của học máy đó là các thuật toán học máy không tận dụng tốt lượng dữ liệu lớn mà chúng ta cung cấp cho quá trình huấn luyện [8]. Khi tăng lượng dữ liệu huấn luyện cho mô hình, chúng ta sẽ có kì vọng độ chính xác của mô hình học máy được cải thiện. Tuy nhiên trong thực tế điều này không xảy ra, một trong những nguyên nhân chính đó là số lượng tham số của các mô hình học máy khá hạn chế.

Do đó mặc dù được học trên lượng dữ liệu lớn nhưng các mô hình học máy không có khả năng để phản ánh được hết sự đa dạng cũng như đặc tính của dữ liệu. Điều này tương tự như việc chúng ta bắt một đứa trẻ 5 tuổi học kiến thức đại học vậy. Mặc dù có thể dạy đi dạy lại nhưng đứa trẻ đó không thể hiểu được vì bộ não của nó chưa phát triển đầy đủ. Nhằm khắc phục nhược điểm này, lĩnh vực học sâu được các nhà khoa học khai phá bằng việc đưa ra những mô hình lớn hơn với số lượng lên đến hàng chục triệu, thậm chí hàng tỉ tham số được huấn luyện trên những tập dữ liệu lớn để giải quyết những bài toán với độ phức tạp cao.

Sự thành công của học sâu trong những năm gần đây chính là một điểm nhấn ấn tượng của cuộc cách 2 mạng công nghiệp 4.0 cùng với các công nghệ mới khác như internet vạn vật, dữ liệu lớn, điện toán đám mây,… Cùng với đó sự thành công này cũng có đóng góp không nhỏ của ngành công nghiệp chip bán dẫn. Khi mà sự bùng nổ của học sâu chỉ xuất hiện khi các chip xử lý đồ họa GPU (Graphic Processing Unit) được ra đời với khả năng tính toán song song. Sự khác biệt cơ bản giữa học máy và học sâu có thể tóm lược bằng bảng 1. 1 Sự khác biệt cơ bản giữa học máy và học sâu [8] Học máy Học sâu Là tập con của trí tuệ nhân tạo Là tập con của học máy Lượng dữ liệu huấn luyện nhỏ Lượng dữ liệu huấn luyện lớn Thời gian huấn luyện ngắn, độ chính xác Thời gian huấn luyện dài, độ chính xác thấp hơn cao hơn Số lượng tham số nhỏ, độ phức tạp thấp Số lượng tham số cao, độ phức tạp cao hơn hơn Có thể huấn luyện trực tiếp trên CPU Yêu cầu GPU cho quá trình huấn luyện Đến thời điểm hiện tại, sự thành công của kĩ thuật học sâu trong những năm gần đây được thể hiện rõ rệt nhất thông qua các thế hệ mạng học sâu.

Mạng học sâu được lấy cảm hứng từ hệ thống thần kinh sinh học của con người để mô phỏng lại khả năng học tập và đưa ra dự đoán. Trước đây, điều này tưởng chừng là bất khả thi tuy nhiên với sự phát triển vượt bậc của kiến trúc mạng nơ ron, thuật toán huấn luyện cũng như phần cứng hỗ trợ, các mạng nơ ron hiện này đã cho độ chính xác tốt trong rất nhiều tác vụ với độ khó cao. Trong số đó ta có thể kể đến một số tác vụ như sau. • Thị giác máy tính: Các bài toán trong lĩnh vực này chủ yếu tập trung vào việc huấn luyện máy móc để chúng có thể hiểu và xử lý thông tin dưới dạng hình ảnh hoặc video tương tự như con người.

Một số tác vụ kinh điển trong lĩnh vực này mà chúng ta có thể kể đến như phân loại hình ảnh, phát hiện vật thể, sinh hình ảnh, phân đoạn ảnh, phát hiện sự kiện trong video,… • Xử lý ngôn ngữ tự nhiên: Lớp bài toán này tập trung vào việc huấn luyện cho máy móc có khả năng hiểu và phân tích được thông tin dưới dạng văn bản và tiếng nói từ đó máy móc có thể tương tác ngược lại với con người. Một số tác vụ phổ biến trong lĩnh vực này như dịch máy, trả lời câu hỏi, tự động sinh văn bản,… • Hệ thống gợi ý: Các chương trình máy tính sử dụng để dự đoán và gợi ý các mục hoặc nội dung phù hợp cho người dùng dựa trên hành vi, sở thích và lịch sử tiếp xúc của người dùng. Trong những năm gần đây, mạng nơ ron được coi là một giải pháp hữu hiệu cho bài toán này. • Phân tích dữ liệu: Một trong những đặc điểm của cuộc cách mạng công nghệ 4.0 đó là dữ liệu lớn.

Lượng dữ liệu được sinh ra trong quá trình hoạt động của các hệ thống máy tính là vô cùng lớn và thường sẽ được lưu trữ tại các 3 kho dữ liệu (data warehouse).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt nghiên cứu Nghiên cứu Phân loại Tư thế Ngủ bằng Mạng Học Sâu: Ước lượng Tư thế và Ứng dụng: Nghiên cứu này tập trung vào việc sử dụng mạng học sâu để tự động phân loại tư thế ngủ của một người. Bằng cách ước lượng tư thế từ dữ liệu đầu vào (có thể là hình ảnh, video, hoặc dữ liệu cảm biến), nghiên cứu này mở ra nhiều ứng dụng tiềm năng, từ việc theo dõi giấc ngủ, cải thiện chất lượng giấc ngủ, đến hỗ trợ chẩn đoán các bệnh liên quan đến giấc ngủ. Ưu điểm chính là khả năng tự động hóa quy trình phân loại, tiết kiệm thời gian và công sức so với các phương pháp thủ công, đồng thời cung cấp dữ liệu chính xác hơn để theo dõi và phân tích.

Nếu bạn quan tâm đến ứng dụng của học sâu trong lĩnh vực y tế, bạn có thể xem thêm luận văn thạc sĩ: "Luận văn thạc sĩ công nghệ thông tin phân loại ảnh mô bệnh học của mô vú nhằm hỗ trợ chẩn đoán ung thư vú". Tài liệu này sẽ giúp bạn hiểu rõ hơn về cách học sâu có thể được sử dụng để phân loại ảnh y tế, từ đó hỗ trợ quá trình chẩn đoán bệnh một cách chính xác và hiệu quả hơn.

#ước lượng tư thế người

#phân loại tư thế ngủ

#mạng học sâu trong y tế

#ứng dụng tư thế ngủ

#pose estimation deep learning

#nhận dạng tư thế ngủ bằng AI

Chủ đề

ứng dụng học sâu trong y học

phân tích tư thế ngủ thông minh

cải thiện chất lượng giấc ngủ

phương pháp ước lượng tư thế