Tổng quan nghiên cứu
Trong bối cảnh cuộc cách mạng công nghệ 4.0, trí tuệ nhân tạo (AI) và học sâu (Deep Learning) đã trở thành những công nghệ trọng điểm, đặc biệt trong lĩnh vực y tế và chăm sóc sức khỏe. Theo báo cáo của ngành, việc theo dõi tư thế ngủ có vai trò quan trọng trong việc cải thiện chất lượng giấc ngủ và phòng tránh các bệnh lý liên quan đến cột sống. Tuy nhiên, bài toán phân loại tư thế ngủ gặp nhiều thách thức do ảnh chụp thường trong điều kiện thiếu sáng, người dùng có thể đắp chăn gây che khuất đặc trưng hình ảnh. Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp phân loại tư thế ngủ chính xác hơn bằng cách kết hợp đặc trưng hình ảnh và thông tin về các điểm keypoint trên cơ thể người, sử dụng mạng học sâu. Nghiên cứu tập trung trên tập dữ liệu SLP thu thập từ 109 người với 9 tư thế ngủ mở rộng, trong điều kiện ánh sáng và che phủ khác nhau, nhằm đánh giá hiệu quả của phương pháp đề xuất. Kết quả nghiên cứu có ý nghĩa thiết thực trong việc ứng dụng AI để theo dõi và cải thiện sức khỏe người dùng, đồng thời mở rộng phạm vi ứng dụng trong các hệ thống giám sát y tế thông minh.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên nền tảng lý thuyết của trí tuệ nhân tạo, học máy và học sâu, trong đó mạng nơ ron tích chập (CNN) là công nghệ cốt lõi. CNN được thiết kế để trích xuất đặc trưng từ ảnh thông qua các lớp tích chập, giúp mô hình học được các đặc điểm phức tạp của dữ liệu hình ảnh. Hai lý thuyết chính được áp dụng là:
Ước lượng tư thế (Pose Estimation): Mô hình HRNet được sử dụng để dự đoán tọa độ 14 điểm keypoint trên cơ thể người trong ảnh, bao gồm đầu, cổ, vai, khuỷu tay, cổ tay, hông, đầu gối và cổ chân. HRNet nổi bật với khả năng duy trì độ phân giải cao trong quá trình học, giúp tăng độ chính xác của dự đoán.
Phân loại hình ảnh (Image Classification): Mạng CNN được sử dụng để phân loại tư thế ngủ dựa trên đặc trưng hình ảnh và tọa độ keypoint. Mô đun phân loại tư thế thô sử dụng mạng CNN 1 chiều để phân loại 3 tư thế chính, trong khi mô đun phân loại tư thế chân sử dụng ResNet18 để phân loại chi tiết tư thế chân thành 3 nhóm: duỗi 2 chân, co 1 chân, co cả 2 chân.
Các khái niệm chính bao gồm: hàm kích hoạt ReLU, hàm mất mát Cross-Entropy, thuật toán tối ưu Adam và SGD, cũng như các phép toán tích chập, tích chập giãn nở và tích chập chuyển vị trong CNN.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là tập SLP (Simultaneously-collected multimodel Lying Pose) với ảnh hồng ngoại thu thập từ 109 người, gồm 9 tư thế ngủ được phân loại dựa trên tư thế chân. Dữ liệu được chia thành tập huấn luyện và kiểm thử theo tỷ lệ 8:2, đảm bảo phân phối đồng đều giữa các lớp.
Phương pháp nghiên cứu gồm hai mô đun chính:
Mô đun ước lượng tư thế: Sử dụng HRNet kết hợp với YOLOv4 để phát hiện người và dự đoán tọa độ keypoint. Quá trình huấn luyện sử dụng hàm mất mát MSE, thuật toán Adam, learning rate 0.001, trong 80 epoch.
Mô đun phân loại tư thế: Bao gồm phân loại tư thế thô (3 lớp) bằng CNN 1 chiều với hàm mất mát Cross-Entropy, SGD, learning rate 0.0001, 100 epoch; và phân loại tư thế chân bằng ResNet18 với hàm mất mát Focal Cross-Entropy, learning rate 0.005, 100 epoch.
Quá trình huấn luyện được thực hiện trên nền tảng Ubuntu 22.04 LTS, sử dụng Torch 1.1 và GPU NVIDIA GeForce GTX 3090 với CUDA Toolkit 11.4 để tăng tốc tính toán. Kỹ thuật tăng cường dữ liệu (data augmentation) được áp dụng nhằm cải thiện độ đa dạng và độ chính xác của mô hình.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Độ chính xác ước lượng keypoint: Mô đun ước lượng tư thế đạt độ đo PCK@0.2 khoảng 92%, cho thấy khả năng dự đoán tọa độ keypoint chính xác cao trên tập dữ liệu SLP.
Hiệu quả phân loại tư thế thô: Mô đun phân loại tư thế thô đạt độ chính xác (accuracy) trên 95% cho 3 lớp tư thế chính, thể hiện khả năng phân biệt rõ ràng giữa nằm ngửa, nghiêng trái và nghiêng phải.
Phân loại tư thế chân chi tiết: Mô đun phân loại tư thế chân sử dụng ResNet18 đạt F1-score trên 90% trong việc phân loại 3 dạng tư thế chân, góp phần nâng tổng thể độ chính xác phân loại 9 tư thế lên trên 88%.
So sánh với mô hình cơ sở: Phương pháp đề xuất cải thiện độ chính xác trung bình khoảng 5-7% so với các mô hình học sâu phổ biến chỉ sử dụng đặc trưng hình ảnh, đặc biệt trong điều kiện người đắp chăn dày, khi các đặc trưng hình ảnh bị che khuất.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện độ chính xác là việc kết hợp thông tin về tọa độ keypoint giúp mô hình có thêm đặc trưng không gian, giảm thiểu ảnh hưởng của các yếu tố ngoại cảnh như ánh sáng yếu hay vật thể che khuất. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực ước lượng tư thế và phân loại hành động, đồng thời mở rộng phạm vi phân loại từ 3 tư thế truyền thống lên 9 tư thế chi tiết hơn.
Biểu đồ confusion matrix cho thấy các lớp tư thế được phân loại chính xác với tỷ lệ nhầm lẫn thấp, đặc biệt là các lớp nằm ngửa duỗi 2 chân và nằm nghiêng phải co 1 chân. Tuy nhiên, một số nhầm lẫn nhỏ vẫn xảy ra giữa các tư thế có đặc điểm tương tự, ví dụ như nằm nghiêng trái co 1 chân và co 2 chân, do sự tương đồng về hình dạng.
Kết quả cũng cho thấy mô hình có khả năng duy trì hiệu suất tốt trong các điều kiện đắp chăn khác nhau, chứng tỏ tính ứng dụng thực tế cao của phương pháp đề xuất trong môi trường giám sát y tế.
Đề xuất và khuyến nghị
Triển khai hệ thống giám sát tư thế ngủ tự động: Áp dụng mô hình phân loại tư thế ngủ vào các thiết bị giám sát tại bệnh viện và gia đình nhằm theo dõi liên tục tư thế người bệnh, giảm thiểu nguy cơ loét do nằm lâu. Thời gian triển khai dự kiến trong 12 tháng, chủ thể thực hiện là các đơn vị công nghệ y tế.
Phát triển ứng dụng hỗ trợ cải thiện giấc ngủ: Tích hợp công nghệ phân loại tư thế ngủ vào ứng dụng di động để cung cấp phản hồi và gợi ý điều chỉnh tư thế ngủ cho người dùng, hướng tới nâng cao chất lượng giấc ngủ. Mục tiêu tăng độ chính xác dự báo trên 90% trong vòng 6 tháng.
Mở rộng nghiên cứu với dữ liệu đa dạng: Thu thập thêm dữ liệu từ các nhóm đối tượng khác nhau, bao gồm người già, trẻ em và bệnh nhân có bệnh lý đặc thù để cải thiện khả năng tổng quát của mô hình. Thời gian thực hiện 18 tháng, phối hợp giữa viện nghiên cứu và bệnh viện.
Tối ưu hóa mô hình cho thiết bị di động: Nghiên cứu giảm kích thước mô hình và tăng tốc độ xử lý để triển khai trên các thiết bị di động hoặc thiết bị IoT, giúp ứng dụng rộng rãi trong thực tế. Mục tiêu giảm thời gian xử lý xuống dưới 100ms, hoàn thành trong 9 tháng.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành kỹ thuật điện tử, trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng mạng học sâu trong thị giác máy tính, đặc biệt là bài toán ước lượng tư thế và phân loại hình ảnh.
Chuyên gia phát triển sản phẩm y tế thông minh: Tham khảo để phát triển các hệ thống giám sát tư thế ngủ, theo dõi bệnh nhân nằm viện, góp phần nâng cao chất lượng chăm sóc sức khỏe.
Nhà quản lý và hoạch định chính sách y tế: Hiểu rõ tiềm năng ứng dụng AI trong chăm sóc sức khỏe, từ đó xây dựng các chương trình hỗ trợ nghiên cứu và ứng dụng công nghệ mới.
Doanh nghiệp công nghệ và startup: Tận dụng kết quả nghiên cứu để phát triển các sản phẩm công nghệ phục vụ chăm sóc sức khỏe cá nhân và cộng đồng, mở rộng thị trường ứng dụng AI.
Câu hỏi thường gặp
Phương pháp đề xuất có thể áp dụng cho các loại dữ liệu ảnh khác không?
Phương pháp chủ yếu sử dụng ảnh hồng ngoại từ tập dữ liệu SLP, tuy nhiên kiến trúc mạng học sâu có thể được điều chỉnh để áp dụng cho ảnh màu hoặc ảnh độ sâu, với hiệu quả phụ thuộc vào chất lượng và đặc trưng dữ liệu.Làm thế nào để mô hình xử lý trường hợp người bị che khuất bởi chăn?
Việc kết hợp thông tin keypoint giúp mô hình giảm thiểu ảnh hưởng của che khuất, bởi keypoint cung cấp đặc trưng không gian bổ sung cho đặc trưng hình ảnh, nâng cao độ chính xác trong điều kiện ánh sáng yếu hoặc che phủ.Tại sao chọn HRNet và ResNet18 cho các mô đun chính?
HRNet duy trì độ phân giải cao trong quá trình học, phù hợp cho bài toán ước lượng keypoint chính xác. ResNet18 có kiến trúc residual giúp tránh hiện tượng vanishing gradient, đồng thời có số lượng tham số vừa phải, phù hợp cho phân loại tư thế chân.Mô hình có thể mở rộng để phân loại nhiều tư thế hơn không?
Có thể mở rộng bằng cách thu thập thêm dữ liệu và điều chỉnh mô hình phân loại, tuy nhiên cần cân nhắc độ phức tạp và khả năng phân biệt giữa các lớp tư thế tương tự để tránh giảm hiệu quả.Ứng dụng thực tế của nghiên cứu này là gì?
Nghiên cứu hỗ trợ phát triển các hệ thống giám sát tư thế ngủ tự động, giúp cải thiện chất lượng giấc ngủ, phòng tránh các bệnh liên quan đến tư thế nằm, đồng thời hỗ trợ theo dõi bệnh nhân nằm viện lâu ngày, giảm nguy cơ loét do nằm lâu.
Kết luận
- Luận văn đã phát triển thành công phương pháp phân loại tư thế ngủ kết hợp đặc trưng hình ảnh và tọa độ keypoint, nâng cao độ chính xác so với các phương pháp truyền thống.
- Mô hình HRNet và ResNet18 được áp dụng hiệu quả cho bài toán ước lượng tư thế và phân loại chi tiết tư thế chân.
- Kết quả trên tập dữ liệu SLP với 9 tư thế ngủ đa dạng cho thấy độ chính xác trên 88%, đặc biệt trong điều kiện che khuất và ánh sáng yếu.
- Nghiên cứu mở ra hướng phát triển ứng dụng AI trong giám sát sức khỏe cá nhân và y tế thông minh.
- Các bước tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình cho thiết bị di động và triển khai ứng dụng thực tế nhằm nâng cao chất lượng cuộc sống người dùng.
Khuyến khích các nhà nghiên cứu và doanh nghiệp công nghệ tiếp tục khai thác và phát triển các giải pháp AI trong lĩnh vực chăm sóc sức khỏe để tạo ra những sản phẩm có giá trị thực tiễn cao.