Tổng quan nghiên cứu
Bệnh về cột sống và các bệnh Cơ-Xương-Khớp đang gia tăng nhanh chóng tại Việt Nam, đặc biệt ở nhóm người trên 35 tuổi với tỷ lệ mắc khoảng 30%, và lên đến 85% ở nhóm trên 80 tuổi. Việt Nam cũng là một trong những quốc gia có tốc độ già hóa dân số nhanh nhất thế giới, với 10,1 triệu người cao tuổi chiếm 11% dân số. Trong môi trường bệnh viện, đặc biệt tại Trung tâm Chẩn đoán hình ảnh Bệnh viện K, các bác sĩ phải ngồi làm việc liên tục trong nhiều giờ, dẫn đến nguy cơ cao mắc các bệnh về cột sống do tư thế ngồi không chuẩn. Nghiên cứu nhằm ứng dụng học máy để xây dựng phần mềm hỗ trợ xác định tư thế ngồi chuẩn cho bác sĩ, giúp giảm thiểu các bệnh lý liên quan và nâng cao hiệu quả công việc. Phạm vi nghiên cứu tập trung tại Trung tâm Chẩn đoán hình ảnh Bệnh viện K, với dữ liệu thu thập từ các bác sĩ trong môi trường làm việc thực tế. Mục tiêu cụ thể là phát triển hệ thống nhận diện và phân loại tư thế ngồi dựa trên hình ảnh, sử dụng các mô hình mạng nơ-ron tích chập hiện đại, nhằm cảnh báo kịp thời tư thế sai và hỗ trợ điều chỉnh. Nghiên cứu có ý nghĩa quan trọng trong việc bảo vệ sức khỏe người lao động trong môi trường y tế, đồng thời mở rộng ứng dụng cho các môi trường làm việc khác như văn phòng, trường học, công xưởng.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên lý thuyết học máy và học sâu, đặc biệt là các mô hình mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) và mạng nơ-ron tích chập (Convolutional Neural Networks - CNN). Mạng nơ-ron nhân tạo mô phỏng cấu trúc thần kinh sinh học, gồm các nơ-ron kết nối với trọng số và hàm kích hoạt phi tuyến như ReLU, sigmoid, tanh để xử lý dữ liệu phi tuyến tính. Mạng nơ-ron tích chập được thiết kế đặc biệt cho dữ liệu ảnh, sử dụng các bộ lọc trượt trên ảnh đầu vào để trích xuất đặc trưng không gian hiệu quả, giảm số lượng tham số và tăng khả năng học các đặc trưng phức tạp. Ngoài ra, mô hình ước tính đặc trưng tư thế người (Pose Estimation) như MoveNet được sử dụng để trích xuất 17 điểm khớp chính trên cơ thể, tạo thành vector đặc trưng đa chiều cho việc phân loại tư thế. Các khái niệm chính bao gồm:
- Mạng nơ-ron nhân tạo: cấu trúc gồm các lớp nơ-ron kết nối đầy đủ, sử dụng hàm kích hoạt phi tuyến để học biểu diễn dữ liệu.
- Mạng nơ-ron tích chập: mạng chuyên biệt cho xử lý ảnh, giảm số lượng kết nối bằng cách áp dụng bộ lọc trên vùng ảnh cục bộ.
- Ước tính đặc trưng tư thế (Pose Estimation): kỹ thuật trích xuất vị trí các điểm khớp trên cơ thể người từ ảnh hoặc video.
- Hàm mất mát (Loss function): hàm đo sai số giữa dự đoán và nhãn thực tế, được tối ưu trong quá trình huấn luyện.
- Thuật toán tối ưu (Adam optimizer): thuật toán cập nhật trọng số mạng nhằm giảm hàm mất mát hiệu quả.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ ảnh tư thế ngồi của các bác sĩ tại Trung tâm Chẩn đoán hình ảnh Bệnh viện K, thu thập qua webcam với 4 nhãn phân loại: ngồi thẳng, ngồi lệch trái, ngồi lệch phải và cúi người. Bộ dữ liệu gồm khoảng 300-350 ảnh mỗi tình nguyện viên, thu từ 4 tình nguyện viên, tổng cộng khoảng 1200-1400 ảnh. Dữ liệu được tiền xử lý bằng cách trích xuất 17 điểm khớp tư thế người sử dụng mô hình MoveNet, loại bỏ các điểm có độ tin cậy thấp, chuẩn hóa tọa độ theo chuẩn Min-max về khoảng [0,1], và tăng cường dữ liệu bằng cách dịch chuyển nhẹ các điểm khớp trong ngưỡng cho phép để tăng tính đa dạng. Mô hình phân loại được xây dựng bằng mạng nơ-ron kết nối đầy đủ gồm 4 lớp: lớp đầu vào 34 nơ-ron (tương ứng 17 điểm khớp với 2 tọa độ), hai lớp ẩn lần lượt 16 và 8 nơ-ron với hàm kích hoạt ReLU, và lớp đầu ra 4 nơ-ron với hàm Softmax để phân loại 4 nhãn. Mô hình được huấn luyện sử dụng thuật toán Adam, hàm mất mát categorical crossentropy, với 100 epoch, batch size 512, và tỷ lệ chia dữ liệu huấn luyện/kiểm thử 80/20. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ bộ dữ liệu thu thập, đảm bảo đa dạng tư thế và cá nhân. Quá trình huấn luyện và đánh giá được thực hiện trên nền tảng TensorFlow.js, phù hợp cho triển khai trên thiết bị di động. Timeline nghiên cứu kéo dài trong năm 2021, từ thu thập dữ liệu, xây dựng mô hình, huấn luyện đến thử nghiệm thực tế.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
- Độ chính xác mô hình phân loại tư thế ngồi: Sau 100 vòng huấn luyện, mô hình đạt độ chính xác (precision) và độ thu hồi (recall) trên bộ dữ liệu kiểm thử đều vượt ngưỡng 90%, cho thấy khả năng phân loại tư thế ngồi chuẩn xác.
- Hiệu quả của mô hình MoveNet trong trích xuất đặc trưng: MoveNet cho phép trích xuất 17 điểm khớp với độ trễ thấp (khoảng 25-60 ms trên thiết bị di động), nhanh hơn và chính xác hơn so với PoseNet, giúp tăng hiệu quả xử lý thời gian thực.
- Tính đa dạng và độ tin cậy của bộ dữ liệu: Bộ dữ liệu thu thập từ 4 tình nguyện viên với khoảng 1200-1400 ảnh, được tăng cường dữ liệu giúp cải thiện khả năng tổng quát của mô hình, giảm hiện tượng overfitting.
- Khả năng nhận diện tư thế sai và cảnh báo kịp thời: Hệ thống phân biệt chính xác các tư thế lệch trái, lệch phải và cúi người với tỷ lệ nhận diện đúng trên 90% trong các thử nghiệm thực tế với tình nguyện viên.
Thảo luận kết quả
Kết quả cho thấy việc ứng dụng học máy, đặc biệt là mạng nơ-ron kết nối đầy đủ kết hợp với mô hình ước tính đặc trưng tư thế MoveNet, là phương pháp hiệu quả để phân loại tư thế ngồi của bác sĩ trong môi trường bệnh viện. Độ chính xác cao của mô hình phản ánh chất lượng bộ dữ liệu và hiệu quả của quá trình tiền xử lý, tăng cường dữ liệu. So với các nghiên cứu trước đây sử dụng OpenPose hoặc YOLO, MoveNet cho tốc độ xử lý nhanh hơn, phù hợp với ứng dụng thời gian thực trên thiết bị di động. Biểu đồ độ chính xác và hàm mất mát qua các epoch cho thấy mô hình hội tụ tốt trên dữ liệu huấn luyện và kiểm thử, tuy nhiên hàm mất mát trên bộ kiểm thử chưa hoàn toàn ổn định, gợi ý cần mở rộng bộ dữ liệu để cải thiện khả năng tổng quát. Việc tổng hợp kết quả dự đoán từ 10 ảnh liên tiếp giúp giảm nhiễu và tăng độ tin cậy của kết quả phân loại. Kết quả này có ý nghĩa thực tiễn lớn trong việc hỗ trợ bác sĩ điều chỉnh tư thế ngồi, giảm thiểu nguy cơ mắc các bệnh về cột sống, đồng thời có thể mở rộng ứng dụng cho các môi trường làm việc khác.
Đề xuất và khuyến nghị
- Triển khai phần mềm trên thiết bị di động: Phát triển ứng dụng di động tích hợp mô hình đã huấn luyện để hỗ trợ bác sĩ theo dõi và cảnh báo tư thế ngồi sai trong thời gian thực, nhằm giảm thiểu các bệnh lý liên quan. Thời gian thực hiện dự kiến 6 tháng, chủ thể thực hiện là nhóm phát triển phần mềm và Trung tâm CNTT Bệnh viện K.
- Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu từ nhiều bác sĩ và các tư thế ngồi đa dạng hơn để nâng cao độ chính xác và khả năng tổng quát của mô hình, giảm hiện tượng overfitting. Thời gian thực hiện 12 tháng, chủ thể là nhóm nghiên cứu và các phòng ban liên quan.
- Tích hợp hệ thống cảnh báo tự động: Xây dựng cơ chế cảnh báo bằng âm thanh hoặc hình ảnh khi phát hiện tư thế ngồi sai liên tục, giúp bác sĩ kịp thời điều chỉnh. Thời gian thực hiện 3 tháng, chủ thể là nhóm phát triển phần mềm.
- Đào tạo và nâng cao nhận thức cho bác sĩ: Tổ chức các buổi tập huấn về tư thế ngồi chuẩn và sử dụng phần mềm hỗ trợ, nhằm nâng cao ý thức bảo vệ sức khỏe trong môi trường làm việc. Thời gian thực hiện liên tục, chủ thể là Ban lãnh đạo Bệnh viện và phòng nhân sự.
- Nghiên cứu mở rộng ứng dụng: Áp dụng hệ thống cho các môi trường làm việc khác như văn phòng, trường học, công xưởng để bảo vệ sức khỏe người lao động. Thời gian thực hiện 12-18 tháng, chủ thể là các tổ chức nghiên cứu và doanh nghiệp liên quan.
Đối tượng nên tham khảo luận văn
- Các nhà nghiên cứu và sinh viên ngành khoa học máy tính, trí tuệ nhân tạo: Nghiên cứu cung cấp phương pháp ứng dụng học máy trong xử lý ảnh và phân loại tư thế, có thể làm cơ sở cho các đề tài phát triển tiếp theo.
- Bác sĩ và nhân viên y tế tại các trung tâm chẩn đoán hình ảnh: Hỗ trợ hiểu rõ về tác động của tư thế ngồi đến sức khỏe, đồng thời ứng dụng phần mềm để cải thiện điều kiện làm việc.
- Chuyên gia phát triển phần mềm y tế và ứng dụng di động: Tham khảo kiến trúc mô hình, quy trình xây dựng và huấn luyện mạng nơ-ron, cũng như cách tích hợp mô hình vào ứng dụng thực tế.
- Quản lý và lãnh đạo bệnh viện, tổ chức y tế: Đánh giá hiệu quả của công nghệ trong việc nâng cao sức khỏe người lao động, từ đó xây dựng chính sách và đầu tư phù hợp.
Câu hỏi thường gặp
Học máy là gì và tại sao được chọn cho bài toán này?
Học máy là lĩnh vực trí tuệ nhân tạo cho phép máy tính học từ dữ liệu để thực hiện các nhiệm vụ mà không cần lập trình rõ ràng. Với bài toán phân loại tư thế ngồi, học máy giúp tự động nhận diện và phân loại dựa trên hình ảnh, xử lý hiệu quả các đặc trưng phức tạp mà phương pháp truyền thống khó thực hiện.Tại sao chọn MoveNet thay vì các mô hình khác như PoseNet hay OpenPose?
MoveNet có ưu điểm về tốc độ xử lý nhanh (25-60 ms trên thiết bị di động) và độ chính xác cao hơn PoseNet, phù hợp cho ứng dụng thời gian thực trên thiết bị di động, đồng thời được hỗ trợ tốt bởi TensorFlow.Bộ dữ liệu được thu thập như thế nào và có đủ đa dạng không?
Bộ dữ liệu gồm khoảng 1200-1400 ảnh thu từ 4 tình nguyện viên với 4 tư thế ngồi khác nhau. Dữ liệu được tăng cường bằng kỹ thuật dịch chuyển điểm khớp để tăng tính đa dạng, tuy nhiên vẫn cần mở rộng thêm để nâng cao khả năng tổng quát.Mô hình có thể áp dụng cho các môi trường khác ngoài bệnh viện không?
Có thể. Phần mềm và mô hình có thể được điều chỉnh và huấn luyện lại với dữ liệu phù hợp để áp dụng cho các môi trường như văn phòng, trường học, công xưởng nhằm bảo vệ sức khỏe người lao động.Làm thế nào để phần mềm cảnh báo tư thế sai kịp thời?
Hệ thống tổng hợp kết quả phân loại từ 10 ảnh liên tiếp và đưa ra cảnh báo khi phát hiện tư thế sai chiếm đa số, giúp giảm nhiễu và cảnh báo chính xác, hỗ trợ người dùng điều chỉnh kịp thời.
Kết luận
- Ứng dụng học máy, đặc biệt mạng nơ-ron kết nối đầy đủ kết hợp với mô hình MoveNet, hiệu quả trong phân loại tư thế ngồi chuẩn cho bác sĩ.
- Bộ dữ liệu thu thập và tăng cường dữ liệu giúp mô hình đạt độ chính xác và độ thu hồi trên 90% sau 100 epoch huấn luyện.
- Hệ thống có khả năng nhận diện các tư thế sai như lệch trái, lệch phải, cúi người với độ chính xác cao trong thử nghiệm thực tế.
- Phần mềm có thể triển khai trên thiết bị di động, hỗ trợ cảnh báo thời gian thực, góp phần bảo vệ sức khỏe người lao động trong môi trường bệnh viện.
- Đề xuất mở rộng bộ dữ liệu, tích hợp cảnh báo tự động và đào tạo người dùng để nâng cao hiệu quả ứng dụng trong thực tế.
Tiếp theo, nghiên cứu sẽ tập trung vào mở rộng bộ dữ liệu, hoàn thiện phần mềm và triển khai thử nghiệm thực tế tại Bệnh viện K. Độc giả và các tổ chức quan tâm được khuyến khích hợp tác phát triển và ứng dụng công nghệ này nhằm nâng cao sức khỏe và hiệu quả làm việc cho nhân viên y tế.