Tổng quan nghiên cứu

Loãng xương là bệnh lý phổ biến thứ hai trên thế giới, ảnh hưởng nghiêm trọng đến sức khỏe cộng đồng và chất lượng cuộc sống, đặc biệt ở người cao tuổi. Theo ước tính, tại Việt Nam có khoảng 2,8 triệu người mắc loãng xương, trong đó 76% là nữ giới, với hơn 150.000 trường hợp gãy xương do loãng xương mỗi năm. Gãy cổ xương đùi do loãng xương có tỷ lệ tử vong lên đến 20% trong vòng một năm và gây tàn phế cho 30% bệnh nhân. Việc chẩn đoán loãng xương truyền thống dựa trên đo mật độ khoáng xương (BMD) bằng phương pháp DXA tuy chính xác nhưng chi phí cao và hạn chế khả năng tiếp cận ở các vùng nông thôn, đặc biệt tại các nước đang phát triển như Việt Nam.

Trong bối cảnh đó, việc ứng dụng trí tuệ nhân tạo (AI) và các kỹ thuật học sâu (Deep Learning) trong chẩn đoán hình ảnh y khoa trở thành xu hướng tất yếu nhằm nâng cao hiệu quả, giảm chi phí và hỗ trợ bác sĩ trong công tác sàng lọc, chẩn đoán loãng xương. Luận văn tập trung nghiên cứu và ứng dụng các kỹ thuật học sâu trên mạng nơ ron tích chập (CNN) để xây dựng hệ thống máy tính hỗ trợ chẩn đoán mức độ loãng xương trên ảnh X-quang cổ xương đùi theo chỉ số Singh, một chỉ số phổ biến trong đánh giá loãng xương tại Việt Nam.

Mục tiêu nghiên cứu là phát triển mô hình phân loại chính xác các mức độ loãng xương dựa trên ảnh X-quang cổ xương đùi, xử lý dữ liệu mất cân bằng và xây dựng ứng dụng trực quan hỗ trợ bác sĩ trong công tác chẩn đoán. Nghiên cứu được thực hiện trên bộ dữ liệu thực tế gồm khoảng 1765 ảnh X-quang cổ xương đùi thu thập tại các bệnh viện lớn ở TP. Hồ Chí Minh trong giai đoạn gần đây. Kết quả mô hình đạt độ chính xác trên 95%, góp phần nâng cao hiệu quả sàng lọc và chẩn đoán loãng xương, đồng thời giảm tải cho hệ thống y tế hiện nay.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: y khoa về bệnh lý loãng xương và kỹ thuật học sâu trong trí tuệ nhân tạo.

  1. Y khoa về loãng xương và chỉ số Singh: Loãng xương là tình trạng giảm khối lượng và tổn thương vi cấu trúc xương, làm tăng nguy cơ gãy xương. Chỉ số Singh đánh giá mức độ loãng xương dựa trên hình thái và mật độ các bè xương chịu lực trên ảnh X-quang cổ xương đùi, phân chia thành 6 mức độ từ bình thường đến loãng xương nặng. Đây là phương pháp phổ biến, chi phí thấp, phù hợp với điều kiện thực tế tại Việt Nam.

  2. Mạng nơ ron tích chập (CNN): CNN là mô hình học sâu chuyên biệt cho xử lý ảnh, với các lớp tích chập (Convolutional Layer), lớp gộp (Pooling Layer) và lớp kết nối đầy đủ (Fully Connected Layer). CNN có khả năng tự động trích xuất đặc trưng từ ảnh, xử lý hiệu quả các bài toán phân loại hình ảnh y khoa. Các kiến trúc CNN được sử dụng trong nghiên cứu gồm Inception-V3, ResNet-50 và EfficientNet-B3, nổi bật với khả năng học sâu, giảm thiểu tham số và tăng độ chính xác.

Các khái niệm chuyên ngành quan trọng bao gồm: BMD (Bone Mineral Density), chỉ số Singh, mạng CNN, hàm kích hoạt (ReLU, ELU), hàm mất mát (Loss Function), kỹ thuật học chuyển tiếp (Transfer Learning), và xử lý mất cân bằng dữ liệu (Imbalanced Dataset).

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp thực nghiệm kết hợp phân tích lý thuyết:

  • Nguồn dữ liệu: Bộ dữ liệu gồm khoảng 1765 ảnh X-quang cổ xương đùi được thu thập và gán nhãn bởi các bác sĩ chuyên khoa tại Bệnh viện Chấn thương Chỉnh hình TP. Hồ Chí Minh và Đại học Y khoa Phạm Ngọc Thạch. Dữ liệu có hiện tượng mất cân bằng giữa các lớp mức độ loãng xương.

  • Chuẩn bị dữ liệu: Ảnh được xử lý chuẩn hóa, loại bỏ nhiễu, điều chỉnh độ tương phản và phân đoạn vùng cổ xương đùi. Dữ liệu được chia thành tập huấn luyện, tập kiểm tra và tập kiểm định theo tỷ lệ phù hợp.

  • Phương pháp phân tích: Áp dụng các mô hình CNN hiện đại (Inception-V3, ResNet-50, EfficientNet-B3) với kỹ thuật học chuyển tiếp để tận dụng kiến thức từ các bộ dữ liệu lớn khác. Sử dụng các hàm mất mát phù hợp và thuật toán tối ưu Stochastic Gradient Descent (SGD) với mini-batch để huấn luyện mô hình.

  • Xử lý mất cân bằng dữ liệu: Áp dụng các kỹ thuật tăng cường dữ liệu (data augmentation), over-sampling và các thuật toán cân bằng lớp như SMOTE để cải thiện hiệu quả phân loại.

  • Timeline nghiên cứu: Quá trình thu thập và xử lý dữ liệu diễn ra trong khoảng 6 tháng, huấn luyện và đánh giá mô hình trong 4 tháng tiếp theo, xây dựng ứng dụng hỗ trợ trong 2 tháng cuối cùng của năm nghiên cứu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác phân loại cao: Mô hình CNN đạt độ chính xác trung bình trên 95,01% trong phân loại các mức độ loãng xương theo chỉ số Singh trên bộ dữ liệu thực tế gồm 1765 ảnh. Trong đó, mô hình EfficientNet-B3 cho kết quả tốt nhất với độ chính xác 95,8%, vượt trội so với Inception-V3 (94,5%) và ResNet-50 (93,9%).

  2. Ảnh hưởng của xử lý mất cân bằng dữ liệu: Việc áp dụng kỹ thuật tăng cường dữ liệu và over-sampling giúp cải thiện độ chính xác phân loại lên khoảng 3-5% so với mô hình không xử lý mất cân bằng, đồng thời giảm tỷ lệ False Negative (FN) từ 12% xuống còn khoảng 6%.

  3. Hiệu quả của học chuyển tiếp: Sử dụng mô hình học chuyển tiếp từ các mạng CNN đã được huấn luyện trên bộ dữ liệu lớn giúp rút ngắn thời gian huấn luyện và tăng độ chính xác phân loại khoảng 4% so với huấn luyện từ đầu.

  4. Ứng dụng phân đoạn ảnh: Mô hình Mask-RCNN được sử dụng để phân đoạn chính xác vùng cổ xương đùi trên ảnh X-quang, giúp loại bỏ nhiễu và tăng độ tin cậy của mô hình phân loại. Kết quả phân đoạn đạt chỉ số IoU (Intersection over Union) trung bình trên 87%.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy các kỹ thuật học sâu, đặc biệt là mạng CNN, có khả năng phân loại chính xác các mức độ loãng xương trên ảnh X-quang cổ xương đùi, hỗ trợ hiệu quả cho công tác chẩn đoán lâm sàng. Việc xử lý mất cân bằng dữ liệu là yếu tố then chốt giúp cải thiện hiệu suất mô hình, phù hợp với đặc điểm thực tế của bộ dữ liệu y tế thường không cân bằng.

So sánh với các nghiên cứu quốc tế, độ chính xác trên 95% là mức cao, thể hiện tiềm năng ứng dụng rộng rãi trong thực tế. Việc sử dụng học chuyển tiếp giúp tận dụng kiến thức từ các bộ dữ liệu lớn, giảm chi phí tính toán và thời gian huấn luyện, phù hợp với điều kiện hạn chế về nguồn lực tại các bệnh viện Việt Nam.

Các kết quả phân đoạn vùng cổ xương đùi bằng Mask-RCNN giúp mô hình tập trung vào vùng quan trọng, giảm ảnh hưởng của nhiễu và biến thể trong ảnh X-quang, từ đó nâng cao độ tin cậy của hệ thống. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình CNN, bảng thống kê tỷ lệ FN và FP trước và sau xử lý mất cân bằng, cũng như biểu đồ IoU của mô hình phân đoạn.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống hỗ trợ chẩn đoán tại các bệnh viện tuyến tỉnh và trung ương: Áp dụng mô hình CNN đã được huấn luyện để hỗ trợ bác sĩ trong việc phân loại mức độ loãng xương trên ảnh X-quang cổ xương đùi, giúp nâng cao hiệu quả sàng lọc và chẩn đoán sớm. Thời gian triển khai dự kiến trong 12 tháng, do các đơn vị y tế chủ trì phối hợp với các trung tâm công nghệ thông tin.

  2. Đào tạo và nâng cao năng lực cho nhân viên y tế: Tổ chức các khóa đào tạo về sử dụng hệ thống AI hỗ trợ chẩn đoán, đồng thời nâng cao nhận thức về chỉ số Singh và kỹ thuật chẩn đoán hình ảnh. Mục tiêu tăng tỷ lệ sử dụng công nghệ mới lên 80% trong vòng 2 năm.

  3. Mở rộng bộ dữ liệu và cập nhật mô hình liên tục: Thu thập thêm dữ liệu X-quang từ nhiều bệnh viện trên toàn quốc để cải thiện độ đa dạng và tính đại diện của dữ liệu, từ đó nâng cao độ chính xác và khả năng tổng quát của mô hình. Thời gian thực hiện liên tục, cập nhật mô hình định kỳ 6 tháng/lần.

  4. Phát triển ứng dụng di động và nền tảng đám mây: Xây dựng ứng dụng dễ sử dụng cho bác sĩ và nhân viên y tế tại các cơ sở y tế tuyến dưới, giúp tiếp cận nhanh chóng và thuận tiện. Đồng thời, triển khai nền tảng đám mây để lưu trữ và xử lý dữ liệu tập trung, đảm bảo bảo mật và khả năng mở rộng. Kế hoạch phát triển trong 18 tháng tới, do các công ty công nghệ phối hợp với ngành y tế thực hiện.

Đối tượng nên tham khảo luận văn

  1. Bác sĩ chuyên khoa cơ xương khớp và chấn thương chỉnh hình: Nghiên cứu giúp nâng cao hiệu quả chẩn đoán loãng xương, hỗ trợ quyết định điều trị dựa trên phân loại mức độ chính xác.

  2. Nhà nghiên cứu và phát triển công nghệ AI trong y tế: Cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng mạng CNN trong xử lý ảnh y khoa, đặc biệt là xử lý dữ liệu mất cân bằng và học chuyển tiếp.

  3. Quản lý và hoạch định chính sách y tế: Tham khảo để xây dựng chiến lược ứng dụng công nghệ số trong y tế, nâng cao chất lượng khám chữa bệnh và giảm tải cho hệ thống y tế.

  4. Sinh viên và học viên cao học ngành công nghệ thông tin và y học: Tài liệu tham khảo quý giá về phương pháp nghiên cứu, kỹ thuật học sâu và ứng dụng thực tế trong lĩnh vực y tế.

Câu hỏi thường gặp

  1. Mô hình CNN có thể áp dụng cho các loại hình ảnh y khoa khác không?
    Có, CNN là mô hình linh hoạt, có thể áp dụng cho nhiều loại hình ảnh y khoa như MRI, CT, siêu âm với các điều chỉnh phù hợp về kiến trúc và dữ liệu huấn luyện.

  2. Làm thế nào để xử lý dữ liệu mất cân bằng trong bài toán phân loại?
    Các kỹ thuật như tăng cường dữ liệu (data augmentation), over-sampling, SMOTE và điều chỉnh hàm mất mát giúp cân bằng ảnh hưởng của các lớp thiểu số, cải thiện hiệu quả mô hình.

  3. Chỉ số Singh có ưu điểm gì so với đo mật độ xương DXA?
    Chỉ số Singh dựa trên ảnh X-quang đơn giản, chi phí thấp, dễ tiếp cận, phù hợp với điều kiện y tế tại các vùng nông thôn và các nước đang phát triển, trong khi DXA đắt đỏ và hạn chế về thiết bị.

  4. Học chuyển tiếp (Transfer Learning) giúp gì trong huấn luyện mô hình?
    Học chuyển tiếp tận dụng kiến thức từ các mô hình đã huấn luyện trên bộ dữ liệu lớn, giúp giảm thời gian huấn luyện, tăng độ chính xác và khả năng tổng quát của mô hình trên dữ liệu mới.

  5. Ứng dụng thực tế của hệ thống hỗ trợ chẩn đoán này như thế nào?
    Hệ thống giúp bác sĩ phân loại mức độ loãng xương nhanh chóng, chính xác, hỗ trợ sàng lọc và quyết định điều trị, giảm tải công việc và nâng cao chất lượng khám chữa bệnh.

Kết luận

  • Nghiên cứu đã phát triển thành công mô hình CNN phân loại mức độ loãng xương trên ảnh X-quang cổ xương đùi với độ chính xác trên 95%.
  • Kỹ thuật xử lý mất cân bằng dữ liệu và học chuyển tiếp đóng vai trò quan trọng trong việc nâng cao hiệu quả mô hình.
  • Mô hình phân đoạn Mask-RCNN giúp tăng độ tin cậy bằng cách tập trung vào vùng cổ xương đùi trên ảnh.
  • Ứng dụng hệ thống hỗ trợ chẩn đoán có tiềm năng giảm chi phí, nâng cao khả năng tiếp cận và chất lượng chẩn đoán tại Việt Nam.
  • Hướng phát triển tiếp theo bao gồm mở rộng bộ dữ liệu, phát triển ứng dụng di động và nền tảng đám mây để triển khai rộng rãi trong hệ thống y tế.

Luận văn khuyến khích các đơn vị y tế và công nghệ phối hợp triển khai ứng dụng thực tế, đồng thời tiếp tục nghiên cứu nâng cao hiệu quả và mở rộng phạm vi áp dụng trong tương lai.