Tổng quan nghiên cứu
Phân tích ảnh y tế, đặc biệt là ảnh X-quang phổi, đóng vai trò quan trọng trong việc hỗ trợ chẩn đoán và điều trị bệnh. Theo báo cáo của ngành, các bộ dữ liệu ảnh y tế hiện nay có quy mô nhỏ hơn nhiều so với các bộ dữ liệu ảnh thông thường như ImageNet với 14 triệu ảnh, trong khi các bộ dữ liệu y tế phổ biến như VinDr-CXR chỉ có khoảng 18.000 ảnh được chú thích kỹ lưỡng. Bài toán phân loại ảnh y tế không chỉ đòi hỏi độ chính xác cao mà còn cần khả năng diễn giải kết quả để tăng tính tin cậy trong ứng dụng lâm sàng. Mục tiêu nghiên cứu là ứng dụng mô hình Vision Transformer (ViT) để phân loại và diễn giải ảnh y tế, so sánh hiệu quả với các mô hình truyền thống dựa trên mạng nơ-ron tích chập (CNN) trên tập dữ liệu VinDr-CXR. Nghiên cứu tập trung vào việc khai thác khả năng nắm bắt mối quan hệ tầm xa giữa các vùng ảnh của ViT, đồng thời sử dụng kỹ thuật Grad-CAM và Attention map để trực quan hóa cơ chế ra quyết định của mô hình. Phạm vi nghiên cứu bao gồm dữ liệu ảnh X-quang phổi thu thập từ các bệnh viện lớn tại Việt Nam trong giai đoạn 2018-2020, với hơn 15.000 ảnh huấn luyện và 3.000 ảnh kiểm tra. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc nâng cao độ chính xác và khả năng giải thích của các mô hình phân loại ảnh y tế, góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong y học chính xác.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai lý thuyết và mô hình chính: mạng nơ-ron tích chập (CNN) và kiến trúc Transformer. CNN, với các biến thể như ResNet, AlexNet, VGG, đã được ứng dụng rộng rãi trong phân loại ảnh y tế nhờ khả năng trích xuất đặc trưng không gian hiệu quả. Tuy nhiên, CNN gặp hạn chế trong việc xử lý các mối quan hệ tầm xa giữa các vùng ảnh. Kiến trúc Transformer, nổi bật với cơ chế Multi-Head Self-Attention, cho phép mô hình nắm bắt các mối quan hệ dài hạn trong dữ liệu chuỗi, được ứng dụng thành công trong xử lý ngôn ngữ tự nhiên và đang được mở rộng sang thị giác máy tính qua mô hình Vision Transformer (ViT). ViT chia ảnh thành các patch nhỏ, biến đổi thành chuỗi vector và xử lý bằng bộ mã hóa Transformer, giúp mô hình nhận diện mối liên hệ giữa các vùng ảnh xa nhau. Ngoài ra, kỹ thuật Grad-CAM được sử dụng để diễn giải mô hình CNN bằng cách tạo bản đồ nhiệt thể hiện vùng ảnh ảnh hưởng đến dự đoán, trong khi Attention map là kỹ thuật diễn giải đặc trưng của ViT, giúp trực quan hóa trọng số chú ý của mô hình.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ VinDr-CXR gồm 18.000 ảnh X-quang phổi, được chú thích bởi 17 bác sĩ X-quang với 22 phát hiện cục bộ và 6 chẩn đoán toàn cục. Ngoài ra, hai bộ dữ liệu lớn ChestXpert (224.316 ảnh) và ChestX-ray14 (112.120 ảnh) được sử dụng để huấn luyện mô hình pre-trained nhằm cải thiện hiệu suất trên tập VinDr-CXR. Phương pháp phân tích bao gồm xây dựng và huấn luyện các mô hình ViT và CNN (ResNet-18, ResNet-34, ResNet-50) trên framework PyTorch, sử dụng kỹ thuật fine-tuning trên tập dữ liệu mục tiêu. Cỡ mẫu huấn luyện là 4.340 ảnh với 10 loại bệnh chính, tập kiểm tra gồm 760 ảnh. Phân tích kết quả dựa trên các chỉ số độ chính xác, sai số định vị và khả năng diễn giải mô hình qua Grad-CAM và Attention map. Timeline nghiên cứu kéo dài từ tháng 1 đến tháng 6 năm 2022, bao gồm giai đoạn chuẩn bị dữ liệu, huấn luyện mô hình, đánh giá và phân tích kết quả.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu suất phân loại của ViT vượt trội hơn CNN: Mô hình Vision Transformer đạt độ chính xác phân loại cao hơn khoảng 2-3% so với các mô hình ResNet truyền thống trên tập VinDr-CXR, với tỷ lệ chính xác đạt khoảng 87% so với 84% của ResNet-50.
Ảnh hưởng của pre-trained dataset: Việc sử dụng hai bộ dữ liệu lớn ChestXpert và ChestX-ray14 để huấn luyện pre-trained model giúp cải thiện đáng kể hiệu suất của ViT trên tập VinDr-CXR, tăng độ chính xác thêm khoảng 4% so với mô hình không pre-trained.
Khả năng xử lý đồng xuất hiện nhiều bệnh: ViT thể hiện ưu thế trong việc nhận diện đồng thời nhiều loại bệnh trên cùng một ảnh X-quang, với sai số định vị vùng tổn thương giảm 15% so với CNN, nhờ cơ chế attention giúp mô hình nắm bắt mối quan hệ tầm xa giữa các vùng ảnh.
Khả năng diễn giải mô hình: Attention map của ViT cho thấy khả năng xác định chính xác các vùng tổn thương hơn so với Grad-CAM của CNN, giúp trực quan hóa rõ ràng hơn cơ chế ra quyết định của mô hình, tăng tính minh bạch và tin cậy trong ứng dụng y tế.
Thảo luận kết quả
Nguyên nhân chính của sự vượt trội của ViT là khả năng nắm bắt mối quan hệ tầm xa giữa các vùng ảnh, điều mà CNN với các bộ lọc cục bộ khó thực hiện hiệu quả. Việc huấn luyện pre-trained trên các bộ dữ liệu lớn giúp ViT có khả năng tổng quát hóa tốt hơn khi tinh chỉnh trên tập dữ liệu nhỏ hơn như VinDr-CXR. So với các nghiên cứu trước đây, kết quả này khẳng định tiềm năng ứng dụng của ViT trong phân loại ảnh y tế, đặc biệt trong các trường hợp phức tạp có nhiều bệnh đồng thời. Việc sử dụng kỹ thuật diễn giải Attention map giúp tăng cường sự tin tưởng của người dùng cuối, đặc biệt là các bác sĩ, khi có thể trực tiếp quan sát vùng ảnh mà mô hình tập trung để đưa ra dự đoán. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng thống kê sai số định vị tổn thương, cũng như hình ảnh minh họa Attention map và Grad-CAM để làm rõ sự khác biệt về khả năng diễn giải.
Đề xuất và khuyến nghị
Tăng cường huấn luyện pre-trained trên dữ liệu y tế lớn: Khuyến nghị các trung tâm nghiên cứu và bệnh viện phối hợp xây dựng và chia sẻ các bộ dữ liệu ảnh y tế quy mô lớn để huấn luyện pre-trained model, nhằm nâng cao hiệu suất của các mô hình ViT trong phân loại ảnh y tế. Thời gian thực hiện: 1-2 năm.
Ứng dụng kỹ thuật Attention map trong hệ thống chẩn đoán: Đề xuất tích hợp kỹ thuật Attention map vào phần mềm hỗ trợ chẩn đoán để trực quan hóa vùng tổn thương, giúp bác sĩ dễ dàng kiểm tra và xác nhận kết quả phân loại. Chủ thể thực hiện: các nhà phát triển phần mềm y tế, trong vòng 6 tháng.
Phát triển mô hình kết hợp ViT và CNN: Khuyến khích nghiên cứu phát triển các mô hình lai giữa ViT và CNN để tận dụng ưu điểm của cả hai kiến trúc, nhằm cải thiện độ chính xác và khả năng diễn giải. Thời gian nghiên cứu: 1 năm.
Đào tạo và nâng cao nhận thức cho nhân viên y tế: Tổ chức các khóa đào tạo về ứng dụng AI và cách hiểu các bản đồ diễn giải mô hình cho bác sĩ và kỹ thuật viên y tế, nhằm tăng cường sự chấp nhận và sử dụng hiệu quả công nghệ mới. Chủ thể: các bệnh viện, trung tâm đào tạo, trong vòng 6 tháng.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Kỹ thuật y sinh: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng mô hình học sâu Vision Transformer trong phân loại ảnh y tế, giúp phát triển các đề tài nghiên cứu tiếp theo.
Bác sĩ và chuyên gia chẩn đoán hình ảnh: Tham khảo để hiểu rõ hơn về các công nghệ AI hỗ trợ chẩn đoán, đặc biệt là khả năng diễn giải kết quả qua Attention map và Grad-CAM, từ đó nâng cao hiệu quả công tác chẩn đoán.
Nhà phát triển phần mềm y tế và AI: Cung cấp hướng dẫn kỹ thuật về xây dựng, huấn luyện và đánh giá mô hình ViT trên dữ liệu y tế thực tế, cũng như cách tích hợp các kỹ thuật diễn giải mô hình vào sản phẩm.
Quản lý và hoạch định chính sách y tế: Giúp đánh giá tiềm năng ứng dụng AI trong y tế, từ đó xây dựng các chính sách hỗ trợ phát triển và ứng dụng công nghệ mới nhằm nâng cao chất lượng chăm sóc sức khỏe cộng đồng.
Câu hỏi thường gặp
Vision Transformer khác gì so với CNN trong phân loại ảnh y tế?
ViT sử dụng cơ chế attention để nắm bắt mối quan hệ tầm xa giữa các vùng ảnh, trong khi CNN chủ yếu dựa trên các bộ lọc cục bộ. Điều này giúp ViT xử lý tốt hơn các trường hợp có nhiều bệnh đồng thời trên cùng một ảnh.Tại sao cần huấn luyện pre-trained model trên dữ liệu lớn?
Việc huấn luyện trên bộ dữ liệu lớn giúp mô hình học được các đặc trưng tổng quát, từ đó khi tinh chỉnh trên bộ dữ liệu nhỏ hơn như VinDr-CXR sẽ đạt hiệu suất cao hơn và tránh overfitting.Grad-CAM và Attention map có điểm gì khác nhau?
Grad-CAM là kỹ thuật diễn giải dành cho mô hình CNN, tạo bản đồ nhiệt dựa trên gradient, còn Attention map là kỹ thuật diễn giải đặc trưng của ViT, thể hiện trọng số chú ý của mô hình trên các patch ảnh.Mô hình ViT có thể áp dụng cho các loại ảnh y tế khác ngoài X-quang phổi không?
Có thể, tuy nhiên cần có bộ dữ liệu đủ lớn và phù hợp để huấn luyện hoặc tinh chỉnh mô hình, đồng thời điều chỉnh kiến trúc cho phù hợp với đặc điểm ảnh của từng loại.Làm thế nào để đảm bảo độ tin cậy khi sử dụng mô hình AI trong y tế?
Ngoài việc đạt độ chính xác cao, cần có khả năng diễn giải kết quả rõ ràng như qua Attention map hoặc Grad-CAM, đồng thời kết hợp đánh giá chuyên môn của bác sĩ để xác nhận kết quả mô hình.
Kết luận
- Nghiên cứu đã chứng minh Vision Transformer vượt trội hơn các mô hình CNN truyền thống trong phân loại ảnh X-quang phổi với độ chính xác cải thiện khoảng 2-3%.
- Việc huấn luyện pre-trained model trên các bộ dữ liệu lớn như ChestXpert và ChestX-ray14 giúp nâng cao hiệu suất trên tập VinDr-CXR.
- Khả năng xử lý đồng thời nhiều bệnh và diễn giải mô hình qua Attention map là điểm mạnh nổi bật của ViT.
- Kết quả nghiên cứu tạo tiền đề cho việc ứng dụng rộng rãi AI trong y tế, đặc biệt trong chẩn đoán hình ảnh.
- Các bước tiếp theo bao gồm phát triển mô hình lai, mở rộng dữ liệu huấn luyện và triển khai ứng dụng thực tế trong bệnh viện.
Để thúc đẩy ứng dụng công nghệ AI trong y tế, các nhà nghiên cứu, bác sĩ và nhà phát triển phần mềm nên hợp tác chặt chẽ nhằm hoàn thiện và đưa các mô hình này vào thực tiễn, góp phần nâng cao chất lượng chăm sóc sức khỏe cộng đồng.