Tổng quan nghiên cứu

Bệnh võng mạc tiểu đường (VMDTD) là một biến chứng nghiêm trọng của bệnh đái tháo đường, ảnh hưởng đến hàng triệu người trên toàn thế giới. Theo ước tính, tỷ lệ mắc VMDTD ở bệnh nhân tiểu đường có thể lên đến 30-40%, với các giai đoạn tiến triển từ nhẹ đến nặng, có thể dẫn đến mù lòa nếu không được phát hiện và điều trị kịp thời. Việc chẩn đoán chính xác và phân loại các giai đoạn bệnh dựa trên ảnh chụp đáy mắt đóng vai trò quan trọng trong việc quản lý và điều trị hiệu quả. Tuy nhiên, việc phân tích ảnh đáy mắt đòi hỏi chuyên môn cao và kinh nghiệm lâu năm của bác sĩ chuyên khoa, đồng thời tốn nhiều thời gian.

Luận văn tập trung vào ứng dụng các mô hình học sâu (Deep Learning) để phân loại ảnh chụp đáy mắt thành 5 lớp bệnh VMDTD: Không bệnh, nhẹ, trung bình, nặng và tăng sinh. Mục tiêu cụ thể là xây dựng hệ thống phân loại tự động với độ chính xác cao, hỗ trợ bác sĩ trong chẩn đoán, giảm thiểu sai sót và nâng cao hiệu quả khám chữa bệnh. Nghiên cứu sử dụng dữ liệu ảnh từ bộ dữ liệu công khai APTOS 2019 gồm 3662 ảnh và bộ dữ liệu thực tế thu thập tại Bệnh viện ĐKKV Cai Lậy với hơn 1400 ảnh, được gán nhãn bởi các chuyên gia y tế.

Phạm vi nghiên cứu tập trung vào việc áp dụng các kiến trúc mạng nơ ron tích chập hiện đại như VGG16, Inception-V3, ResNet50, Inception-ResNet-V2 và EfficientNet B3 để huấn luyện và đánh giá hiệu quả phân loại ảnh đáy mắt. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác phân loại, giúp phát hiện sớm các giai đoạn bệnh, từ đó góp phần nâng cao chất lượng chăm sóc sức khỏe mắt cho bệnh nhân tiểu đường.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết học sâu, đặc biệt là mạng nơ ron tích chập (CNN) – một mô hình mạnh mẽ trong xử lý ảnh y tế. CNN gồm ba thành phần chính: lớp tích chập (Convolution), lớp giảm kích thước (Pooling) và lớp kết nối đầy đủ (Fully Connected). Các kiến trúc CNN được nghiên cứu bao gồm:

  • VGG16: Mạng sâu gồm 13 lớp tích chập và 3 lớp fully connected, sử dụng bộ lọc 3x3 giúp giảm số lượng tham số, đầu vào ảnh kích thước 224x224 pixel. Ưu điểm là cấu trúc đơn giản, dễ hiểu; nhược điểm là huấn luyện chậm và số lượng tham số lớn.

  • Inception-V3: Kiến trúc phức tạp với 24 triệu tham số, sử dụng kỹ thuật factorisation để giảm độ phức tạp tính toán, cải thiện hiệu quả huấn luyện và độ chính xác.

  • ResNet50: Mạng sâu 50 lớp với cơ chế residual giúp giải quyết vấn đề vanishing gradient, có khoảng 26 triệu tham số, được sử dụng phổ biến trong nhiều bài toán phân loại ảnh y tế.

  • Inception-ResNet-V2: Kết hợp ưu điểm của Inception và ResNet, sâu tới 164 lớp, giúp tăng độ chính xác và giảm thời gian huấn luyện.

  • EfficientNet B3: Áp dụng phương pháp mở rộng kết hợp (compound scaling) để cân bằng chiều sâu, chiều rộng và độ phân giải ảnh, đạt hiệu quả cao với số lượng tham số hợp lý.

Các khái niệm chính bao gồm: độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (specificity), ma trận nhầm lẫn (confusion matrix), và các kỹ thuật tiền xử lý ảnh như cắt viền đen, tăng độ tương phản, tăng cường dữ liệu (data augmentation).

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ: bộ dữ liệu APTOS 2019 với 3662 ảnh đáy mắt phân loại 5 lớp và bộ dữ liệu thực tế tại Bệnh viện ĐKKV Cai Lậy gồm 1457 ảnh phân loại 2 lớp (có bệnh và không bệnh). Dữ liệu được tiền xử lý bằng cách cắt bỏ viền đen, tăng độ tương phản và áp dụng các kỹ thuật tăng cường dữ liệu như xoay, lật, thay đổi độ sáng để tăng tính đa dạng và tránh overfitting.

Phương pháp phân tích sử dụng các mô hình học sâu được huấn luyện trên nền tảng Pytorch với GPU hỗ trợ trên Google Colab Pro. Cỡ mẫu huấn luyện cho bộ APTOS là khoảng 2929 ảnh, kiểm tra 733 ảnh; bộ dữ liệu BVCL huấn luyện 1200 ảnh, kiểm tra 257 ảnh. Các siêu tham số như batch size (16-32), learning rate (0.0001), epoch (150-200) được điều chỉnh phù hợp từng mô hình.

Quá trình huấn luyện gồm các bước: tải dữ liệu, tiền xử lý, huấn luyện mô hình, đánh giá trên tập kiểm tra, lưu mô hình tốt nhất và chuyển đổi sang định dạng ONNX để tích hợp vào phần mềm ứng dụng desktop phát triển trên nền .Net Framework với cơ sở dữ liệu SQL Server 2019.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất mô hình EfficientNet B3 vượt trội: Mô hình đạt độ chính xác 5 lớp lên đến khoảng 85%, độ nhạy và độ đặc hiệu lần lượt đạt trên 80%, cao hơn so với các mô hình VGG16 (độ chính xác ~78%) và Inception-V3 (~73%). Trên bộ dữ liệu 2 lớp, EfficientNet B3 đạt độ chính xác trên 90%.

  2. Mô hình ResNet50 và Inception-ResNet-V2 cho kết quả ổn định: ResNet50 đạt độ chính xác khoảng 80%, trong khi Inception-ResNet-V2 đạt gần 83%, thể hiện khả năng phân loại tốt các giai đoạn bệnh trung bình và nặng.

  3. Tăng cường dữ liệu và tiền xử lý ảnh cải thiện đáng kể hiệu quả: Việc cắt bỏ viền đen và tăng độ tương phản giúp làm nổi bật các đặc điểm bệnh lý trên ảnh, tăng độ chính xác phân loại lên khoảng 5-7% so với ảnh gốc.

  4. Phần mềm ứng dụng desktop tích hợp mô hình học sâu hoạt động hiệu quả: Hệ thống cho phép nhập ảnh, phân loại tự động, lưu trữ kết quả và in phiếu trả lời, hỗ trợ bác sĩ trong quá trình khám chữa bệnh.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình EfficientNet B3 đạt hiệu quả cao là do phương pháp mở rộng kết hợp giúp cân bằng giữa chiều sâu, chiều rộng và độ phân giải ảnh, từ đó khai thác tối đa đặc trưng của ảnh đáy mắt. Kết quả này phù hợp với các nghiên cứu quốc tế gần đây, trong đó EfficientNet được đánh giá cao về hiệu suất và tốc độ huấn luyện.

So với các mô hình truyền thống như VGG16 hay Inception-V3, các kiến trúc mới như ResNet50 và Inception-ResNet-V2 có khả năng giảm thiểu hiện tượng quá khớp nhờ cơ chế residual và các khối mạng phức tạp hơn. Việc áp dụng kỹ thuật tăng cường dữ liệu cũng góp phần quan trọng trong việc cải thiện độ chính xác, đặc biệt khi dữ liệu gốc còn hạn chế.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác, độ nhạy và độ đặc hiệu của từng mô hình trên các tập dữ liệu khác nhau, cũng như ma trận nhầm lẫn thể hiện khả năng phân loại chính xác từng lớp bệnh. Bảng tổng hợp các siêu tham số huấn luyện và phân bố dữ liệu cũng giúp minh bạch quá trình nghiên cứu.

Đề xuất và khuyến nghị

  1. Triển khai rộng rãi phần mềm hỗ trợ chẩn đoán VMDTD tại các cơ sở y tế: Đẩy mạnh ứng dụng phần mềm phân loại ảnh đáy mắt tích hợp mô hình EfficientNet B3 trong vòng 12 tháng tới, nhằm nâng cao hiệu quả chẩn đoán và giảm tải cho bác sĩ chuyên khoa.

  2. Mở rộng bộ dữ liệu huấn luyện với đa dạng ảnh từ nhiều vùng miền: Thu thập thêm khoảng 5000 ảnh đáy mắt từ các bệnh viện khác nhau trong 18 tháng để cải thiện khả năng tổng quát hóa của mô hình, giảm thiểu sai số khi áp dụng thực tế.

  3. Nâng cấp và tối ưu hóa mô hình học sâu liên tục: Áp dụng kỹ thuật học chuyển giao (transfer learning) và fine-tuning để cập nhật mô hình theo dữ liệu mới, đảm bảo độ chính xác luôn đạt trên 90% trong vòng 6 tháng.

  4. Đào tạo và tập huấn cho nhân viên y tế về sử dụng phần mềm: Tổ chức các khóa đào tạo kỹ thuật sử dụng phần mềm và hiểu biết về kết quả phân loại cho bác sĩ và kỹ thuật viên trong 3 tháng đầu triển khai, giúp tận dụng tối đa lợi ích của công nghệ.

Đối tượng nên tham khảo luận văn

  1. Bác sĩ chuyên khoa mắt và nhân viên y tế: Nghiên cứu cung cấp công cụ hỗ trợ chẩn đoán chính xác, giúp giảm thiểu sai sót và nâng cao hiệu quả điều trị bệnh võng mạc tiểu đường.

  2. Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo: Luận văn trình bày chi tiết các kiến trúc mạng học sâu, phương pháp tiền xử lý và tăng cường dữ liệu, phù hợp làm tài liệu tham khảo và phát triển nghiên cứu tiếp theo.

  3. Các đơn vị phát triển phần mềm y tế và công nghệ chăm sóc sức khỏe: Cung cấp cơ sở lý thuyết và thực nghiệm để xây dựng các ứng dụng hỗ trợ chẩn đoán dựa trên AI, góp phần thúc đẩy chuyển đổi số trong y tế.

  4. Quản lý y tế và nhà hoạch định chính sách: Tham khảo để đánh giá hiệu quả ứng dụng công nghệ AI trong khám chữa bệnh, từ đó xây dựng các chính sách hỗ trợ phát triển và ứng dụng rộng rãi.

Câu hỏi thường gặp

  1. Mô hình học sâu nào phù hợp nhất để phân loại bệnh võng mạc tiểu đường?
    EfficientNet B3 được đánh giá cao với độ chính xác trên 85% cho phân loại 5 lớp, nhờ phương pháp mở rộng kết hợp giúp cân bằng hiệu quả giữa độ sâu và độ phân giải ảnh.

  2. Tại sao cần tiền xử lý và tăng cường dữ liệu ảnh chụp đáy mắt?
    Tiền xử lý như cắt viền đen và tăng độ tương phản giúp làm nổi bật các đặc điểm bệnh lý, trong khi tăng cường dữ liệu giúp mô hình học sâu tránh overfitting và cải thiện khả năng tổng quát hóa.

  3. Bộ dữ liệu sử dụng trong nghiên cứu có đủ đa dạng không?
    Bộ dữ liệu gồm 3662 ảnh từ APTOS 2019 và 1457 ảnh thực tế từ Bệnh viện ĐKKV Cai Lậy, được gán nhãn chính xác bởi chuyên gia, đảm bảo tính đại diện và độ tin cậy cho nghiên cứu.

  4. Phần mềm ứng dụng có thể tích hợp vào hệ thống bệnh viện hiện tại không?
    Phần mềm được phát triển trên nền .Net Framework và sử dụng cơ sở dữ liệu SQL Server 2019, dễ dàng tích hợp với các hệ thống quản lý bệnh viện hiện có.

  5. Làm thế nào để cập nhật mô hình khi có dữ liệu mới?
    Có thể áp dụng kỹ thuật học chuyển giao và fine-tuning trên dữ liệu mới để nâng cao độ chính xác và thích ứng với các biến thể mới của bệnh.

Kết luận

  • Luận văn đã ứng dụng thành công các mô hình học sâu hiện đại để phân loại ảnh chụp đáy mắt thành 5 lớp bệnh võng mạc tiểu đường với độ chính xác cao.
  • Mô hình EfficientNet B3 cho hiệu suất tốt nhất, vượt trội hơn các kiến trúc truyền thống như VGG16 và Inception-V3.
  • Kỹ thuật tiền xử lý và tăng cường dữ liệu đóng vai trò quan trọng trong việc nâng cao hiệu quả phân loại.
  • Phần mềm ứng dụng desktop tích hợp mô hình học sâu hỗ trợ hiệu quả cho công tác chẩn đoán tại bệnh viện.
  • Đề xuất mở rộng dữ liệu, nâng cấp mô hình và đào tạo nhân viên để triển khai ứng dụng rộng rãi trong thực tế.

Tiếp theo, cần triển khai thử nghiệm thực tế tại các cơ sở y tế, thu thập phản hồi để hoàn thiện hệ thống. Mời các nhà nghiên cứu và chuyên gia y tế hợp tác phát triển ứng dụng nhằm nâng cao chất lượng chăm sóc sức khỏe mắt cho cộng đồng.