Tổng quan nghiên cứu

U thần kinh đệm não (u não) là một trong những căn bệnh nguy hiểm nhất liên quan đến não bộ, ảnh hưởng nghiêm trọng đến sức khỏe và tính mạng người bệnh. Việc chẩn đoán và điều trị u não chủ yếu dựa vào ảnh chụp cộng hưởng từ (MRI), tuy nhiên quá trình phân đoạn khối u trên ảnh MRI đòi hỏi bác sĩ phải có trình độ chuyên môn cao và thời gian đào tạo lâu dài, gây tốn kém và khó khăn trong thực tế. Theo tập dữ liệu BraTS 2020, có khoảng 369 bệnh nhân được chụp MRI với bốn phương thức khác nhau (T1, T1ce, T2, Flair), cung cấp nguồn dữ liệu phong phú cho nghiên cứu phân đoạn khối u não tự động.

Mục tiêu của nghiên cứu là phát triển một hệ thống phân đoạn khối u não sử dụng công nghệ học sâu, nhằm hỗ trợ bác sĩ trong việc xác định vị trí và kích thước khối u một cách chính xác và nhanh chóng. Nghiên cứu tập trung vào việc cải tiến mô hình U-Net kinh điển bằng cách áp dụng cơ chế attention, đặc biệt là coordinate attention, để khắc phục các hạn chế về mất ngữ cảnh và thiếu ngữ cảnh trong quá trình trích xuất và mở rộng đặc trưng ảnh MRI. Phạm vi nghiên cứu giới hạn trong việc xử lý ảnh 2D lát cắt từ ảnh MRI 3D, sử dụng dữ liệu từ tập BraTS 2020, với mục tiêu nâng cao hiệu quả phân đoạn trên các loại khối u khác nhau.

Ý nghĩa của nghiên cứu không chỉ nằm ở việc nâng cao độ chính xác phân đoạn khối u, mà còn góp phần giảm thiểu chi phí và thời gian chẩn đoán, đồng thời mở rộng khả năng ứng dụng công nghệ học sâu trong y học hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên mô hình học sâu U-Net, một kiến trúc mạng nơ-ron tích chập (CNN) nổi tiếng trong phân đoạn ảnh y khoa, gồm hai phần chính: phần mạng trích xuất đặc trưng (contracting path) và phần mạng mở rộng (expanding path). U-Net sử dụng phép max-pooling để giảm kích thước ma trận đặc trưng trong quá trình trích xuất, đồng thời dùng phép transpose convolution để mở rộng kích thước trong phần mạng mở rộng. Tuy nhiên, quá trình downsampling và upsampling này dẫn đến mất mát ngữ cảnh và làm loãng đặc trưng ảnh.

Để khắc phục hạn chế trên, cơ chế attention được áp dụng, trong đó attention gate giúp lọc và làm nổi bật các đặc trưng quan trọng dựa trên ngữ cảnh. Squeeze-and-Excitation Block (SE Block) là một module attention hiệu quả, trích xuất đặc trưng theo từng kênh của ma trận đặc trưng. Coordinate Attention là một cải tiến của SE Block, không chỉ trích xuất đặc trưng theo kênh mà còn theo chiều cao và chiều rộng, giúp mạng học sâu nắm bắt được thông tin vị trí và mối quan hệ không gian trong ảnh.

Nghiên cứu đề xuất mô hình Coordinate Attention U-Net (CAUNet) bằng cách tích hợp coordinate attention vào trước bước downsampling và sau bước upsampling trong U-Net, nhằm tăng cường ngữ cảnh và cải thiện hiệu quả phân đoạn. Ngoài ra, do ảnh MRI có phương sai cường độ cao, phương pháp average pooling trong coordinate attention không phù hợp, nên nghiên cứu đề xuất thay thế bằng max pooling, tạo thành mô hình Max pooling Coordinate Attention U-Net (MCAUNet).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập BraTS 2020, gồm 369 bệnh nhân với ảnh MRI 3D theo bốn phương thức (T1, T1ce, T2, Flair). Dữ liệu được xử lý bằng cách tách thành các lát cắt 2D theo chiều z, mỗi lát cắt được tổng hợp bốn kênh tương ứng với bốn phương thức chụp. Tập dữ liệu được chia thành tập huấn luyện và tập kiểm thử theo tỷ lệ 8:2, trong đó các ảnh không chứa khối u được loại bỏ khỏi tập huấn luyện để giảm mất cân bằng dữ liệu.

Mô hình được hiện thực bằng Python sử dụng thư viện PyTorch, huấn luyện trên nền tảng Google Colab với batch size 5, learning rate 10^-5, trong 5 epochs cho mỗi giai đoạn. Quá trình huấn luyện gồm hai giai đoạn: đầu tiên huấn luyện mô hình U-Net gốc, sau đó sử dụng trọng số này để huấn luyện tiếp CAUNet và MCAUNet. Các tham số mô hình như số lượng biến và kích thước bộ nhớ được thống kê để đánh giá tính khả thi triển khai.

Phân tích kết quả dựa trên hai phương pháp: đánh giá định tính qua hình ảnh phân đoạn và đánh giá định lượng sử dụng hệ số Dice Score và Hausdorff 95 percentile trên ba mục tiêu phân đoạn chính: khối u tăng cường (ET), lõi khối u (TC), và toàn bộ khối u (WT).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phân đoạn của mô hình CAUNet và MCAUNet vượt trội hơn U-Net gốc: Qua đánh giá định tính, các mô hình cải tiến cho kết quả phân đoạn khối u rõ ràng và chính xác hơn, đặc biệt trong các trường hợp khối u phức tạp. Ví dụ, MCAUNet thể hiện khả năng phân đoạn chi tiết nhỏ tốt hơn so với U-Net và CAUNet.

  2. Kết quả định lượng cho thấy MCAUNet cải thiện đáng kể trên các mục tiêu TC và WT: Mô hình MCAUNet đạt Dice Score cao hơn U-Net gốc ở lõi khối u và toàn bộ khối u, trong khi chỉ giảm nhẹ 0.00579 điểm Dice Score ở khối u tăng cường. Hausdorff 95 percentile cũng cho thấy MCAUNet có khoảng cách nhỏ hơn, chứng tỏ độ chính xác vị trí phân đoạn tốt hơn.

  3. CAUNet có kết quả thấp hơn U-Net và MCAUNet: Điều này phản ánh hạn chế của coordinate attention gốc khi áp dụng cho ảnh MRI có phương sai cường độ lớn, do đó việc thay thế average pooling bằng max pooling trong MCAUNet là cải tiến quan trọng.

  4. Mô hình MCAUNet giữ kích thước và số lượng biến số tương đương U-Net gốc: Với khoảng 31 triệu biến và kích thước mô hình khoảng 521 MB, MCAUNet vẫn đảm bảo tính khả thi triển khai trên các máy tính thông thường.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do coordinate attention giúp mạng học sâu nắm bắt được mối quan hệ không gian và kênh đặc trưng trong ảnh MRI, từ đó tăng cường ngữ cảnh bị mất trong quá trình downsampling và upsampling. Việc thay thế average pooling bằng max pooling trong module attention giúp mô hình thích nghi tốt hơn với dữ liệu MRI có phương sai lớn, tránh mất thông tin quan trọng.

So sánh với các nghiên cứu trước đây, mô hình CAUNet và MCAUNet tiếp tục phát huy ưu điểm của U-Net đồng thời khắc phục nhược điểm về mất ngữ cảnh, tương tự như các biến thể UNet++ hay Attention U-Net nhưng với module attention mới mẻ và hiệu quả hơn. Kết quả có thể được trình bày qua biểu đồ so sánh Dice Score và Hausdorff 95 percentile giữa các mô hình trên từng mục tiêu phân đoạn, giúp minh họa rõ ràng sự khác biệt hiệu năng.

Tuy nhiên, mô hình vẫn chưa giải quyết triệt để vấn đề mất cân bằng dữ liệu và chưa tận dụng được mối quan hệ không gian giữa các lát cắt trong ảnh MRI 3D, đây là những hạn chế cần khắc phục trong nghiên cứu tiếp theo.

Đề xuất và khuyến nghị

  1. Áp dụng kỹ thuật tăng cường dữ liệu (data augmentation): Thực hiện cắt ảnh theo chiều dài và chiều rộng để tăng tỷ lệ khối u trong ảnh, đồng thời sử dụng các mô hình tạo ảnh như GAN để tạo thêm dữ liệu huấn luyện, giúp giảm mất cân bằng dữ liệu và cải thiện độ chính xác phân đoạn. Thời gian thực hiện dự kiến 6-12 tháng, do nhóm nghiên cứu và kỹ thuật viên dữ liệu đảm nhiệm.

  2. Chuẩn hóa dữ liệu đầu vào bằng phương pháp hiệu chỉnh bias N4: Áp dụng thuật toán N4ITK để loại bỏ nhiễu và hiệu chỉnh cường độ ảnh MRI, giúp dữ liệu đầu vào đồng nhất hơn, nâng cao hiệu quả huấn luyện mô hình. Khuyến nghị triển khai trong vòng 3-6 tháng bởi nhóm xử lý ảnh y khoa.

  3. Phát triển mô hình học sâu 3D tận dụng mối quan hệ không gian giữa các lát cắt: Nghiên cứu và áp dụng các kiến trúc 3D U-Net, 3D Auto Encoder Regularization hoặc Multi-Scale 3D CNN để khai thác thông tin không gian 3 chiều của ảnh MRI, từ đó nâng cao độ chính xác phân đoạn. Dự kiến thời gian 12-18 tháng, do nhóm nghiên cứu chuyên sâu về học sâu và y sinh thực hiện.

  4. Khảo sát và tích hợp các cơ chế attention tiên tiến khác: Thử nghiệm các attention module như cross-task guided attention, multi-scale guided attention để tăng cường khả năng nhận diện đặc trưng phức tạp trong ảnh y khoa. Thời gian thực hiện 6-9 tháng, phối hợp giữa nhóm nghiên cứu và kỹ sư phần mềm.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về mô hình học sâu, attention module và ứng dụng trong phân đoạn ảnh y khoa, giúp phát triển các đề tài nghiên cứu liên quan.

  2. Bác sĩ và chuyên gia y tế trong lĩnh vực chẩn đoán hình ảnh thần kinh: Hệ thống phân đoạn tự động hỗ trợ chẩn đoán u não, giảm tải công việc và tăng độ chính xác trong thực tế lâm sàng.

  3. Kỹ sư phát triển phần mềm y tế và công nghệ hình ảnh y khoa: Tham khảo kiến trúc mô hình, phương pháp xử lý dữ liệu và kỹ thuật huấn luyện để phát triển các sản phẩm phần mềm hỗ trợ chẩn đoán.

  4. Các tổ chức nghiên cứu và doanh nghiệp công nghệ y tế: Tài liệu giúp định hướng phát triển các giải pháp AI trong y tế, đặc biệt trong lĩnh vực xử lý ảnh MRI và phân đoạn khối u não.

Câu hỏi thường gặp

  1. Mô hình CAUNet và MCAUNet khác gì so với U-Net gốc?
    CAUNet và MCAUNet tích hợp module coordinate attention để tăng cường ngữ cảnh trong quá trình trích xuất và mở rộng đặc trưng, giúp cải thiện độ chính xác phân đoạn. MCAUNet còn thay thế average pooling bằng max pooling trong attention để phù hợp với ảnh MRI có phương sai lớn.

  2. Tại sao lại sử dụng max pooling thay cho average pooling trong coordinate attention?
    Ảnh MRI có phương sai cường độ lớn, average pooling có thể làm mất thông tin quan trọng. Max pooling giữ lại các giá trị đặc trưng nổi bật hơn, giúp mô hình học sâu hiệu quả hơn với dữ liệu này.

  3. Dữ liệu BraTS 2020 có đặc điểm gì nổi bật?
    BraTS 2020 gồm 369 bệnh nhân với ảnh MRI 3D theo bốn phương thức chụp, được chuyên gia đánh dấu nhãn phân đoạn khối u, là bộ dữ liệu chuẩn để đánh giá các mô hình phân đoạn u não.

  4. Mô hình có thể áp dụng trực tiếp trên ảnh MRI 3D không?
    Nghiên cứu hiện tại xử lý ảnh 2D lát cắt từ ảnh 3D. Việc áp dụng trực tiếp trên ảnh 3D đòi hỏi mô hình 3D phức tạp hơn, là hướng phát triển trong tương lai để tận dụng mối quan hệ không gian giữa các lát cắt.

  5. Hiệu quả mô hình được đánh giá như thế nào?
    Hiệu quả được đánh giá bằng hệ số Dice Score và Hausdorff 95 percentile trên ba mục tiêu phân đoạn chính. MCAUNet cho kết quả tốt hơn U-Net gốc ở lõi khối u và toàn bộ khối u, chứng tỏ cải tiến có ý nghĩa thực tiễn.

Kết luận

  • Đã đề xuất thành công mô hình Coordinate Attention U-Net (CAUNet) và cải tiến Max pooling Coordinate Attention U-Net (MCAUNet) cho bài toán phân đoạn khối u não trên ảnh MRI.
  • Mô hình MCAUNet cải thiện hiệu quả phân đoạn so với U-Net gốc, đặc biệt trên các mục tiêu lõi khối u và toàn bộ khối u, nhờ thay đổi phương pháp pooling trong module attention.
  • Mô hình giữ kích thước và số lượng biến số tương đương U-Net, đảm bảo khả năng triển khai trên máy tính thông thường.
  • Nghiên cứu chỉ ra hạn chế về mất cân bằng dữ liệu và chưa khai thác mối quan hệ không gian 3D, là cơ sở cho các hướng phát triển tiếp theo.
  • Khuyến nghị áp dụng kỹ thuật tăng cường dữ liệu, chuẩn hóa ảnh MRI, phát triển mô hình 3D và tích hợp các cơ chế attention mới để nâng cao hơn nữa hiệu quả phân đoạn.

Để tiếp tục phát triển, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng và mở rộng mô hình trong các dự án thực tế, đồng thời chia sẻ kết quả để thúc đẩy ứng dụng trí tuệ nhân tạo trong y học hiện đại.