Tổng quan nghiên cứu
Ung thư phổi là một trong những loại ung thư phổ biến và gây tử vong hàng đầu trên thế giới, chiếm khoảng 25% tổng số ca ung thư được chẩn đoán. Theo thống kê của Tổ chức Y tế Thế giới năm 2018, ung thư phổi gây ra khoảng 1.76 triệu ca tử vong, chiếm hơn 84% tổng số ca nhiễm ung thư phổi toàn cầu. Ở Việt Nam, ung thư phổi cũng là nguyên nhân tử vong hàng đầu ở cả nam và nữ. Việc phát hiện sớm ung thư phổi đóng vai trò quan trọng trong việc giảm tỷ lệ tử vong và nâng cao khả năng chữa khỏi bệnh.
Chẩn đoán ung thư phổi hiện nay chủ yếu dựa trên các phương pháp hình ảnh như chụp X-quang, chụp cắt lớp vi tính (CT), cộng hưởng từ (MRI) và sinh thiết mô bệnh học. Trong đó, chụp CT được xem là phương pháp phổ biến và hiệu quả để đánh giá giai đoạn và vị trí khối u. Tuy nhiên, việc phân tích hình ảnh CT thủ công đòi hỏi bác sĩ có trình độ chuyên môn cao, tốn nhiều thời gian và có thể mang tính chủ quan.
Nghiên cứu này nhằm ứng dụng trí tuệ nhân tạo (AI), cụ thể là mạng nơ-ron tích chập (CNN) trong chẩn đoán ung thư phổi qua ảnh chụp CT. Mục tiêu là xây dựng chương trình phân loại chính xác bốn loại ung thư phổi phổ biến dựa trên dữ liệu ảnh CT thu thập từ bệnh viện K Việt Nam, với tổng số 3269 ảnh CT của 1025 bệnh nhân. Nghiên cứu tập trung vào việc phát triển mô hình CNN dựa trên kiến trúc VGG16, kết hợp kỹ thuật tăng cường dữ liệu để nâng cao độ chính xác và giảm hiện tượng quá khớp (overfitting).
Việc ứng dụng AI trong chẩn đoán ung thư phổi không chỉ giúp giảm tải công việc cho bác sĩ mà còn nâng cao hiệu quả và độ chính xác trong phát hiện bệnh, góp phần cải thiện kết quả điều trị và giảm thiểu tác hại không mong muốn cho bệnh nhân.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên lý thuyết mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và mạng nơ-ron tích chập (Convolutional Neural Network - CNN). ANN là mô hình xử lý thông tin lấy cảm hứng từ mạng nơ-ron sinh học, gồm nhiều nơ-ron nhân tạo kết nối với nhau qua các trọng số. ANN có khả năng học và xấp xỉ các hàm phi tuyến phức tạp, phù hợp với các bài toán phân lớp, dự báo và tối ưu hóa.
CNN là một dạng mạng nơ-ron chuyên biệt cho xử lý ảnh, với cấu trúc gồm các lớp tích chập (convolutional layers), lớp gộp (pooling layers) và lớp kết nối đầy đủ (fully connected layers). Lớp tích chập giúp trích xuất đặc trưng cục bộ của ảnh thông qua các bộ lọc nhỏ, giảm số lượng tham số và tăng hiệu quả học. Lớp gộp giảm kích thước dữ liệu đầu vào, giữ lại các đặc trưng quan trọng, giúp giảm độ phức tạp mô hình. Lớp kết nối đầy đủ thực hiện phân loại dựa trên các đặc trưng đã trích xuất.
Trong nghiên cứu này, kiến trúc CNN được sử dụng là VGG16, một mô hình nổi tiếng với 16 lớp, gồm 13 lớp tích chập và 3 lớp kết nối đầy đủ. VGG16 sử dụng các bộ lọc kích thước nhỏ 3x3, giúp tăng độ sâu mạng và khả năng học đặc trưng phức tạp mà vẫn giữ được hiệu quả tính toán. Mô hình này đã đạt độ chính xác 92,7% trên tập dữ liệu ImageNet với hơn 14 triệu ảnh.
Các khái niệm chính trong nghiên cứu bao gồm:
- Mạng nơ-ron nhân tạo (ANN): Mô hình học máy mô phỏng hoạt động của nơ-ron sinh học.
- Mạng nơ-ron tích chập (CNN): Mạng ANN chuyên xử lý dữ liệu ảnh với các lớp tích chập và gộp.
- Lớp tích chập (Convolutional layer): Trích xuất đặc trưng cục bộ của ảnh.
- Lớp gộp (Pooling layer): Giảm kích thước dữ liệu, giữ đặc trưng quan trọng.
- Lớp kết nối đầy đủ (Fully connected layer): Thực hiện phân loại dựa trên đặc trưng.
- Tăng cường dữ liệu (Data augmentation): Kỹ thuật tạo thêm dữ liệu huấn luyện từ dữ liệu gốc để cải thiện hiệu quả mô hình.
- Overfitting: Hiện tượng mô hình học quá kỹ dữ liệu huấn luyện, giảm khả năng tổng quát hóa.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ ảnh CT phổi của 1025 bệnh nhân tại bệnh viện K Việt Nam, gồm 3269 ảnh CT được phân loại thủ công thành bốn nhóm ung thư phổi: ung thư phổi tế bào nhỏ, ung thư biểu mô tế bào vảy, ung thư biểu mô tuyến và ung thư biểu mô tế bào lớn. Dữ liệu được chia thành ba tập: huấn luyện (1995 ảnh), kiểm tra (758 ảnh) và kiểm định (516 ảnh).
Quá trình nghiên cứu gồm các bước:
Chuẩn bị dữ liệu: Ảnh CT được chuyển đổi từ định dạng DICOM sang JPEG với kích thước 512x512 pixel. Sử dụng thư viện Keras để tăng cường dữ liệu qua các phép biến đổi như xoay, lật, dịch chuyển, thay đổi độ sáng, giúp mở rộng số lượng ảnh huấn luyện lên khoảng 50,000 ảnh.
Xây dựng mô hình: Áp dụng kiến trúc VGG16 với 5 khối tích chập, sử dụng các bộ lọc 3x3 và hàm kích hoạt ReLU. Mô hình được huấn luyện trên nền tảng Google Colab với GPU mạnh, sử dụng ngôn ngữ Python và thư viện TensorFlow.
Huấn luyện và tối ưu: Sử dụng kỹ thuật tăng cường độ chính xác bằng cách lặp lại quá trình huấn luyện, kết hợp các tập dữ liệu phân loại sai với tập dữ liệu có độ chính xác cao hơn để giảm hiện tượng overfitting và cải thiện hiệu suất.
Đánh giá mô hình: Sử dụng các chỉ số như Accuracy, Loss, F1-Score, AUC và Precision để đánh giá hiệu quả phân loại trên tập kiểm tra và kiểm định.
Thời gian nghiên cứu kéo dài từ đầu năm 2022 đến cuối năm 2022, tập trung tại Viện Vật lý Kỹ thuật, Đại học Bách Khoa Hà Nội.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả phân loại của mô hình VGG16: Mô hình đạt độ chính xác (Accuracy) trên 80% khi phân loại bốn loại ung thư phổi trên tập kiểm tra. Sau khi áp dụng kỹ thuật tăng cường dữ liệu, số lượng ảnh huấn luyện tăng lên hơn 30,000 ảnh, giúp cải thiện độ chính xác lên trên 90%.
Giảm hiện tượng overfitting: Qua việc sử dụng mô hình tăng cường độ chính xác, số lượng dữ liệu phân loại sai giảm dần qua các vòng huấn luyện, giúp mô hình có khả năng tổng quát hóa tốt hơn. Đường cong Loss và Accuracy trên tập huấn luyện và kiểm tra cho thấy sự hội tụ ổn định, không xuất hiện hiện tượng overfitting rõ rệt.
So sánh với các mô hình khác: Mô hình VGG16 kết hợp tăng cường dữ liệu cho kết quả tốt hơn so với các mô hình CNN khác như AlexNet và LeNet, với độ chính xác cao hơn khoảng 5-10%. Đặc biệt, VGG16 có khả năng trích xuất đặc trưng phức tạp hơn nhờ kiến trúc sâu và bộ lọc nhỏ.
Đánh giá chi tiết theo từng loại ung thư: Tỷ lệ phân loại chính xác các loại ung thư phổi tế bào nhỏ, biểu mô tế bào vảy, biểu mô tuyến và biểu mô tế bào lớn lần lượt đạt khoảng 88%, 85%, 92% và 80%. Sự khác biệt này phản ánh tính đa dạng và độ phức tạp của từng loại ung thư trong ảnh CT.
Thảo luận kết quả
Kết quả nghiên cứu cho thấy mạng nơ-ron tích chập VGG16 là công cụ hiệu quả trong việc phân loại các loại ung thư phổi dựa trên ảnh CT. Việc sử dụng bộ lọc 3x3 nhỏ giúp mô hình học được các đặc trưng cục bộ chi tiết, đồng thời giảm số lượng tham số so với các kiến trúc sử dụng bộ lọc lớn hơn như AlexNet. Kỹ thuật tăng cường dữ liệu đóng vai trò quan trọng trong việc mở rộng tập huấn luyện, giảm thiểu hiện tượng overfitting và nâng cao độ chính xác.
So với các nghiên cứu trước đây, mô hình này không chỉ phân biệt được ảnh ung thư và không ung thư mà còn phân loại chính xác từng loại ung thư phổi phổ biến, điều mà nhiều nghiên cứu quốc tế chưa thực hiện được do hạn chế về dữ liệu. Việc sử dụng dữ liệu thực tế từ bệnh viện K Việt Nam cũng giúp mô hình phù hợp hơn với đặc điểm dân số và kỹ thuật chụp ảnh tại Việt Nam.
Dữ liệu có thể được trình bày qua các biểu đồ đường cong Accuracy và Loss theo từng epoch, bảng ma trận nhầm lẫn thể hiện tỷ lệ phân loại đúng và sai của từng loại ung thư, cũng như biểu đồ ROC và AUC để đánh giá hiệu suất phân loại nhị phân.
Tuy nhiên, nghiên cứu cũng nhận thấy một số hạn chế như dữ liệu chưa đa dạng về mặt địa lý và kỹ thuật chụp, mô hình chưa được thử nghiệm trên các bộ dữ liệu độc lập khác. Ngoài ra, việc phân loại các loại ung thư có đặc điểm hình ảnh tương tự vẫn còn gặp khó khăn, cần nghiên cứu thêm các kỹ thuật trích xuất đặc trưng nâng cao.
Đề xuất và khuyến nghị
Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm ảnh CT từ nhiều bệnh viện khác nhau trên cả nước để tăng tính đa dạng và đại diện cho mô hình, giúp cải thiện khả năng tổng quát hóa. Thời gian thực hiện trong 1-2 năm, chủ thể thực hiện là các viện nghiên cứu và bệnh viện chuyên khoa.
Phát triển mô hình đa nhiệm: Kết hợp mạng CNN với các kỹ thuật học sâu khác như mạng nơ-ron hồi tiếp (RNN) hoặc mô hình Transformer để nâng cao khả năng phân loại và dự đoán giai đoạn ung thư. Mục tiêu tăng độ chính xác lên trên 95% trong vòng 1 năm.
Xây dựng phần mềm hỗ trợ chẩn đoán: Triển khai ứng dụng phần mềm tích hợp mô hình AI vào quy trình chẩn đoán tại các bệnh viện, giúp bác sĩ giảm thời gian phân tích ảnh và nâng cao độ chính xác. Thời gian triển khai dự kiến 6-12 tháng, chủ thể là các công ty công nghệ y tế phối hợp với bệnh viện.
Đào tạo và nâng cao nhận thức cho bác sĩ: Tổ chức các khóa đào tạo về ứng dụng AI trong chẩn đoán hình ảnh cho đội ngũ y bác sĩ nhằm tăng cường sự hiểu biết và tin tưởng vào công nghệ mới. Thời gian thực hiện liên tục, chủ thể là các trường đại học và bệnh viện.
Nghiên cứu mở rộng ứng dụng: Áp dụng mô hình AI vào chẩn đoán các loại ung thư khác hoặc các bệnh lý phổi khác để tận dụng tối đa tiềm năng của trí tuệ nhân tạo trong y học. Thời gian nghiên cứu 2-3 năm, chủ thể là các nhóm nghiên cứu đa ngành.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Kỹ thuật Hạt nhân, Khoa học Máy tính và Y sinh: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng mạng nơ-ron tích chập trong xử lý ảnh y tế, giúp phát triển các đề tài nghiên cứu liên quan.
Bác sĩ chuyên khoa chẩn đoán hình ảnh và ung bướu: Tham khảo để hiểu rõ hơn về công nghệ AI hỗ trợ chẩn đoán, từ đó áp dụng vào thực tế nhằm nâng cao hiệu quả và độ chính xác trong chẩn đoán ung thư phổi.
Các nhà phát triển phần mềm và công ty công nghệ y tế: Cung cấp cơ sở để phát triển các sản phẩm phần mềm hỗ trợ chẩn đoán dựa trên AI, đáp ứng nhu cầu thực tiễn tại các bệnh viện.
Quản lý y tế và các cơ quan hoạch định chính sách: Tham khảo để xây dựng các chính sách hỗ trợ ứng dụng công nghệ AI trong y tế, góp phần nâng cao chất lượng dịch vụ chăm sóc sức khỏe cộng đồng.
Câu hỏi thường gặp
Mạng nơ-ron tích chập (CNN) là gì và tại sao được sử dụng trong chẩn đoán ung thư phổi?
CNN là mô hình học sâu chuyên xử lý dữ liệu ảnh, có khả năng tự động trích xuất đặc trưng từ hình ảnh. Trong chẩn đoán ung thư phổi, CNN giúp phân loại chính xác các loại ung thư dựa trên ảnh CT, giảm thiểu sai sót do con người.Tại sao chọn kiến trúc VGG16 cho mô hình phân loại?
VGG16 có cấu trúc sâu với các bộ lọc nhỏ 3x3, giúp học được các đặc trưng phức tạp của ảnh CT. Mô hình này đã chứng minh hiệu quả cao trong nhiều bài toán nhận dạng hình ảnh và dễ dàng triển khai.Kỹ thuật tăng cường dữ liệu (data augmentation) có vai trò gì?
Tăng cường dữ liệu giúp tạo thêm các biến thể của ảnh gốc như xoay, lật, thay đổi độ sáng, giúp mô hình học được nhiều đặc trưng hơn, giảm hiện tượng overfitting và nâng cao độ chính xác.Mô hình có thể áp dụng cho các loại ung thư khác không?
Mô hình CNN có thể được điều chỉnh và huấn luyện lại với dữ liệu phù hợp để áp dụng cho các loại ung thư khác hoặc các bệnh lý y tế khác, tuy nhiên cần có bộ dữ liệu đủ lớn và chất lượng.Làm thế nào để đảm bảo mô hình không bị overfitting?
Ngoài tăng cường dữ liệu, mô hình sử dụng kỹ thuật lặp lại huấn luyện với dữ liệu phân loại sai được kết hợp lại, đồng thời theo dõi các chỉ số Loss và Accuracy trên tập kiểm tra để điều chỉnh tham số phù hợp.
Kết luận
- Nghiên cứu đã xây dựng thành công mô hình mạng nơ-ron tích chập VGG16 ứng dụng trong phân loại bốn loại ung thư phổi dựa trên ảnh CT với độ chính xác trên 90%.
- Kỹ thuật tăng cường dữ liệu và mô hình tăng cường độ chính xác giúp giảm hiện tượng overfitting và nâng cao hiệu quả phân loại.
- Mô hình phù hợp với dữ liệu thực tế từ bệnh viện K Việt Nam, góp phần hỗ trợ bác sĩ trong chẩn đoán và điều trị ung thư phổi.
- Đề xuất mở rộng bộ dữ liệu, phát triển phần mềm hỗ trợ và đào tạo nhân lực để ứng dụng rộng rãi trong y tế.
- Các bước tiếp theo bao gồm thử nghiệm mô hình trên dữ liệu độc lập, phát triển ứng dụng phần mềm và nghiên cứu mở rộng sang các bệnh lý khác.
Hành động ngay: Các nhà nghiên cứu và chuyên gia y tế nên phối hợp triển khai ứng dụng mô hình AI này trong thực tế để nâng cao chất lượng chẩn đoán ung thư phổi tại Việt Nam.