I. Khám phá Vision Transformer Cách mạng hóa phân loại bệnh phổi bằng AI
Trong kỷ nguyên số, trí tuệ nhân tạo (AI) đang dần định hình lại nhiều lĩnh vực, đặc biệt là y học. Một trong những tiến bộ đáng chú ý là sự xuất hiện của Vision Transformer (ViT) – mô hình học sâu đã chứng minh hiệu quả vượt trội trong xử lý hình ảnh. Ban đầu được phát triển cho xử lý ngôn ngữ tự nhiên, kiến trúc Transformer đã được điều chỉnh để giải quyết các bài toán thị giác máy tính, mở ra một hướng đi mới cho chẩn đoán bệnh phổi bằng AI. Việc áp dụng ViT vào phân tích hình ảnh X-quang ngực không chỉ hứa hẹn cải thiện độ chính xác mà còn đẩy nhanh quá trình phát hiện bệnh, đặc biệt là trong bối cảnh các thách thức về y tế công cộng ngày càng gia tăng. Phương pháp này đại diện cho một bước tiến quan trọng trong Kỹ thuật Y Sinh, nơi công nghệ và y học giao thoa để tạo ra các giải pháp chăm sóc sức khỏe đột phá.
Việc sử dụng các mô hình học sâu như ViT giúp tự động hóa quá trình nhận diện các dấu hiệu bệnh lý trên ảnh X-quang, giảm gánh nặng cho các chuyên gia y tế và tăng cường khả năng tiếp cận chẩn đoán. Khác với các mạng nơ-ron tích chập (CNN) truyền thống, ViT xử lý hình ảnh bằng cách chia chúng thành các “patch” (miếng nhỏ) và coi mỗi patch như một “từ” trong một câu, cho phép mô hình nắm bắt được mối quan hệ toàn cục giữa các phần của hình ảnh. Điều này đặc biệt hữu ích khi phân tích các đặc điểm phức tạp và phân tán của bệnh phổi trên ảnh X-quang. Sự kết hợp giữa khả năng học mạnh mẽ của Transformer và dữ liệu hình ảnh y tế khổng lồ tạo nên một công cụ mạnh mẽ, thúc đẩy học sâu y tế tiến lên một tầm cao mới. Công nghệ này không chỉ hỗ trợ chẩn đoán mà còn mở ra tiềm năng cho việc nghiên cứu và phát triển các phương pháp điều trị cá nhân hóa.
1.1. Vision Transformer là gì Cấu trúc và nguyên lý hoạt động cơ bản
Vision Transformer là một kiến trúc mạng nơ-ron học sâu dựa trên cơ chế tự chú ý (self-attention) của Transformer, được thiết kế ban đầu để giải quyết các bài toán thị giác máy tính. Thay vì sử dụng các lớp tích chập như trong mạng CNN, ViT chia hình ảnh đầu vào thành các "patch" nhỏ, kích thước cố định, sau đó làm phẳng chúng thành các vector 1D. Các vector này được gọi là "patch embedding". Để giữ lại thông tin vị trí của từng patch trong hình ảnh gốc, các "position embedding" cũng được thêm vào các patch embedding. Theo [11], các position embedding có thể là nhúng 1D hoặc nhúng 2D. Sau đó, chuỗi các embedding này, cùng với một embedding đặc biệt (được gọi là "class token" hoặc embedding học được) dùng để tổng hợp thông tin toàn cục, được đưa vào một bộ mã hóa Transformer. Cơ chế tự chú ý trong bộ mã hóa cho phép mô hình đánh giá mức độ liên quan giữa các patch với nhau, giúp nắm bắt các phụ thuộc toàn cục trên hình ảnh. Cuối cùng, đầu ra của class token từ bộ mã hóa được sử dụng cho nhiệm vụ phân loại hình ảnh. Cấu trúc này giúp ViT có khả năng học các biểu diễn hình ảnh mạnh mẽ và linh hoạt.
1.2. Tại sao Kỹ thuật Y Sinh chọn Vision Transformer cho phân loại bệnh phổi
Lĩnh vực Kỹ thuật Y Sinh đang tìm kiếm các giải pháp tiên tiến để cải thiện độ chính xác và hiệu quả trong chẩn đoán. Vision Transformer nổi lên như một ứng cử viên sáng giá cho phân loại bệnh phổi từ hình ảnh X-quang vì khả năng xử lý thông tin toàn cục và học các mối quan hệ phức tạp giữa các khu vực khác nhau của phổi. Các mạng CNN truyền thống thường tập trung vào các đặc trưng cục bộ thông qua các trường tiếp nhận (receptive field) hạn chế, trong khi ViT, với cơ chế tự chú ý, có thể nhìn nhận toàn bộ hình ảnh cùng một lúc, phát hiện các mẫu bệnh lý tinh vi và phân tán mà CNN có thể bỏ lỡ. Đặc biệt, đối với các bệnh lý phổi có biểu hiện đa dạng và không đồng nhất, khả năng này của ViT trở nên vô cùng quan trọng. Theo đề tài nghiên cứu, ViT có thể xử lý các tập dữ liệu X-quang ngực lớn như ChestXpert, Chest14 và VinDr-CXR, chứng tỏ tính khả thi và tiềm năng mở rộng của mô hình. Khả năng tự động trích xuất đặc trưng và đưa ra phân loại chính xác của ViT giảm thiểu sự phụ thuộc vào các phương pháp chẩn đoán thủ công, tăng tốc độ và chuẩn hóa quy trình chẩn đoán hình ảnh phổi.
II. Thách thức hiện đại Phân loại bệnh phổi chính xác và tầm quan trọng của Kỹ thuật Y Sinh
Việc phân loại bệnh phổi chính xác và kịp thời là một thách thức lớn đối với hệ thống chăm sóc sức khỏe toàn cầu. Các bệnh lý như viêm phổi, lao phổi, ung thư phổi hay tràn dịch màng phổi có thể gây ra những hậu quả nghiêm trọng nếu không được phát hiện và điều trị sớm. Phương pháp chẩn đoán truyền thống dựa vào ảnh X-quang ngực thường đòi hỏi kinh nghiệm dày dặn từ các bác sĩ chẩn đoán hình ảnh và có thể bị ảnh hưởng bởi yếu tố chủ quan. Hơn nữa, với số lượng hình ảnh y tế ngày càng tăng, áp lực lên các chuyên gia y tế là rất lớn. Đây là lúc Kỹ thuật Y Sinh đóng vai trò thiết yếu, mang đến các giải pháp công nghệ để nâng cao hiệu quả chẩn đoán và điều trị. Các nghiên cứu đã chỉ ra rằng việc tích hợp AI, đặc biệt là các mô hình học sâu như Vision Transformer, có thể cải thiện đáng kể độ tin cậy và tốc độ trong quá trình này.
Sự phức tạp của hình ảnh X-quang ngực, với nhiều vùng chồng chéo và các biểu hiện bệnh lý đa dạng, đòi hỏi các công cụ phân tích mạnh mẽ. Một thách thức khác là sự khan hiếm các chuyên gia chẩn đoán hình ảnh ở nhiều khu vực, đặc biệt là vùng nông thôn hoặc các nước đang phát triển. Chẩn đoán bệnh phổi bằng AI có tiềm năng giải quyết những vấn đề này bằng cách cung cấp một công cụ hỗ trợ đáng tin cậy, giúp sàng lọc ban đầu và ưu tiên các trường hợp cần can thiệp khẩn cấp. Mục tiêu chính của Kỹ thuật Y Sinh và AI trong lĩnh vực này là phát triển các hệ thống thông minh, tự động hóa một phần hoặc toàn bộ quá trình phân tích hình ảnh, từ đó giảm thiểu sai sót và đẩy nhanh quá trình đưa ra quyết định lâm sàng. Điều này không chỉ giúp bệnh nhân tiếp cận chẩn đoán nhanh hơn mà còn tối ưu hóa nguồn lực y tế.
2.1. Hạn chế của phương pháp chẩn đoán bệnh phổi truyền thống và nhu cầu X quang ngực tự động
Phương pháp chẩn đoán bệnh phổi truyền thống, chủ yếu dựa vào việc bác sĩ X-quang đọc và diễn giải hình ảnh, tồn tại một số hạn chế cố hữu. Sự chủ quan của người đọc, mức độ kinh nghiệm khác nhau và tình trạng mệt mỏi có thể dẫn đến sai sót hoặc bỏ sót các dấu hiệu bệnh lý nhỏ. Một thách thức lớn khác là sự phức tạp và đa dạng của các loại bệnh phổi, đòi hỏi kiến thức chuyên sâu và khả năng nhận diện các mẫu hình ảnh tinh tế. Ngoài ra, việc đọc một lượng lớn hình ảnh X-quang ngực hàng ngày đặt ra áp lực thời gian đáng kể, ảnh hưởng đến hiệu suất và độ chính xác. Do đó, nhu cầu về X-quang ngực tự động ngày càng trở nên cấp thiết. Hệ thống tự động có thể hỗ trợ sàng lọc ban đầu, giúp các bác sĩ tập trung vào các trường hợp phức tạp hơn, đồng thời chuẩn hóa quy trình chẩn đoán. Các công nghệ AI như mô hình Vision Transformer mang đến tiềm năng cách mạng hóa lĩnh vực này, bằng cách cung cấp các công cụ phân tích hình ảnh nhanh chóng và khách quan.
2.2. Kỹ thuật Y Sinh giải quyết vấn đề phân loại bệnh phổi bằng cách nào
Kỹ thuật Y Sinh đóng vai trò trung tâm trong việc giải quyết thách thức phân loại bệnh phổi bằng cách tích hợp các nguyên lý kỹ thuật với kiến thức y học. Lĩnh vực này phát triển các công nghệ và hệ thống giúp thu thập, xử lý và phân tích dữ liệu y tế, bao gồm cả hình ảnh X-quang ngực. Cụ thể, các kỹ sư y sinh tập trung vào việc tạo ra các thuật toán học sâu y tế có khả năng tự động nhận diện các bất thường trong hình ảnh. Họ cũng phát triển các giao diện người dùng thân thiện, cho phép bác sĩ dễ dàng tương tác với hệ thống AI để đưa ra quyết định chẩn đoán. Đề tài nghiên cứu đã chứng minh rằng Kỹ thuật Y Sinh có thể khai thác sức mạnh của Vision Transformer để xây dựng các mô hình phân loại bệnh phổi hiệu quả. Việc lựa chọn các tập dữ liệu phù hợp (như ChestXpert, Chest14, VinDr-CXR), tối ưu hóa kiến trúc mô hình (như ViT-B16, ViT-L16) và đánh giá kết quả bằng các phương pháp định tính và định lượng là những bước quan trọng trong quy trình này. Hơn nữa, việc xây dựng các Web API và triển khai ứng dụng bằng Docker cũng nằm trong phạm vi của Kỹ thuật Y Sinh, đảm bảo rằng các giải pháp AI có thể được sử dụng rộng rãi và dễ dàng.
III. Phương pháp tiếp cận mới Ứng dụng Vision Transformer trong phân tích X quang ngực
Việc ứng dụng Vision Transformer (ViT) trong phân tích X-quang ngực mở ra một kỷ nguyên mới cho chẩn đoán hình ảnh phổi tự động. Khác với các mô hình mạng nơ-ron tích chập (CNN) truyền thống vốn đã rất thành công trong lĩnh vực y tế, ViT mang đến một cách tiếp cận đột phá. Mô hình này không còn phụ thuộc vào các lớp tích chập để trích xuất đặc trưng cục bộ mà thay vào đó sử dụng cơ chế tự chú ý mạnh mẽ, cho phép nó nắm bắt các mối quan hệ toàn cục và dài hạn giữa các phần khác nhau của hình ảnh. Điều này đặc biệt có lợi trong việc nhận diện các dấu hiệu bệnh phổi tinh vi, phân tán trên toàn bộ ảnh X-quang, vốn thường khó phát hiện bằng mắt thường hoặc các thuật toán cũ. Khả năng xử lý thông tin tổng thể của ViT giúp mô hình hiểu rõ hơn ngữ cảnh của từng vùng trên ảnh, từ đó cải thiện đáng kể độ chính xác trong phân loại bệnh phổi.
Trong nghiên cứu về ứng dụng mô hình Vision Transformer trong phân loại dữ liệu bệnh phổi, các nhà khoa học đã tận dụng khả năng của ViT để học hỏi từ các tập dữ liệu X-quang lớn và đa dạng. Điều này bao gồm việc huấn luyện mô hình trên các tập dữ liệu như ChestXpert, Chest14 và VinDr-CXR, vốn chứa hàng ngàn hình ảnh X-quang với nhiều loại bệnh lý khác nhau. Quá trình này đòi hỏi sự chuẩn hóa dữ liệu, tiền xử lý hình ảnh và sau đó là huấn luyện các biến thể của ViT (ví dụ: ViT-B16, ViT-L16) để tìm ra kiến trúc tối ưu. Các công cụ và thư viện như Python, PyTorch, TensorFlow đóng vai trò quan trọng trong việc triển khai và thử nghiệm các mô hình này. Sự linh hoạt của PyTorch, được phát triển bởi Meta AI, là một ưu điểm lớn, cho phép các nhà nghiên cứu dễ dàng xây dựng, huấn luyện và điều chỉnh các mô hình học sâu y tế phức tạp. Điều này đã tạo nên một bước ngoặt trong phân loại hình ảnh y tế, mang lại hy vọng về các công cụ chẩn đoán hiệu quả hơn.
3.1. Quy trình chuẩn hóa và xử lý dữ liệu X quang ngực cho Vision Transformer
Để Vision Transformer có thể hoạt động hiệu quả trên dữ liệu X-quang ngực, quá trình chuẩn hóa và xử lý dữ liệu là vô cùng quan trọng. Theo tài liệu, hình ảnh đầu vào thường ở định dạng DICOM và cần được chuẩn hóa thành phạm vi [0-255]. Bước tiếp theo là chia nhỏ hình ảnh thành các "patch" có kích thước cố định (ví dụ PP pixel). Số lượng patch này sẽ đóng vai trò là độ dài chuỗi đầu vào cho Transformer. Các patch sau đó được làm phẳng thành chuỗi các vector 1D, được gọi là "patch embedding" thông qua phép chiếu tuyến tính. Một yếu tố then chốt khác là việc thêm "position embedding" vào các patch embedding để bảo toàn thông tin về vị trí không gian của từng patch trong hình ảnh gốc. Các nghiên cứu đề xuất sử dụng nhúng 1D hoặc nhúng 2D cho vị trí [11, 12]. Ngoài ra, một embedding học được đặc biệt, thường được ký hiệu là "", được thêm vào chuỗi các patch embedding để tổng hợp thông tin hình ảnh cho nhiệm vụ phân loại. Các bước này đảm bảo rằng dữ liệu được định dạng phù hợp để Transformer có thể hiểu và xử lý, tối ưu hóa khả năng phân loại hình ảnh y tế.
3.2. So sánh hiệu quả Vision Transformer và CNN trong phân loại bệnh phổi
Khi xem xét phân loại bệnh phổi từ hình ảnh X-quang, việc so sánh hiệu quả giữa Vision Transformer (ViT) và các mạng nơ-ron tích chập (CNN) truyền thống là cần thiết. Mặc dù CNN như ResNet (ví dụ: ResNet18, ResNet34, ResNet50) đã đạt được nhiều thành công, chúng thường tập trung vào các đặc trưng cục bộ. Ngược lại, ViT, với cơ chế tự chú ý, có khả năng nắm bắt các phụ thuộc toàn cục, giúp mô hình "nhìn" được bức tranh tổng thể của hình ảnh. Điều này làm cho ViT đặc biệt mạnh mẽ trong việc phát hiện các mẫu bệnh lý phức tạp và phân tán trên ảnh X-quang ngực. Các thí nghiệm huấn luyện mô hình ViT trên các tập dữ liệu X-quang lớn thường cho thấy hiệu suất cạnh tranh hoặc vượt trội so với các biến thể ResNet, đặc biệt khi có đủ dữ liệu huấn luyện. Việc sử dụng các mô hình ViT như ViT-B16, ViT-L16 đã chứng minh khả năng trích xuất các đặc trưng ngữ cảnh phong phú, dẫn đến độ chính xác cao hơn trong chẩn đoán bệnh phổi bằng AI. Cơ chế diễn giải mô hình như Grad-CAM và Attention Map cũng giúp hiểu rõ hơn cách ViT đưa ra quyết định, tăng cường sự tin cậy của mô hình.
IV. Hướng dẫn chi tiết Xây dựng và tối ưu mô hình Vision Transformer chẩn đoán bệnh phổi
Việc xây dựng và tối ưu một mô hình Vision Transformer chẩn đoán bệnh phổi đòi hỏi sự hiểu biết sâu sắc về cả kỹ thuật học sâu và lĩnh vực y sinh. Quá trình này không chỉ dừng lại ở việc lựa chọn kiến trúc mô hình mà còn bao gồm các bước quan trọng như chuẩn bị dữ liệu, huấn luyện mô hình, đánh giá hiệu suất và triển khai ứng dụng. Mục tiêu cuối cùng là tạo ra một hệ thống phân loại bệnh phổi có độ chính xác cao, đáng tin cậy và có khả năng tích hợp vào quy trình làm việc lâm sàng. Để đạt được điều này, các nhà nghiên cứu cần thực hiện các thí nghiệm tỉ mỉ, so sánh các biến thể mô hình và điều chỉnh các siêu tham số. Sự minh bạch trong quá trình ra quyết định của AI cũng là yếu tố quan trọng, giúp các bác sĩ tin tưởng và sử dụng công nghệ này hiệu quả hơn. Các công cụ và thư viện mã nguồn mở hiện đại đóng vai trò thiết yếu trong việc hỗ trợ quá trình phát triển này, từ việc xử lý dữ liệu đến triển khai mô hình.
Một trong những khía cạnh then chốt của việc tối ưu hóa là việc lựa chọn và tinh chỉnh các biến thể của Vision Transformer. Ví dụ, đề tài đã xem xét các mô hình ViT-B16, ViT-L16, ViT-S16 và R50+ViT-B16, mỗi mô hình có đặc điểm riêng về kích thước và khả năng học. Việc so sánh với các mô hình ResNet truyền thống cũng giúp đánh giá lợi thế của ViT. Để đảm bảo tính chính xác, các tập dữ liệu X-quang ngực lớn như ChestXpert, Chest14 và VinDr-CXR được sử dụng để huấn luyện và kiểm tra mô hình. Việc triển khai các giải pháp Kỹ thuật Y Sinh này không chỉ là thử thách về mặt thuật toán mà còn về mặt kỹ thuật, bao gồm việc sử dụng ngôn ngữ lập trình Python, thư viện PyTorch cho học sâu, Flask cho Web API và Docker để đóng gói ứng dụng. Những bước này đảm bảo rằng mô hình có thể được phát triển một cách có hệ thống, kiểm thử kỹ lưỡng và sẵn sàng cho ứng dụng Vision Transformer trong thực tế.
4.1. Các bước huấn luyện và đánh giá mô hình Vision Transformer cho học sâu y tế
Quá trình huấn luyện và đánh giá mô hình Vision Transformer trong học sâu y tế bao gồm nhiều giai đoạn. Bước đầu tiên là chuẩn bị dữ liệu X-quang ngực, bao gồm việc thu thập, tiền xử lý và chia tập dữ liệu thành các tập huấn luyện, xác thực và kiểm tra. Theo tài liệu, các tập dữ liệu như ChestXpert, Chest14 và VinDr-CXR là những nguồn dữ liệu tiềm năng. Tiếp theo, các biến thể của mô hình ViT (ví dụ: ViT-B16, ViT-L16) được khởi tạo và huấn luyện trên tập dữ liệu đã chuẩn bị. Trong quá trình huấn luyện, các tham số của mô hình được điều chỉnh thông qua thuật toán tối ưu hóa để giảm thiểu hàm mất mát (loss function). PyTorch là một framework học máy mã nguồn mở phổ biến được sử dụng cho mục đích này [18], cung cấp các mô-đun hỗ trợ cho việc tổ chức và tải dữ liệu. Sau khi huấn luyện, hiệu suất của mô hình được đánh giá bằng các phương pháp định lượng như độ chính xác (accuracy), độ nhạy (sensitivity), độ đặc hiệu (specificity), và diện tích dưới đường cong ROC (AUC). Ngoài ra, các cơ chế diễn giải mô hình như Grad-CAM và Attention Map cũng được sử dụng để đánh giá định tính, giúp hiểu cách mô hình đưa ra quyết định, củng cố niềm tin vào chẩn đoán hình ảnh phổi bằng AI.
4.2. Kỹ thuật Y Sinh tích hợp Vision Transformer vào hệ thống chẩn đoán bệnh phổi
Để Kỹ thuật Y Sinh tích hợp Vision Transformer vào một hệ thống chẩn đoán bệnh phổi hoàn chỉnh, nhiều công nghệ cần được kết hợp. Sau khi mô hình ViT được huấn luyện và đánh giá, bước tiếp theo là xây dựng một giao diện để người dùng (ví dụ: bác sĩ) có thể tương tác. Điều này thường được thực hiện thông qua việc phát triển một Web API, sử dụng các thư viện như Flask trong Python. Web API sẽ nhận hình ảnh X-quang đầu vào, chuyển tiếp đến mô hình ViT đã được huấn luyện, và trả về kết quả phân loại bệnh phổi. Để đảm bảo khả năng mở rộng và dễ dàng triển khai, công nghệ đóng gói ứng dụng như Docker được sử dụng. Docker giúp đóng gói toàn bộ ứng dụng, bao gồm môi trường chạy, các thư viện phụ thuộc và mô hình đã huấn luyện, vào một "container" duy nhất, đảm bảo ứng dụng hoạt động nhất quán trên mọi môi trường. Việc sử dụng cơ sở dữ liệu như SQLite và công cụ SQLAlchemy để tương tác giúp quản lý dữ liệu hiệu quả. Sự tích hợp này tạo ra một giải pháp chẩn đoán bệnh phổi bằng AI toàn diện, từ mô hình học sâu đến ứng dụng thực tế, mở ra tiềm năng lớn cho việc hỗ trợ lâm sàng.
V. Kết quả ấn tượng Tiềm năng của Vision Transformer trong Kỹ thuật Y Sinh và tương lai chẩn đoán bệnh phổi
Những kết quả ban đầu từ việc ứng dụng Vision Transformer trong Kỹ thuật Y Sinh để phân loại bệnh phổi đã chứng minh tiềm năng to lớn của công nghệ này. Các nghiên cứu đã cho thấy rằng ViT không chỉ đạt được độ chính xác cao trong việc nhận diện các bệnh lý phổi từ hình ảnh X-quang mà còn thể hiện khả năng học hỏi từ các tập dữ liệu lớn một cách hiệu quả. Điều này đặc biệt quan trọng trong lĩnh vực y tế, nơi dữ liệu hình ảnh phong phú nhưng việc phân tích thủ công lại tốn kém và mất thời gian. Sự kết hợp giữa khả năng xử lý hình ảnh toàn cục của ViT và khả năng diễn giải thông qua các công cụ như Grad-CAM hoặc Attention Map cung cấp một cái nhìn sâu sắc hơn về cách AI đưa ra quyết định, từ đó xây dựng niềm tin cho các chuyên gia y tế. Những cải tiến này không chỉ giúp đẩy nhanh quá trình chẩn đoán mà còn mở ra cơ hội cho việc phát triển các công cụ sàng lọc và theo dõi bệnh lý phổi tiên tiến.
Trong tương lai, Vision Transformer trong Kỹ thuật Y Sinh được kỳ vọng sẽ tiếp tục phát triển, không chỉ trong việc phân loại bệnh phổi mà còn trong nhiều ứng dụng chẩn đoán hình ảnh khác. Khả năng của ViT để tích hợp thông tin từ nhiều nguồn dữ liệu (ví dụ: X-quang, CT, MRI) hoặc kết hợp với dữ liệu lâm sàng khác có thể dẫn đến các hệ thống chẩn đoán đa phương thức mạnh mẽ hơn. Việc tối ưu hóa kiến trúc ViT để hoạt động hiệu quả trên các thiết bị tài nguyên hạn chế, như các thiết bị di động hoặc IoT, cũng là một hướng nghiên cứu đầy hứa hẹn. Mục tiêu cuối cùng là tạo ra các giải pháp chẩn đoán bệnh phổi bằng AI không chỉ chính xác mà còn dễ tiếp cận và triển khai rộng rãi, góp phần nâng cao chất lượng chăm sóc sức khỏe toàn cầu. Đây là một minh chứng rõ ràng cho vai trò không thể thiếu của học sâu y tế và Kỹ thuật Y Sinh trong việc định hình tương lai của y học.
5.1. Các chỉ số hiệu suất quan trọng của Vision Transformer trong phân loại bệnh phổi
Để đánh giá hiệu quả của Vision Transformer trong phân loại bệnh phổi, một số chỉ số hiệu suất quan trọng được sử dụng. Các chỉ số định lượng bao gồm độ chính xác (Accuracy), độ nhạy (Sensitivity), độ đặc hiệu (Specificity), giá trị dự đoán dương tính (Positive Predictive Value - PPV), giá trị dự đoán âm tính (Negative Predictive Value - NPV) và diện tích dưới đường cong ROC (Area Under the Receiver Operating Characteristic Curve - AUC). AUC là một trong những chỉ số được ưu tiên, cho biết khả năng phân biệt giữa các lớp bệnh và không bệnh của mô hình. Các mô hình ViT thường cho thấy các chỉ số này ở mức cao, đặc biệt khi được huấn luyện trên các tập dữ liệu X-quang ngực lớn và đa dạng như ChestXpert, Chest14 và VinDr-CXR. Theo đề tài nghiên cứu, việc so sánh hiệu suất giữa các biến thể ViT (ví dụ: ViT-B16, ViT-L16) và các mô hình CNN (như ResNet) cho thấy ViT có tiềm năng đạt được kết quả vượt trội, đặc biệt trong việc nhận diện các dấu hiệu bệnh lý tinh vi. Các cơ chế diễn giải như Grad-CAM cũng cung cấp cái nhìn định tính về những vùng hình ảnh mà mô hình chú ý, tăng cường sự tin cậy vào kết quả chẩn đoán hình ảnh phổi của AI.
5.2. Hướng phát triển và tiềm năng mở rộng của Vision Transformer trong Kỹ thuật Y Sinh
Hướng phát triển và tiềm năng mở rộng của Vision Transformer trong Kỹ thuật Y Sinh là vô cùng lớn. Ngoài phân loại bệnh phổi, ViT có thể được áp dụng để phân tích các loại hình ảnh y tế khác như MRI, CT scan để chẩn đoán ung thư, bệnh tim mạch hoặc các bệnh lý thần kinh. Một hướng nghiên cứu quan trọng là việc phát triển các mô hình ViT nhẹ hơn, tiết kiệm tài nguyên hơn để có thể triển khai trên các thiết bị biên hoặc tích hợp vào các hệ thống y tế hiện có mà không yêu cầu phần cứng quá mạnh. Sự kết hợp giữa ViT và các mô hình đa phương thức, nơi thông tin từ hình ảnh được tích hợp với dữ liệu lâm sàng, hồ sơ bệnh án, hoặc kết quả xét nghiệm, có thể tạo ra các hệ thống chẩn đoán bệnh phổi bằng AI toàn diện và chính xác hơn nữa. Hơn nữa, việc cải thiện khả năng giải thích (explainability) của ViT, giúp các bác sĩ hiểu rõ lý do AI đưa ra một chẩn đoán cụ thể, sẽ thúc đẩy sự chấp nhận và tin tưởng vào công nghệ này. Kỹ thuật Y Sinh sẽ tiếp tục đóng vai trò dẫn dắt trong việc chuyển đổi những tiến bộ lý thuyết của ViT thành các giải pháp y tế thực tiễn, góp phần nâng cao chất lượng chăm sóc sức khỏe.