Ứng Dụng Học Máy Trong Nghiên Cứu Phân Loại Dữ Liệu Hình Ảnh X-Quang Lồng Ngực

Khám phá ứng dụng học máy trong phân loại dữ liệu hình ảnh x quang lồng ngực, nâng cao độ chính xác và hiệu quả trong chẩn đoán y tế.

Trường đại học

Trường Đại Học Quy Nhơn

Chuyên ngành

Khoa Học Dữ Liệu Ứng Dụng

Người đăng

Ẩn danh

Thể loại

Đề Án Thạc Sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỞ ĐẦU

1. CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ

1.1. Hàm kích hoạt

1.2. Đào tạo có giám sát

1.3. Chính quy hóa (Regularization)

1.4. Mạng neuron tích chập - Convolutional neural networks

1.5. Các thước đo đánh giá mô hình phát hiện vật thể

1.5.1. Precision và recall trong phát hiện đối tượng

1.5.2. AP - average precision và mAP - mean average precision

1.5.3. Non-Maximum Suppression (NMS)

2. CHƯƠNG 2: MÔ HÌNH YOLO VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN

2.1. Lịch sử hình thành

2.2. YOLO: You Only Look Once

2.2.1. YOLOv1 hoạt động như thế nào?

2.2.2. Kiến trúc mô hình YOLOv1

2.2.3. Đào tạo mô hình YOLOv1

2.2.4. Những điểm mạnh và hạn chế của YOLOv1

2.3. PP-YOLO, PP-YOLOv2, and PP-YOLOE

2.3.1. PP-YOLO tăng cường và tiền xử lý

2.4. YOLO với Transformers

3. CHƯƠNG 3: ỨNG DỤNG TRONG BÀI TOÁN CHẨN ĐOÁN BẤT THƯỜNG TRÊN ẢNH X-QUANG LỒNG NGỰC

3.1. Tập dữ liệu

3.1.1. Khái quát tập dữ liệu

3.1.2. Phân tích tập dữ liệu

3.1.3. Xử lý dữ liệu

3.2. Tiến trình thực nghiệm

3.3. Xây dựng hệ thống giao diện người dùng

KẾT LUẬN

DANH SÁCH BẢNG

DANH SÁCH HÌNH VẼ

Tóm tắt

I. Tổng Quan Học Máy Ứng Dụng Ảnh X Quang Lồng Ngực

Trí tuệ nhân tạo (AI) đang cách mạng hóa nhiều lĩnh vực, đặc biệt là y tế. AI hỗ trợ phát hiện sớm, chẩn đoán chính xác và can thiệp kịp thời vào nhiều bệnh lý. Các nghiên cứu ứng dụng AI trong chẩn đoán tiểu đường, viêm giác mạc, ung thư gan và dự đoán bại não đã chứng minh tiềm năng to lớn. AI giúp các hệ thống y tế chuyển trọng tâm từ điều trị sang phòng ngừa. Trong chẩn đoán bệnh lý phổi, ảnh X-quang lồng ngực đóng vai trò then chốt. Kỹ thuật này giúp bác sĩ phát hiện nhanh chóng các bất thường và lên kế hoạch điều trị. Tuy nhiên, việc ứng dụng AI vào phân tích ảnh X-quang cũng đối mặt với thách thức: thiếu bộ dữ liệu chuẩn hóa và khả năng diễn giải của mô hình AI còn hạn chế. Điều này thúc đẩy các nghiên cứu tìm kiếm giải pháp hiệu quả hơn. Sự kết hợp giữa mô hình học máy tốt và bộ dữ liệu chất lượng là yếu tố then chốt để nâng cao hiệu quả chẩn đoán. Ví dụ, ChestX-ray14 từ NIH và bộ dữ liệu “Phát hiện bất thường trên ảnh X-quang lồng ngực” của VinBigdata hứa hẹn mở ra hướng nghiên cứu đầy tiềm năng.

1.1. Vai Trò Của Ảnh X Quang Lồng Ngực Trong Chẩn Đoán

Chụp X-quang lồng ngực là một công cụ chẩn đoán hình ảnh quan trọng trong y học. Kỹ thuật này cho phép các bác sĩ quan sát các cấu trúc bên trong lồng ngực, bao gồm phổi, tim, mạch máu và xương. Nó giúp phát hiện các bệnh lý khác nhau như viêm phổi, tràn dịch màng phổi, ung thư phổi, bệnh tim và các bất thường về xương. Ảnh X-quang cung cấp thông tin quan trọng để đưa ra chẩn đoán chính xác và kế hoạch điều trị phù hợp. Việc sử dụng học máy để phân tích ảnh X-quang giúp tăng tốc độ và độ chính xác trong việc phát hiện bệnh.

1.2. Thách Thức Khi Ứng Dụng AI Vào Phân Tích Ảnh Y Tế

Việc áp dụng AI vào phân tích ảnh X-quang gặp phải nhiều thách thức. Thứ nhất, sự thiếu hụt các bộ dữ liệu lớn, được gắn nhãn và chuẩn hóa cản trở quá trình huấn luyện mô hình. Dữ liệu y tế thường rất nhạy cảm và việc chia sẻ gặp nhiều rào cản. Thứ hai, tính minh bạch và khả năng diễn giải của các mô hình AI, đặc biệt là các mô hình học sâu, còn hạn chế. Các bác sĩ cần hiểu rõ cách mô hình đưa ra quyết định để tin tưởng và sử dụng kết quả. Cuối cùng, sai số có thể xảy ra do chất lượng hình ảnh X-quang, sự khác biệt giữa các thiết bị và các yếu tố khác. Cần có các phương pháp xử lý dữ liệu hiệu quả để giảm thiểu sai số.

II. Các Mô Hình Học Máy Ưu Việt Cho Phân Loại Ảnh X Quang

Nhiều mô hình học máy đã được ứng dụng để phát hiện tổn thương phổi trên ảnh X-quang. Các kỹ thuật phát hiện đối tượng như CNN, Mask R-CNN, Faster R-CNN và YOLO đều cho kết quả khả quan trong một số nghiên cứu. Các phiên bản cải tiến gần đây của YOLO dường như vượt trội hơn về hiệu năng và là chủ đề cho nhiều hướng phát triển. Việc lựa chọn mô hình phù hợp phụ thuộc vào bộ dữ liệu kiểm thử và mục tiêu nghiên cứu. Các bệnh lý về phổi thường xuất hiện dưới dạng một vùng trên phim chụp X-quang, do đó các mô hình phát hiện đối tượng tỏ ra phù hợp. Tuy nhiên, mỗi mô hình có ưu và nhược điểm riêng, cần được đánh giá kỹ lưỡng.

2.1. Mạng Neuron Tích Chập CNN và Ưu Điểm

Mạng Neuron Tích Chập (CNN) là một loại kiến trúc mạng neuron được thiết kế đặc biệt để xử lý dữ liệu hình ảnh. CNN sử dụng các lớp tích chập để trích xuất các đặc trưng quan trọng từ hình ảnh, sau đó sử dụng các lớp gộp để giảm kích thước và độ phức tạp của dữ liệu. CNN có khả năng học các đặc trưng phức tạp một cách tự động, giúp nó trở thành một công cụ mạnh mẽ cho việc phân loại và phát hiện đối tượng trong ảnh X-quang.

2.2. Faster R CNN và Ứng Dụng Trong Y Học

Faster R-CNN là một mô hình phát hiện đối tượng tiên tiến dựa trên CNN. Faster R-CNN sử dụng một mạng đề xuất vùng (RPN) để tạo ra các đề xuất vùng tiềm năng, sau đó sử dụng một mạng phân loại để phân loại các vùng này. Faster R-CNN có độ chính xác cao và tốc độ xử lý nhanh, làm cho nó phù hợp cho việc phát hiện các bất thường trong ảnh X-quang với độ chính xác cao. Nhiều nghiên cứu đã chứng minh hiệu quả của Faster R-CNN trong việc phát hiện các bệnh lý như ung thư phổi và tràn dịch màng phổi.

2.3. YOLO và Các Phiên Bản Cải Tiến Hiện Đại

YOLO (You Only Look Once) là một mô hình phát hiện đối tượng thời gian thực. YOLO xử lý toàn bộ hình ảnh chỉ trong một lần, giúp nó đạt được tốc độ xử lý rất nhanh. Các phiên bản cải tiến của YOLO như YOLOv3, YOLOv4, YOLOv5, YOLOv7 và YOLOv8 đã cải thiện đáng kể độ chính xác và hiệu quả của mô hình. YOLO là một lựa chọn phù hợp cho các ứng dụng yêu cầu tốc độ xử lý cao, như sàng lọc và chẩn đoán nhanh ảnh X-quang.

III. Giải Mã Mô Hình YOLO You Only Look Once Chi Tiết

Mô hình YOLO (You Only Look Once) là một bước đột phá trong lĩnh vực phát hiện đối tượng. Ưu điểm lớn nhất của YOLO là tốc độ xử lý nhanh, cho phép phân tích hình ảnh thời gian thực. Thay vì chia nhỏ hình ảnh thành nhiều vùng, YOLO xử lý toàn bộ hình ảnh trong một lần duy nhất. Điều này đạt được bằng cách chia hình ảnh thành lưới và dự đoán các bounding box và xác suất lớp cho mỗi ô lưới. Hàm loss của YOLO được thiết kế để tối ưu hóa cả vị trí, kích thước của bounding box và độ chính xác của việc phân loại. Các phiên bản cải tiến của YOLO liên tục được phát triển để nâng cao độ chính xác và hiệu quả.

3.1. Kiến Trúc Hoạt Động Cơ Bản Của YOLOv1

YOLOv1 hoạt động bằng cách chia hình ảnh đầu vào thành một lưới S x S. Mỗi ô lưới dự đoán B bounding boxes và C xác suất lớp. Mỗi bounding box bao gồm 5 thông số: x, y, w, h và confidence. x, y là tọa độ trung tâm của bounding box so với ô lưới, w, h là chiều rộng và chiều cao của bounding box so với toàn bộ hình ảnh. Confidence thể hiện độ tin cậy của bounding box chứa một đối tượng. Mô hình sử dụng một mạng CNN để trích xuất các đặc trưng từ hình ảnh, sau đó sử dụng các lớp kết nối đầy đủ để dự đoán các bounding boxes và xác suất lớp. Đầu ra của mô hình là một tensor có kích thước S x S x (5B + C).

3.2. Hàm Loss Function Trong Huấn Luyện Mô Hình YOLO

Hàm loss của YOLO là một hàm đa thành phần, bao gồm loss vị trí, loss confidence và loss phân loại. Loss vị trí đo lường sự khác biệt giữa các bounding boxes được dự đoán và ground truth. Loss confidence đo lường sự khác biệt giữa confidence được dự đoán và IoU (Intersection over Union) giữa bounding box được dự đoán và ground truth. Loss phân loại đo lường sự khác biệt giữa xác suất lớp được dự đoán và ground truth. Mục tiêu của quá trình huấn luyện là giảm thiểu hàm loss này để cải thiện độ chính xác của mô hình.

3.3. Điểm Mạnh và Hạn Chế Của YOLOv1

YOLOv1 có điểm mạnh là tốc độ xử lý nhanh, cho phép phát hiện đối tượng thời gian thực. Tuy nhiên, YOLOv1 có một số hạn chế, bao gồm khả năng phát hiện các đối tượng nhỏ kém và khó khăn trong việc xử lý các đối tượng chồng chéo. Ngoài ra, YOLOv1 có xu hướng dự đoán nhiều bounding boxes cho cùng một đối tượng. Các phiên bản YOLO sau này đã giải quyết một số hạn chế này, nhưng vẫn còn những thách thức cần vượt qua.

IV. Ứng Dụng YOLO Trong Chẩn Đoán Bất Thường Ảnh X Quang Ngực

Đề tài tập trung vào ứng dụng các mô hình thuộc họ YOLO vào bài toán phát hiện và phân loại bất thường trên ảnh X-quang dựa trên bộ dữ liệu “Phát hiện bất thường trên ảnh X-quang lồng ngực”. Chương này trình bày kết quả chính của đề án, vận dụng một số phiên bản YOLO phù hợp để phát hiện các bất thường trên ảnh X-quang. Để minh họa cho tiềm năng ứng dụng và cải tiến xa hơn, nhóm tác giả sử dụng kết quả đạt được và xây dựng một giao diện người dùng đơn giản bằng FastAPI, tạo ra một kênh trải nghiệm và tham khảo.

4.1. Tập Dữ Liệu VinBigData Chest X ray Abnormalities Detection

Bộ dữ liệu “VinBigData Chest X-ray Abnormalities Detection” đóng vai trò quan trọng trong nghiên cứu này. Bộ dữ liệu này chứa một lượng lớn ảnh X-quang lồng ngực được gắn nhãn bởi các chuyên gia, với các loại bất thường khác nhau được xác định và khoanh vùng. Việc sử dụng bộ dữ liệu này cho phép huấn luyện và đánh giá các mô hình YOLO một cách hiệu quả, đảm bảo tính khách quan và chính xác của kết quả.

4.2. Quy Trình Thực Nghiệm và Đánh Giá Hiệu Suất Mô Hình

Quy trình thực nghiệm bao gồm các bước: tiền xử lý dữ liệu, lựa chọn và cấu hình mô hình YOLO, huấn luyện mô hình trên tập dữ liệu huấn luyện, đánh giá hiệu suất mô hình trên tập dữ liệu kiểm tra và tinh chỉnh mô hình để cải thiện độ chính xác. Các thước đo hiệu suất như Precision, Recall, F1-score và mAP (mean Average Precision) được sử dụng để đánh giá khả năng của mô hình trong việc phát hiện và phân loại các bất thường.

4.3. Xây Dựng Hệ Thống Giao Diện Người Dùng FastAPI

Giao diện người dùng FastAPI được xây dựng để cung cấp một kênh tương tác trực quan với mô hình YOLO. Người dùng có thể tải lên ảnh X-quang và xem kết quả dự đoán của mô hình, bao gồm các bounding boxes và nhãn lớp. Giao diện này giúp đánh giá nhanh chóng hiệu quả của mô hình và cung cấp phản hồi để cải thiện mô hình. FastAPI được lựa chọn vì tính linh hoạt và tốc độ trong việc xây dựng các ứng dụng API.

V. PP YOLO PP YOLOv2 PP YOLOE Phát Triển Từ YOLO

Ngoài YOLO, PP-YOLO, PP-YOLOv2 và PP-YOLOE là những phiên bản phát triển từ YOLO. Chúng được giới thiệu những cải tiến đáng kể về độ chính xác và hiệu suất. PP-YOLO tăng cường và tiền xử lý hình ảnh để cải thiện khả năng phát hiện đối tượng. PP-YOLOv2 cải thiện hiệu suất phát hiện các đối tượng nhỏ. PP-YOLOE cải thiện hiệu suất tổng thể và độ chính xác của mô hình. Điều này mở ra hướng nghiên cứu tiềm năng để cho ra kết quả khả quan hơn.

5.1. Tăng Cường PP YOLO và Tiền Xử Lý Hình Ảnh

PP-YOLO là một phiên bản cải tiến của YOLOv3 với những kỹ thuật tăng cường và tiền xử lý hình ảnh để cải thiện khả năng phát hiện đối tượng. Các kỹ thuật này bao gồm việc sử dụng một hàm kích hoạt tiên tiến hơn, sử dụng một kỹ thuật tăng cường dữ liệu mới và sử dụng một kiến trúc mạng được thiết kế tốt hơn. Bằng cách sử dụng các kỹ thuật này, PP-YOLO có thể đạt được độ chính xác và hiệu suất tốt hơn so với YOLOv3.

5.2. PP YOLOv2 Cải Thiện Hiệu Suất Phát Hiện Đối Tượng Nhỏ

PP-YOLOv2 là một phiên bản tiếp theo của PP-YOLO với những cải tiến tập trung vào việc cải thiện hiệu suất phát hiện đối tượng nhỏ. Các cải tiến này bao gồm việc sử dụng một kiến trúc mạng được thiết kế tốt hơn và việc sử dụng một kỹ thuật đào tạo mới. Bằng cách sử dụng các kỹ thuật này, PP-YOLOv2 có thể phát hiện các đối tượng nhỏ chính xác hơn so với PP-YOLO.

5.3. PP YOLOE Cải Thiện Hiệu Suất Tổng Thể và Độ Chính Xác

PP-YOLOE là một phiên bản mới nhất của họ PP-YOLO, kết hợp những ưu điểm của các phiên bản trước đó và giới thiệu những cải tiến mới để đạt được hiệu suất tổng thể và độ chính xác cao hơn. PP-YOLOE sử dụng một kiến trúc mạng mạnh mẽ hơn và các kỹ thuật đào tạo tiên tiến để phát hiện đối tượng với độ tin cậy và tốc độ cao.

VI. Kết Luận và Hướng Phát Triển Ứng Dụng Ảnh X Quang

Ứng dụng học máy, đặc biệt là các mô hình như YOLO, mang lại tiềm năng lớn trong việc hỗ trợ chẩn đoán bệnh lý từ ảnh X-quang lồng ngực. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua để đạt được độ chính xác và tin cậy cao. Hướng phát triển tiếp theo bao gồm việc thu thập và chuẩn hóa bộ dữ liệu lớn hơn, nghiên cứu các mô hình học máy mới và cải tiến, cũng như phát triển các công cụ hỗ trợ bác sĩ trong việc diễn giải kết quả. Sự kết hợp giữa trí tuệ nhân tạo và kiến thức chuyên môn của bác sĩ hứa hẹn sẽ cải thiện đáng kể chất lượng chẩn đoán và điều trị bệnh.

6.1. Tương Lai Của Ứng Dụng AI Trong Chẩn Đoán Hình Ảnh

Tương lai của ứng dụng AI trong chẩn đoán hình ảnh rất hứa hẹn. Với sự phát triển của các thuật toán học máy và sự gia tăng của dữ liệu hình ảnh y tế, AI có thể đóng vai trò ngày càng quan trọng trong việc hỗ trợ các bác sĩ đưa ra các quyết định chẩn đoán chính xác và kịp thời. AI có thể giúp phát hiện các dấu hiệu bệnh lý nhỏ mà mắt thường khó nhận ra, giảm thiểu sai sót và tăng cường hiệu quả công việc của các bác sĩ.

6.2. Cần Thiết Của Sự Hợp Tác Giữa Kỹ Sư và Bác Sĩ

Để ứng dụng AI thành công trong chẩn đoán hình ảnh, cần có sự hợp tác chặt chẽ giữa các kỹ sư và bác sĩ. Các kỹ sư cần hiểu rõ các yêu cầu và thách thức trong lĩnh vực y tế, trong khi các bác sĩ cần có kiến thức về các thuật toán học máy và khả năng diễn giải kết quả. Sự hợp tác này sẽ giúp tạo ra các giải pháp AI hiệu quả và phù hợp với nhu cầu thực tế.

23/05/2025

Bạn đang xem trước tài liệu:

Ứng dụng học máy trong nghiên cứu bài toán phân loại dữ liệu hình ảnh x quang lồng ngực

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI), ứng dụng học máy trong lĩnh vực y tế ngày càng được quan tâm, đặc biệt trong việc phân loại và chẩn đoán bệnh lý qua hình ảnh y khoa. Theo báo cáo của ngành, chụp X-quang lồng ngực là một trong những phương pháp cận lâm sàng quan trọng giúp phát hiện sớm các bất thường về phổi. Tuy nhiên, việc phân loại chính xác các hình ảnh X-quang vẫn còn nhiều thách thức do tính đa dạng và phức tạp của dữ liệu. Mục tiêu nghiên cứu của luận văn là ứng dụng các mô hình học máy, đặc biệt là các phiên bản của mô hình YOLO (You Only Look Once), để phát hiện và phân loại các bất thường trên ảnh X-quang lồng ngực, sử dụng bộ dữ liệu “Phát hiện bất thường trên ảnh X-quang lồng ngực” do Viện Nghiên cứu Dữ liệu lớn VinBigdata cung cấp. Nghiên cứu tập trung vào việc đánh giá hiệu quả của các mô hình YOLO trong việc phát hiện các tổn thương phổi, với phạm vi thời gian nghiên cứu năm 2023 tại Bình Định. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác và tốc độ xử lý trong chẩn đoán hình ảnh, góp phần hỗ trợ bác sĩ trong việc phát hiện sớm và điều trị kịp thời các bệnh lý về phổi.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của mạng neuron tích chập (Convolutional Neural Networks - CNN) và các mô hình phát hiện đối tượng hiện đại như Faster R-CNN và họ YOLO. CNN là kiến trúc mạng thần kinh sâu chuyên dụng cho xử lý ảnh, bao gồm các lớp tích chập, lớp gộp và lớp kết nối đầy đủ, giúp trích xuất đặc trưng không gian từ hình ảnh. Mô hình Faster R-CNN sử dụng mạng đề xuất vùng (Region Proposal Networks - RPN) để xác định các vùng có khả năng chứa đối tượng trước khi phân loại, trong khi YOLO thực hiện phát hiện đối tượng trong một bước duy nhất, tối ưu cho tốc độ và hiệu quả. Các khái niệm chính bao gồm hàm kích hoạt (ReLU, sigmoid), các thước đo đánh giá mô hình như Precision, Recall, F1-score, Intersection over Union (IoU), Average Precision (AP) và Mean Average Precision (mAP). Ngoài ra, kỹ thuật Non-Maximum Suppression (NMS) được sử dụng để loại bỏ các dự đoán trùng lặp, nâng cao chất lượng phát hiện.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu “Phát hiện bất thường trên ảnh X-quang lồng ngực” gồm khoảng 18 loại bất thường được gắn nhãn rõ ràng, do Viện Nghiên cứu Dữ liệu lớn VinBigdata cung cấp. Phương pháp nghiên cứu bao gồm tiền xử lý dữ liệu, phân chia tập dữ liệu thành tập huấn luyện, tập xác thực và tập kiểm tra với tỷ lệ phù hợp để đảm bảo tính khách quan. Các mô hình YOLO từ phiên bản YOLOv1 đến YOLOv7 được triển khai và đào tạo trên bộ dữ liệu này, sử dụng kỹ thuật tăng cường dữ liệu như Mosaic, MixUp và các phương pháp chính quy hóa như Dropout, Early Stopping để tránh overfitting. Phân tích kết quả dựa trên các chỉ số Precision, Recall, F1-score và mAP để đánh giá hiệu suất mô hình. Thời gian nghiên cứu kéo dài trong năm 2023, với các giai đoạn thu thập dữ liệu, xây dựng mô hình, đào tạo và đánh giá kết quả. Ngoài ra, một hệ thống giao diện người dùng đơn giản được xây dựng bằng FastAPI để minh họa khả năng ứng dụng thực tế của mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình YOLOv7 vượt trội: Mô hình YOLOv7 đạt độ chính xác trung bình (mAP) khoảng 70% trên bộ dữ liệu kiểm tra, cao hơn 15-20% so với các phiên bản YOLO trước đó như YOLOv3 và YOLOv5. Điều này chứng tỏ sự cải tiến đáng kể về khả năng phát hiện và phân loại các bất thường trên ảnh X-quang lồng ngực.
Tỷ lệ Precision và Recall cân bằng: Mô hình đạt Precision khoảng 72% và Recall khoảng 68%, cho thấy khả năng dự đoán chính xác các trường hợp dương tính và phát hiện được phần lớn các bất thường thực tế. F1-score trung bình đạt 70%, phản ánh sự cân bằng giữa độ chính xác và độ nhạy của mô hình.
Ảnh hưởng của kỹ thuật tăng cường dữ liệu: Việc áp dụng các kỹ thuật như Mosaic và MixUp giúp tăng khoảng 10% hiệu suất mô hình so với khi không sử dụng, đặc biệt cải thiện khả năng nhận diện các đối tượng nhỏ và phức tạp trên ảnh.
Tốc độ xử lý phù hợp với ứng dụng thực tế: Mô hình YOLOv7 có thể xử lý khoảng 30 hình ảnh mỗi giây trên GPU NVIDIA Tesla T4, đáp ứng yêu cầu thời gian thực trong môi trường lâm sàng.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của YOLOv7 là sự kết hợp giữa kiến trúc mạng tối ưu với các kỹ thuật bag-of-freebies và bag-of-specials, giúp tăng khả năng học và giảm thiểu overfitting. So với các nghiên cứu trước đây sử dụng Faster R-CNN hoặc YOLOv3, kết quả này cho thấy sự tiến bộ rõ rệt về cả độ chính xác và tốc độ. Biểu đồ precision-recall curve minh họa sự cân bằng tốt giữa hai chỉ số này, trong khi bảng so sánh mAP giữa các phiên bản YOLO thể hiện sự vượt trội của YOLOv7. Kết quả cũng nhấn mạnh tầm quan trọng của bộ dữ liệu chuẩn hóa và kỹ thuật tăng cường dữ liệu trong việc nâng cao hiệu suất mô hình. Việc xây dựng giao diện người dùng giúp minh họa tính khả thi của mô hình trong thực tế, hỗ trợ bác sĩ trong quá trình chẩn đoán.

Đề xuất và khuyến nghị

Triển khai mô hình YOLOv7 trong hệ thống chẩn đoán hình ảnh: Đề xuất các bệnh viện và trung tâm y tế ứng dụng mô hình YOLOv7 để hỗ trợ phát hiện sớm các bất thường trên ảnh X-quang lồng ngực, nhằm nâng cao hiệu quả chẩn đoán và giảm tải cho bác sĩ. Thời gian triển khai dự kiến trong vòng 6 tháng.
Phát triển bộ dữ liệu mở rộng và đa dạng hơn: Khuyến nghị các tổ chức nghiên cứu phối hợp thu thập và chuẩn hóa thêm các bộ dữ liệu X-quang lồng ngực với đa dạng bệnh lý và đặc điểm dân số để cải thiện khả năng tổng quát hóa của mô hình. Dự kiến thực hiện trong 1-2 năm.
Tăng cường đào tạo và nâng cao nhận thức về AI cho nhân viên y tế: Tổ chức các khóa đào tạo chuyên sâu về ứng dụng AI trong y tế, giúp nhân viên y tế hiểu và sử dụng hiệu quả các công cụ hỗ trợ chẩn đoán dựa trên học máy. Thời gian thực hiện trong 12 tháng.
Nghiên cứu phát triển giao diện người dùng thân thiện và tích hợp hệ thống: Đề xuất phát triển các ứng dụng phần mềm tích hợp mô hình AI với hệ thống quản lý bệnh viện, đảm bảo tính tiện lợi và bảo mật thông tin bệnh nhân. Thời gian phát triển dự kiến 9-12 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học dữ liệu và Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học máy trong xử lý ảnh y tế, giúp mở rộng hiểu biết và phát triển các nghiên cứu tiếp theo.
Bác sĩ và chuyên gia y tế trong lĩnh vực chẩn đoán hình ảnh: Tài liệu giúp hiểu rõ về các công nghệ AI hỗ trợ chẩn đoán, từ đó áp dụng hiệu quả trong thực tế lâm sàng.
Nhà phát triển phần mềm và kỹ sư AI: Cung cấp các kiến thức về kiến trúc mạng YOLO và kỹ thuật đào tạo mô hình, hỗ trợ phát triển các sản phẩm AI trong y tế.
Quản lý và hoạch định chính sách y tế: Giúp đánh giá tiềm năng ứng dụng AI trong nâng cao chất lượng dịch vụ y tế, từ đó xây dựng các chính sách hỗ trợ phát triển công nghệ.

Câu hỏi thường gặp

Học máy có thể thay thế hoàn toàn bác sĩ trong chẩn đoán không?
Học máy hỗ trợ chẩn đoán bằng cách tăng độ chính xác và tốc độ xử lý, nhưng không thay thế hoàn toàn bác sĩ. Ví dụ, mô hình YOLO giúp phát hiện bất thường nhanh hơn, nhưng bác sĩ vẫn cần đánh giá tổng thể và quyết định cuối cùng.
Bộ dữ liệu X-quang lồng ngực có ảnh hưởng thế nào đến hiệu quả mô hình?
Bộ dữ liệu chuẩn hóa, đa dạng và có số lượng lớn giúp mô hình học tốt hơn, giảm overfitting và tăng khả năng tổng quát hóa. Trong nghiên cứu, bộ dữ liệu VinBigdata với 18 loại bất thường đã hỗ trợ hiệu quả cho mô hình YOLO.
Tại sao chọn mô hình YOLO thay vì Faster R-CNN?
YOLO có ưu điểm về tốc độ xử lý thời gian thực và kiến trúc đơn giản, phù hợp với ứng dụng cần phản hồi nhanh như chẩn đoán hình ảnh. Mặc dù Faster R-CNN có độ chính xác cao, nhưng tốc độ chậm hơn nhiều.
Các kỹ thuật tăng cường dữ liệu có tác dụng gì?
Tăng cường dữ liệu như Mosaic, MixUp giúp mô hình học được các biến thể khác nhau của hình ảnh, cải thiện khả năng nhận diện các đối tượng nhỏ và phức tạp, từ đó nâng cao độ chính xác.
Làm thế nào để tránh overfitting khi đào tạo mô hình?
Sử dụng các kỹ thuật chính quy hóa như Dropout, Early Stopping, chia tập dữ liệu hợp lý và tăng cường dữ liệu giúp giảm overfitting, đảm bảo mô hình hoạt động tốt trên dữ liệu mới.

Kết luận

Ứng dụng học máy, đặc biệt là các phiên bản YOLO, đã chứng minh hiệu quả trong phân loại và phát hiện bất thường trên ảnh X-quang lồng ngực với độ chính xác và tốc độ cao.
Mô hình YOLOv7 đạt mAP khoảng 70%, vượt trội so với các phiên bản trước, phù hợp cho ứng dụng thực tế trong y tế.
Kỹ thuật tăng cường dữ liệu và chính quy hóa đóng vai trò quan trọng trong việc nâng cao hiệu suất mô hình và tránh overfitting.
Việc xây dựng giao diện người dùng minh họa khả năng ứng dụng mô hình trong môi trường lâm sàng, hỗ trợ bác sĩ chẩn đoán nhanh chóng và chính xác hơn.
Các bước tiếp theo bao gồm triển khai mô hình trong hệ thống y tế, mở rộng bộ dữ liệu và đào tạo nhân lực để tận dụng tối đa tiềm năng của AI trong chẩn đoán hình ảnh.

Hãy bắt đầu áp dụng các giải pháp AI tiên tiến để nâng cao chất lượng chăm sóc sức khỏe và đẩy mạnh nghiên cứu ứng dụng học máy trong y tế.

Trích đoạn nội dung tài liệu

Chương 1 Kiến thức chuẩn bị Chương này nhằm mục đích hệ thống hoá lại khái niệm và thuật ngữ chính có liên quan làm cơ sở cho việc triển khai các nội dung về sau. Chúng được chọn lọc ra từ một số lượng tương đối các tài liệu tham khảo thuộc lĩnh vực có liên quan đến đề tài, và rất nhiều trong số đó là tài liệu ngoại văn. Để đảm bảo tính thống nhất, chúng tôi đã cố gắng thực hiện việc chuyển ngữ khi có phương án phù hợp, tuy nhiên, vẫn còn nhiều tình huống chưa thể khắc phục được tối ưu tác giả vẫn dùng lại thuật ngữ gốc tiếng Anh trong nguyên bản. Mạng neuron Mạng neuron (nhân tạo) bao gồm một tập hợp các đơn vị xử lý (processing units) được kết nối với nhau.

Cho các giá trị đầu vào w0 , x1 ,. , xD , với w0 là đại diện cho các giá trị nhập vào từ bên ngoài và x1 ,. , xD là đầu vào có nguồn gốc từ các đơn vị xử lý khác trong mạng neuron, đơn vị xử lý tính toán đầu ra của nó là y = f (z). f được gọi là hàm kích hoạt và z thu được bằng cách áp dụng quy tắc lan truyền (propagation rule), ở đó các input được ánh xạ tới đầu vào thực tế z.

Mô hình của một đơn vị xử lý này bao gồm định nghĩa về neuron trong [7], thay vì quy tắc lan truyền, một bộ cộng (adder) được sử dụng để tính z là tổng trọng số của tất cả các input. Mạng neuron có thể được hình dung dưới dạng đồ thị có hướng gọi là biểu đồ mạng (network graph) [8]. Mỗi đơn vị được biểu diễn bằng một nút được gắn nhãn theo đầu ra của nó và các đơn vị được kết nối với nhau bằng các cạnh có hướng. Đối với một đơn vị xử lý, điều này được minh họa trong Hình 1.1, trong đó đầu vào bên ngoài w0 chỉ được thêm vào nhằm mục đích minh họa và thường bị bỏ qua.

Để thuận tiện, chúng tôi phân biệt đơn vị đầu vào và đơn vị đầu ra. Đơn vị đầu vào tính toán đầu ra y := x trong đó x là giá trị đầu vào duy nhất của đơn vị. Các đơn vị đầu ra có thể 4 Hình 1.1: Một đơn vị xử lý bao gồm một quy tắc 1 truyền ánh xạ từ tất cả các đầu vào w0 , x1. , xD tới w0 đầu vào thực tế z và hàm kích hoạt f được áp dụng x1 trên đầu vào thực tế để tạo thành đầu ra y = f (z).

y Mỗi đơn vị đều được gắn nhãn theo đầu ra của nó. Do đó, để bao gồm cả độ lệch w0 , một đơn vị giả có xD giá trị 1 được đưa vào. chấp nhận một số lượng giá trị đầu vào tùy ý. Nhìn chung, mạng đại diện cho một hàm y(x) có kích thước được cố định bởi số lượng đơn vị đầu vào và đơn vị đầu ra, điều này có nghĩa là đầu vào của mạng được các đơn vị đầu vào chấp nhận và các đơn vị đầu ra tạo thành đầu ra của mạng.

Perceptron đa tầng Thuật toán Perceptron (L + 1) tầng, được minh họa trong Hình 1.2, bao gồm các đơn vị đầu vào D, đơn vị đầu ra C và một số đơn vị được gọi là đơn vị ẩn. Các đơn vị được sắp xếp thành các tầng, đó là một perceptron nhiều tầng bao gồm một tầng đầu vào, một tầng đầu ra và L các tầng ẩn 1. Đơn vị thứ i trong tầng l tính toán đầu ra m(l−1) (l) (l) (l) (l) (l−1) (l) yi = f zi với zi = ∑ wi,k yk + wi,0 (1.1) k=1 (l) trong đó, wi,k biểu thị kết nối có trọng số từ đơn vị thứ k trong tầng (l − 1) đến đơn vị thứ i (l) trong tầng l và wi,0 có thể được coi là đầu vào bên ngoài của đơn vị và được gọi là độ lệch.2) k=0 trong đó z(l) , w(l) và y(l−1) biểu thị các biểu diễn vectơ và ma trận tương ứng của các đầu (l) (l) (l−1) vào thực tế zi , các trọng số wi,k và kết quả đầu ra tương ứng là yk. Theo ngôn ngữ toán học, một perceptron đa tầng nói chung đại diện cho một hàm y(·, w) : RD → RC , x 7→ y(x, w) (1.3) (L+1) với vectơ đầu ra y(x, w) bao gồm các giá trị đầu ra yi (x, w) := yi và w là vectơ của tất cả các trọng số trong mạng.

1 Trên thực tế, một perceptron (L + 1) tầng có (L + 2) tầng bao gồm cả tầng đầu vào. Tuy nhiên, như đã nêu trong [9], tầng đầu vào không được tính vì không có quá trình xử lý thực sự nào diễn ra. 5 1st hidden layer Lth hidden layer input layer output layer (1) .2: Biểu đồ mạng của perceptron (L + 1) tầng với đơn vị đầu vào D và đơn vị đầu ra C. Tầng ẩn thứ l chứa các đơn vị ẩn m(l).

Người ta thường nói là mạng lưới thần kinh sâu nếu nó có nhiều hơn ba tầng ẩn [10]. Việc đào tạo mạng lưới thần kinh sâu, hay còn gọi là học sâu, được coi là thách thức đặc biệt [10]. Hàm kích hoạt Trong [7], ba loại hàm kích hoạt được thảo luận: hàm ngưỡng (threshold functions), hàm tuyến tính từng đoạn (piecewise-linear functions) và hàm sigmoid. Hàm ngưỡng phổ biến được đưa ra bởi hàm bước Heaviside   1 if z ≥ 0,  h(z) = (1.

  Tuy nhiên, cả hai hàm ngưỡng cũng như hàm tuyến tính từng đoạn đều có một số hạn chế. Đầu tiên, để huấn luyện mạng, chúng ta có thể cần hàm kích hoạt có tính khả vi. Thứ hai, các hàm kích hoạt phi tuyến được ưa chuộng hơn do khả năng tính toán bổ sung mà chúng tạo ra [11]. Loại hàm kích hoạt được sử dụng phổ biến nhất là hàm sigmoid.

Ví dụ, hàm sigmoid logistic được cho bởi 1 σ(z) = .5) 1 + exp(−z) Đồ thị của nó có hình chữ S, khả vi, đơn điệu. Một ứng viên khác là hàm tanh(z), có thể được coi là phép biến đổi tuyến tính của hàm sigmoid logistic trên khoảng [−1, 1]. 6 Logistic sigmoid 1 Hyperbolic tangent 1 tanh(z) σ(z) 0 0.5 −1 0 −4 −2 0 2 4 −4 −2 0 2 4 z z (a) Hàm kích hoạt Logistic sigmoid. (b) Hàm kích hoạt tanget Hyperbolic.

1 Softsign 1 Rectified tanh tanh(z) s(z) 0.5 0 0 −4 −2 0 2 4 −4 −2 0 2 4 z z (c) Hàm kích hoạt Logistic sigmoid. (d) Hàm kích hoạt tanget hyperbol chỉnh lưu.3: Một số hàm kích hoạt. Khi sử dụng mạng neuron để phân loại 2 , hàm kích hoạt softmax cho các đơn vị đầu ra được sử dụng để diễn giải các giá trị đầu ra dưới dạng xác suất3. Theo đó, đầu ra của đơn vị thứ i trong lớp đầu ra được cho bởi (L+1) exp(zi ) σ(z(L+1) , i) = (L+1) .6) ∑Ck=1 exp(zk ) Các thử nghiệm trong [12] cho thấy rằng hàm sigmoid logistic cũng như tanh (·) hoạt động khá kém trong học sâu.

Hiệu suất tốt hơn được thể hiện qua hàm kích hoạt softsign 1 s(z) = .8) Đơn vị ẩn sử dụng hàm kích hoạt trong phương trình (1.8) được gọi là đơn vị tuyến tính chỉnh lưu (ReLU). Một số hàm kích hoạt trên được minh họa trong Hình 1. Đào tạo có giám sát Đào tạo có giám sát là vấn đề xác định trọng số mạng để xấp xỉ ánh xạ mục tiêu cụ thể g. Trong thực tế, g có thể chưa biết nên ánh xạ được đưa ra bởi một tập dữ liệu đào tạo.

Bộ 2 Nhiệm vụ phân loại có thể được phát biểu như sau: Cho một vectơ đầu vào x có kích thước D, mục tiêu là gán x cho một trong các lớp rời rạc C [9]. 3 Các đầu ra y(L+1) , 1 ≤ i ≤ C, có thể được hiểu là xác suất khi chúng nằm trong [0, 1] và có tổng bằng 1. i 7 đào tạo TS := {(xn ,tn ) : 1 ≤ n ≤ N}, (1.9) bao gồm cả giá trị đầu vào xn và giá trị đầu ra mong muốn tương ứng, có thể có nhiễu tn ≈ g(xn ) [7]. Các thước đo sai số Quá trình đào tạo được thực hiện bằng cách điều chỉnh các trọng số w của mạng neuron để giảm thiểu hàm mục tiêu đã chọn, hàm này có thể được hiểu là thước đo sai số giữa đầu ra mạng y(xn ) và đầu ra mục tiêu mong muốn tn.

Các lựa chọn phổ biến để phân loại bao gồm thước đo tổng bình phương sai số được đưa ra bởi N N C E(w) = ∑ En (w) = ∑ ∑ (yk (xn , w) − tn,k )2 , (1.10) n=1 n=1 k=1 và thước đo cross-entropy sai số được đưa ra bởi N N C E(w) = ∑ En (w) = ∑ ∑ tn,k log(yk (xn , w)), (1.11) n=1 n=1 k=1 trong đó tn,k là mục thứ k của giá trị đích tn. Chi tiết về việc lựa chọn thước đo sai số và các thuộc tính của chúng có thể tìm thấy trong [8]. Tiếp theo, chúng tôi giới thiệu một số khái niệm thường dùng trong học sâu. Stochastic training Giá trị đầu vào được chọn ngẫu nhiên và trọng số mạng được cập nhật dựa trên sai số En (w).

Batch training Tất cả các giá trị đầu vào đều được xử lý và trọng số được cập nhật dựa trên sai số tổng thể E(w) = ∑Nn=1 En (w). Online training Mỗi giá trị đầu vào chỉ được xử lý một lần và các trọng số được cập nhật bằng sai số En (w). Mini-batch training Một tập hợp con ngẫu nhiên M ⊆ {1,. Parameter Optimization Xét quá trình ngẫu nhiên, chúng tôi tìm cách giảm En với trọng số w.

Tiêu chí cần thiết là ∂En ! = ∇En (w) = 0 (1.4: Ý tưởng về gradient w[0] descent là tuân theo độ dốc âm w[1] ở vị trí hiện tại vì nó mô tả w[2] hướng đi xuống dốc nhất. Tốc w[3] độ học γ mô tả kích thước bước w[4] được thực hiện trong mỗi bước lặp. Do đó, gradient descent mô tả một kỹ thuật tối ưu hóa bậc nhất. trong đó ∇En là đạo hàm của sai số En.

Do sự phức tạp của sai số En nên cần sử dụng phương pháp lặp để giải nghiệm. Đặt w[t] biểu thị vectơ trọng số trong lần lặp thứ t. Trong mỗi lần lặp, chúng tôi tính toán và cập nhật trọng số ∆w[t] và trọng số tương ứng w[t + 1] = w[t] + ∆w[t].13) Từ tối ưu hóa không ràng buộc, chúng tôi có sẵn một số kỹ thuật tối ưu hóa.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Ứng Dụng Học Máy Trong Phân Loại Dữ Liệu Hình Ảnh X-Quang Lồng Ngực" khám phá cách mà công nghệ học máy có thể cải thiện quy trình chẩn đoán bệnh phổi thông qua việc phân tích hình ảnh X-quang. Bài viết nhấn mạnh những lợi ích của việc áp dụng học máy, bao gồm khả năng tăng cường độ chính xác trong việc phát hiện các bệnh lý, giảm thiểu thời gian chẩn đoán và hỗ trợ bác sĩ trong việc đưa ra quyết định điều trị.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận văn tốt nghiệp đại học ngành hệ thống thông tin đề tài hệ thống hỗ trợ chẩn đoán bệnh phổi dựa trên ảnh x quang, nơi cung cấp cái nhìn sâu sắc về các hệ thống hỗ trợ chẩn đoán. Ngoài ra, tài liệu Luận văn thạc sĩ công nghệ thông tin một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú cũng sẽ giúp bạn hiểu rõ hơn về ứng dụng của học máy trong y tế. Cuối cùng, bạn có thể tìm hiểu thêm về Trực quan hóa dữ liệu và khai phá dữ liệu dịch bệnh covid 19 bằng học máy, một nghiên cứu thú vị về cách học máy có thể hỗ trợ trong việc phân tích dữ liệu dịch bệnh. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về ứng dụng của học máy trong lĩnh vực y tế.

#công nghệ học sâu

#học máy trong y tế

#phân tích hình ảnh y tế

#phân loại hình ảnh y tế

#dữ liệu hình ảnh X-quang

#hình ảnh lồng ngực

Chủ đề

Ứng dụng học máy trong y tế

Công nghệ phân loại hình ảnh

Nghiên cứu về X-quang

Tương lai của AI trong y tế