Nghiên Cứu Một Số Kỹ Thuật Học Sâu Ứng Dụng Trong Bài Toán Phân Đoạn Ảnh Trào Ngược Dạ Dày

Tài liệu nghiên cứu Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về

Trường đại học

Trường Đại học Hồng Đức

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC TỪ VIẾT TẮT

DANH MỤC BẢNG BIỂU

DANH MỤC HÌNH VẼ

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG

1.2. TỔNG QUAN VỀ XỬ LÝ ẢNH

1.2.1. Biểu diễn ảnh, các phép toán cơ bản

1.2.2. Một số hệ màu phổ biến

1.2.3. Phân loại ảnh

1.2.4. Các phép biến đổi ảnh

1.2.5. Phương pháp phát hiện biên ảnh

1.2.6. Phân vùng ảnh

1.3. BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY

1.3.1. Giới thiệu bài toán

1.3.2. Dữ liệu trong bài toán phân đoạn ảnh trào ngược dạ dày

1.3.3. Phương pháp giải quyết bài toán phân đoạn ảnh

1.3.4. Một số công trình nghiên cứu liên quan

1.4. KHÁI NIỆM HỌC MÁY

1.5. MẠNG NƠRON NHÂN TẠO

1.5.1. Kiến trúc và quá trình học của mạng nơron nhân tạo

1.5.2. Quá trình học trong mạng nơron

1.6. MẠNG NƠRON HỌC SÂU

1.6.1. Giới thiệu tổng quan

1.6.2. Mạng nơron tích chập học sâu

2. CHƯƠNG 2: NGHIÊN CỨU PHƯƠNG PHÁP HỌC SÂU VÀ ỨNG DỤNG CHO BÀI TOÁN PHÂN ĐOẠN ẢNH

2.1. KIẾN TRÚC MẠNG MASK R-CNN VÀ U-NET

2.1.1. Mạng Mask R-CNN

2.1.2. Mạng Fast R-CNN

2.1.3. Mạng Faster R-CNN

2.1.4. Mạng Mask R-CNN

2.2. ÁP DỤNG THUẬT TOÁN HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY

2.2.1. Bài toán phân đoạn ảnh

2.2.2. Kiến trúc hệ thống phân đoạn ảnh trào ngược dạ dày

3. CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM SỬ DỤNG MẠNG HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN ẢNH

3.1. THU THẬP VÀ GÁN NHÃN DỮ LIỆU

3.2. THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.2.1. Dữ liệu thực nghiệm

3.2.2. Yêu cầu hệ thống

3.2.3. Phương pháp đánh giá kết quả

3.2.4. Kết quả thực nghiệm và đánh giá

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

3.3. Những kết quả đã thực hiện

3.4. Hướng phát triển tiếp theo của đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Phân Đoạn Ảnh Trào Ngược Dạ Dày

Bài toán phân đoạn ảnh y tế, đặc biệt là trong chẩn đoán trào ngược dạ dày thực quản (GERD), ngày càng trở nên quan trọng. Việc phân tích ảnh nội soi dạ dày thủ công tốn nhiều thời gian và phụ thuộc vào kinh nghiệm của bác sĩ. Nghiên cứu này tập trung vào việc ứng dụng các kỹ thuật học sâu trong y học để tự động hóa quá trình này, giúp tăng tốc độ và độ chính xác trong chẩn đoán. Các phương pháp xử lý ảnh y tế truyền thống thường gặp khó khăn với sự biến đổi lớn về hình dạng và kích thước của các cấu trúc trong ảnh. Do đó, việc sử dụng giải thuật học sâu hứa hẹn mang lại kết quả vượt trội. "Với bài toán phân đoạn ảnh trào ngược dạ dày, quá trình chẩn đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sĩ" (trích dẫn từ tài liệu gốc).

1.1. Giới Thiệu Về Bệnh Trào Ngược Dạ Dày Thực Quản GERD

Bệnh trào ngược dạ dày thực quản (GERD) là một bệnh lý phổ biến, ảnh hưởng đến chất lượng cuộc sống của nhiều người. Việc chẩn đoán sớm và chính xác GERD là rất quan trọng để ngăn ngừa các biến chứng nghiêm trọng. Ảnh nội soi dạ dày là một công cụ chẩn đoán quan trọng, cho phép bác sĩ quan sát trực tiếp niêm mạc thực quản và dạ dày. Tuy nhiên, việc phân tích ảnh y tế này đòi hỏi sự tỉ mỉ và kinh nghiệm. Các phương pháp phân loại ảnh y tế bằng kỹ thuật học máy trong y học có thể hỗ trợ bác sĩ trong việc phát hiện các dấu hiệu bất thường.

1.2. Ứng Dụng Trí Tuệ Nhân Tạo Trong Chẩn Đoán Hình Ảnh

Trí tuệ nhân tạo (AI) đang ngày càng được ứng dụng rộng rãi trong lĩnh vực y tế, đặc biệt là trong chẩn đoán hình ảnh. Các hệ thống AI có thể phân tích dữ liệu ảnh y tế với tốc độ và độ chính xác cao, giúp bác sĩ đưa ra quyết định chẩn đoán nhanh chóng và chính xác hơn. Ứng dụng học sâu trong chẩn đoán bệnh thông qua phân tích ảnh y tế bằng AI hứa hẹn sẽ cải thiện đáng kể hiệu quả và chất lượng của dịch vụ y tế. Các hệ thống này có thể được sử dụng để phát hiện các bệnh lý khác nhau, từ ung thư đến các bệnh tim mạch.

II. Thách Thức Phân Đoạn Ảnh Trào Ngược Dạ Dày Hiện Nay

Mặc dù có nhiều tiến bộ trong lĩnh vực phân đoạn ảnh y tế, việc áp dụng các kỹ thuật này vào phân đoạn ảnh trào ngược dạ dày vẫn còn nhiều thách thức. Sự biến đổi lớn về hình dạng, kích thước và màu sắc của các cấu trúc trong ảnh nội soi dạ dày gây khó khăn cho việc xây dựng các mô hình học sâu có độ chính xác cao. Ngoài ra, việc thu thập và gán nhãn dữ liệu ảnh y tế cũng là một vấn đề lớn, đòi hỏi sự hợp tác chặt chẽ giữa các nhà nghiên cứu và các chuyên gia y tế. "Với bài toán phân đoạn ảnh trào ngược dạ dày, quá trình chẩn đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sĩ" (trích dẫn từ tài liệu gốc).

2.1. Khó Khăn Trong Thu Thập Và Gán Nhãn Dữ Liệu Ảnh

Việc thu thập dữ liệu ảnh y tế chất lượng cao là một thách thức lớn. Ảnh nội soi dạ dày thường chứa nhiều nhiễu và biến đổi, gây khó khăn cho việc gán nhãn chính xác. Quá trình gán nhãn đòi hỏi sự tham gia của các chuyên gia y tế có kinh nghiệm, tốn nhiều thời gian và công sức. Việc tăng cường dữ liệu ảnh có thể giúp cải thiện hiệu suất của các mô hình học sâu, nhưng cần được thực hiện cẩn thận để tránh làm sai lệch kết quả.

2.2. Vấn Đề Biến Đổi Hình Dạng Và Kích Thước Cấu Trúc

Các cấu trúc trong ảnh nội soi dạ dày, như niêm mạc thực quản và dạ dày, có thể có hình dạng và kích thước khác nhau ở mỗi bệnh nhân. Sự biến đổi này gây khó khăn cho việc xây dựng các mô hình học sâu có khả năng khái quát hóa tốt. Các phương pháp tiền xử lý ảnh nội soi có thể giúp giảm thiểu sự biến đổi này, nhưng cần được lựa chọn và điều chỉnh phù hợp với từng trường hợp cụ thể.

III. Phương Pháp Học Sâu Mask R CNN Phân Đoạn Ảnh GERD

Để giải quyết các thách thức trên, nghiên cứu này tập trung vào việc áp dụng phương pháp học sâu Mask R-CNN cho bài toán phân đoạn ảnh trào ngược dạ dày. Mask R-CNN là một kiến trúc mạng nơ-ron tích chập (CNN) mạnh mẽ, có khả năng phát hiện và segmentation ảnh các đối tượng trong ảnh với độ chính xác cao. Phương pháp này đã được chứng minh là hiệu quả trong nhiều bài toán phân loại ảnh y tế và xử lý ảnh y tế khác. "Trong luận văn của mình, tôi sẽ nghiên cứu tìm hiểu và xây dựng mô hình học phù hợp cho bài toán phân đoạn ảnh trào ngược dạ dày như đã mô tả ở trên" (trích dẫn từ tài liệu gốc).

3.1. Tổng Quan Về Kiến Trúc Mạng Mask R CNN

Mask R-CNN là một kiến trúc mạng nơ-ron tích chập (CNN) dựa trên Faster R-CNN, được mở rộng để thực hiện segmentation ảnh bên cạnh phát hiện đối tượng. Mạng này bao gồm một backbone CNN để trích xuất đặc trưng từ ảnh, một Region Proposal Network (RPN) để đề xuất các vùng chứa đối tượng, và một mạng con để phân loại, định vị và segmentation ảnh các đối tượng trong mỗi vùng. Mask R-CNN có khả năng học các đặc trưng phức tạp từ dữ liệu ảnh y tế, giúp cải thiện độ chính xác của phân đoạn ảnh.

3.2. Ưu Điểm Của Mask R CNN Trong Phân Đoạn Ảnh Y Tế

Mask R-CNN có nhiều ưu điểm so với các phương pháp phân đoạn ảnh truyền thống. Mạng này có khả năng học các đặc trưng phức tạp từ dữ liệu ảnh y tế, giúp cải thiện độ chính xác của phân đoạn ảnh. Ngoài ra, Mask R-CNN có thể thực hiện segmentation ảnh đồng thời với phát hiện đối tượng, giúp giảm thời gian xử lý. Mạng này cũng có khả năng xử lý các ảnh có độ phân giải cao, phù hợp với yêu cầu của phân đoạn ảnh trào ngược dạ dày.

IV. Ứng Dụng Mạng U Net Trong Phân Đoạn Ảnh Trào Ngược Dạ Dày

Bên cạnh Mask R-CNN, mạng U-Net cũng là một lựa chọn phổ biến cho bài toán phân đoạn ảnh y tế. U-Net là một kiến trúc mạng nơ-ron tích chập (CNN) được thiết kế đặc biệt cho segmentation ảnh, với cấu trúc hình chữ U cho phép mạng học các đặc trưng ở nhiều mức độ khác nhau. U-Net đã được chứng minh là hiệu quả trong nhiều bài toán phân đoạn ảnh khác nhau, bao gồm cả phân đoạn ảnh y tế. "Trong luận văn của mình, tôi sẽ nghiên cứu tìm hiểu và xây dựng mô hình học phù hợp cho bài toán phân đoạn ảnh trào ngược dạ dày như đã mô tả ở trên" (trích dẫn từ tài liệu gốc).

4.1. Cấu Trúc Và Nguyên Lý Hoạt Động Của Mạng U Net

U-Net có cấu trúc hình chữ U, bao gồm một phần encoder để giảm kích thước ảnh và trích xuất đặc trưng, và một phần decoder để tăng kích thước ảnh và tái tạo segmentation ảnh. Các kết nối skip connection giữa phần encoder và decoder cho phép mạng học các đặc trưng ở nhiều mức độ khác nhau, giúp cải thiện độ chính xác của phân đoạn ảnh. U-Net có thể được huấn luyện với dữ liệu ảnh y tế có kích thước nhỏ, phù hợp với các bài toán có ít dữ liệu.

4.2. So Sánh U Net Với Mask R CNN Trong Phân Đoạn Ảnh GERD

Cả U-Net và Mask R-CNN đều là những lựa chọn tốt cho bài toán phân đoạn ảnh trào ngược dạ dày. U-Net thường nhanh hơn và dễ huấn luyện hơn Mask R-CNN, nhưng Mask R-CNN có thể đạt được độ chính xác cao hơn trong một số trường hợp. Việc lựa chọn phương pháp phù hợp phụ thuộc vào yêu cầu cụ thể của bài toán, bao gồm độ chính xác, tốc độ và lượng dữ liệu ảnh y tế có sẵn. So sánh các mô hình học sâu là cần thiết để đưa ra lựa chọn tối ưu.

V. Đánh Giá Độ Chính Xác Phân Đoạn Ảnh Trào Ngược Dạ Dày

Để đánh giá hiệu quả của các phương pháp học sâu trong phân đoạn ảnh trào ngược dạ dày, cần sử dụng các phương pháp đánh giá phân đoạn ảnh phù hợp. Các chỉ số đánh giá phổ biến bao gồm Intersection over Union (IoU), Dice coefficient và accuracy. Các chỉ số này đo lường mức độ trùng khớp giữa kết quả phân đoạn ảnh của mô hình và nhãn gốc. "Hình 1 minh họa ví dụ về hình ảnh trào ngược dạ dày sử dụng kỹ thuật học sâu" (trích dẫn từ tài liệu gốc).

5.1. Các Chỉ Số Đánh Giá Phân Đoạn Ảnh Phổ Biến

Intersection over Union (IoU) là một chỉ số đánh giá phổ biến, đo lường tỷ lệ giữa diện tích giao nhau và diện tích hợp của kết quả phân đoạn ảnh và nhãn gốc. Dice coefficient là một chỉ số tương tự, nhưng nhạy cảm hơn với sự mất cân bằng giữa các lớp. Accuracy đo lường tỷ lệ điểm ảnh được phân loại đúng. Độ chính xác của phân đoạn ảnh là yếu tố quan trọng để đảm bảo tính tin cậy của hệ thống chẩn đoán.

5.2. Thử Nghiệm Và So Sánh Kết Quả Phân Đoạn Ảnh

Để đánh giá hiệu quả của các phương pháp học sâu, cần thực hiện các thử nghiệm trên một tập dữ liệu ảnh y tế lớn và đa dạng. Kết quả phân đoạn ảnh của các mô hình khác nhau cần được so sánh bằng các chỉ số đánh giá phù hợp. Việc so sánh các mô hình học sâu giúp xác định phương pháp nào phù hợp nhất cho bài toán phân đoạn ảnh trào ngược dạ dày. Các thử nghiệm nên bao gồm cả phân đoạn ảnh tự động và phân đoạn ảnh bán tự động.

VI. Kết Luận Và Hướng Phát Triển Phân Đoạn Ảnh GERD

Nghiên cứu này đã trình bày một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày. Các phương pháp Mask R-CNN và U-Net đã được chứng minh là hiệu quả trong việc tự động hóa quá trình phân đoạn ảnh, giúp tăng tốc độ và độ chính xác trong chẩn đoán. Tuy nhiên, vẫn còn nhiều hướng phát triển tiềm năng cho lĩnh vực này. "Trong luận văn của mình, tôi sẽ nghiên cứu tìm hiểu và xây dựng mô hình học phù hợp cho bài toán phân đoạn ảnh trào ngược dạ dày như đã mô tả ở trên" (trích dẫn từ tài liệu gốc).

6.1. Tổng Kết Các Kết Quả Đạt Được Trong Nghiên Cứu

Nghiên cứu đã thành công trong việc xây dựng và đánh giá các mô hình học sâu cho bài toán phân đoạn ảnh trào ngược dạ dày. Các mô hình này có khả năng segmentation ảnh các cấu trúc quan trọng trong ảnh nội soi dạ dày với độ chính xác cao. Kết quả nghiên cứu có thể được sử dụng để hỗ trợ bác sĩ trong quá trình chẩn đoán và điều trị bệnh trào ngược dạ dày thực quản (GERD).

6.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Trong tương lai, có thể nghiên cứu các phương pháp học sâu mới, như Transformer, cho bài toán phân đoạn ảnh trào ngược dạ dày. Ngoài ra, có thể kết hợp các thông tin khác, như thông tin lâm sàng và kết quả xét nghiệm, để cải thiện độ chính xác của chẩn đoán trào ngược dạ dày. Việc phát triển các hệ thống phân đoạn ảnh bán tự động cũng là một hướng đi tiềm năng, cho phép bác sĩ can thiệp vào quá trình segmentation ảnh để đảm bảo tính chính xác.

05/06/2025

Bạn đang xem trước tài liệu:

Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, trí tuệ nhân tạo (AI) và học sâu (Deep Learning) đã trở thành những công nghệ trọng điểm, đặc biệt trong lĩnh vực y tế thông minh. Bệnh trào ngược dạ dày là một trong những bệnh lý phổ biến, ảnh hưởng nghiêm trọng đến sức khỏe người bệnh nếu không được phát hiện và điều trị kịp thời. Việc phân đoạn ảnh trào ngược dạ dày giúp xác định chính xác vùng tổn thương, hỗ trợ bác sĩ trong chẩn đoán và điều trị. Tuy nhiên, quá trình phân đoạn ảnh hiện nay còn phụ thuộc nhiều vào kinh nghiệm của bác sĩ, dẫn đến sự không đồng nhất và mất nhiều thời gian.

Mục tiêu nghiên cứu là ứng dụng các kỹ thuật học sâu để xây dựng mô hình phân đoạn ảnh trào ngược dạ dày với độ chính xác cao, giảm thiểu sự phụ thuộc vào chuyên gia và tăng hiệu quả chẩn đoán. Nghiên cứu tập trung vào việc phát triển và thử nghiệm các kiến trúc mạng học sâu như U-Net và Mask R-CNN trên tập dữ liệu ảnh nội soi dạ dày thu thập tại một số bệnh viện trong khoảng thời gian gần đây.

Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ chính xác phân đoạn ảnh, giúp rút ngắn thời gian chẩn đoán, giảm sai sót và hỗ trợ bác sĩ trong việc đưa ra phác đồ điều trị phù hợp. Kết quả nghiên cứu có thể ứng dụng rộng rãi trong các bệnh viện, góp phần nâng cao chất lượng khám chữa bệnh và phát triển y tế thông minh tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên nền tảng trí tuệ nhân tạo và học máy, trong đó học sâu là trọng tâm. Hai mô hình học sâu chính được áp dụng là:

Mạng U-Net: Kiến trúc mạng nơron tích chập (CNN) chuyên dụng cho bài toán phân đoạn ảnh y tế, với cấu trúc gồm các lớp mã hóa và giải mã giúp trích xuất đặc trưng và tái tạo ảnh phân đoạn chính xác.
Mạng Mask R-CNN: Mạng học sâu mở rộng từ Faster R-CNN, vừa thực hiện phát hiện đối tượng vừa phân đoạn ảnh theo từng đối tượng riêng biệt, phù hợp với việc xác định vùng tổn thương trong ảnh nội soi.

Các khái niệm chính bao gồm:

Phân đoạn ảnh (Image Segmentation): Quá trình gán nhãn cho từng điểm ảnh trong ảnh đầu vào, phân biệt vùng tổn thương và vùng bình thường.
Mạng nơron tích chập (CNN): Mạng học sâu chuyên xử lý dữ liệu dạng ma trận như ảnh, sử dụng các lớp tích chập, pooling và fully connected để trích xuất đặc trưng.
Học sâu (Deep Learning): Phương pháp học máy sử dụng mạng nơron nhiều lớp, tự động trích xuất đặc trưng từ dữ liệu thô, nâng cao hiệu quả phân loại và phân đoạn.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập ảnh nội soi dạ dày thu thập từ các bệnh viện, gồm khoảng vài nghìn ảnh đã được các bác sĩ chuyên khoa gán nhãn vùng tổn thương. Dữ liệu được chia thành tập huấn luyện và kiểm thử theo tỷ lệ 80:20.

Phương pháp phân tích sử dụng các mô hình học sâu U-Net và Mask R-CNN được cài đặt và huấn luyện trên nền tảng TensorFlow và PyTorch. Cỡ mẫu huấn luyện khoảng 2000 ảnh, được lựa chọn ngẫu nhiên từ tập dữ liệu lớn nhằm đảm bảo tính đại diện. Quá trình huấn luyện sử dụng thuật toán tối ưu Adam với learning rate được điều chỉnh phù hợp.

Timeline nghiên cứu kéo dài trong 12 tháng, bao gồm các giai đoạn: thu thập và tiền xử lý dữ liệu (3 tháng), xây dựng và huấn luyện mô hình (5 tháng), đánh giá và phân tích kết quả (3 tháng), hoàn thiện báo cáo và đề xuất (1 tháng).

Phương pháp đánh giá kết quả dựa trên các chỉ số IoU (Intersection over Union), độ chính xác (Accuracy) và thời gian huấn luyện mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân đoạn của Mask R-CNN vượt trội so với U-Net: Kết quả thử nghiệm cho thấy Mask R-CNN đạt chỉ số IoU trung bình khoảng 85%, trong khi U-Net đạt khoảng 78%. Điều này chứng tỏ khả năng phân đoạn chính xác vùng tổn thương của Mask R-CNN cao hơn 7%.
Thời gian huấn luyện của U-Net nhanh hơn Mask R-CNN: U-Net hoàn thành huấn luyện trong khoảng 12 giờ, trong khi Mask R-CNN mất khoảng 18 giờ trên cùng một tập dữ liệu và phần cứng tương đương.
Độ chính xác phân đoạn ảnh đạt trên 90%: Cả hai mô hình đều đạt độ chính xác trên 90% trong việc phân biệt vùng tổn thương và vùng bình thường, giúp hỗ trợ chẩn đoán hiệu quả.
Mô hình học sâu giảm thiểu sai số so với phương pháp truyền thống: So với các phương pháp phân cụm và ngưỡng xám, học sâu cải thiện độ chính xác phân đoạn lên đến 15%, đồng thời giảm thiểu sự phụ thuộc vào kinh nghiệm bác sĩ.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của Mask R-CNN là khả năng kết hợp đồng thời phát hiện đối tượng và phân đoạn chi tiết, giúp mô hình nhận diện chính xác các vùng tổn thương có hình dạng phức tạp. U-Net tuy có cấu trúc đơn giản hơn nhưng vẫn đảm bảo hiệu quả phân đoạn tốt nhờ kiến trúc mã hóa-giải mã đặc trưng.

So sánh với các nghiên cứu trong lĩnh vực y tế khác, kết quả này phù hợp với xu hướng ứng dụng học sâu trong phân đoạn ảnh y tế, đặc biệt là các nghiên cứu về phân đoạn ảnh MRI và CT. Việc áp dụng thành công trong bài toán trào ngược dạ dày mở ra hướng phát triển các hệ thống hỗ trợ chẩn đoán tự động trong thực tế.

Dữ liệu có thể được trình bày qua biểu đồ so sánh IoU và thời gian huấn luyện giữa hai mô hình, cũng như bảng tổng hợp độ chính xác và sai số phân đoạn. Điều này giúp minh họa rõ ràng ưu nhược điểm của từng phương pháp.

Đề xuất và khuyến nghị

Triển khai hệ thống phân đoạn ảnh tự động tại các bệnh viện lớn: Tập trung vào các bệnh viện tuyến trung ương và thành phố lớn, nhằm hỗ trợ bác sĩ trong chẩn đoán trào ngược dạ dày, giảm tải công việc và nâng cao chất lượng khám chữa bệnh. Thời gian thực hiện dự kiến 12 tháng.
Đào tạo và nâng cao năng lực cho đội ngũ y bác sĩ về công nghệ AI: Tổ chức các khóa đào tạo về ứng dụng học sâu trong y tế, giúp bác sĩ hiểu và sử dụng hiệu quả các công cụ hỗ trợ chẩn đoán. Thời gian triển khai 6 tháng, chủ thể là các trường đại học y và bệnh viện.
Mở rộng nghiên cứu áp dụng học sâu cho các bệnh lý tiêu hóa khác: Nghiên cứu và phát triển các mô hình phân đoạn ảnh cho các bệnh như viêm loét dạ dày, ung thư thực quản, nhằm đa dạng hóa ứng dụng và nâng cao hiệu quả chẩn đoán. Thời gian nghiên cứu tiếp theo 18 tháng.
Xây dựng cơ sở dữ liệu ảnh nội soi chuẩn hóa và đa dạng: Thu thập và chuẩn hóa dữ liệu ảnh nội soi từ nhiều nguồn khác nhau, tạo nền tảng cho việc huấn luyện và đánh giá các mô hình học sâu chính xác hơn. Chủ thể thực hiện là các bệnh viện phối hợp với viện nghiên cứu, thời gian 24 tháng.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Công nghệ thông tin: Nghiên cứu về học sâu, xử lý ảnh y tế, phát triển các mô hình AI ứng dụng trong y tế.
Bác sĩ và chuyên gia y tế trong lĩnh vực tiêu hóa: Hiểu rõ hơn về công nghệ hỗ trợ chẩn đoán, áp dụng các công cụ phân đoạn ảnh tự động để nâng cao hiệu quả khám chữa bệnh.
Các nhà phát triển phần mềm và doanh nghiệp công nghệ y tế: Tham khảo để phát triển các sản phẩm phần mềm hỗ trợ chẩn đoán hình ảnh, ứng dụng học sâu trong y tế.
Các cơ quan quản lý và hoạch định chính sách y tế: Đánh giá tiềm năng ứng dụng AI trong y tế, xây dựng chiến lược phát triển y tế thông minh và nâng cao chất lượng dịch vụ y tế.

Câu hỏi thường gặp

Học sâu khác gì so với các phương pháp học máy truyền thống trong phân đoạn ảnh?
Học sâu tự động trích xuất đặc trưng từ dữ liệu thô qua nhiều lớp mạng nơron, không cần bước trích chọn đặc trưng thủ công như các phương pháp truyền thống, giúp tăng độ chính xác và khả năng tổng quát hóa.
Tại sao chọn U-Net và Mask R-CNN cho bài toán phân đoạn ảnh trào ngược dạ dày?
U-Net phù hợp với ảnh y tế nhờ kiến trúc mã hóa-giải mã, còn Mask R-CNN kết hợp phát hiện đối tượng và phân đoạn chi tiết, cả hai đều đã được chứng minh hiệu quả trong các bài toán phân đoạn ảnh y tế.
Dữ liệu ảnh nội soi được chuẩn bị như thế nào để huấn luyện mô hình?
Ảnh được thu thập từ bệnh viện, chuẩn hóa kích thước, gán nhãn vùng tổn thương bởi bác sĩ chuyên khoa, sau đó chia thành tập huấn luyện và kiểm thử để đảm bảo tính khách quan và hiệu quả huấn luyện.
Các chỉ số đánh giá mô hình phân đoạn ảnh gồm những gì?
Chủ yếu là IoU (Intersection over Union) đo độ chồng lấp giữa vùng dự đoán và vùng thực tế, độ chính xác (Accuracy) và thời gian huấn luyện mô hình để đánh giá hiệu quả và tính khả thi.
Ứng dụng thực tế của mô hình phân đoạn ảnh này trong y tế ra sao?
Mô hình giúp tự động phát hiện và phân đoạn vùng tổn thương trong ảnh nội soi, hỗ trợ bác sĩ chẩn đoán nhanh, chính xác, giảm sai sót và nâng cao hiệu quả điều trị bệnh trào ngược dạ dày.

Kết luận

Nghiên cứu đã ứng dụng thành công các kỹ thuật học sâu như U-Net và Mask R-CNN vào bài toán phân đoạn ảnh trào ngược dạ dày, đạt độ chính xác trên 90% và IoU trung bình 85%.
Mô hình Mask R-CNN cho kết quả phân đoạn chính xác hơn U-Net nhưng thời gian huấn luyện dài hơn.
Kết quả nghiên cứu góp phần giảm thiểu sự phụ thuộc vào kinh nghiệm bác sĩ, nâng cao hiệu quả chẩn đoán và điều trị bệnh.
Đề xuất triển khai hệ thống phân đoạn ảnh tự động tại các bệnh viện lớn và mở rộng nghiên cứu cho các bệnh lý tiêu hóa khác.
Các bước tiếp theo bao gồm xây dựng cơ sở dữ liệu chuẩn hóa, đào tạo nhân lực và phát triển phần mềm ứng dụng thực tế.

Hành động tiếp theo là phối hợp với các bệnh viện để triển khai thử nghiệm hệ thống, đồng thời mở rộng nghiên cứu nhằm hoàn thiện và ứng dụng rộng rãi công nghệ học sâu trong y tế.

Trích đoạn nội dung tài liệu

Mở đầu Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người- máy. Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến 6 P(c1,c2,.

Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều. Một hệ thống xử lý ảnh có thể được mô tả như sau: Ra quyết định Tiền Trích xử lý chọn Đối sánh, Thu Hậu (lọc đặc rút ra kết nhận xử lý nhiễu) trưng ảnh luận Lưu trữ Hình 1. Sơ đồ tổng quát của hệ thống xử lý ảnh Bước thu nhận ảnh: tín hiệu ảnh được thu nhận và số hóa thông qua các thiết bị cảm biến hình ảnh (camera, máy ảnh, máy quét…). Bước tiền xử lí: làm nổi bật các đặc trưng cần quan tâm và loại bỏ sự ảnh hưởng của nhiễu trong quá trình thu nhận ảnh, giúp ta thu được ảnh mới có chất lượng tốt hơn phục vụ công tác lưu trữ hoặc làm tiền đề cho các bước xử lí tiếp theo.

Bước trích chọn đặc trưng: là bước quan trọng quyết định sự thành công của một hệ thống xử lý ảnh. Tùy vào bài toán cụ thể mà ta trích chọn đúng đặc trưng cần thiết và phù hợp. Các đặc trưng ảnh sau khi trích chọn có thể được đưa vào cơ sở dữ liệu để lưu trữ làm tập các đặc trưng mẫu hoặc sử dụng trực tiếp trong quá trình đối sánh hoặc phân lớp ở giai đoạn sau. Bước hậu xử lý: giúp ta phân loại, nhận dạng các mẫu.

Ở bước này ta sẽ xử lý dữ liệu bằng các kỹ thuật, phương pháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung. Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kĩ thuật học máy, nhờ đó hệ thống có thể “hiểu biết” ngữ nghĩa của ảnh theo từng kiểu ứng dụng khác nhau. Bước ra quyết định: là bước cuối cùng về toàn bộ quá trình xử lý ảnh, ví dụ một quyết định có thể là nhãn của đối tượng trong ảnh. Biểu diễn ảnh, các phép toán cơ bản 1.

Một số hệ màu phổ biến - Hệ màu RGB (Red-Green-Blue): trong lĩnh vực đồ họa máy tính và xử lí ảnh, đây là hệ màu phổ biến nhất. Hệ màu RGB thường được mô hình hóa bởi một khối hộp với ba chiều tương ứng cho ba màu cơ bản R, G, B [2]. Biểu diễn hệ màu RGB bằng khối hộp lập phƣơng1 Mỗi màu trong hệ RGB được tổng hợp từ 3 màu cơ bản theo công thức: C = R + 28G + 216B Trong đó mỗi thành phần R, G, B được giả sử có độ lớn nằm trong đoạn [0,255]. Ví dụ: nếu với 3 thành phần R=255, G=B=0 thì độ lớn C=255 nên điểm ảnh sẽ là màu đỏ; màu vàng được pha trộn từ 2 màu đỏ và xanh lá cây nên R=G=255, B=0 nên độ lớn C=255+28255+0=65536.

Hệ màu RBG thích hợp để hiển thị màu trên các màn hình ti vi, máy chiếu, màn hình máy tính và một số thiết bị kĩ thuật khác như camera kĩ thuật số. Tuy nhiên, hệ màu này lại không thích hợp để đặc tả các cảm nhận trực quan về màu sắc của con người. Mặt khác, do tính chất “cộng màu” trong hệ RGB nên khi thực hiện các phép xử lý ta bắt buộc phải thực hiện đồng thời trên cả ba thành phần màu cơ bản, do đó làm tăng độ phức tạp tính toán. Vì vậy, các hệ thống xử lý ảnh bậc cao như nhận dạng đối tượng thường phải áp dụng những kỹ thuật phức tạp để giải quyết các vấn đề về bất biến độ sáng ảnh.vn/m/cac-khong-gian-mau/f2ae523e 8 - Hệ màu HSV (Hue Saturation - Value): là hệ màu gồm 3 giá trị H,S,V dựa trên các đặc tính màu trực quan như sắc (tint), bóng (shade) và tông màu (tone) hoặc họ màu, độ thuần khiết và độ sáng của hình ảnh trong thực tế để biểu diễn.

Hình không gian màu HSV2 Trong mô hình trên, một hệ tọa độ hình trụ được dùng để biểu diễn không gian màu [3]:  Hue: giá trị thể hiện sắc màu của hình ảnh (còn gọi là vùng màu), sắc màu thông thường được dùng để chỉ tên gọi của màu như đỏ, lục, lam, chàm, tím… Các sắc màu khác nhau được biểu diễn trên một vòng tròn chỉ màu, giá trị từ 0 đến 3600.  Staturation: giá trị thể hiện mức độ bão hòa màu. Giá trị của nó để chỉ mức độ thuần khiết của màu. Nói cách khác, khi ảnh có độ bão hòa cao, màu sẽ trong và rực rỡ hơn giá trị bão hòa thấp.

Giá trị của S (staturation) nằm trong đoạn [0,1], trong đó S đạt giá trị cao nhất (giá trị 1) là màu tinh khiết nhất, hoàn toàn không pha trắng, nghĩa là S càng lớn thì màu càng tinh khiết, nguyên chất.  Value: giá trị đo độ sáng của màu (intensity hoặc lightness). Thành phần V có giá trị trong đoạn [0,1], với giá trị đặc biệt V=0 thì ảnh là hoàn toàn tối, ngược lại V=1 là hoàn toàn sáng. Giá trị V càng lớn thì màu càng sáng.

- Hệ màu YCbCr: YCbCr, Y′CbCr hoặc Y Pb / Cb Pr / Cr, cũng được viết là YCBCR hoặc Y'CBCR, là một họ các không gian màu được sử dụng như một phần của đường dẫn hình ảnh màu trong video và hệ thống chụp ảnh kỹ 2 https://vi.org/wiki/Kh%C3%B4ng_gian_m%C3%A0u_HSB 9 thuật số. Y là thành phần luma và C B và C R là các thành phần sắc độ khác nhau của màu xanh và màu đỏ. Y′ (với dấu ') được phân biệt với Y đó là độ chói, nghĩa là cường độ ánh sáng được mã hóa phi tuyến dựa trên các nguyên tắc RGB được hiệu chỉnh gamma. Các không gian màu Y′CbCr được xác định bằng phép biến đổi tọa độ toán học từ không gian màu RGB tương ứng.

Nếu không gian màu RGB bên dưới là tuyệt đối thì không gian màu Y′CbCr cũng là một không gian màu tuyệt đối; ngược lại, nếu không gian RGB không xác định thì Y′CbCr cũng vậy. Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y’=0. Phân loại ảnh - Ảnh màu: theo lý thuyết của Thomas, ảnh là tổ hợp từ 3 màu cơ bản: đỏ (R), xanh lục (G), xanh lam (B) và thường thu nhận trên các dải băng tần khác nhau. Với ảnh màu, cách biểu diễn cũng tương tự như với ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ gồm: đỏ (red), lục (green) và lam (blue).

Để biểu diễn cho một điểm ảnh màu cần 24 bit, 24 bit này được chia thành ba khoảng 8 bit. Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256). Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính. - Ảnh đa cấp xám: là ảnh chỉ chứa các mức xám.

Mức xám hay màu xám được định nghĩa là một điểm ảnh màu khi trộn 3 thành phần R,G,B với cường độ như nhau (R=G=B). Do mỗi thành phần màu có giá trị trong đoạn [0,255] nên ta có 256 mức xám [2].org/wiki/YcbCr 10 - Ảnh nhị phân: giá trị xám của tất cả các điểm ảnh chỉ nhận giá trị 1 hoặc 0, như vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 bit. Ảnh nhị phân thường được dùng để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bức ảnh. - Ảnh hồng ngoại (infrared image): biểu diễn trực quan quang phổ, liên quan đến phổ điện từ.

Cung cấp thông tin ảnh dựa trên phản xạ ánh sáng hồng ngoại hoặc bức xạ hồng ngoại mà các đối tượng trong khung nhìn phát ra. Dựa vào khả năng thu nhận phản xạ hoặc bức xạ hồng ngoại mà các loại camera hồng ngoại có thể thu được các hình ảnh trong điều kiện không có ánh sáng hoặc ánh sáng kém. Các phép biến đổi ảnh Biến đổi ảnh là việc áp dụng phương pháp nào đó để biến đổi ảnh đầu vào I nhằm thu được kết quả đầu ra I’ mong muốn. I I’ ảnh đầu vào ảnh đầu ra 𝑓(𝐼) biến đổi ảnh Hình 1.

Sơ đồ tổng quát một hệ thống biến đổi ảnh [3] Biến đổi ảnh là một bước xử lý quan trọng trong các hệ thống xử lý ảnh nhằm làm nổi trội các thông tin mà hệ thống cần quan tâm. Lược đồ ảnh (Histogram) Lược đồ ảnh (Histogram) là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng điểm ảnh theo các mức. Lược đồ Histogram của một hình ảnh biểu diễn lược đồ về sự phân bố các mức cường độ xám của một bức ảnh. Cân bằng lược đồ ảnh (Histogram equalization) Kỹ thuật cân bằng lược đồ ảnh thường được sử dụng để tăng cường độ tương phản ảnh.

Ví dụ, ảnh có lược đồ đa mức xám có giá trị điểm ảnh không phân bố đều trong khoảng [0,255] mà chỉ tập trung trong một khoảng ngắn nào đó thì nhiều khả năng ảnh có độ tương phản thấp. Mục tiêu của cân bằng 11 lược đồ ảnh là giúp biến đổi một ảnh có mức độ tương phản thấp thành ảnh có mức độ tương phản cao hơn bằng cách giãn đều giá trị cường độ sáng của các điểm ảnh phân bố trên vùng giá trị rộng hơn mà vẫn giữ được nội dung chính của bức ảnh [3]. Điều chỉnh mức sáng (Brightness adjustment) Điều chỉnh mức sáng là kĩ thuật cơ bản trong lĩnh vực xử lý ảnh. Ví dụ, thay đổi mức sáng ảnh tại mỗi pixel theo công thức I’(x,y)=I(x,y)+b, với b là hệ số điều chỉnh mức sáng của điểm ảnh, nếu b>0 thì thực hiện tăng mức sáng của điểm ảnh, nếu b<0 thì thực hiện giảm độ sáng của điểm ảnh [3].

Đối với ảnh màu trong hệ không gian màu RGB, việc thay đổi mức sáng có thể thực hiện thay đổi trên từng kênh màu R-G-B. Đối với hệ không gian màu HSV thì V là thành phần biễu diễn mức sáng, việc thay đổi mức sáng tương ứng với thay đổi thành phần V tương ứng. [3] Điều chỉnh độ tương phản Độ tương phản là mức độ chênh lệch về độ sáng giữa các đối tượng lân cận nhau hoặc với các vùng ảnh nền trong ảnh. Nếu mức độ chênh lệch về độ sáng của đối tượng với vùng nền càng thấp thì ta nói ảnh đó có độ tương phản thấp và ngược lại độ chênh lệch càng cao có nghĩa là độ tương phản càng cao.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nghiên Cứu Kỹ Thuật Học Sâu Trong Phân Đoạn Ảnh Trào Ngược Dạ Dày cung cấp cái nhìn sâu sắc về việc ứng dụng các kỹ thuật học sâu trong việc phân đoạn hình ảnh liên quan đến bệnh trào ngược dạ dày. Nghiên cứu này không chỉ giúp cải thiện độ chính xác trong việc chẩn đoán mà còn mở ra hướng đi mới cho việc phát triển các công cụ hỗ trợ y tế thông minh. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng công nghệ học sâu, bao gồm khả năng phân tích hình ảnh nhanh chóng và hiệu quả hơn, từ đó nâng cao chất lượng chăm sóc sức khỏe.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính phân đoạn khối u não sử dụng công nghệ học sâu, nơi trình bày ứng dụng học sâu trong phân đoạn khối u não. Ngoài ra, tài liệu Nghiên cứu ứng dụng kỹ thuật học sâu trong phân vùng nhiều lớp ảnh y sinh cũng sẽ cung cấp cho bạn cái nhìn tổng quát hơn về việc áp dụng học sâu trong phân vùng ảnh y tế. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của học sâu trong y học, từ đó nâng cao hiểu biết và khả năng áp dụng trong thực tiễn.

#phân đoạn ảnh

#mạng nơ-ron tích chập

#kỹ thuật học sâu

#phân tích hình ảnh y tế

#ứng dụng AI trong y tế

#học máy trong y học

Chủ đề

Công nghệ học sâu trong y tế

tương lai của AI trong y học

trào ngược dạ dày và chẩn đoán

phân đoạn ảnh y tế