Luận văn Nguyễn Duy Mạnh: Mạng nơ-ron sâu trong nội soi tiêu hóa trên

Luận văn ứng dụng AI trong nội soi tiêu hóa, sử dụng mạng nơ-ron sâu để phân loại vị trí giải phẫu và phân đoạn chính xác các tổn thương.

Trường đại học

Hanoi University of Science and Technology, School of Information and Communication Technology

Chuyên ngành

Data Science

Người đăng

Ẩn danh

Thể loại

Master Thesis

2022

75
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu về Phân loại và Phân đoạn Tổn thương Nội soi bằng AI

Phân loại tổn thương nội soiphân đoạn tổn thương là hai nhiệm vụ quan trọng trong chẩn đoán y tế hiện đại. Với sự phát triển của trí tuệ nhân tạo (AI)mạng nơ-ron sâu, các công nghệ này đã trở thành công cụ hỗ trợ không thể thiếu cho các bác sĩ. Đặc biệt, trong lĩnh vực nội soi đường tiêu hóa trên, việc sử dụng deep learning giúp phát hiện bệnh lý sớm và chính xác hơn. Luận án thạc sĩ từ Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã phát triển các mô hình mạng nơ-ron thống nhất có khả năng xử lý nhiều tác vụ đồng thời trên bộ dữ liệu 11.469 hình ảnh nội soi.

1.1. Ứng dụng AI trong chẩn đoán y tế

AI và machine learning đóng vai trò thiết yếu trong chẩn đoán có hỗ trợ máy tính (CAD). Công nghệ này giúp bác sĩ chẩn đoán bệnh sớm, nhất quán và hiệu quả hơn. Ngoài ra, deep learning còn hỗ trợ cá nhân hóa liệu pháp cho từng bệnh nhân, nâng cao chất lượng chăm sóc sức khỏe toàn diện.

1.2. Tầm quan trọng của nội soi đường tiêu hóa trên

Nội soi đường tiêu hóa trên (Upper GI Endoscopy) là phương pháp kiểm tra không thể thiếu để phát hiện các bệnh lý như ung thư, viêm loét. Sử dụng mạng nơ-ron tích chập (CNN) và các kỹ thuật phân đoạn hình ảnh, các tổn thương có thể được xác định và phân loại một cách chính xác và nhanh chóng.

II. Các Công nghệ Deep Learning cho Phân loại Tổn thương

Để thực hiện phân loại tổn thương nội soi, các nhà nghiên cứu đã sử dụng nhiều kiến trúc mạng nơ-ron sâu khác nhau. Convolutional Neural Networks (CNN) là nền tảng của các mô hình này, với khả năng trích xuất đặc trưng hình ảnh tự động. Các cải tiến như Squeeze-and-Excitation blocksFeature Pyramid Networks (FPN) giúp tăng cường khả năng học và nhận diện của mô hình. Multi-task learning cho phép mô hình xử lý đồng thời nhiều tác vụ như phân loại vị trí giải phẫuphân đoạn tổn thương, từ đó nâng cao độ chính xác tổng thể.

2.1. Kiến trúc mạng nơ ron tích chập CNN

CNN là kiến trúc cơ sở cho hầu hết các mô hình phân loại tổn thương. Các lớp convolutionpooling giúp trích xuất các đặc trưng quan trọng từ hình ảnh nội soi. Fully Convolutional Networks (FCN) được sử dụng để phân đoạn tổn thương pixel-level, cho phép xác định chính xác ranh giới của tổn thương.

2.2. Các kỹ thuật nâng cao FPN và Squeeze and Excitation

Feature Pyramid Networks (FPN) cho phép mô hình nhận diện các tổn thương ở nhiều kích thước khác nhau. Squeeze-and-Excitation blocks tăng cường khả năng chọn lọc các đặc trưng quan trọng nhất. Kết hợp với Transfer Learning, các mô hình này đạt độ chính xác cao hơn trong phân loại và phân đoạn tổn thương.

III. Dữ liệu và Phương pháp Huấn luyện Mô hình

Bộ dữ liệu sử dụng trong nghiên cứu bao gồm 11.469 hình ảnh nội soi được phân thành ba tập con: tập dữ liệu vị trí giải phẫu, tập dữ liệu tổn thương, và tập dữ liệu HP. Data preprocessingdata augmentation là những bước quan trọng để cải thiện chất lượng dữ liệu huấn luyện. Các kỹ thuật như normalization, rotation, flip, và zoom được áp dụng để tăng đa dạng dữ liệu. Multi-task learning được sử dụng để mô hình có thể học đồng thời phân loại vị trí giải phẫuphân đoạn tổn thương, với các loss functionsmetrics được tối ưu hóa riêng biệt.

3.1. Xử lý và tăng cường dữ liệu

Data augmentation bao gồm các phép biến đổi hình ảnh như rotation, flip, zoom để tạo ra các biến thể dữ liệu huấn luyện. Normalization giúp chuẩn hóa giá trị pixel để mô hình học tốt hơn. Các kỹ thuật này giúp tránh overfitting và cải thiện khả năng phân loại tổn thương trên dữ liệu mới.

3.2. Huấn luyện và tối ưu hóa mô hình

Multi-task learning cho phép một mô hình duy nhất xử lý phân loại vị trí giải phẫuphân đoạn tổn thương cùng lúc. Learning rate scheduling và các optimization algorithms được sử dụng để tối ưu hóa quá trình huấn luyện. Evaluation metrics như confusion matrix được sử dụng để đánh giá hiệu suất trên tập fold khác nhau.

IV. Kết quả và Ứng dụng Thực tế

Các mô hình được phát triển, bao gồm EndoUNetSFMNet, đã cho thấy những kết quả khá tích cực trong cả phân loại tổn thươngphân đoạn tổn thương. Các confusion matrices trên các fold khác nhau cho thấy mô hình có khả năng phân loại vị trí giải phẫu với độ chính xác cao. Lesion segmentation cũng cho thấy các ví dụ phân đoạn chính xác các vùng tổn thương. Những kết quả này chứng tỏ tiềm năng của AI trong hỗ trợ chẩn đoán nội soi, giúp các bác sĩ phát hiện bệnh lý sớm và cải thiện kết quả điều trị cho bệnh nhân.

4.1. Hiệu suất của các mô hình EndoUNet và SFMNet

EndoUNetSFMNet đạt được độ chính xác cao trong phân loại vị trí giải phẫu. Confusion matrices cho thấy mô hình phân biệt tốt giữa các vị trí khác nhau của đường tiêu hóa trên. Lesion classification task cũng cho kết quả tương tự tốt, với khả năng phân loại tổn thương chính xác trên các fold khác nhau của bộ dữ liệu.

4.2. Tiềm năng ứng dụng trong thực tế lâm sàng

Các mô hình AI này có thể được tích hợp vào hệ thống nội soi thực tế để hỗ trợ bác sĩ theo thời gian thực. Computer-aided diagnosis giúp phát hiện các tổn thương nhỏ dễ bị bỏ sót, cải thiện chất lượng chẩn đoán và tỷ lệ sống sót của bệnh nhân. Tương lai, các mô hình này có thể mở rộng để phân đoạn tổn thương từ các loại nội soi khác và các bệnh lý khác nhau.

28/12/2025

Trích đoạn nội dung tài liệu

Hanoi University of Science and Technology School of Information and Communication Technology 7 D Master Thesis in Data Science Unified Deep Neural Networks for Anatomical Site Classification and Lesion Segmentation for Upper Gastrointestinal Endoscopy NGUYEN DUY MANH manh.nd202657mQ@sis.vn Supervisor: Dr. Tran Vinh Duc Hanoi 10-2022 Author’s Declaration Thereby declare that I am the sole author of this Uhesis. The results in this work are not complete copies of any other works. STUDENT Nguyen Duy Manh Contents Contents Abstract List of Figures List.

of Tahles List of Acronyms 1) Introduction oe 1.1 General intraduetion " + + L2 Objectives dd 1¬". ee ww 14 Qutlie of the thesis 2 Artificial Intelligence aud Machine Learning we 2.1 Basia concepts 22 Types ofleamming 2.8 Reinforcement learning soot 2.1 Decp Learning und Neural Networks 2. ee 10 2314 Recurrent Neural Network 11 2.15 Deep Convolutional Network 231.6 ‘Ivaining a Neural Network 2. 11 Convolnrional Neural Network 12 2.2 The convolution operation.8 A Squeeze-and-Excitation block [1.9 Overview comparison between FPN and FaPN [15] 38 3.10 Feature alignment module [15] 2.00000 ee eee eee 39 3.11 Feature selection module [I5] .1 Demostration of upper GI 4.

Some samples in anatomical dataset 4.3 Some samples in lesion dataset SE 4.4 Some samples in HP dataset.6 Leaming rate in training phase 46 4.7 EndoUnet - Confusion matrix on anatomical site classification task GA NGÌu sea H Hướng a ew aes we SB RS eR oe 49 4.8 SFMNet - Confusion matrix on anatomical site classification task on a fold.9 Confusion matrices on lesion classification task on a fold.10 Some examples of the lesion segmentation task.24 Activation function 2325 Poolimg 2.3 Fully convolutional network 2.4 Some common canvolntional network architectures 2341 VO.2 Transformers for Vision 2. Multi-task learning Transfer lourning cv. ee Avoid overfirting 3 Mcthodology al FindoUNet .1 Overall architecture : BQ Bucoder00. Fee Compact generalized non-local module.

Squeeze and excitation module .5 Feature-atigned pyramid network 3. " An R 33 Metrics and loss functions 34 Multiusk truining 6 ee 4 Experhnents 41 Datasets. 42 Data preprocessing and data augmentation 2. ee AQ Implementation details.

4ã 44 Experimental resulla ee 46 6 Conclusion and future work ñ1 3.8 A Squeeze-and-Excitation block [1.9 Overview comparison between FPN and FaPN [15] 38 3.10 Feature alignment module [15] 2.00000 ee eee eee 39 3.11 Feature selection module [I5] .1 Demostration of upper GI 4. Some samples in anatomical dataset 4.3 Some samples in lesion dataset SE 4.4 Some samples in HP dataset.6 Leaming rate in training phase 46 4.7 EndoUnet - Confusion matrix on anatomical site classification task GA NGÌu sea H Hướng a ew aes we SB RS eR oe 49 4.8 SFMNet - Confusion matrix on anatomical site classification task on a fold.9 Confusion matrices on lesion classification task on a fold.10 Some examples of the lesion segmentation task. 50 Abstract Image Processing is a subfield of computer vision concerned with comprehending and extracting data from digital images. ‘There are several applications for image processing in various fields, including face recognition, optical character recognition, manufacturing automation inspection, medical diagnostics, and tasks connected to autonomous vehicles, such as pedestrian detection.

In recent years, the deep neural network has become one of the most popular image processing approaches due to a number of significant advancements. The use of machine learning in biomedical applications can be structured into three main orientations: (1) as a computer-aided diagnosis to help the physicians for an efficient and early diagnosis, with a better harmonization and less contradictory diagnosis; (2) to enhance the medical care of patients with better-personalized ther- apies; and (3) to improve the human wellbeing, for example by analyzing the spread of dis ‘ase and social behaviors in relation to environmental factors [I]. In this work, I propose to construct the models for the first orientation that is capable of handling multiple simultaneous tasks pertaining to the upper gastrointestinal (G1) tract. On a dataset of 11469 endoscopic images, the models were evaluated and produced relatively positive results.8 A Squeeze-and-Excitation block [1.9 Overview comparison between FPN and FaPN [15] 38 3.10 Feature alignment module [15] 2.00000 ee eee eee 39 3.11 Feature selection module [I5] .1 Demostration of upper GI 4.

Some samples in anatomical dataset 4.3 Some samples in lesion dataset SE 4.4 Some samples in HP dataset.6 Leaming rate in training phase 46 4.7 EndoUnet - Confusion matrix on anatomical site classification task GA NGÌu sea H Hướng a ew aes we SB RS eR oe 49 4.8 SFMNet - Confusion matrix on anatomical site classification task on a fold.9 Confusion matrices on lesion classification task on a fold.10 Some examples of the lesion segmentation task. 50 List of Acronyms GI Gaatrointestinal Helicobacter Pylori AT Artificial Tntelligence ML Machine Learning DI. Teep Learning, NN Neural Network DNN Theep Nenral Network CNN Convolutional Neural Network RNN Recurrent Neural Network MTL Maltictask Learning nL Reinforcement. Learning Abstract Image Processing is a subfield of computer vision concerned with comprehending and extracting data from digital images.

‘There are several applications for image processing in various fields, including face recognition, optical character recognition, manufacturing automation inspection, medical diagnostics, and tasks connected to autonomous vehicles, such as pedestrian detection. In recent years, the deep neural network has become one of the most popular image processing approaches due to a number of significant advancements. The use of machine learning in biomedical applications can be structured into three main orientations: (1) as a computer-aided diagnosis to help the physicians for an efficient and early diagnosis, with a better harmonization and less contradictory diagnosis; (2) to enhance the medical care of patients with better-personalized ther- apies; and (3) to improve the human wellbeing, for example by analyzing the spread of dis ‘ase and social behaviors in relation to environmental factors [I]. In this work, I propose to construct the models for the first orientation that is capable of handling multiple simultaneous tasks pertaining to the upper gastrointestinal (G1) tract.

On a dataset of 11469 endoscopic images, the models were evaluated and produced relatively positive results. Abstract Image Processing is a subfield of computer vision concerned with comprehending and extracting data from digital images. ‘There are several applications for image processing in various fields, including face recognition, optical character recognition, manufacturing automation inspection, medical diagnostics, and tasks connected to autonomous vehicles, such as pedestrian detection. In recent years, the deep neural network has become one of the most popular image processing approaches due to a number of significant advancements.

The use of machine learning in biomedical applications can be structured into three main orientations: (1) as a computer-aided diagnosis to help the physicians for an efficient and early diagnosis, with a better harmonization and less contradictory diagnosis; (2) to enhance the medical care of patients with better-personalized ther- apies; and (3) to improve the human wellbeing, for example by analyzing the spread of dis ‘ase and social behaviors in relation to environmental factors [I]. In this work, I propose to construct the models for the first orientation that is capable of handling multiple simultaneous tasks pertaining to the upper gastrointestinal (G1) tract. On a dataset of 11469 endoscopic images, the models were evaluated and produced relatively positive results. Abstract Image Processing is a subfield of computer vision concerned with comprehending and extracting data from digital images.

‘There are several applications for image processing in various fields, including face recognition, optical character recognition, manufacturing automation inspection, medical diagnostics, and tasks connected to autonomous vehicles, such as pedestrian detection. In recent years, the deep neural network has become one of the most popular image processing approaches due to a number of significant advancements. The use of machine learning in biomedical applications can be structured into three main orientations: (1) as a computer-aided diagnosis to help the physicians for an efficient and early diagnosis, with a better harmonization and less contradictory diagnosis; (2) to enhance the medical care of patients with better-personalized ther- apies; and (3) to improve the human wellbeing, for example by analyzing the spread of dis ‘ase and social behaviors in relation to environmental factors [I]. In this work, I propose to construct the models for the first orientation that is capable of handling multiple simultaneous tasks pertaining to the upper gastrointestinal (G1) tract.

On a dataset of 11469 endoscopic images, the models were evaluated and produced relatively positive results. List of Acronyms GI Gaatrointestinal Helicobacter Pylori AT Artificial Tntelligence ML Machine Learning DI. Teep Learning, NN Neural Network DNN Theep Nenral Network CNN Convolutional Neural Network RNN Recurrent Neural Network MTL Maltictask Learning nL Reinforcement. Learning Abstract Image Processing is a subfield of computer vision concerned with comprehending and extracting data from digital images.

‘There are several applications for image processing in various fields, including face recognition, optical character recognition, manufacturing automation inspection, medical diagnostics, and tasks connected to autonomous vehicles, such as pedestrian detection. In recent years, the deep neural network has become one of the most popular image processing approaches due to a number of significant advancements. The use of machine learning in biomedical applications can be structured into three main orientations: (1) as a computer-aided diagnosis to help the physicians for an efficient and early diagnosis, with a better harmonization and less contradictory diagnosis; (2) to enhance the medical care of patients with better-personalized ther- apies; and (3) to improve the human wellbeing, for example by analyzing the spread of dis ‘ase and social behaviors in relation to environmental factors [I]. In this work, I propose to construct the models for the first orientation that is capable of handling multiple simultaneous tasks pertaining to the upper gastrointestinal (G1) tract.

On a dataset of 11469 endoscopic images, the models were evaluated and produced relatively positive results. List of Acronyms GI Gaatrointestinal Helicobacter Pylori AT Artificial Tntelligence ML Machine Learning DI. Teep Learning, NN Neural Network DNN Theep Nenral Network CNN Convolutional Neural Network RNN Recurrent Neural Network MTL Maltictask Learning nL Reinforcement. Learning References ñ2 List of Acronyms GI Gaatrointestinal Helicobacter Pylori AT Artificial Tntelligence ML Machine Learning DI.

Teep Learning, NN Neural Network DNN Theep Nenral Network CNN Convolutional Neural Network RNN Recurrent Neural Network MTL Maltictask Learning nL Reinforcement.24 Activation function 2325 Poolimg 2.3 Fully convolutional network 2.4 Some common canvolntional network architectures 2341 VO.2 Transformers for Vision 2. Multi-task learning Transfer lourning cv. ee Avoid overfirting 3 Mcthodology al FindoUNet .1 Overall architecture : BQ Bucoder00. Fee Compact generalized non-local module.

Squeeze and excitation module .5 Feature-atigned pyramid network 3. " An R 33 Metrics and loss functions 34 Multiusk truining 6 ee 4 Experhnents 41 Datasets. 42 Data preprocessing and data augmentation 2. ee AQ Implementation details.

4ã 44 Experimental resulla ee 46 6 Conclusion and future work ñ1 List of Tables al Detailed sevlings of MiT-B2 and MiT-B3. Al Number of images in each anatomical site and lighting mode 43 42 Accuracy comparison on the three classification taska. a7 43 Dive Score comparison on the segmentation task. 48 44 Number of parameters and speed of models + List of Figures Ra Reinforcement learning components.2 Relationship between AI, ML, and DL 7 2.

8 24 Mlustration of a deep learning model [2] .6 Architecture of a CN 13 27 Example of convolution operation [i]. 4 28 Sparse connectivity, viewed from below lỗ 2.9 Sparse connectivity, viewed from above [Đ] .10 Common activation functions [5] 16 211 Max pooling.13 Architecture of an FON [6].14 Architecture of VGGI6 [J].16 DenseNet architecture vs ResNet architecture [9] .18 Attention in Neural Machine Translation.19 The Transformer - model ai tecture [Il]. 220 Vision Transformer architecture [12] 221 Common form of multi-task learning [2] 26 2.22 The traditional supervised learning setup 6.1 Architecture of EndoUNet 31 3.2 VGG19-based shared block + 82 3.3 ResNet50-based shared bloek. c2 262 38 34 DenseNet121-based shared block 33 gã EndoUNet decoder configuration 34 3.7 Grouped compact generalized non-local (CGNL) module [13].24 Activation function 2325 Poolimg 2.3 Fully convolutional network 2.4 Some common canvolntional network architectures 2341 VO.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ