PHÂN ĐO¾N NGĂ NGH)A SĀ DþNG M¾NG N¡-RON TÍCH CHÀP

Tìm hiểu về phân đoạn ngữ nghĩa ảnh sử dụng mạng nơ-ron tích chập (CNN). Bài viết trình bày ứng dụng CNN trong phân tích và nhận diện ảnh, giúp máy tính hiểu nội dung ảnh.

Trường đại học

Trường đại học quản lý và công nghệ hải phòng

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Đồ án tốt nghiệp

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VÀ PHÂN ĐOẠN ẢNH

1.1. Xử lý Ảnh là gì

1.2. Phân đoạn Ảnh

1.3. Phân đoạn ngữ nghĩa

1.3.1. Phân đoạn ngữ nghĩa là gì

1.3.2. Các loại phân đoạn hình ảnh khác nhau

1.4. Một số ứng dụng

2. CHƯƠNG 2: MẠNG NƠ RON NHÂN CHẬP

2.1. Mạng nơ ron

2.2. Mạng nơ ron tích chập (Convolutional Neural Network – CNN)

2.2.1. Định nghĩa mạng nơ ron tích chập

2.2.2. Các lớp cơ bản của mạng CNN

2.2.3. Kiến trúc mạng CNN

2.2.4. Một số cấu trúc mạng CNN

2.2.4.1. Kiến trúc LeNet-5

2.2.4.2. Kiến trúc AlexNet

2.2.4.3. Kiến trúc VGG-16

2.2.4.4. Kiến trúc Inception (GoogLeNet)

2.2.5. Kiến trúc U-Net

3. CHƯƠNG 3: ỨNG DỤNG CNN CHO PHÂN ĐOẠN NGỮ NGHĨA

3.1. Môi trường và cài đặt

3.1.1. Cài đặt môi trường Google Colab

3.1.2. Các thư viện sử dụng

3.2. Lựa chọn mô hình thử nghiệm

3.2.1. Xây dựng tập dữ liệu thử nghiệm

3.2.2. Bước huấn luyện và lưu mô hình

3.2.3. Đánh giá mô hình

3.2.3.1. Kết quả kiểm thử trong tập dữ liệu test

3.2.3.2. Kiểm thử trên một ảnh

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Phân Đoạn Ảnh Ngữ Nghĩa Bước Đột Phá

Phân đoạn ngữ nghĩa (semantics segmentation) là bài toán gán nhãn đối tượng cho từng điểm ảnh. Mục tiêu là phân biệt chính xác ảnh của đối tượng quan tâm so với ảnh của các đối tượng khác hoặc ảnh nền. Bài toán này phân tích một ảnh thành các đối tượng có ý nghĩa, giúp máy tính hiểu thông tin chứa trong ảnh. Ứng dụng của phân đoạn ngữ nghĩa ảnh ngày càng nhiều trong đời sống. Mạng CNN đang chứng tỏ ưu thế vượt trội. Bài toán này không chỉ là lý thuyết, mà còn mang tính ứng dụng cao. Theo tài liệu gốc, phân đoạn ngữ nghĩa hướng đến việc giải quyết các vấn đề phân loại bằng thị giác máy tính, thúc đẩy học sâu và mạng lưới thần kinh tích chập (CNN).

1.1. Khám Phá Ứng Dụng Xử Lý Ảnh Trong Cuộc Sống

Xử lý ảnh là quá trình biến đổi hình ảnh thông thường sang dạng kỹ thuật số để tạo ra thông tin hữu ích. Hệ thống xử lý ảnh xem mọi bức ảnh như một tín hiệu 2D và tiến hành các phép biến đổi dựa trên các kỹ thuật xác định. Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất. Những năm gần đây, với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ họa đã phát triển mạnh mẽ và có nhiều ứng dụng trong cuộc sống. Quá trình này được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn.

1.2. Tìm Hiểu Các Loại Phân Đoạn Hình Ảnh Phổ Biến

Phân đoạn ảnh, còn gọi là phân vùng ảnh, là quá trình chia ảnh thành các vùng hoặc đối tượng có tính chất thỏa mãn một tiêu chí xác định. Mức độ chi tiết của việc phân chia phụ thuộc vào từng bài toán. Các loại phân đoạn hình ảnh bao gồm phân đoạn ngữ nghĩa và phân đoạn tức thì. Phân đoạn ngữ nghĩa phân loại các pixel ảnh thành các lớp được xác định trước. Phân đoạn tức thì nhằm phân biệt giữa các phiên bản của cùng một lớp.

II. Mạng CNN Phương Pháp Phân Đoạn Ảnh Ngữ Nghĩa

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) là một mô hình tiên tiến trong lĩnh vực học sâu (Deep Learning). Mạng CNN cho phép xây dựng các hệ thống phân loại và dự đoán với độ chính xác cao, đặc biệt trong xử lý ảnh. Theo tài liệu gốc, CNN đặc biệt hữu ích trong việc phân loại hình ảnh vì chúng có thể trích xuất các đặc điểm liên quan từ hình ảnh, điều này có lợi cho việc phân loại và nhận dạng hình ảnh. Công nghệ CNN có khả năng phát triển mạnh mẽ trong tương lai.

2.1. Kiến Trúc Mạng Nơ Ron Nền Tảng Của CNN

Mạng nơ-ron (Neural Networks – NN) là một phương thức trong lĩnh vực trí tuệ nhân tạo được áp dụng để dạy máy tính xử lý dữ liệu, bằng cách lấy cảm hứng từ bộ não con người. Mạng nơ-ron sử dụng các nút hoặc nơ-ron liên kết với nhau trong một cấu trúc phân lớp tương tự như bộ não con người. Phương thức này tạo ra một hệ thống thích ứng cho phép máy tính sử dụng để học hỏi từ sai lầm của chúng và liên tục cải thiện qua thời gian. Một mạng nơ-ron được cấu thành bởi các nơ-ron đơn lẻ được gọi là các perceptron.

2.2. CNN Hoạt Động Tích Chập Và Trích Xuất Đặc Trưng

Tích chập là một khái niệm trong xử lý tín hiệu số nhằm biến đổi thông tin đầu vào thông qua một phép tích chập với bộ lọc để trả về đầu ra là một tín hiệu mới. Tín hiệu này sẽ làm giảm những đặc trưng mà bộ lọc không quan tâm và chỉ giữ những đặc trưng chính. Mạng nơ-ron tích chập rất hữu ích trong việc phân loại hình ảnh vì chúng có thể trích xuất các đặc điểm liên quan từ hình ảnh.

2.3. Các Lớp Cơ Bản Của Mạng CNN Cần Nắm Vững

Mạng CNN bao gồm nhiều lớp khác nhau, mỗi lớp thực hiện một chức năng cụ thể. Các lớp chính bao gồm lớp tích chập (convolutional layer), lớp gộp (pooling layer), và lớp kết nối đầy đủ (fully connected layer). Lớp tích chập trích xuất các đặc trưng từ ảnh đầu vào. Lớp gộp giảm kích thước của các đặc trưng. Lớp kết nối đầy đủ thực hiện phân loại dựa trên các đặc trưng đã trích xuất. Sự kết hợp của các lớp này cho phép CNN học các biểu diễn phức tạp của dữ liệu ảnh.

III. U Net Kiến Trúc Ưu Việt Cho Phân Đoạn Ảnh CNN

Kiến trúc U-Net, một nhánh quan trọng của kiến trúc mạng nơ-ron, nổi bật trong phân đoạn ngữ nghĩa ảnh. Mô hình U-Net giúp phân tích các cấu trúc phức tạp trong ảnh. Kiến trúc này được thiết kế đặc biệt để xử lý các bài toán computer vision, đặc biệt là trong lĩnh vực ảnh y tế. Việc hiểu rõ kiến trúc và nguyên lý hoạt động của U-Net là yếu tố then chốt để ứng dụng hiệu quả phân đoạn ảnh. U-Net cải thiện đáng kể segmentation accuracy so với các kiến trúc truyền thống.

3.1. U Net hoạt động Encoder và Decoder

U-Net có cấu trúc hình chữ U, bao gồm hai phần chính: encoder (phần co) và decoder (phần giãn). Encoder giảm kích thước ảnh và trích xuất các đặc trưng quan trọng. Decoder phục hồi kích thước ảnh và xây dựng bản đồ phân đoạn chi tiết. Các kết nối bỏ qua (skip connections) giữa encoder và decoder giúp truyền thông tin chi tiết từ encoder sang decoder, cải thiện độ chính xác.

3.2. Ưu điểm U Net Ứng Dụng Thực Tế Cao

U-Net có nhiều ưu điểm so với các kiến trúc khác. Nó có thể huấn luyện với ít dữ liệu hơn. Hiệu suất cao trên các bài toán phân đoạn phức tạp. Ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là ảnh y tế. Điều này giúp U-Net trở thành lựa chọn hàng đầu cho các bài toán phân đoạn ảnh.

IV. Ứng Dụng Thực Tế CNN Trong Phân Đoạn Ngữ Nghĩa

Mạng CNN đã chứng minh khả năng vượt trội trong nhiều ứng dụng thực tế của phân đoạn ngữ nghĩa. Từ ảnh y tế đến xe tự lái và ảnh vệ tinh, CNN mang lại những giải pháp hiệu quả. Khả năng phân tích và hiểu hình ảnh của CNN giúp tự động hóa nhiều quy trình và cải thiện độ chính xác. Thực tế chứng minh CNN đóng vai trò quan trọng trong sự phát triển của nhiều ngành công nghiệp.

4.1. Phân Đoạn Ngữ Nghĩa Ảnh Y Tế Chẩn Đoán Chính Xác

Ảnh y tế là một trong những lĩnh vực ứng dụng quan trọng nhất của phân đoạn ngữ nghĩa ảnh sử dụng CNN. CNN có thể giúp phân tích các ảnh chụp CT, MRI, X-quang để phát hiện các bệnh lý, khối u, và các bất thường khác. Điều này giúp bác sĩ chẩn đoán bệnh nhanh chóng và chính xác hơn. Các mô hình học sâu đang ngày càng được sử dụng rộng rãi trong các bệnh viện và phòng khám.

4.2. CNN Trong Xe Tự Lái An Toàn Giao Thông

CNN đóng vai trò quan trọng trong việc phát triển xe tự lái. Phân đoạn ngữ nghĩa giúp xe tự lái nhận diện các đối tượng xung quanh, chẳng hạn như người đi bộ, xe cộ, biển báo giao thông, và làn đường. Thông tin này giúp xe tự lái đưa ra các quyết định lái xe an toàn. CNN giúp cải thiện đáng kể an toàn giao thông.

4.3. Ứng dụng ảnh vệ tinh và ảnh drone trong nông nghiệp

Trong nông nghiệp chính xác, phân đoạn ngữ nghĩa có thể được sử dụng để phân tích ảnh vệ tinh và ảnh drone, giúp xác định tình trạng cây trồng, phân loại đất, và phát hiện các khu vực bị sâu bệnh. Điều này giúp nông dân đưa ra các quyết định quản lý trang trại hiệu quả hơn, tăng năng suất và giảm chi phí.

V. Đánh Giá Hiệu Năng Phân Đoạn IoU và mIoU Quan Trọng

Để đánh giá hiệu quả của mô hình phân đoạn ngữ nghĩa ảnh, các chỉ số như IoU (Intersection over Union) và mIoU (Mean IoU) đóng vai trò quan trọng. IoU đo lường sự trùng khớp giữa kết quả dự đoán và kết quả thực tế. mIoU là giá trị trung bình của IoU trên tất cả các lớp đối tượng. Các chỉ số này giúp so sánh và cải thiện hiệu năng của các mô hình khác nhau. Cải thiện segmentation metrics là mục tiêu quan trọng trong nghiên cứu.

5.1. IoU Intersection over Union Đo Lường Mức Độ Trùng Khớp

IoU là tỷ lệ giữa diện tích giao nhau và diện tích hợp của vùng dự đoán và vùng thực tế. Giá trị IoU càng cao, mô hình càng chính xác. IoU là một chỉ số quan trọng để đánh giá hiệu năng của mô hình trên từng đối tượng.

5.2. mIoU Mean IoU Đánh Giá Toàn Diện Hiệu Năng Mô Hình

mIoU là giá trị trung bình của IoU trên tất cả các lớp đối tượng. mIoU cung cấp một cái nhìn tổng quan về hiệu năng của mô hình trên toàn bộ tập dữ liệu. mIoU thường được sử dụng để so sánh hiệu năng của các mô hình khác nhau.

VI. Tương Lai Phân Đoạn Ảnh CNN Hướng Nghiên Cứu Mới

Tương lai của phân đoạn ngữ nghĩa ảnh sử dụng CNN hứa hẹn nhiều đột phá. Các nghiên cứu tập trung vào việc cải thiện độ chính xác, giảm chi phí tính toán, và mở rộng ứng dụng. Các mô hình học sâu ngày càng trở nên phức tạp và hiệu quả hơn. Real-time segmentation là một hướng đi quan trọng. Sự kết hợp với các công nghệ khác như ảnh drone và ảnh nhiệt cũng mở ra nhiều tiềm năng.

6.1. Nghiên Cứu Các Mô Hình Phân Đoạn Thời Gian Thực

Real-time segmentation là một lĩnh vực nghiên cứu quan trọng. Ứng dụng trong xe tự lái và robot đòi hỏi khả năng xử lý hình ảnh nhanh chóng và chính xác. Các nhà nghiên cứu đang phát triển các mô hình nhẹ hơn và hiệu quả hơn để đạt được tốc độ xử lý cao hơn.

6.2. Kết Hợp Ảnh Đa Dạng Ảnh Nhiệt và Ảnh RGB

Sự kết hợp giữa ảnh nhiệt và ảnh RGB có thể cung cấp thông tin phong phú hơn cho mô hình phân đoạn ngữ nghĩa. Ảnh nhiệt có thể giúp phát hiện các đối tượng ẩn trong điều kiện ánh sáng kém. Việc tích hợp nhiều loại dữ liệu giúp cải thiện độ chính xác và độ tin cậy của mô hình.

27/04/2025

Bạn đang xem trước tài liệu:

Phân đoạn ngữ nghĩa sử dụng mạng nơ ron tích chập

Tải đầy đủ

Trích đoạn nội dung tài liệu

BÞ GIÁO DþC VÀ ĐÀO T¾O TR¯àNG Đ¾I HàC QUÀN LÝ VÀ CÔNG NGHÞ HÀI PHÒNG ---------------------------------------------- Đà ÁN TÞT NGHIÞP NGÀNH: CÔNG NGHÞ THÔNG TIN Sinh viên : Ph¿m Thị Ngọc Anh GiÁng viên h°ßng d¿n: TS. Ngô Tr°áng Giang HÁi Phòng -2023 Ph¿m Thị Ngọc Anh _ CT2301M 1 BÞ GIÁO DþC VÀ ĐÀO T¾O TR¯àNG Đ¾I HàC QUÀN LÝ VÀ CÔNG NGHÞ HÀI PHÒNG ----------------------------------- ĐÀ TÀI : PHÂN ĐO¾N NGĂ NGH)A SĀ DþNG M¾NG N¡-RON TÍCH CHÀP Đà ÁN TÞT NGHIÞP Đ¾I HàC HÞ CHÍNH QUY NGÀNH : CÔNG NGHÞ THÔNG TIN Sinh viên : Ph¿m Thị Ngọc Anh GiÁng viên h°ßng d¿n: TS. Ngô Tr°áng Giang HÁi Phòng – 2023 Ph¿m Thị Ngọc Anh _ CT2301M 2 BÞ GIÁO DþC VÀ ĐÀO T¾O TR¯àNG Đ¾I HàC QUÀN LÝ VÀ CÔNG NGHÞ HÀI PHÒNG ---------------------------------------------- NHIÞM Vþ ĐÀ TÀI TÞT NGHIÞP Sinh viên : Ph¿m Thị Ngọc Anh - MSV : 1912111012 Lßp : CT2301M Ngành : Công nghá thông tin Tên đÁ tài : Phân đo¿n ngā ngh*a sÿ dāng m¿ng n¢-ron tích chÁp Ph¿m Thị Ngọc Anh _ CT2301M 3 LàI CÀM ¡N Trong quá trình làm đß án vừa qua vì đ°ÿc sự chỉ d¿n nhiát tình cÿa thÁy TS. Ngô Tr°áng Giang – Tr°áng Đ¿i học QuÁn lý và Công nghá HÁi Phòng, em đã hoàn thành đß án cÿa mình.

Mặc dù em đã cố gắng vßi sự tÁn tâm cÿa thÁy, nh°ng vì thái gian và khÁ năng nên đß án cÿa em v¿n còn không tránh đ°ÿc nhāng điÅu thiÃu sót. Em xin chân thành và bày tỏ lòng biÃt ¢n sâu sắc đÃn thÁy Ngô Tr°áng Giang vì đã tÁn tình chỉ bÁo, h°ßng d¿n và giành thái gian quý báu cÿa mình cho em trong thái gian qua để em có thể hoàn thành đß án cÿa mình đúng thái h¿n. Em xin cÁm ¢n t¿t cÁ thÁy cô giáo trong khoa Công nghá thông tin vì đã truyÅn đ¿t cho em r¿t nhiÅu các kiÃn thāc nÅn tÁng, chuyên ngành, chuyên môn và chuyên sâu cực kì vāng chắc trong nhāng năm qua để em có thể hoàn thành đ°ÿc đß án này. Em xin cÁm ¢n Tr°áng Đ¿i học QuÁn lý và Công nghá HÁi Phòng vì không ngừng hỗ trÿ và đào t¿o nhāng điÅu kián tốt nh¿t trong nhāng năm vừa qua để em có thể học và thực hián tốt đß án.

Em xin cÁm ¢n gia đình, b¿n bè đã hỗ trÿ và cá vũ cho em trong suốt quá trình học tÁp cũng nh° làm đß án để em có thể hoàn thành khoá học và đß án theo quy định. Em xin chân thành cÁm ¢n ! Ph¿m Thị Ngọc Anh _ CT2301M 4 MþC LþC LàI CÀM ¡N. 1 DANH MĀC HÌNH VÀ. 9 CH¯¡NG 1 : TàNG QUAN VÄ PHÂN ĐO¾N ÀNH .1 Xÿ lý Ánh là gì .3 Phân đo¿n Ánh ngā ngh*a .1 Phân đo¿n ngā ngh*a là gì .2 Các lo¿i phân đo¿n hình Ánh khác nhau.4 Một số āng dāng.

17 CH¯¡NG 2: M¾NG N¡ RON NHÂN CHÀP .1 KiÃn trúc m¿ng n¢ ron .3 M¿ng n¢ ron tích chÁp ( Convolutional Neural Netwwork – CNN ) .1 Định ngh*a m¿ng n¢ ron tích chÁp .2 Các lßp c¢ bÁn cÿa m¿ng CNN.4 KiÃn trúc m¿ng CNN .5 Một số c¿u trúc m¿ng CNN .1 KiÃn trúc LeNet-5 .2 KiÃn trúc AlexNet .3 KiÃn trúc VGG-16 .4 KiÃn trúc Inception ( GoogLeNet) .2 KiÃn trúc U-Net. 42 CH¯¡NG 3: ĀNG DĀNG CNN CHO PHÂN ĐO¾N NGĀ NGH)A .1 Môi tr°áng và cài đặt .2 Cài đặt môi tr°áng Google Colab .3 Các th° vián sÿ dāng.2 Lựa chọn mô hình thÿ nghiám .1 Xây dựng tÁp dā liáu thÿ nghiám. 47 Ph¿m Thị Ngọc Anh _ CT2301M 5 3.2 B°ßc hu¿n luyán và l°u mô hình .3 Đánh giá mô hình .1 KÃt quÁ kiểm thÿ trong tÁp dā liáu test .2 Kiểm thÿ trên một Ánh. 55 TÀI LIàU THAM KHÀO.

57 Ph¿m Thị Ngọc Anh _ CT2301M 6 DANH MþC HÌNH VẼ Hình 1.1 Quá trình xÿ lý Ánh .2 Các b°ßc c¢ bÁn trong một há thống xÿ lý Ánh .3 Gán nhãn cho từng pixel trong Ánh .4 NhÁn d¿ng khuôn mặt .1 Mô tÁ m¿ng n¢ ron sinh học .2 Mô hình perceptron .3 Đß thị hàm singmoid .4 Mô hình perceptron chi tiÃt .5 KiÃn trúc m¿ng n¢ ron .7 Max pooling và Average pooling .9 M¿ng n¢ ron thông th°áng ( trái ) và CNN ( phÁi ) .10 KiÃn trúc m¿ng CNN .11 Ví dā vÅ phép tích chÁp.12 Hình Ánh minh ho¿ ma trÁn đÁu vào sau khi thêm padding = 1 vßi giá trị bằng 0 .13 Hình Ánh RGB và Ánh xám .14 Phép gộp l¿y giá trị lßn nh¿t .15 Ví dā minh ho¿ khi làm phẳng feature map để đ°a vào lßp kÃt nối đÁy đÿ .16 Sự phát triển cÿa m¿ng n¢-ron tích chÁp .17 Mô hình kiÃn trúc LeNet-5.18 Mô hình kiÃn trúc AlexNet .19 Hình mô tÁ cách thāc ho¿t động cÿa VGG-16. 38 Ph¿m Thị Ngọc Anh _ CT2301M 7 Hình 2.20 Mô hình kiÃn trúc AGG-16 .21 Mô hình d¿ng cell cÿa kiÃn trúc Inception.22 Mô hình kiÃn trúc Inception .23 KiÃn trúc mô hình U-Net .25 KiÃn trúc mô hình U-Net .3 Ành đ°ÿc gán nhãn .4 Một số cặp Ánh cùng nhãn .7 KÃt quÁ test 1 Ánh riêng. 54 Ph¿m Thị Ngọc Anh _ CT2301M 8 Mâ ĐÀU Phân đo¿n ngā ngh*a (semantics segmentation) là bài toán gán nhãn đối t°ÿng cho từng điểm Ánh và từ đó có thể phân biát chính xác Ánh cÿa đối t°ÿng cÁn quan tâm so vßi Ánh cÿa các đối t°ÿng khác hoặc Ánh nÅn. Māc tiêu là phân tích một Ánh thành các đối t°ÿng có ý ngh*a, để máy tính dß dàng hiểu đ°ÿc các thông tin chāa trong Ánh.

CNN là từ viÃt tắt cÿa cām Convolutional Neural Network hay là m¿ng n¢ ron tích chÁp. Đây là mô hình vô cùng tiên tiÃn đ°ÿc áp dāng nhiÅu trong l*nh vực học sâu Deep learning. M¿ng CNN cho phép ng°ái dùng xây dựng nhāng há thống phân lo¿i và dự đoán vßi độ chính xác cực cao. Hián nay, m¿ng CNN đ°ÿc āng dāng nhiÅu h¢n trong xÿ lý Ánh, cā thể là nhÁn dián đối t°ÿng trong Ánh.

Tích chÁp là một khái niám trong xÿ lý tín hiáu số nhằm biÃn đái thông tin đÁu vào thông qua một phép tích chÁp vßi bộ lọc để trÁ vÅ đÁu ra là một tín hiáu mßi. Tín hiáu này sÁ làm giÁm nhāng đặc tr°ng mà bộ lọc không quan tâm và chỉ giā nhāng đặc tr°ng chính. M¿ng n¢ ron tích chÁp chúng r¿t hāu ích trong viác phân lo¿i hình Ánh vì chúng có thể trích xu¿t các đặc điểm liên quan từ hình Ánh, điểu này có lÿi cho viác phân lo¿i và nhÁn d¿ng hình Ánh. Biểu m¿u mßi dß xÿ lý h¢n mà không làm m¿t đi các đặc điểm quan trọng để đ°a ra dự đoán chính xác.

Công nghá CNN có khÁ năng phát triển m¿nh mÁ trong t°¢ng lai. Đây là lý do em chọn đÅ tài <Phân đo¿n ngā ngh*a sÿ dāng m¿ng n¢ ron tích chÁp = để triển khai. ĐÅ tài này sÁ tìm hiểu mô hình phân đo¿n ngā ngh*a Ánh sÿ dāng kiÃn trúc m¿ng n¢-ron tích chÁp sâu vßi các kỹ thuÁt liên quan và āng dāng, nội dung cÿa đß án bao gßm: Ch°¢ng 1 : Táng quan vÅ phân lo¿i Ánh Ch°¢ng 2 : M¿ng n¢ ron nhân chÁp Ch°¢ng 3 : Āng dāng CNN cho phân đo¿n ngā ngh*a Ph¿m Thị Ngọc Anh _ CT2301M 9 CH¯¡NG 1 : TỔNG QUAN VÀ PHÂN ĐO¾N ÀNH 1.1 Xā lý Ánh là gì Xÿ lý Ánh là quá trình khác thú vị khi biÃn đái hình Ánh thông th°áng sang d¿ng k* thuÁt số, sau đó tÁn dāng để t¿o ra nhāng thông tin hāu ích. Để làm điÅu này, há thống xÿ lý Ánh th°áng xem mọi bāc Ánh nh° một tín hiáu 2D và tiÃn hành các phép biÃn đái dựa trên các kỹ thuÁt đã đ°ÿc xác định tr°ßc.

Con ng°ái thu nhÁn thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nh¿t. Nhāng năm trã l¿i đây vßi sự phát triển cÿa phÁn cāng máy tính, xÿ lý Ánh và đß ho¿ đó phát triển một cách m¿nh mÁ và có nhiÅu āng dāng trong cuộc sống. Xÿ lý Ánh và đß ho¿ đóng một vai trò quan trọng trong t°¢ng tác ng°ái máy. Quá trình xÿ lý Ánh đ°ÿc xem nh° là quá trình thao tác Ánh đÁu vào nhằm cho ra kÃt quÁ mong muốn.

KÃt quÁ đÁu ra cÿa một quá trình xÿ lý Ánh có thể là một Ánh <tốt h¢n= hoặc một kÃt luÁn.1 Quá trình xÿ lý Ánh Ành có thể xem là tÁp hÿp các điểm Ánh và mỗi điểm Ánh đ°ÿc xem nh° là đặc tr°ng c°áng độ sáng hay một d¿u hiáu nào đó t¿i một vị trí nào đó cÿa đối t°ÿng trong không gian và nó có thể xem nh° một hàm n biÃn P(c1, c2,. Do đó, Ánh trong xÿ lý Ánh có thể xem nh° Ánh n chiÅu. S¢ đß táng quát cÿa một há thống xÿ lý Ánh minh họa nh° sau: Hình 1.2 Các b°ßc c¢ bÁn trong một há thống xÿ lý Ánh Ph¿m Thị Ngọc Anh _ CT2301M 10 1.2 Phân đo¿n Ánh Phân đo¿n Ánh ( hay còn gọi là phân vùng Ánh, tiÃng Anh Image segmentation ) là quá trình phân chia Ánh thành các vùng hoặc đối t°ÿng có tính ch¿t thoÁ mãn một tiêu chí xác định ( có sự t°¢ng đßng vÅ māc xám, kÃt c¿u, màu sắc, v.v) Māc độ chi tiÃt cÿa viác phân chia phā thuộc vào từng bài toán cÁn giÁi quyÃt. Phân đo¿n Ánh là một bài toán căn bÁn nh°ng cũng r¿t phāc t¿p trong chuỗi xÿ lý và phân tích Ánh nói chung bãi sự đa d¿ng trong định ngh*a cũng nh° tính ch¿t cÿa vùng hoặc đối t°ÿng quan tâm trong Ánh Thái kỳ đÁu cÿa thị giác máy tính, các giÁi thuÁt phân vùng Ánh ch°a quan tâm nhiÅu đÃn ngā ngh*a và thực thể đối t°ÿng cÁn xem xét.

Trong thái gian gÁn đây, phân vùng Ánh h°ßng đÃn phân tách Ánh thành các vùng, mỗi vùng có thể chāa một đối t°ÿng hoặc các thực thể cÿa một lßp đối t°ÿng nào đó. Ba bài toán th°áng gặp trong quá trình phân vùng Ánh đó là: − Phát hiện đối tượng: tìm bao đóng chāa các đối t°ÿng quan tâm (vd. − Phân vùng ngữ nghĩa (semantic segmentation): phân chia các điểm Ánh vào các lßp khác nhau. Các đối t°ÿng cùng một lßp sÁ thuộc cùng một vùng (vd.

mọi ng°ái trong Ánh thuộc một vùng). − Phân vùng thực thể (instance segmentation): phân chia các điểm Ánh vào các lßp nh°ng các đối t°ÿng cÿa cùng một lßp thì có nhãn khác nhau. Nh° vÁy mỗi thực thể cÿa một lßp đối t°ÿng sÁ đ°ÿc xác định là một vùng riêng biát (vd. mỗi ng°ái trong Ánh là một vùng).

Phân vùng Ánh là bài toán đ°ÿc đÅ cÁp và giÁi quyÃt từ nhāng năm 1970 trong các công bố cÿa Brice và Fenema. Năm 1974 Watanabe đÅ xu¿t kỹ thuÁt phân vùng Ánh dựa trên lấy ngưỡng. Năm 1978 Jack Sklandsky đÅ xu¿t kỹ thuÁt phân vùng Ánh dựa trên phát hiện biên.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt luận văn "Phân đoạn ngữ nghĩa ảnh sử dụng mạng nơ-ron tích chập (CNN): Ứng dụng và Nghiên cứu" trình bày một cách tổng quan về kỹ thuật phân đoạn ngữ nghĩa ảnh, một lĩnh vực quan trọng trong xử lý ảnh và thị giác máy tính. Luận văn tập trung vào việc sử dụng mạng nơ-ron tích chập (CNN) – một kiến trúc mạng nơ-ron sâu mạnh mẽ – để giải quyết bài toán này. Độc giả sẽ được làm quen với các mô hình CNN phổ biến được sử dụng cho phân đoạn ngữ nghĩa, các phương pháp huấn luyện và tối ưu hóa, cũng như các ứng dụng thực tế của kỹ thuật này trong nhiều lĩnh vực khác nhau. Lợi ích chính của luận văn là cung cấp một cái nhìn toàn diện về lĩnh vực này, giúp người đọc nắm vững kiến thức nền tảng và các kỹ thuật tiên tiến để tự mình áp dụng vào các dự án thực tế.

Nếu bạn quan tâm đến việc triển khai phần cứng cho CNN và ứng dụng trong y học, bạn có thể tìm hiểu thêm trong luận văn Luận văn thạc sĩ kỹ thuật điện tử nghiên cứu thiết kế và thực hiện cấu trúc vi mạch cho mạng lưới thần kinh tích chập convolutional neural network hướng ứng dụng chẩn đoán bệnh ung thư vú. Tài liệu này sẽ mở rộng kiến thức của bạn về ứng dụng cụ thể của CNN và các khía cạnh liên quan đến phần cứng.

#Phân đoạn ngữ nghĩa ảnh CNN

#Mạng nơ-ron tích chập cho phân đoạn ảnh

#Ứng dụng phân đoạn ngữ nghĩa ảnh

#Nghiên cứu phân đoạn ngữ nghĩa ảnh

#CNN trong phân tích ảnh

#Semantic segmentation with CNN

Chủ đề

Mạng nơ-ron tích chập (CNN)

Phân đoạn ngữ nghĩa hình ảnh

Ứng dụng của phân đoạn ảnh

Nghiên cứu trong phân đoạn ảnh