Đồ Án Tốt Nghiệp: Phân Đoạn Ngữ Nghĩa Sử Dụng Mạng Nơ-Ron Tích Chập

Khóa luận phân đoạn ngữ nghĩa sử dụng mạng nơ ron tích chập khám phá ứng dụng AI trong xử lý ngôn ngữ tự nhiên và phân tích văn bản.

2023

57
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH

1.1. Xử lý ảnh là gì

1.2. Phân đoạn ảnh

1.3. Phân đoạn ảnh ngữ nghĩa

1.3.1. Phân đoạn ngữ nghĩa là gì

1.3.2. Các loại phân đoạn hình ảnh khác nhau

1.4. Một số ứng dụng

2. CHƯƠNG 2: MẠNG NƠ RON NHÂN CHẬP

2.1. Kiến trúc mạng nơ ron

2.2. Mạng nơ ron tích chập (Convolutional Neural Network – CNN)

2.2.1. Định nghĩa mạng nơ ron tích chập

2.2.2. Các lớp cơ bản của mạng CNN

2.3. Kiến trúc mạng CNN

2.4. Một số cấu trúc mạng CNN

2.4.1. Kiến trúc LeNet-5

2.4.2. Kiến trúc AlexNet

2.4.3. Kiến trúc VGG-16

2.4.4. Kiến trúc Inception (GoogLeNet)

2.4.5. Kiến trúc U-Net

3. CHƯƠNG 3: ỨNG DỤNG CNN CHO PHÂN ĐOẠN NGỮ NGHĨA

3.1. Môi trường và cài đặt

3.1.1. Cài đặt môi trường Google Colab

3.1.2. Các thư viện sử dụng

3.2. Lựa chọn mô hình thử nghiệm

3.2.1. Xây dựng tập dữ liệu thử nghiệm

3.2.2. Bước huấn luyện và lưu mô hình

3.2.3. Đánh giá mô hình

3.2.3.1. Kết quả kiểm thử trong tập dữ liệu test
3.2.3.2. Kiểm thử trên một ảnh

TÀI LIỆU THAM KHẢO

Tài liệu có tiêu đề Phân Đoạn Ngữ Nghĩa Sử Dụng Mạng Nơ-Ron Tích Chập khám phá cách mà mạng nơ-ron tích chập (CNN) có thể được áp dụng để phân đoạn ngữ nghĩa trong văn bản. Bài viết nêu bật các phương pháp và kỹ thuật hiện đại, giúp cải thiện độ chính xác trong việc nhận diện và phân loại các thành phần ngữ nghĩa trong câu. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các mô hình này, bao gồm khả năng xử lý ngữ nghĩa phức tạp và tăng cường hiệu suất trong các ứng dụng thực tiễn như phân tích cảm xúc và dịch máy.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính dự báo chuỗi thời gian hỗn loạn kết hợp mạng lstm autoencoder và lý thuyết hỗn loạn, nơi trình bày các phương pháp dự báo chuỗi thời gian phức tạp. Ngoài ra, tài liệu Nghiên cứu mạng nơ ron deepface và ứng dụng trong bài toán đánh giá chất lượng phục vụ khách hàng dựa trên nhận dạng cảm xúc sẽ giúp bạn hiểu rõ hơn về ứng dụng của mạng nơ-ron trong việc đánh giá chất lượng dịch vụ khách hàng. Những tài liệu này sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các ứng dụng của mạng nơ-ron trong các lĩnh vực khác nhau.

Trích đoạn nội dung tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CÔNG NGHỆ HẢI PHÒNG ---------------------------------------------- ĐỒ ÁN TỐT NGHIỆP NGÀNH: CÔNG NGHỆ THÔNG TIN Sinh viên : Phạm Thị Ngọc Anh Giảng viên hướng dẫn: TS. Ngô Trường Giang Hải Phòng -2023 Phạm Thị Ngọc Anh _ CT2301M 1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CÔNG NGHỆ HẢI PHÒNG ----------------------------------- ĐỀ TÀI : PHÂN ĐOẠN NGỮ NGHĨA SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY NGÀNH : CÔNG NGHỆ THÔNG TIN Sinh viên : Phạm Thị Ngọc Anh Giảng viên hướng dẫn: TS. Ngô Trường Giang Hải Phòng – 2023 Phạm Thị Ngọc Anh _ CT2301M 2 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUẢN LÝ VÀ CÔNG NGHỆ HẢI PHÒNG ---------------------------------------------- NHIỆM VỤ ĐỀ TÀI TỐT NGHIỆP Sinh viên : Phạm Thị Ngọc Anh - MSV : 1912111012 Lớp : CT2301M Ngành : Công nghệ thông tin Tên đề tài : Phân đoạn ngữ nghĩa sử dụng mạng nơ-ron tích chập Phạm Thị Ngọc Anh _ CT2301M 3 LỜI CẢM ƠN Trong quá trình làm đồ án vừa qua vì được sự chỉ dẫn nhiệt tình của thầy TS. Ngô Trường Giang – Trường Đại học Quản lý và Công nghệ Hải Phòng, em đã hoàn thành đồ án của mình. Mặc dù em đã cố gắng với sự tận tâm của thầy, nhưng vì thời gian và khả năng nên đồ án của em vẫn còn không tránh được những điều thiếu sót. Em xin chân thành và bày tỏ lòng biết ơn sâu sắc đến thầy Ngô Trường Giang vì đã tận tình chỉ bảo, hướng dẫn và giành thời gian quý báu của mình cho em trong thời gian qua để em có thể hoàn thành đồ án của mình đúng thời hạn. Em xin cảm ơn tất cả thầy cô giáo trong khoa Công nghệ thông tin vì đã truyền đạt cho em rất nhiều các kiến thức nền tảng, chuyên ngành, chuyên môn và chuyên sâu cực kì vững chắc trong những năm qua để em có thể hoàn thành được đồ án này. Em xin cảm ơn Trường Đại học Quản lý và Công nghệ Hải Phòng vì không ngừng hỗ trợ và đào tạo những điều kiện tốt nhất trong những năm vừa qua để em có thể học và thực hiện tốt đồ án. Em xin cảm ơn gia đình, bạn bè đã hỗ trợ và cổ vũ cho em trong suốt quá trình học tập cũng như làm đồ án để em có thể hoàn thành khoá học và đồ án theo quy định. Em xin chân thành cảm ơn ! Phạm Thị Ngọc Anh _ CT2301M 4 MỤC LỤC LỜI CẢM ƠN . 1 DANH MỤC HÌNH VẼ . 9 CHƯƠNG 1 : TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH .1 Xử lý ảnh là gì .2 Phân đoạn ảnh .3 Phân đoạn ảnh ngữ nghĩa .1 Phân đoạn ngữ nghĩa là gì .2 Các loại phân đoạn hình ảnh khác nhau.4 Một số ứng dụng . 17 CHƯƠNG 2: MẠNG NƠ RON NHÂN CHẬP .1 Kiến trúc mạng nơ ron .3 Mạng nơ ron tích chập ( Convolutional Neural Netwwork – CNN ) .1 Định nghĩa mạng nơ ron tích chập .2 Các lớp cơ bản của mạng CNN.4 Kiến trúc mạng CNN .5 Một số cấu trúc mạng CNN .1 Kiến trúc LeNet-5 .2 Kiến trúc AlexNet .3 Kiến trúc VGG-16 .4 Kiến trúc Inception ( GoogLeNet) .2 Kiến trúc U-Net . 42 CHƯƠNG 3: ỨNG DỤNG CNN CHO PHÂN ĐOẠN NGỮ NGHĨA .1 Môi trường và cài đặt .2 Cài đặt môi trường Google Colab .3 Các thư viện sử dụng.2 Lựa chọn mô hình thử nghiệm .1 Xây dựng tập dữ liệu thử nghiệm . 47 Phạm Thị Ngọc Anh _ CT2301M 5 3.2 Bước huấn luyện và lưu mô hình .3 Đánh giá mô hình .1 Kết quả kiểm thử trong tập dữ liệu test .2 Kiểm thử trên một ảnh . 55 TÀI LIỆU THAM KHẢO . 57 Phạm Thị Ngọc Anh _ CT2301M 6 DANH MỤC HÌNH VẼ Hình 1.1 Quá trình xử lý ảnh .2 Các bước cơ bản trong một hệ thống xử lý ảnh .3 Gán nhãn cho từng pixel trong ảnh .4 Nhận dạng khuôn mặt .1 Mô tả mạng nơ ron sinh học .2 Mô hình perceptron .3 Đồ thị hàm singmoid .4 Mô hình perceptron chi tiết .5 Kiến trúc mạng nơ ron .6 Ví dụ về lớp tích chập .7 Ví dụ về hàm ReLU .7 Max pooling và Average pooling .8 Lớp kết nối đầy đủ .9 Mạng nơ ron thông thường ( trái ) và CNN ( phải ) .10 Kiến trúc mạng CNN .11 Ví dụ về phép tích chập.12 Hình ảnh minh hoạ ma trận đầu vào sau khi thêm padding = 1 với giá trị bằng 0 .13 Hình ảnh RGB và ảnh xám .14 Phép gộp lấy giá trị lớn nhất .15 Ví dụ minh hoạ khi làm phẳng feature map để đưa vào lớp kết nối đầy đủ .16 Sự phát triển của mạng nơ-ron tích chập .17 Mô hình kiến trúc LeNet-5.18 Mô hình kiến trúc AlexNet .19 Hình mô tả cách thức hoạt động của VGG-16. 38 Phạm Thị Ngọc Anh _ CT2301M 7 Hình 2.20 Mô hình kiến trúc AGG-16 .21 Mô hình dạng cell của kiến trúc Inception.22 Mô hình kiến trúc Inception .23 Kiến trúc mô hình U-Net .25 Kiến trúc mô hình U-Net .3 Ảnh được gán nhãn .4 Một số cặp ảnh cùng nhãn .5 Kết quả test1 .6 Kết quả test 2 .7 Kết quả test 1 ảnh riêng. 54 Phạm Thị Ngọc Anh _ CT2301M 8 MỞ ĐẦU Phân đoạn ngữ nghĩa (semantics segmentation) là bài toán gán nhãn đối tượng cho từng điểm ảnh và từ đó có thể phân biệt chính xác ảnh của đối tượng cần quan tâm so với ảnh của các đối tượng khác hoặc ảnh nền. Mục tiêu là phân tích một ảnh thành các đối tượng có ý nghĩa, để máy tính dễ dàng hiểu được các thông tin chứa trong ảnh. CNN là từ viết tắt của cụm Convolutional Neural Network hay là mạng nơ ron tích chập. Đây là mô hình vô cùng tiên tiến được áp dụng nhiều trong lĩnh vực học sâu Deep learning. Mạng CNN cho phép người dùng xây dựng những hệ thống phân loại và dự đoán với độ chính xác cực cao. Hiện nay, mạng CNN được ứng dụng nhiều hơn trong xử lý ảnh, cụ thể là nhận diện đối tượng trong ảnh. Tích chập là một khái niệm trong xử lý tín hiệu số nhằm biến đổi thông tin đầu vào thông qua một phép tích chập với bộ lọc để trả về đầu ra là một tín hiệu mới. Tín hiệu này sẽ làm giảm những đặc trưng mà bộ lọc không quan tâm và chỉ giữ những đặc trưng chính. Mạng nơ ron tích chập chúng rất hữu ích trong việc phân loại hình ảnh vì chúng có thể trích xuất các đặc điểm liên quan từ hình ảnh, điểu này có lợi cho việc phân loại và nhận dạng hình ảnh. Biểu mẫu mới dễ xử lý hơn mà không làm mất đi các đặc điểm quan trọng để đưa ra dự đoán chính xác. Công nghệ CNN có khả năng phát triển mạnh mẽ trong tương lai. Đây là lý do em chọn đề tài “Phân đoạn ngữ nghĩa sử dụng mạng nơ ron tích chập ” để triển khai. Đề tài này sẽ tìm hiểu mô hình phân đoạn ngữ nghĩa ảnh sử dụng kiến trúc mạng nơ-ron tích chập sâu với các kỹ thuật liên quan và ứng dụng, nội dung của đồ án bao gồm: Chương 1 : Tổng quan về phân loại ảnh Chương 2 : Mạng nơ ron nhân chập Chương 3 : Ứng dụng CNN cho phân đoạn ngữ nghĩa Phạm Thị Ngọc Anh _ CT2301M 9 CHƯƠNG 1 : TỔNG QUAN VỀ PHÂN ĐOẠN ẢNH 1.1 Xử lý ảnh là gì Xử lý ảnh là quá trình khác thú vị khi biến đổi hình ảnh thông thường sang dạng kĩ thuật số, sau đó tận dụng để tạo ra những thông tin hữu ích. Để làm điều này, hệ thống xử lý ảnh thường xem mọi bức ảnh như một tín hiệu 2D và tiến hành các phép biến đổi dựa trên các kỹ thuật đã được xác định trước. Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất. Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy. Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận.1 Quá trình xử lý ảnh Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2,. Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều. Sơ đồ tổng quát của một hệ thống xử lý ảnh minh họa như sau: Hình 1.2 Các bước cơ bản trong một hệ thống xử lý ảnh Phạm Thị Ngọc Anh _ CT2301M 10 1.2 Phân đoạn ảnh Phân đoạn ảnh ( hay còn gọi là phân vùng ảnh, tiếng Anh Image segmentation ) là quá trình phân chia ảnh thành các vùng hoặc đối tượng có tính chất thoả mãn một tiêu chí xác định ( có sự tương đồng về mức xám, kết cấu, màu sắc, v.v) Mức độ chi tiết của việc phân chia phụ thuộc vào từng bài toán cần giải quyết. Phân đoạn ảnh là một bài toán căn bản nhưng cũng rất phức tạp trong chuỗi xử lý và phân tích ảnh nói chung bởi sự đa dạng trong định nghĩa cũng như tính chất của vùng hoặc đối tượng quan tâm trong ảnh Thời kỳ đầu của thị giác máy tính, các giải thuật phân vùng ảnh chưa quan tâm nhiều đến ngữ nghĩa và thực thể đối tượng cần xem xét. Trong thời gian gần đây, phân vùng ảnh hướng đến phân tách ảnh thành các vùng, mỗi vùng có thể chứa một đối tượng hoặc các thực thể của một lớp đối tượng nào đó. Ba bài toán thường gặp trong quá trình phân vùng ảnh đó là: − Phát hiện đối tượng: tìm bao đóng chứa các đối tượng quan tâm (vd. con người). − Phân vùng ngữ nghĩa (semantic segmentation): phân chia các điểm ảnh vào các lớp khác nhau. Các đối tượng cùng một lớp sẽ thuộc cùng một vùng (vd. mọi người trong ảnh thuộc một vùng). − Phân vùng thực thể (instance segmentation): phân chia các điểm ảnh vào các lớp nhưng các đối tượng của cùng một lớp thì có nhãn khác nhau. Như vậy mỗi thực thể của một lớp đối tượng sẽ được xác định là một vùng riêng biệt (vd. mỗi người trong ảnh là một vùng). Phân vùng ảnh là bài toán được đề cập và giải quyết từ những năm 1970 trong các công bố của Brice và Fenema.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ