Nghiên cứu mạng nơron CNN và ứng dụng trong bài toán phân loại ảnh

Khám phá luận văn thạc sĩ về mạng nơron CNN và ứng dụng trong phân loại ảnh, cung cấp kiến thức sâu sắc và xu hướng mới trong nghiên cứu.

Trường đại học

Trường Đại học Công nghệ Thông tin và Truyền thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÂN LOẠI ẢNH SỐ

1.1. Một số khái niệm cơ bản trong xử lý ảnh

1.2. Tổng quan về một hệ thống xử lý ảnh

1.3. Một số thao tác cơ bản trong xử lý ảnh

1.4. Biểu diễn ảnh trong máy tính

2. CHƯƠNG 2: MẠNG NƠ RON CNN VÀ ỨNG DỤNG TRONG PHÂN LOẠI ẢNH

2.1. Các khái niệm chung về mạng nơron

2.1.1. Mạng nơron sinh học

2.1.2. Mạng nơron nhân tạo

2.1.3. Mô hình toán học và kiến trúc mạng nơron

2.1.4. Phân loại mạng nơ ron

2.1.5. Huấn luyện mạng nơron

2.2. Mạng nơron CNN

2.2.1. Kiến trúc mạng CNN

2.2.2. Ứng dụng CNN trong phân loại ảnh

2.3. Xây dựng mạng CNN cho phân loại ảnh

2.3.1. Trường tiếp nhận cục bộ (Local receptive fields)

2.3.2. Trọng số chia sẻ và độ lệch (Shared weights and biases)

2.3.3. Lớp chứa hay lớp tổng hợp (Pooling layer)

2.3.4. Cách chọn tham số cho CNN

2.4. Cập nhật một số hướng nghiên cứu về bài toán phân loại ảnh sử dụng mạng nơ ron CNN

2.4.1. Các nghiên cứu trên thế giới

2.4.2. Các nghiên cứu trên trong nước

2.5. Kết luận chương

3. CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH MÔ PHỎNG ỨNG DỤNG MẠNG CNN TRONG PHÂN LOẠI ẢNH

3.1. Bài toán nhận dạng chữ viết tay

3.1.1. Mô tả bài toán

3.1.2. Các bước thực hiện

3.1.3. Một số kết quả đạt được

3.2. Bài toán giải mã Capcha

3.2.1. Mô tả bài toán

3.2.2. Các bước thực hiện

3.2.3. Một số kết quả đạt được

3.3. Kết luận chương

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về mạng nơron CNN và ứng dụng phân loại ảnh

Mạng nơron tích chập (CNN) đã trở thành một công cụ mạnh mẽ trong lĩnh vực phân loại ảnh. Với khả năng tự động trích xuất đặc trưng từ dữ liệu hình ảnh, CNN giúp cải thiện độ chính xác trong nhận diện và phân loại. Nghiên cứu này sẽ đi sâu vào các khái niệm cơ bản về CNN và cách mà nó được áp dụng trong phân loại ảnh.

1.1. Khái niệm cơ bản về mạng nơron tích chập

Mạng nơron tích chập (CNN) là một loại mạng nơron nhân tạo được thiết kế đặc biệt cho việc xử lý dữ liệu có cấu trúc dạng lưới, như hình ảnh. CNN sử dụng các lớp tích chập để tự động trích xuất đặc trưng mà không cần phải thiết kế thủ công.

1.2. Lịch sử phát triển của mạng nơron CNN

Mạng nơron CNN được phát triển từ những năm 1980, nhưng chỉ thực sự bùng nổ trong thập kỷ qua nhờ vào sự phát triển của công nghệ phần cứng và lượng dữ liệu lớn. Các nghiên cứu như AlexNet đã chứng minh sức mạnh của CNN trong các cuộc thi phân loại ảnh.

II. Thách thức trong việc phân loại ảnh bằng mạng nơron CNN

Mặc dù mạng nơron CNN mang lại nhiều lợi ích, nhưng vẫn tồn tại một số thách thức trong việc áp dụng chúng vào phân loại ảnh. Những thách thức này bao gồm việc xử lý dữ liệu không đồng nhất, yêu cầu về tài nguyên tính toán và khả năng tổng quát của mô hình.

2.1. Vấn đề dữ liệu không đồng nhất

Dữ liệu không đồng nhất có thể gây khó khăn cho mạng CNN trong việc học và phân loại chính xác. Việc chuẩn hóa và làm sạch dữ liệu là rất cần thiết để cải thiện hiệu suất của mô hình.

2.2. Tài nguyên tính toán và thời gian huấn luyện

Mạng CNN yêu cầu một lượng lớn tài nguyên tính toán, đặc biệt là khi làm việc với các tập dữ liệu lớn. Thời gian huấn luyện có thể kéo dài, ảnh hưởng đến khả năng triển khai nhanh chóng trong thực tế.

III. Phương pháp tối ưu hóa mạng nơron CNN cho phân loại ảnh

Để cải thiện hiệu suất của mạng nơron CNN trong phân loại ảnh, nhiều phương pháp tối ưu hóa đã được phát triển. Những phương pháp này bao gồm việc điều chỉnh kiến trúc mạng, sử dụng kỹ thuật tăng cường dữ liệu và áp dụng các thuật toán huấn luyện tiên tiến.

3.1. Điều chỉnh kiến trúc mạng CNN

Việc điều chỉnh kiến trúc mạng CNN, như số lượng lớp và kích thước kernel, có thể giúp cải thiện khả năng học của mô hình. Các nghiên cứu đã chỉ ra rằng việc tối ưu hóa kiến trúc có thể dẫn đến sự gia tăng đáng kể trong độ chính xác.

3.2. Kỹ thuật tăng cường dữ liệu

Tăng cường dữ liệu là một kỹ thuật quan trọng giúp cải thiện độ chính xác của mạng CNN. Bằng cách tạo ra các biến thể của dữ liệu huấn luyện, mô hình có thể học được nhiều đặc trưng hơn và giảm thiểu hiện tượng overfitting.

IV. Ứng dụng thực tiễn của mạng nơron CNN trong phân loại ảnh

Mạng nơron CNN đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ nhận diện khuôn mặt đến phân loại hình ảnh y tế. Những ứng dụng này không chỉ giúp cải thiện hiệu suất công việc mà còn mở ra nhiều cơ hội mới trong nghiên cứu và phát triển.

4.1. Nhận diện khuôn mặt

CNN đã được sử dụng để phát triển các hệ thống nhận diện khuôn mặt chính xác và nhanh chóng. Các ứng dụng này hiện đang được sử dụng trong an ninh và quản lý truy cập.

4.2. Phân loại hình ảnh y tế

Trong lĩnh vực y tế, CNN giúp phân loại hình ảnh y tế như X-quang và MRI, hỗ trợ bác sĩ trong việc chẩn đoán và điều trị bệnh.

V. Kết luận và tương lai của mạng nơron CNN trong phân loại ảnh

Mạng nơron CNN đã chứng minh được giá trị của mình trong việc phân loại ảnh. Tương lai của công nghệ này hứa hẹn sẽ còn phát triển mạnh mẽ hơn nữa với sự tiến bộ của trí tuệ nhân tạo và học sâu. Việc nghiên cứu và cải tiến các mô hình CNN sẽ tiếp tục mở ra nhiều cơ hội mới.

5.1. Xu hướng nghiên cứu trong tương lai

Các nghiên cứu trong tương lai sẽ tập trung vào việc cải thiện khả năng tổng quát của mạng CNN và giảm thiểu yêu cầu về tài nguyên tính toán. Điều này sẽ giúp mở rộng khả năng ứng dụng của CNN trong nhiều lĩnh vực khác nhau.

5.2. Tích hợp với công nghệ mới

Việc tích hợp mạng CNN với các công nghệ mới như IoT và blockchain có thể tạo ra những ứng dụng đột phá, giúp cải thiện hiệu suất và độ tin cậy trong phân loại ảnh.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hay nghiên cứu mạng nơron cnn và ứng dụng trong bài toán phân loại ảnh

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN BÀI TOÁN PHÂN LOẠI ẢNH SỐ Tổng quan xử lý ảnh số 1.1 Một số khái niệm cơ bản trong xử lý ảnh  Ảnh số Ảnh số thực tế là biểu diễn số học của hình ảnh trong máy tính, thường là biểu diễn nhị phân. Có thể phân ảnh số thành 2 loại: ảnh xám và ảnh màu. Ảnh xám thực chất là một hàm hai chiều của cường độ sáng f(x,y), trong đó x và y là các toạ độ không gian và giá trị của hàm f tại một điểm (x,y) tỷ lệ với cường độ sáng của ảnh tại điểm đó. Nếu chúng ta có một ảnh mầu thì f là một vector mà mỗi thành phần của vector đó chỉ ra cường độ sáng của ảnh tại điểm (x,y) đó tương ứng với dải mầu [2].

Mỗi thành phần của mảng (x,y) được gọi là một điểm ảnh (pixel: picture element) và là phần tử nhỏ nhất cấu tạo nên ảnh. Điểm ảnh được hiểu như 1 dấu hiệu hay cường độ sáng tại một tọa độ xác định trong không gian. Hình ảnh được xem như là 1 tập hợp các điểm. Với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải.

 Cường độ sáng của một ảnh tại một ví trí điểm ảnh Mỗi điểm ảnh của một ảnh tương ứng với một phần của một đối tượng vật lý tồn tại trong thế giới thực. Đối tượng vật lý này được chiếu sáng bởi một vài tia sáng mà tia sáng này bị phản xạ một phần hay hấp thụ một phần khi chiếu lên đối tượng vật lý đó. Phần ánh sáng phản xạ lại đi tới các bộ cảm biến được sử dụng để tạo ảnh cảm nhận và tạo ra các giá trị ghi nhận được đối tượng đối với từng điểm ảnh. Giá trị thu nhận được phụ thuộc vào phổ ánh sáng phản xạ.

Giá trị cường độ sáng của các điểm ảnh khác nhau chỉ có ý nghĩa tương đối mà không có ý nghĩa trong các toán hạng tuyệt đối [2]. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4  Số bits cần thiết để lưu trữ một ảnh Ở đây chúng ta chỉ quan tâm tới ảnh xám, nếu ảnh được lưu trữ dưới dạng một mảng hai chiều với kích thước NxN và có 2m mức xám thì số bits cần thiết để lưu trữ ảnh là: b  N x N x 2m (1.1) Ví dụ như, một ảnh cỡ 512 x 512 với 256 (tức m=8) mức xám thì cần số bits lưu trữ là: 512 x 512 x 256=2.  Độ phân giải ảnh Độ phân giải ảnh biểu diễn mức độ chi tiết của ảnh mà chúng ta có thể nhìn rõ đối tượng. Khi thay đổi các giá trị m và N trong phương trình thì sẽ có các hiện tượng thay đổi khác nhau.

Xong thực nghiệm cho thấy khi giữ nguyên kích thước ảnh N và tăng số mức xám m lên thì sẽ thể hiện rõ hơn mức độ chi tiết trong ảnh.2 Tổng quan về một hệ thống xử lý ảnh Xử lý ảnh là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý muốn của người sử dụng. Xử lý ảnh có thể gồm quá trình phân tích, phân lớp các đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh [2]. Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của tin học ứng dụng. Xử lý dữ liệu bằng đồ hoạ đề cập đến những ảnh nhân tạo, các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo ra bởi các chương trình.

Xử lý ảnh số bao gồm các phương pháp và kĩ thuật để biến đổi, để truyền tải hoặc mã hoá các ảnh tự nhiên. Mục đích của xử lý ảnh gồm: - Biến đổi ảnh, làm tăng chất lượng ảnh. - Tự động nhận dạng, đoán nhận, đánh giá các nội dung của ảnh. Các bước cần thiết trong xử lý ảnh được mô tả chi tiết trong Hình 1.1 bao gồm các bước sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 CAMERA Lưu trữ Thu nhận Số hóa Phân tích Phân loại ảnh ảnh ảnh SCANNER Hệ Q.định Lưu trữ Hình 1.

Các giai đoạn chính trong xử lý ảnh Đầu tiên là quá trình thu nhận ảnh. Ảnh có thể thu nhận được qua camera. Thường khi thu nhận ảnh qua camera là tín hiệu tương tự (loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hóa (loại CCD- Charge Coupled Device). Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh tranh được quét trên scanner.

Tiếp theo là quá trình số hóa (Digitalizer) để biến đổi tín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng hóa, trước khi chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại. Trước hết là công việc tăng cường ảnh để nâng cao chất lượng ảnh. Do những nguyên nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu, ảnh có thể bị suy biến do vậy cần phải tăng cường và khôi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống nhất với trạng thái gốc – trạng thái trước khi bị biến dạng. Giai đoạn tiếp theo là phát hiện các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính.

Cuối cùng tùy theo mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phân loại hay các quyết định khác.3 Một số thao tác cơ bản trong xử lý ảnh  Biểu diễn ảnh Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của ảnh là pixel. Nhìn chung có thể một hàm hai biến chứa các thông tin như biểu diễn của một LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Các mô hình biểu diễn cho ta một mô tả logic hay định lượng các tính chất của hàm này. Trong biểu diễn ảnh cần chú ý đến tính trung thực hoặc các tiêu chuẩn “thông minh” để đo chất lượng ảnh hoặc tính hiệu quả của các kĩ thuật xử lý.

Một số mô hình thường được dùng trong biểu diễn ảnh: mô hình bài toán, mô hình thống kê. Trong mô hình bài toán, ảnh hai chiều được biểu diễn nhờ các hàm hai biến trực giao gọi là các hàm cơ sở. Còn mô hình thống kê, một ảnh được coi như một phần tử của một tập hợp đặc trưng bởi các đại lượng như: kỳ vọng toán học, hiệp biến, phương sai, moment.  Biến đổi ảnh (Image Transform) Thuật ngữ biến đổi ảnh thường dùng để nói tới một lớp các ma trận đơn vị và các kĩ thuật dùng để biến đổi ảnh.

Biến đổi ảnh nhằm làm giảm các nguyên nhân của ảnh để việc xử lý hiệu quả hơn. Như làm rõ hơn các thông tin mà người dùng quan tâm nhưng người dùng phải chấp nhận mất đi một số thông tin cần thiết.  Phân tích ảnh Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của 1 ảnh để đưa ra một mô tả đầy đủ về ảnh. Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ.

Trước hết là công việc tăng cường ảnh để nâng cao chất lượng ảnh, giai đoạn tiếp theo là phát hiện các đặc tính như phát hiện biên, phân vùng ảnh, trích chọn các đặc tính.  Tăng cường ảnh – khôi phục ảnh Tăng cường ảnh là một bước quan trọng, tạo tiền đề cho xử lý ảnh. Nó gồm các kỹ thuật như: lọc độ tương phản, khử nhiễu, nổi màu… Khôi phục ảnh là nhằm loại bỏ các suy giảm trong ảnh.  Xử lý biên ảnh Biên là vấn đề chủ yếu trong phân tích ảnh vì các điểm trích chọn trong quá trình phân tích ảnh đều dựa vào biên.

Mỗi điểm ảnh có thể là biên nếu ở đó có sự thay LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 đổi đột ngột về mức xám. Tập hợp các điểm biên tạo thành biên hay đường bao quanh của ảnh.  Phân vùng ảnh Phân vùng là bước then chốt trong xử lý ảnh. Giai đoạn này nhằm phân tích ảnh thành những thành phần có tính chất nào đó dựa theo biên hay các vùng liên thông.

Tiêu chuẩn để xác định các vùng liên thông có thể là mức xám, cùng màu hay độ tương phản.  Nhận dạng ảnh Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó. Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính chủ yếu của đối tượng. Có hai kiểu mô tả đối tượng: Mô tả tham số (nhận dạng theo tham số).

Mô tả theo cấu trúc (nhận dạng theo cấu trúc). Trên thực tế người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ viết.  Nén ảnh Dữ liệu ảnh cũng như các dữ liệu khác cần phải lưu trữ hay truyền đi trên mạng mà lượng thông tin để biểu diễn cho một ảnh là rất lớn. Do đó làm giảm lượng thông tin hay nén dữ liệu là một nhu cầu cần thiết.

Nén dữ liệu là quá trình làm giảm lượng thông tin “dư thừa” trong dữ liệu gốc và do vậy lượng thông tin thu được sau khi nén thường nhỏ hơn dữ liệu gốc rất nhiều. Biểu diễn ảnh trong máy tính 1.1 Ảnh màu  Hệ màu RGB RGB viết tắt của red (đỏ), green (xanh lục), blue (xanh lam), là ba màu chính của ánh sáng khi tách ra từ lăng kính. Khi trộn ba màu trên theo tỉ lệ nhất định có thể tạo thành các màu khác nhau. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Minh họa hệ màu RGB Hình 1.2 minh họa việc chọn màu thường thấy trong các chương trình máy tính. Khi ta chọn một màu thì sẽ ra một bộ ba số tương ứng (r,g,b) màu được chọn. Ở đây là rgb(102, 255, 153), nghĩa là r=102, g=255, b=153.  Biểu diễn ảnh màu Hình 1.

Ví dụ về ảnh màu Ảnh màu (Hình 1.3) là một ma trận các pixel mà mỗi pixel biểu diễn một điểm màu. Mỗi điểm màu được biểu diễn bằng bộ 3 số (r,g,b). Để tiện cho việc xử lý ảnh thì sẽ tách ma trận pixel ra 3 channel red, green, blue. Bức ảnh trên Hình 1.3 có kích thước 800 pixel * 600 pixel, bức ảnh này có thể biểu diễn dưới dạng một ma trận kích thước 600 * 800 như (1.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2) Trong đó mỗi phần tử w ij là một pixel.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu mạng nơron CNN

Các thuật toán phân loại ảnh

Ứng dụng của CNN trong phân loại ảnh

Tương lai của học sâu trong thị giác máy tính