Luận văn thạc sĩ công nghệ thông tin nghiên cứu về mạng neural convolutional áp dụng vào bài toán nhận dạng đối tượng trong lĩnh vực thị giác máy tính

Luận văn thạc sĩ công nghệ thông tin nghiên cứu mạng neural convolutional trong nhận dạng đối tượng và ứng dụng thị giác máy tính.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Cơ sở khoa học và thực tiễn của đề tài

1.3. Mục tiêu của luận văn

1.4. Cấu trúc luận văn

2. TỔNG QUAN VỀ MẠNG NƠ RON VÀ GIỚI THIỆU VỀ MẠNG NƠ RON TÍCH CHẬP

2.1. Nơ ron nhân tạo

2.1.1. Lịch sử của nơ ron nhân tạo

2.1.2. Cấu tạo và quá trình xử lý của một nơ ron sinh học

2.1.3. Cấu tạo và quá trình xử lý của một nơ ron nhân tạo

2.2. Các mô hình hàm kích hoạt của mạng nơ ron nhân tạo

2.3. Mạng nơ ron nhân tạo

2.3.1. Giới thiệu mạng nơ ron nhân tạo

2.3.2. Một số kiểu mạng nơ ron

2.3.3. Mạng nơ ron lan truyền ngược

2.4. Mạng nơ ron tích chập

2.4.1. Khái niệm về mạng nơ ron tích chập

2.4.2. Mô hình mạng nơ ron tích chập

2.4.3. Xây dựng mạng nơ ron tích chập

3. BÀI TOÁN NHẬN DẠNG BẰNG MẠNG NƠ RON TÍCH CHẬP

3.1. Khái niệm về nhận dạng

3.1.1. Nhận dạng đối tượng

3.1.2. Nhận dạng khuôn mặt

3.1.2.1. Lịch sử và phát triển

3.1.2.2. Cách thức hoạt động

3.2. Phương pháp nhận dạng đối tượng từ ảnh chụp của camera

3.2.1. Nhận diện khuôn mặt

3.2.2. Phát hiện các điểm quan trọng trên khuôn mặt

3.2.3. Liên kết khuôn mặt

3.3. Kết quả các thuật toán sử dụng mạng nơ ron nhân tạo

3.3.1. Mô hình DeepID 2 (NIPS 2014)

3.3.2. Mô hình DeepID3 (arXiv 2015)

3.3.3. Mô hình DeepFace (Facebook, CVPR 2014)

3.3.4. Mô hình FaceNet (Google 2015)

3.3.5. Mô hình Baidu (2015)

4. SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP TRONG NHẬN DẠNG ĐỐI TƯỢNG

4.1. Sơ lược về áp dụng mạng nơ ron tích chập vào các giải pháp thông minh trong thực tế

4.2. Áp dụng mạng nơ ron tích chập để xây dựng hệ thống nhận diện người vào/ra và đánh giá thực nghiệm, so sánh với phương pháp HOG

4.2.1. Giới thiệu hệ thống nhận diện và đếm lượt người vào/ra sử dụng mạng nơ ron tích chập

4.2.2. Giới thiệu kiến trúc của máy chủ xử lý nhận diện và đếm lượng người

4.2.3. Giới thiệu sơ lược về phương pháp mô tả đặc trưng HOG sẽ được dùng để so sánh

4.2.4. So sánh khả năng nhận diện của hệ thống nhận diện người vào/ra sử dụng mạng nơ ron tích chập với phương pháp HOG đã có

4.2.5. Mô tả cơ chế chạy nhận diện người trong lõi máy chủ tính toán

4.2.6. Mô tả quá trình sử dụng hệ thống ở giao diện người dùng để hiển thị kết quả

4.3. Áp dụng mạng nơ ron tích chập để xây dựng hệ thống nhận diện khuôn mặt và đánh giá thực nghiệm, so sánh với phương pháp HOG

4.3.1. Xây dựng hệ thống nhận diện khuôn mặt

4.3.2. Giới thiệu cơ chế của máy chủ xử lý nhận diện

4.3.3. Giới thiệu sơ lược về phương pháp phát hiện khuôn mặt sử dụng HOG sẽ được dùng để so sánh

4.3.4. So sánh hệ thống nhận diện khuôn mặt với phương pháp HOG đã có

4.3.5. So sánh khả năng nhận diện khuôn mặt giữa HOG và CNN

4.3.6. Kết quả hệ thống web nhận diện khuôn mặt

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về mạng neural convolutional trong nhận dạng đối tượng

Mạng neural convolutional (CNN) đã trở thành một công cụ quan trọng trong lĩnh vực nhận dạng đối tượng trong thị giác máy tính. Với khả năng xử lý hình ảnh mạnh mẽ, CNN giúp cải thiện độ chính xác trong việc phân loại và nhận diện các đối tượng. Nghiên cứu này sẽ đi sâu vào các khía cạnh cơ bản của mạng CNN, từ cấu trúc đến cách thức hoạt động của nó trong nhận dạng đối tượng.

1.1. Khái niệm về mạng neural convolutional

Mạng neural convolutional là một loại mạng nơ ron được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc dạng lưới, như hình ảnh. CNN sử dụng các lớp tích chập để trích xuất đặc trưng từ hình ảnh, giúp nhận diện đối tượng hiệu quả hơn.

1.2. Lịch sử phát triển của mạng CNN

Mạng CNN được phát triển từ những năm 1980, với những đóng góp quan trọng từ Yann LeCun và các nhà nghiên cứu khác. Các mô hình như LeNet-5 đã đặt nền móng cho sự phát triển của các mạng CNN hiện đại, giúp cải thiện đáng kể khả năng nhận diện hình ảnh.

II. Thách thức trong nhận dạng đối tượng bằng mạng neural convolutional

Mặc dù mạng CNN đã đạt được nhiều thành công trong nhận dạng đối tượng, nhưng vẫn tồn tại một số thách thức lớn. Những vấn đề như độ chính xác, khả năng tổng quát và yêu cầu về dữ liệu huấn luyện là những yếu tố cần được xem xét kỹ lưỡng.

2.1. Độ chính xác trong nhận dạng đối tượng

Độ chính xác của mạng CNN phụ thuộc vào chất lượng và số lượng dữ liệu huấn luyện. Việc thiếu dữ liệu hoặc dữ liệu không đại diện có thể dẫn đến kết quả không chính xác trong nhận diện đối tượng.

2.2. Khả năng tổng quát của mô hình

Khả năng tổng quát của mạng CNN là một thách thức lớn. Mô hình có thể hoạt động tốt trên tập dữ liệu huấn luyện nhưng lại kém hiệu quả khi áp dụng vào dữ liệu thực tế khác.

III. Phương pháp cải thiện hiệu suất của mạng CNN trong nhận dạng đối tượng

Để nâng cao hiệu suất của mạng CNN trong nhận dạng đối tượng, nhiều phương pháp đã được đề xuất. Các kỹ thuật như tăng cường dữ liệu, điều chỉnh siêu tham số và sử dụng các kiến trúc mạng tiên tiến là những giải pháp hiệu quả.

3.1. Tăng cường dữ liệu trong huấn luyện

Tăng cường dữ liệu là một kỹ thuật quan trọng giúp cải thiện độ chính xác của mạng CNN. Bằng cách tạo ra các biến thể của hình ảnh gốc, mô hình có thể học được nhiều đặc trưng hơn từ dữ liệu.

3.2. Sử dụng kiến trúc mạng tiên tiến

Các kiến trúc mạng như ResNet, Inception và DenseNet đã được chứng minh là có khả năng cải thiện hiệu suất nhận dạng đối tượng. Những kiến trúc này giúp giảm thiểu vấn đề suy giảm độ chính xác khi tăng số lượng lớp trong mạng.

IV. Ứng dụng thực tiễn của mạng CNN trong nhận dạng đối tượng

Mạng CNN đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ nhận diện khuôn mặt đến phân loại hình ảnh trong y tế. Những ứng dụng này không chỉ cải thiện hiệu suất công việc mà còn mang lại giá trị thực tiễn cao.

4.1. Nhận diện khuôn mặt

CNN được sử dụng để phát triển các hệ thống nhận diện khuôn mặt, giúp xác thực danh tính trong các ứng dụng an ninh và giám sát. Các mô hình như FaceNet đã đạt được độ chính xác cao trong việc nhận diện khuôn mặt.

4.2. Phân loại hình ảnh trong y tế

Trong lĩnh vực y tế, mạng CNN được áp dụng để phân loại hình ảnh y tế, giúp bác sĩ chẩn đoán bệnh nhanh chóng và chính xác hơn. Việc sử dụng CNN trong phân tích hình ảnh X-quang và MRI đã cho thấy kết quả khả quan.

V. Kết luận và tương lai của mạng CNN trong nhận dạng đối tượng

Mạng neural convolutional đã chứng minh được vai trò quan trọng trong nhận dạng đối tượng trong thị giác máy tính. Tương lai của công nghệ này hứa hẹn sẽ còn phát triển mạnh mẽ hơn nữa với sự xuất hiện của các mô hình mới và cải tiến trong kỹ thuật huấn luyện.

5.1. Xu hướng phát triển công nghệ

Với sự phát triển không ngừng của công nghệ, mạng CNN sẽ tiếp tục được cải tiến để đáp ứng nhu cầu ngày càng cao trong nhận dạng đối tượng. Các nghiên cứu mới sẽ tập trung vào việc tối ưu hóa mô hình và giảm thiểu yêu cầu về dữ liệu.

5.2. Tác động đến các lĩnh vực khác

Mạng CNN không chỉ ảnh hưởng đến lĩnh vực thị giác máy tính mà còn mở ra nhiều cơ hội mới trong các lĩnh vực như tự động hóa, giao thông thông minh và an ninh mạng. Sự phát triển của công nghệ này sẽ tạo ra những thay đổi lớn trong cách thức mà con người tương tác với máy móc.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin nghiên cứu về mạng neural convolutional áp dụng vào bài toán nhận dạng đối tượng trong lĩnh vực thị giác máy tính

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cách mạng công nghiệp 4.0, sự phát triển vượt bậc của công nghệ truyền dẫn tốc độ cao, vi xử lý GPU hàng ngàn nhân và các thiết bị mạch nhúng nhỏ gọn với sức mạnh tính toán lớn đã tạo điều kiện thuận lợi cho nghiên cứu và ứng dụng trí tuệ nhân tạo (AI). Theo ước tính, các thiết bị như Nvidia Jetson TX1 có thể thực hiện tới 1 nghìn tỉ phép tính trên giây chỉ với mức tiêu thụ điện năng khoảng 10 watt, tương đương sức mạnh của siêu máy tính ASCI Red năm 1996 nhưng với kích thước và hiệu suất vượt trội. Trong lĩnh vực thị giác máy tính, mạng nơ ron tích chập (Convolutional Neural Network - CNN) đã chứng minh hiệu quả vượt trội trong các bài toán nhận dạng đối tượng nhờ khả năng xử lý hình ảnh nhanh và chính xác.

Luận văn tập trung nghiên cứu mạng nơ ron tích chập và ứng dụng vào bài toán nhận dạng đối tượng, cụ thể là nhận dạng người và nhận diện khuôn mặt trong lĩnh vực thị giác máy tính. Mục tiêu chính là phân tích, so sánh các phương pháp học sâu, đánh giá hiệu quả của CNN trong thực tế và đề xuất giải pháp cải tiến. Nghiên cứu được thực hiện trong phạm vi thời gian đến năm 2019, tại Đại học Công nghệ, Đại học Quốc gia Hà Nội, với dữ liệu thực nghiệm thu thập từ các hệ thống nhận dạng và nhận diện khuôn mặt.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao độ chính xác và tốc độ xử lý trong các ứng dụng thực tế như hệ thống kiểm soát an ninh, quản lý người ra vào, và các dịch vụ thông minh dựa trên nhận dạng khuôn mặt. Kết quả nghiên cứu góp phần thúc đẩy ứng dụng AI trong thị giác máy tính, đồng thời cung cấp cơ sở khoa học cho các phát triển công nghệ tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng nơ ron nhân tạo (Artificial Neural Network - ANN) và mạng nơ ron tích chập (Convolutional Neural Network - CNN). ANN mô phỏng hoạt động của hệ thần kinh sinh học, gồm các nơ ron nhân tạo kết nối với trọng số liên kết, được huấn luyện qua thuật toán lan truyền ngược (backpropagation) để tối ưu hóa trọng số. CNN là một dạng đặc biệt của ANN, được thiết kế để xử lý dữ liệu có cấu trúc lưới như hình ảnh, với các tầng tích chập, gộp (pooling) và kết nối đầy đủ (fully-connected).

Ba khái niệm chính trong CNN được áp dụng gồm:

Kết nối cục bộ (local connectivity): Mỗi nơ ron chỉ kết nối với một vùng nhỏ của tầng trước, giúp giảm số lượng tham số.
Chia sẻ tham số (parameter sharing): Các bộ lọc (filter) được sử dụng chung trên toàn bộ ảnh, tăng hiệu quả tính toán.
Hàm kích hoạt (activation function): RELU được sử dụng phổ biến nhờ khả năng tăng tốc độ hội tụ so với sigmoid.

Ngoài ra, luận văn cũng đề cập đến các mô hình CNN nổi tiếng như LeNet-5, AlexNet, VGGNet, và các thuật toán phát hiện khuôn mặt như Deep Pyramid Deformable Parts Model for Face Detection (DP2MFD).

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm các bộ dữ liệu hình ảnh và video thực tế thu thập từ hệ thống nhận dạng người và nhận diện khuôn mặt tại Đại học Công nghệ. Cỡ mẫu dữ liệu thực nghiệm khoảng vài nghìn hình ảnh và video với đa dạng điều kiện ánh sáng, góc nghiêng và kích thước khuôn mặt.

Phương pháp phân tích sử dụng mạng nơ ron tích chập để xây dựng hai hệ thống: hệ thống nhận dạng người vào/ra và hệ thống nhận diện khuôn mặt. Các hệ thống được huấn luyện và đánh giá trên cùng bộ dữ liệu, so sánh với phương pháp truyền thống Histogram of Oriented Gradients (HOG). Quá trình huấn luyện sử dụng thuật toán lan truyền ngược với hàm kích hoạt RELU, áp dụng kỹ thuật dropout và tăng cường dữ liệu (data augmentation) để giảm hiện tượng quá khớp.

Timeline nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm các giai đoạn: thu thập dữ liệu, xây dựng mô hình, huấn luyện và đánh giá, so sánh kết quả, và hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả nhận dạng người: Hệ thống nhận dạng người sử dụng mạng nơ ron tích chập đạt độ chính xác trung bình khoảng 92%, vượt trội so với phương pháp HOG chỉ đạt khoảng 78%. Thời gian xử lý trung bình cho mỗi khung hình giảm 30% so với HOG, cho thấy CNN có ưu thế về tốc độ và độ chính xác.
Nhận diện khuôn mặt: Mạng CNN đạt độ chính xác nhận diện khuôn mặt lên tới 95%, trong khi HOG chỉ đạt khoảng 82%. Đặc biệt, CNN duy trì hiệu suất cao ngay cả với các góc nghiêng lớn (tới 80 độ), trong khi HOG giảm mạnh hiệu quả nhận diện.
Phát hiện các điểm mốc trên khuôn mặt: Thuật toán dựa trên CNN với kiến trúc tương tự AlexNet cho phép phát hiện chính xác 68 điểm mốc trên khuôn mặt, hỗ trợ căn chỉnh và liên kết khuôn mặt hiệu quả trong video. Tỷ lệ phát hiện chính xác đạt trên 90% trong các điều kiện ánh sáng và độ phân giải khác nhau.
So sánh các mô hình CNN: Mô hình DeepID2 với 25 phần khuôn mặt được trích xuất cho kết quả xác minh khuôn mặt tăng dần theo số lượng phần khuôn mặt, đạt độ chính xác trên 98% khi sử dụng đầy đủ các phần. Điều này chứng tỏ việc trích xuất đặc trưng cục bộ đa vùng giúp cải thiện hiệu quả nhận dạng.

Thảo luận kết quả

Nguyên nhân chính giúp CNN vượt trội so với HOG là khả năng học đặc trưng tự động và hiệu quả của các tầng tích chập trong việc trích xuất các đặc điểm quan trọng từ hình ảnh. Việc sử dụng hàm kích hoạt RELU giúp tăng tốc độ huấn luyện, đồng thời kỹ thuật dropout và tăng cường dữ liệu giảm thiểu hiện tượng quá khớp, nâng cao khả năng tổng quát của mô hình.

So với các nghiên cứu trước đây, kết quả của luận văn phù hợp với xu hướng ứng dụng CNN trong thị giác máy tính, đồng thời bổ sung thêm các đánh giá thực nghiệm trên dữ liệu thực tế tại Việt Nam. Các biểu đồ so sánh độ chính xác và thời gian xử lý giữa CNN và HOG minh họa rõ ràng ưu thế của mạng nơ ron tích chập.

Ý nghĩa của kết quả nghiên cứu không chỉ nằm ở việc nâng cao hiệu quả nhận dạng mà còn mở ra hướng phát triển các hệ thống thông minh tích hợp trong các thiết bị nhỏ gọn, tiêu thụ năng lượng thấp, phù hợp với xu hướng IoT và công nghiệp 4.0.

Đề xuất và khuyến nghị

Tăng cường dữ liệu huấn luyện: Áp dụng các kỹ thuật tăng cường dữ liệu như xoay, lật, thay đổi ánh sáng để mở rộng bộ dữ liệu, giúp giảm hiện tượng quá khớp và nâng cao độ chính xác nhận dạng. Thời gian thực hiện: 3-6 tháng; Chủ thể: nhóm nghiên cứu và kỹ sư phát triển.
Tối ưu kiến trúc mạng CNN: Nghiên cứu và áp dụng các kiến trúc CNN tiên tiến như ResNet, DenseNet để cải thiện hiệu suất nhận dạng và giảm thời gian huấn luyện. Thời gian thực hiện: 6 tháng; Chủ thể: nhóm nghiên cứu AI.
Phát triển hệ thống nhận dạng đa nhiệm: Kết hợp nhận dạng người và nhận diện khuôn mặt trong cùng một hệ thống để tăng tính ứng dụng thực tế, đặc biệt trong các hệ thống an ninh và quản lý. Thời gian thực hiện: 9 tháng; Chủ thể: phòng công nghệ thông tin các tổ chức, doanh nghiệp.
Triển khai trên thiết bị nhúng: Tối ưu hóa mô hình CNN để chạy hiệu quả trên các thiết bị nhúng như Nvidia Jetson TX1, giúp mở rộng ứng dụng trong các thiết bị IoT và camera thông minh. Thời gian thực hiện: 6-9 tháng; Chủ thể: nhóm phát triển phần mềm nhúng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu AI và thị giác máy tính: Luận văn cung cấp cơ sở lý thuyết và thực nghiệm về mạng nơ ron tích chập, giúp nghiên cứu sâu hơn về các mô hình CNN và ứng dụng trong nhận dạng đối tượng.
Kỹ sư phát triển phần mềm: Các kỹ sư xây dựng hệ thống nhận dạng người và nhận diện khuôn mặt có thể áp dụng kiến thức và phương pháp luận trong luận văn để thiết kế và tối ưu sản phẩm.
Doanh nghiệp công nghệ: Các công ty phát triển giải pháp an ninh, camera thông minh, và dịch vụ khách hàng thân thiết có thể tham khảo để nâng cao hiệu quả nhận dạng và cải thiện trải nghiệm người dùng.
Sinh viên và giảng viên ngành Công nghệ Thông tin: Luận văn là tài liệu tham khảo quý giá cho các khóa học về học máy, học sâu, và thị giác máy tính, giúp sinh viên hiểu rõ hơn về ứng dụng thực tế của CNN.

Câu hỏi thường gặp

Mạng nơ ron tích chập khác gì so với mạng nơ ron truyền thống?
CNN sử dụng kết nối cục bộ và chia sẻ tham số, giúp giảm số lượng trọng số cần huấn luyện, đồng thời có khả năng trích xuất đặc trưng không gian hiệu quả hơn so với mạng truyền thống.
Tại sao hàm kích hoạt RELU được ưu tiên sử dụng trong CNN?
RELU giúp tăng tốc độ hội tụ trong quá trình huấn luyện nhờ tính chất đơn giản và khả năng loại bỏ giá trị âm, giảm thiểu hiện tượng gradient biến mất so với hàm sigmoid.
Phương pháp HOG có ưu điểm gì so với CNN?
HOG đơn giản, dễ triển khai và có tốc độ xử lý nhanh trên các thiết bị có cấu hình thấp, tuy nhiên độ chính xác và khả năng nhận dạng trong điều kiện phức tạp kém hơn CNN.
Làm thế nào để giảm hiện tượng quá khớp trong huấn luyện CNN?
Sử dụng kỹ thuật dropout, tăng cường dữ liệu, và điều chỉnh kiến trúc mạng phù hợp giúp giảm hiện tượng quá khớp, nâng cao khả năng tổng quát của mô hình.
Ứng dụng thực tế của nhận dạng khuôn mặt bằng CNN là gì?
CNN được ứng dụng trong hệ thống kiểm soát an ninh, nhận diện khách hàng thân thiết, phát hiện gian lận, và các thiết bị thông minh như camera giám sát, điện thoại thông minh.

Kết luận

Mạng nơ ron tích chập (CNN) thể hiện hiệu quả vượt trội trong bài toán nhận dạng người và nhận diện khuôn mặt với độ chính xác trên 90%, vượt trội so với phương pháp truyền thống HOG.
Hàm kích hoạt RELU và kỹ thuật dropout giúp tăng tốc độ huấn luyện và giảm hiện tượng quá khớp, nâng cao hiệu quả mô hình.
Các mô hình CNN nổi tiếng như DeepID2, AlexNet, VGGNet được áp dụng thành công trong nghiên cứu, cung cấp nền tảng cho các ứng dụng thực tế.
Kết quả nghiên cứu mở ra hướng phát triển các hệ thống nhận dạng thông minh tích hợp trên thiết bị nhúng, phù hợp với xu hướng IoT và công nghiệp 4.0.
Đề xuất các giải pháp tăng cường dữ liệu, tối ưu kiến trúc mạng và triển khai trên thiết bị nhúng là bước tiếp theo quan trọng để nâng cao hiệu quả và mở rộng ứng dụng.

Luận văn khuyến khích các nhà nghiên cứu và doanh nghiệp tiếp tục phát triển các giải pháp dựa trên CNN để ứng dụng rộng rãi trong thị giác máy tính và các lĩnh vực liên quan.

Trích đoạn nội dung tài liệu

Chương 1: Trình bày tổng quan về nơ ron, các thành phần và cơ chế hoạt động của nơ ron. Từ đó, trình bày về một số kiểu mạng nơ ron và cơ chế lan truyền ngược. Cuối cùng là giới thiệu về cấu tạo và cách hoạt động của mạng nơ ron tích chập;  Chương 2: Trình bày tổng quan về bài toán nhận dạng bằng mạng nơ ron tích chập, cách thức hoạt động của việc nhận dạng đối tượng và nhận dạng khuôn mặt của mạng nơ ron tích chập. Ngoài ra, chương hai giới thiệu về các mô hình sử dụng nơ ron tích chập nổi tiếng đang được áp dụng hiện nay và kết quả của từng mô hình;  Chương 3: Áp dụng mạng nơ ron tích chập vào trong thực tế.

Ở chương này, tác giả báo cáo về kết quả đạt được khi áp dụng mạng nơ ron tích chập để xây dựng hai hệ thống: hệ thống nhận dạng người và hệ thống nhận diện khuôn mặt. Ngoài ra, tác giả có thực hiện so sánh với phương pháp cũ để có thể thấy ưu điểm và hạn chế của mạng nơ ron tích chập. Cuối cùng là phần kết luận cho phép tóm tắt kết quả đã đạt được và nêu ra những tồn tại, dựa vào đó để đưa ra những mục tiêu và phương hướng phát triển cho hệ thống sau này. TỔNG QUAN VỀ MẠNG NƠ RON VÀ GIỚI THIỆU VỀ MẠNG NƠ RON TÍCH CHẬP 1.

Nơ ron nhân tạo 1.1 Lịch sử của nơ ron nhân tạo Vào năm 1943, nhà thần kinh học Warren McCulloch đã cùng nhà toán học Walter Pitts đã viết một cuốn sách về cách mạng thần kinh hoạt động. Và họ đã thực hiện mô phỏng một mạng thần kinh đơn giản trên một mạch điện. [9] Vào năm 1949, Donald Hebb đã viết cuốn sách Organization of Behavior. Điểm nhấn chính là mạng thần kinh nào được sử dụng nhiều sẽ được tăng cường.

Vào năm 1959, David Hubel và Torsten Wiesel đã xuất bản cuốn sách Receptive fields of single neurons in the cat’s striate cortex, miêu tả về phản ứng của các tế bào thần kinh thị giác trên loài mèo, cũng như cách loài mèo ghi nhớ và nhận diện hình dạng trên kiến trúc vỏ não của nó.1 Hình ảnh thí nghiệm của David Hubel và Torsten Wiesel trên mèo [10] Vào năm 1989, Yann LeCun đã áp dụng thuật toán học cho mạng nơ ron theo kiểu lan truyền ngược vào kiến trúc mạng nơ ron tích chập của Fukushima. Sau đó vài năm, LeCun đã công bố LeNet-5 [13]. Có thể nói, LeNet-5 là một trong những mạng nơ ron tích chập sơ khai nhất, tuy nhiên các dấu ấn của nó vẫn tồn tại tới ngày nay, có thể thấy thông qua một số thành phần thiết yếu mà các mạng nơ ron tích chập của ngày nay vẫn đang sử dụng 4 1.2 Cấu tạo và quá trình xử lý của một nơ ron sinh học Hình 1.2: Hình ảnh một nơ ron sinh học [14] Một nơ ron gồm có: thân nơ ron, tua gai thần kinh, sợi trục thần kinh, trong đó:  Thân nơ ron: là nơi xử lý các tín hiệu được đưa vào;  Tua gai thần kinh: là nơi nhận các xung điện vào trong nơ ron;  Sợi trục thần kinh: là nơi đưa tín hiệu ra ngoài sau khi được xử lý bởi nơ ron;  Khớp thần kinh: vị trí nằm giữa tua gai thần kinh và sợi trục thần kinh, đây là điểm liên kết đầu ra của nơ ron này với đầu vào của nơ ron khác.3 Cấu tạo và quá trình xử lý của một nơ ron nhân tạo Dựa vào cấu tạo của một nơ ron sinh học, các nhà khoa học nghiên cứu và lập trình đã đưa ra kiến trúc của một nơ ron nhân tạo: Hình 1.3: Công thức của một nơ ron nhân tạo [41] 5 Mạng nơ ron nhân tạo có thể mô tả đơn giản lại như sau: Hình 1.4: Hình ảnh một nơ ron nhân tạo Trong đó:  Danh sách các đầu vào: Là các thuộc tính đầu vào của một nơ ron. Số lượng thuộc tính đầu vào thường nhiều hơn một, do dữ liệu thô đầu vào thường là một vector nhiều chiều, hoặc nhiều nơ ron tầng trước kết nối tới một nơ ron tầng sau.

 Trọng số liên kết: Các liên kết được thể hiện độ mạnh yếu qua một giá trị được gọi là trọng số liên kết. Kết hơp với các đầu truyền, tín hiệu đến các nơ ron nhân tạo khác sẽ được tính bằng ; Hình 1.5: Hình ảnh vị trí thiên lệch được thêm vào trong thực tế 6  Hàm tổng: Tổng các tích của các đầu vào với trọng số liên kết mô phỏng các khớp kết nối. Sau đó đi qua hàm tính tổng để tính ra giá trị trước khi đưa vào hàm truyền;  Thiên lệch (b): Độ lệch được đưa vào sau khi khi tính toán xong hàm tổng, tạo ra giá trị cuối cùng trước khi đưa vào hàm truyền. Mục đích của việc thêm vào thiên lệch nhằm dịch chuyển chức năng của hàm kích hoạt sang trái hoặc phải, giúp ích khi mạng được huấn luyện.

Hình ảnh vị trí thiên lệch được thêm vào trong mạng nơ ron thực tế. Hình ảnh huấn luyện khi có và không có thiên lệch: Hình 1.6: Kết quả của hàm sigmoid với các trọng số đầu vào khác nhau nhưng không có thiên lệch Hình 1.7: Kết quả của hàm sigmoid với các trọng số thiên lệch khác nhau Hàm kích hoạt (Activation functions): Hàm này được sử dụng để tính toán giá trị của đầu ra dựa vào giá trị của hàm Tổng. Các mô hình hàm kích hoạt của mạng nơ ron nhân tạo 1.1 Hàm Sigmod  Biểu diễn hàm:  Đạo hàm của hàm: Hàm Sigmoid được sử dụng vì ngưỡng của nó nằm trong khoảng (0, 1). Do đó, hàm này được sử dụng nhiều cho các mô hình dự đoán xác suất đầu ra, tức kết quả chỉ tồn tại trong khoảng từ 0 đến 1: khi đầu vào là số dương lớn, đầu ra của hàm sigmoid gần bằng 1.

Khi nhỏ hơn 0, đầu ra gần bằng 0. Tuy nhiên, việc tối ưu của hàm này khó khăn, nguyên nhân vì nếu giá trị đầu vào của hàm là 1 số rất lớn, thì đầu ra của hàm càng về 2 đầu xấp xỉ 1 hoặc 0, nên tốc độ hội tụ sẽ rất chậm.8: Đồ thị hàm Sigmoid 1.2 Hàm TanH  Biểu diễn hàm:  Đạo hàm của hàm: Hàm TanH được sử dụng vì đầu ra của hàm nằm trong khoảng , thích hợp với các mô hình đầu ra có ba giá trị: âm, trung tính (0) và dương. Chúng ta có thể thấy rõ hơn điều này trong hình minh họa.9: Đồ thị hàm TanH 1. Hàm tuyến tính  Biểu diễn hàm:  Đạo hàm của hàm: Hàm tuyến tính áp dụng thao tác nhận dạng trên dữ liệu với dữ liệu đầu ra tỷ lệ thuận với dữ liệu đầu vào.10: Đồ thị hàm tuyến tính 1.4 Hàm RELU  Biểu diễn hàm:  Đạo hàm của hàm: Hàm RELU áp dụng với những trường hợp cần đầu ra nằm trong khoảng (0, +∞).

Hàm RELU có tốc độ tính toán rất nhanh, gán các giá trị âm trở thành 0 ngay lập tức, phù 9 hợp cho việc huấn luyện từ dữ liệu chuẩn. Tuy nhiên, điều này khiến hàm RELU không ánh xạ các giá trị âm một cách thích hợp.11: Đồ thị hàm RELU 1.5 Hàm ELU  Biểu diễn hàm:  Đạo hàm của hàm: Hàm ELU là một biến thể của hàm RELU. Hàm thường được sử dụng khi ngưỡng đầu ra của nó nằm trong khoảng (-1, +∞). Hàm ELU khắc phục hạn chế ánh xạ các giá trị âm của hàm RELU.12: Đồ thị hàm ELU 10 1.2 Mạng nơ ron nhân tạo 1.1 Giới thiệu mạng nơ ron nhân tạo Mạng nơ ron nhân tạo (Artificial Neural Network ANN) là một chuỗi các giải thuật lập trình, mô phỏng dựa trên cách hoạt động của mạng lưới thần kinh trong não bộ các sinh vật sống.

Mạng nơ ron nhân tạo được sử dụng để tìm ra mối quan hệ của một tập dữ liệu thông qua một thiết kế kiến trúc chứa nhiều tầng ẩn (hidden layer), mỗi tầng lại chứa nhiều nơ ron. Các nơ ron được kết nối với nhau và độ mạnh yếu của các liên kết được biểu hiện qua trọng số liên kết. Lập trình thông thường có thể làm được rất nhiều phần mềm lớn, như tính toán mô phỏng các vụ nổ hạt nhân trong siêu máy tính ở các phòng thí nghiệm, hoặc tái hiện các tế bào ở cấp độ phân tử để phân tích các thử nghiệm thuốc. Một siêu máy tính có thể tính toán được nhiều tỉ phép tính trên giây, tuy nhiên lập trình thông thường lại gặp khó khăn trong việc nhận ra các mẫu đơn giản, ví dụ như nhận diện mặt người, điều mà một bộ não sinh học xử lý nhanh và chính xác hơn nhiều.

Áp dụng với các kỹ thuật học sâu, mạng nơ ron nhân tạo hiện nay đang được áp dụng để giải quyết những vấn đề mà lập trình theo logic thông thường khó có thể giải quyết được. Do đó, mạng nơ ron nhân tạo đang nhanh chóng trở nên phổ biến, và là xu thế trên nhiều lĩnh vực.2 Một số kiểu mạng nơ ron Có hai kiểu mạng nơ ron chính: mạng nơ ron truyền thằng (feedforward neural network) và mạng nơ ron hồi quy (recurrent neural network). Mạng truyền thẳng và hồi quy được minh họa như sau: Hình 1.13: Mạng nơ ron truyền thẳng 11 Dễ thấy, ở mạng nơ ron truyền thẳng, các nơ ron trong tầng ẩn đều được kết nối với các nơ ron trong tầng n. Do có nhiều tầng ẩn nên chúng ta có thể thấy rằng mạng truyền thẳng kéo dài trong không gian, và là không có bất kỳ đường tuần hoàn (cyclic path) nào nằm trong mạng.

Mạng nơ ron truyền thẳng rất phổ biến hiện nay.14: Mạng nơ ron hồi quy Một loại khác là mạng nơ ron hồi quy. Không giống như mạng nơ ron truyền thẳng, mạng nơ ron hồi quy có ít nhất một đường dẫn tuần hoàn. Chúng ta có thể thấy nó ở hình minh họa phía trên. Vì có một đường dẫn tuần hoàn, nên mạng nơ ron hồi quy có thể gây ra vòng lặp vô cực.

Tuy nhiên, mạng nơ ron tuần hoàn có một ứng dụng quan trọng là chúng có thể nhận diện cho các giai đoạn thời gian khác nhau, như hình minh họa sau: Hình 1.15: Cách huấn luyện cho một mạng nơ ron hồi quy Như ví dụ trên, có một nút A kết nối với nút B và một chu kỳ đến chính nút A. Mạng nơ ron hồi quy không xử lý đường dẫn tuần hoàn và các kết nối cùng một lúc. Mạng nơ ron hồi quy giả sử rằng đầu ra của nút A trong thời gian n là đầu vào của nút B và nút A trong thời gian n + 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu mạng neural convolutional trong nhận dạng đối tượng thị giác máy tính" cung cấp cái nhìn sâu sắc về cách mà mạng neural convolutional (CNN) được áp dụng trong lĩnh vực nhận dạng đối tượng. Tài liệu này không chỉ giải thích các nguyên lý cơ bản của CNN mà còn nêu bật những lợi ích mà công nghệ này mang lại, như khả năng nhận diện chính xác và nhanh chóng các đối tượng trong hình ảnh. Độc giả sẽ tìm thấy thông tin hữu ích về cách mà CNN có thể cải thiện hiệu suất trong các ứng dụng thực tế, từ nhận diện khuôn mặt đến các hệ thống giám sát an ninh.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Khóa luận tốt nghiệp kỹ thuật máy tính nhận diện khuôn mặt real time dùng hog svm ứng dụng trong việc điều khiển cửa phòng, nơi bạn sẽ tìm hiểu về ứng dụng thực tiễn của nhận diện khuôn mặt trong các hệ thống điều khiển. Ngoài ra, tài liệu Nghiên cứu á thuật toán và phương pháp nhận dạng ảnh mặt người sẽ cung cấp cho bạn cái nhìn sâu hơn về các thuật toán nhận dạng khuôn mặt. Cuối cùng, tài liệu Giải pháp nhận dạng mặt người trong hoạt động nghiệp vụ ngành công an sẽ giúp bạn hiểu rõ hơn về ứng dụng của công nghệ này trong lĩnh vực an ninh. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn khám phá thêm và mở rộng kiến thức của mình trong lĩnh vực thị giác máy tính.

#công nghệ thông tin

#thị giác máy tính

#nhận diện khuôn mặt

#hệ thống nhận diện

#nhận dạng đối tượng

#mạng nơ ron nhân tạo

Chủ đề

Ứng dụng thị giác máy tính

phương pháp nhận dạng đối tượng

Nghiên cứu mạng neural trong AI

Công nghệ học sâu và nơ ron

Luận văn thạc sĩ công nghệ thông tin nghiên cứu về mạng neural convolutional áp dụng vào bài toán nhận dạng đối tượng trong lĩnh vực thị giác máy tính

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Cơ sở khoa học và thực tiễn của đề tài

1.3. Mục tiêu của luận văn

1.4. Cấu trúc luận văn

2. TỔNG QUAN VỀ MẠNG NƠ RON VÀ GIỚI THIỆU VỀ MẠNG NƠ RON TÍCH CHẬP

2.1. Nơ ron nhân tạo

2.1.1. Lịch sử của nơ ron nhân tạo

2.1.2. Cấu tạo và quá trình xử lý của một nơ ron sinh học

2.1.3. Cấu tạo và quá trình xử lý của một nơ ron nhân tạo

2.2. Các mô hình hàm kích hoạt của mạng nơ ron nhân tạo

2.3. Mạng nơ ron nhân tạo

2.3.1. Giới thiệu mạng nơ ron nhân tạo

2.3.2. Một số kiểu mạng nơ ron

2.3.3. Mạng nơ ron lan truyền ngược

2.4. Mạng nơ ron tích chập

2.4.1. Khái niệm về mạng nơ ron tích chập

2.4.2. Mô hình mạng nơ ron tích chập

2.4.3. Xây dựng mạng nơ ron tích chập

3. BÀI TOÁN NHẬN DẠNG BẰNG MẠNG NƠ RON TÍCH CHẬP

3.1. Khái niệm về nhận dạng

3.1.1. Nhận dạng đối tượng

3.1.2. Nhận dạng khuôn mặt

3.1.2.1. Lịch sử và phát triển

3.1.2.2. Cách thức hoạt động

3.2. Phương pháp nhận dạng đối tượng từ ảnh chụp của camera

3.2.1. Nhận diện khuôn mặt

3.2.2. Phát hiện các điểm quan trọng trên khuôn mặt

3.2.3. Liên kết khuôn mặt

3.3. Kết quả các thuật toán sử dụng mạng nơ ron nhân tạo

3.3.1. Mô hình DeepID 2 (NIPS 2014)

3.3.2. Mô hình DeepID3 (arXiv 2015)

3.3.3. Mô hình DeepFace (Facebook, CVPR 2014)

3.3.4. Mô hình FaceNet (Google 2015)

3.3.5. Mô hình Baidu (2015)

4. SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP TRONG NHẬN DẠNG ĐỐI TƯỢNG

4.1. Sơ lược về áp dụng mạng nơ ron tích chập vào các giải pháp thông minh trong thực tế

4.2. Áp dụng mạng nơ ron tích chập để xây dựng hệ thống nhận diện người vào/ra và đánh giá thực nghiệm, so sánh với phương pháp HOG

4.2.1. Giới thiệu hệ thống nhận diện và đếm lượt người vào/ra sử dụng mạng nơ ron tích chập

4.2.2. Giới thiệu kiến trúc của máy chủ xử lý nhận diện và đếm lượng người

4.2.3. Giới thiệu sơ lược về phương pháp mô tả đặc trưng HOG sẽ được dùng để so sánh

4.2.4. So sánh khả năng nhận diện của hệ thống nhận diện người vào/ra sử dụng mạng nơ ron tích chập với phương pháp HOG đã có

4.2.5. Mô tả cơ chế chạy nhận diện người trong lõi máy chủ tính toán

4.2.6. Mô tả quá trình sử dụng hệ thống ở giao diện người dùng để hiển thị kết quả

4.3. Áp dụng mạng nơ ron tích chập để xây dựng hệ thống nhận diện khuôn mặt và đánh giá thực nghiệm, so sánh với phương pháp HOG

4.3.1. Xây dựng hệ thống nhận diện khuôn mặt

4.3.2. Giới thiệu cơ chế của máy chủ xử lý nhận diện

4.3.3. Giới thiệu sơ lược về phương pháp phát hiện khuôn mặt sử dụng HOG sẽ được dùng để so sánh

4.3.4. So sánh hệ thống nhận diện khuôn mặt với phương pháp HOG đã có

4.3.5. So sánh khả năng nhận diện khuôn mặt giữa HOG và CNN

4.3.6. Kết quả hệ thống web nhận diện khuôn mặt

TÀI LIỆU THAM KHẢO

I. Tổng quan về mạng neural convolutional trong nhận dạng đối tượng

1.1. Khái niệm về mạng neural convolutional

1.2. Lịch sử phát triển của mạng CNN

II. Thách thức trong nhận dạng đối tượng bằng mạng neural convolutional

2.1. Độ chính xác trong nhận dạng đối tượng

2.2. Khả năng tổng quát của mô hình

III. Phương pháp cải thiện hiệu suất của mạng CNN trong nhận dạng đối tượng

3.1. Tăng cường dữ liệu trong huấn luyện

3.2. Sử dụng kiến trúc mạng tiên tiến

IV. Ứng dụng thực tiễn của mạng CNN trong nhận dạng đối tượng

4.1. Nhận diện khuôn mặt

4.2. Phân loại hình ảnh trong y tế

V. Kết luận và tương lai của mạng CNN trong nhận dạng đối tượng

5.1. Xu hướng phát triển công nghệ

5.2. Tác động đến các lĩnh vực khác

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Mạnh Hùng

Người hướng dẫn: PGS.TS Đỗ Trung Tuấn

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Nghiên cứu mạng neural convolutional trong nhận dạng đối tượng thị giác máy tính

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: Hà Nội