Luận văn thạc sĩ về nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập

Luận văn thạc sĩ nghiên cứu nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Trường Đại Học Thủ Dầu Một

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

105

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

DANH MỤC CHỮ VIẾT TẮT

DANH MỤC BẢNG BIỂU

DANH MỤC HÌNH, ĐỒ THỊ

1. CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Lý do chọn đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng, phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Ý nghĩa khoa học và thực tiễn

1.6. Bố cục luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Mạng Nơ-ron tích chập

2.2. Mạng Nơ-ron nhân tạo

2.3. Các mô hình học sâu CNN

2.4. Nhận dạng cảm xúc khuôn mặt

2.5. Các nghiên cứu liên quan

2.6. Tiểu kết chương

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT

3.1. Tổng quan mô hình đề xuất

3.2. Các đặc trưng của mô hình

3.3. Phát hiện khuôn mặt. Nhận dạng cảm xúc với CNN

3.4. Mô hình học sâu lai CNN-LSTM

3.5. Nhận dạng cảm xúc

3.6. Phương pháp đánh giá kết quả

3.7. Huấn luyện mô hình

3.8. Xây dựng ứng dụng

4. CHƯƠNG 4: THỰC NGHIỆM

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

CÔNG TRÌNH CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập

Nhận dạng cảm xúc khuôn mặt là một lĩnh vực nghiên cứu quan trọng trong computer vision và deep learning. Sự phát triển của mạng nơron tích chập (CNN) đã mở ra nhiều cơ hội mới cho việc nhận diện và phân tích cảm xúc từ hình ảnh khuôn mặt. Các nghiên cứu gần đây cho thấy rằng việc áp dụng học sâu vào nhận dạng cảm xúc có thể cải thiện đáng kể độ chính xác và hiệu suất của các hệ thống nhận diện. Việc hiểu rõ về cảm xúc khuôn mặt không chỉ giúp trong giao tiếp xã hội mà còn có ứng dụng trong nhiều lĩnh vực như an ninh, chăm sóc sức khỏe và giáo dục.

1.1. Lịch sử và sự phát triển của nhận dạng cảm xúc khuôn mặt

Nhận dạng cảm xúc khuôn mặt đã được nghiên cứu từ những năm 1970, nhưng chỉ thực sự phát triển mạnh mẽ với sự ra đời của mạng nơron và học sâu. Các nghiên cứu của Paul Ekman đã xác định các cảm xúc cơ bản mà con người thể hiện qua khuôn mặt, tạo nền tảng cho các hệ thống nhận diện hiện đại.

1.2. Tầm quan trọng của nhận dạng cảm xúc trong xã hội hiện đại

Trong thời đại công nghệ 4.0, việc nhận diện cảm xúc khuôn mặt trở nên quan trọng hơn bao giờ hết. Nó không chỉ giúp cải thiện giao tiếp giữa người với người mà còn hỗ trợ trong các ứng dụng như phát hiện nói dối, tương tác giữa người với máy tính và an toàn cho người lái xe.

II. Thách thức trong nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập

Mặc dù có nhiều tiến bộ trong lĩnh vực nhận dạng cảm xúc khuôn mặt, nhưng vẫn tồn tại nhiều thách thức cần giải quyết. Các yếu tố như ánh sáng, góc nhìn và biểu cảm khuôn mặt có thể ảnh hưởng đến độ chính xác của các mô hình. Hơn nữa, việc thu thập và xử lý dữ liệu hình ảnh cũng là một vấn đề lớn, đặc biệt là trong các tình huống thực tế.

2.1. Ảnh hưởng của điều kiện môi trường đến độ chính xác

Điều kiện ánh sáng và góc nhìn có thể làm giảm độ chính xác của các mô hình nhận diện cảm xúc. Các nghiên cứu cho thấy rằng việc huấn luyện mô hình trên nhiều điều kiện khác nhau có thể cải thiện khả năng nhận diện trong thực tế.

2.2. Vấn đề về dữ liệu và phân loại cảm xúc

Việc thu thập dữ liệu hình ảnh với các cảm xúc khác nhau là một thách thức lớn. Các cơ sở dữ liệu như FER-2013 cung cấp một lượng lớn dữ liệu, nhưng vẫn cần cải thiện về độ đa dạng và chất lượng để nâng cao hiệu suất của mô hình.

III. Phương pháp nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập

Phương pháp sử dụng mạng nơron tích chập (CNN) để nhận dạng cảm xúc khuôn mặt đã được chứng minh là hiệu quả. CNN có khả năng tự động trích xuất các đặc trưng từ hình ảnh mà không cần phải can thiệp thủ công. Việc áp dụng các mô hình học sâu như CNN-LSTM giúp cải thiện khả năng nhận diện cảm xúc trong thời gian thực.

3.1. Cấu trúc và hoạt động của mạng nơron tích chập

Mạng nơron tích chập bao gồm nhiều lớp, mỗi lớp có nhiệm vụ trích xuất các đặc trưng khác nhau từ hình ảnh. Các lớp tích chập và lớp pooling giúp giảm kích thước dữ liệu đầu vào, đồng thời giữ lại các thông tin quan trọng.

3.2. Kết hợp CNN với LSTM trong nhận dạng cảm xúc

Việc kết hợp CNN với LSTM giúp mô hình có khả năng xử lý thông tin theo thời gian, từ đó cải thiện độ chính xác trong việc nhận diện cảm xúc từ video hoặc chuỗi hình ảnh.

IV. Ứng dụng thực tiễn của nhận dạng cảm xúc khuôn mặt

Nhận dạng cảm xúc khuôn mặt có nhiều ứng dụng thực tiễn trong các lĩnh vực khác nhau. Từ an ninh, chăm sóc sức khỏe đến giáo dục, công nghệ này đang dần trở thành một phần không thể thiếu trong cuộc sống hàng ngày. Các hệ thống nhận diện cảm xúc có thể giúp cải thiện trải nghiệm người dùng và tăng cường an ninh.

4.1. Ứng dụng trong an ninh và bảo mật

Hệ thống nhận diện cảm xúc có thể được sử dụng để phát hiện hành vi đáng ngờ trong các tình huống an ninh. Việc phân tích cảm xúc của người dùng có thể giúp cảnh báo các tình huống nguy hiểm.

4.2. Ứng dụng trong chăm sóc sức khỏe

Trong lĩnh vực chăm sóc sức khỏe, nhận dạng cảm xúc khuôn mặt có thể hỗ trợ trong việc theo dõi tâm trạng của bệnh nhân, từ đó cải thiện chất lượng điều trị và chăm sóc.

V. Kết luận và hướng phát triển tương lai của nhận dạng cảm xúc khuôn mặt

Nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập đang trên đà phát triển mạnh mẽ. Các nghiên cứu hiện tại đang tập trung vào việc cải thiện độ chính xác và khả năng thích ứng của các mô hình. Tương lai của công nghệ này hứa hẹn sẽ mang lại nhiều ứng dụng mới và cải tiến trong nhiều lĩnh vực.

5.1. Xu hướng nghiên cứu trong tương lai

Các nghiên cứu trong tương lai có thể tập trung vào việc phát triển các mô hình nhận diện cảm xúc mạnh mẽ hơn, có khả năng hoạt động trong các điều kiện khó khăn và với dữ liệu đa dạng hơn.

5.2. Tác động của công nghệ đến xã hội

Công nghệ nhận dạng cảm xúc khuôn mặt có thể thay đổi cách con người tương tác với nhau và với máy móc. Việc áp dụng công nghệ này cần được thực hiện một cách cẩn thận để đảm bảo quyền riêng tư và an toàn cho người dùng.

24/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nhận dạng cảm xúc khuôn mặt bằng mạng nơron tích chập

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0 và sự phát triển mạnh mẽ của trí tuệ nhân tạo, nhận dạng cảm xúc khuôn mặt trở thành một lĩnh vực nghiên cứu quan trọng trong ngành thị giác máy tính và học máy. Theo các chuyên gia, giao tiếp phi ngôn ngữ chiếm tới 2/3 hiệu quả giao tiếp, trong đó cảm xúc khuôn mặt đóng vai trò then chốt trong việc truyền tải thông điệp. Việc tự động nhận dạng cảm xúc khuôn mặt không chỉ giúp nâng cao hiệu quả giao tiếp giữa người với máy mà còn có ứng dụng rộng rãi trong an ninh, chăm sóc sức khỏe, giáo dục và nhiều lĩnh vực khác.

Luận văn tập trung nghiên cứu và phát triển mô hình nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ-ron tích chập (CNN) kết hợp bộ nhớ ngắn dài hạn (LSTM) nhằm khai thác ưu điểm của học sâu trong việc trích xuất đặc trưng và phân loại hình ảnh. Mục tiêu cụ thể là xây dựng hệ thống có khả năng phát hiện khuôn mặt và nhận dạng chính xác 7 loại cảm xúc cơ bản: tức giận, ghê tởm, sợ hãi, hạnh phúc, không cảm xúc, buồn bã và ngạc nhiên. Nghiên cứu được thực hiện trên cơ sở dữ liệu FER-2013, với phạm vi thời gian từ năm 2019 đến 2020 tại Trường Đại học Thủ Dầu Một, tỉnh Bình Dương.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác nhận dạng cảm xúc khuôn mặt, góp phần phát triển các ứng dụng thực tiễn trong tương tác người-máy và các hệ thống an ninh thông minh. Kết quả nghiên cứu cũng được công bố tại Hội nghị quốc tế RICE 2020 và nhận giải thưởng Bài báo xuất sắc nhất, khẳng định giá trị khoa học và thực tiễn của luận văn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và Mạng nơ-ron tích chập (Convolutional Neural Network - CNN). ANN mô phỏng hoạt động của hệ thần kinh sinh học, gồm các lớp đầu vào, lớp ẩn và lớp đầu ra, với các nơ-ron kết nối và trọng số điều chỉnh qua quá trình huấn luyện. Phương pháp học có giám sát được áp dụng để huấn luyện mạng, sử dụng thuật toán lan truyền ngược (Backpropagation) nhằm tối ưu trọng số.

CNN là mô hình học sâu chuyên biệt cho xử lý ảnh, với cấu trúc gồm các lớp tích chập, hàm kích hoạt phi tuyến (ReLU), lớp pooling và lớp kết nối đầy đủ. CNN tận dụng kết nối cục bộ và chia sẻ trọng số để giảm số lượng tham số, giúp trích xuất đặc trưng hiệu quả từ ảnh đầu vào. Các kiến trúc CNN tiêu biểu được nghiên cứu bao gồm LeNet-5, AlexNet, VGG-16, GoogleNet-Inception và ResNet-50, mỗi kiến trúc có ưu điểm riêng về độ sâu, số lượng tham số và hiệu quả nhận dạng.

Ngoài ra, luận văn còn ứng dụng mô hình học sâu lai CNN-LSTM, kết hợp khả năng trích xuất đặc trưng không gian của CNN với khả năng ghi nhớ thông tin theo chuỗi thời gian của LSTM, nhằm cải thiện độ chính xác nhận dạng cảm xúc khuôn mặt trong video hoặc chuỗi ảnh.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu FER-2013, bao gồm khoảng 35.000 ảnh khuôn mặt với 7 nhãn cảm xúc cơ bản. Dữ liệu được chia thành tập huấn luyện, tập kiểm thử và tập kiểm tra theo tỷ lệ chuẩn để đảm bảo tính khách quan trong đánh giá mô hình.

Phương pháp phân tích sử dụng các mô hình CNN khác nhau, bao gồm CNN 3 lớp, CNN 5 tầng tự tạo, VGG-16, ResNet-50 và mô hình lai CNN-LSTM. Các mô hình được huấn luyện bằng thuật toán lan truyền ngược với hàm mất mát cross-entropy và tối ưu bằng Adam optimizer. Quá trình huấn luyện diễn ra trong khoảng 50-100 epoch, với batch size 64, trên nền tảng Python và thư viện TensorFlow.

Phương pháp đánh giá kết quả dựa trên các chỉ số độ chính xác (accuracy) và ma trận nhầm lẫn (confusion matrix) để phân tích chi tiết hiệu suất nhận dạng từng loại cảm xúc. Ngoài ra, so sánh hiệu quả giữa các mô hình được thực hiện để lựa chọn mô hình tối ưu nhất.

Timeline nghiên cứu kéo dài từ tháng 1/2019 đến tháng 12/2020, bao gồm các giai đoạn thu thập và xử lý dữ liệu, xây dựng mô hình, huấn luyện và đánh giá, cũng như phát triển ứng dụng nhận dạng cảm xúc khuôn mặt theo thời gian thực.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình CNN-LSTM vượt trội: Mô hình CNN-LSTM đạt độ chính xác trung bình khoảng 72% trên tập kiểm thử FER-2013, cao hơn 5-7% so với các mô hình CNN truyền thống như VGG-16 (khoảng 65%) và ResNet-50 (khoảng 67%). Ma trận nhầm lẫn cho thấy mô hình này giảm thiểu đáng kể nhầm lẫn giữa các cảm xúc tương tự như buồn và không cảm xúc.
Ảnh hưởng của số tầng mạng: Mô hình CNN 5 tầng tự tạo cho kết quả tốt hơn CNN 3 lớp với độ chính xác tăng khoảng 8%, chứng tỏ việc tăng độ sâu mạng giúp trích xuất đặc trưng phức tạp hơn, phù hợp với bài toán nhận dạng cảm xúc đa dạng.
Tác động của hàm kích hoạt ReLU và lớp pooling: Việc sử dụng hàm kích hoạt ReLU giúp tăng tốc độ huấn luyện và cải thiện độ chính xác khoảng 3% so với sigmoid. Lớp max pooling giúp giảm kích thước dữ liệu đầu ra, giảm số lượng tham số và tránh overfitting hiệu quả.
Ứng dụng thực tế: Hệ thống nhận dạng cảm xúc khuôn mặt theo thời gian thực được xây dựng trên nền tảng Python và OpenCV, có khả năng nhận dạng chính xác cảm xúc trong video với độ trễ dưới 200ms, đáp ứng yêu cầu vận hành nhanh và chính xác trong các ứng dụng tương tác người-máy.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình CNN-LSTM đạt hiệu quả cao là do khả năng kết hợp trích xuất đặc trưng không gian của CNN với khả năng ghi nhớ thông tin chuỗi của LSTM, phù hợp với dữ liệu video hoặc chuỗi ảnh có tính liên tục về thời gian. Kết quả này tương đồng với các nghiên cứu gần đây trong lĩnh vực nhận dạng cảm xúc, khẳng định tính ưu việt của mô hình lai trong xử lý dữ liệu đa chiều.

Việc tăng độ sâu mạng CNN giúp mô hình học được các đặc trưng phức tạp hơn, tuy nhiên cần cân nhắc tránh quá sâu gây hiện tượng overfitting hoặc mất thông tin gốc. Hàm kích hoạt ReLU được lựa chọn do tính đơn giản và hiệu quả tính toán, phù hợp với các mô hình học sâu hiện đại.

Kết quả ma trận nhầm lẫn cho thấy các cảm xúc như tức giận và ghê tởm dễ bị nhầm lẫn do đặc trưng khuôn mặt tương tự, gợi ý cần cải tiến thêm các kỹ thuật trích xuất đặc trưng hoặc bổ sung dữ liệu đa dạng hơn. Biểu đồ so sánh độ chính xác giữa các mô hình được trình bày rõ ràng trong luận văn, giúp minh họa trực quan hiệu quả của từng kiến trúc.

Đề xuất và khuyến nghị

Tăng cường dữ liệu huấn luyện: Thu thập thêm dữ liệu đa dạng về độ tuổi, giới tính và điều kiện ánh sáng để cải thiện khả năng tổng quát của mô hình, hướng tới tăng độ chính xác nhận dạng trên 80% trong vòng 12 tháng tới. Chủ thể thực hiện: nhóm nghiên cứu và đối tác cung cấp dữ liệu.
Phát triển mô hình lai CNN-LSTM nâng cao: Nghiên cứu tích hợp thêm các kỹ thuật attention và transformer để nâng cao khả năng nhận dạng cảm xúc phức tạp, dự kiến hoàn thành trong 18 tháng. Chủ thể thực hiện: nhóm phát triển AI.
Triển khai ứng dụng thực tế: Xây dựng hệ thống nhận dạng cảm xúc khuôn mặt tích hợp vào các thiết bị di động và camera giám sát, nhằm phục vụ an ninh và chăm sóc sức khỏe, với mục tiêu giảm độ trễ xử lý dưới 100ms trong 24 tháng. Chủ thể thực hiện: phòng công nghệ thông tin và đối tác công nghệ.
Đào tạo và chuyển giao công nghệ: Tổ chức các khóa đào tạo về học sâu và nhận dạng cảm xúc cho cán bộ kỹ thuật và sinh viên, nhằm nâng cao năng lực nghiên cứu và ứng dụng trong 6 tháng tới. Chủ thể thực hiện: Trường Đại học Thủ Dầu Một.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo: Luận văn cung cấp kiến thức sâu rộng về mạng nơ-ron tích chập, học sâu và ứng dụng trong nhận dạng cảm xúc, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển sản phẩm AI và thị giác máy tính: Các mô hình và phương pháp được trình bày giúp cải tiến thuật toán nhận dạng khuôn mặt, nâng cao hiệu suất và độ chính xác sản phẩm.
Ngành an ninh và giám sát: Hệ thống nhận dạng cảm xúc khuôn mặt có thể ứng dụng trong phát hiện hành vi bất thường, hỗ trợ công tác an ninh và bảo vệ.
Lĩnh vực chăm sóc sức khỏe và giáo dục: Công nghệ nhận dạng cảm xúc giúp theo dõi trạng thái tâm lý bệnh nhân hoặc học sinh, từ đó đưa ra các biện pháp hỗ trợ phù hợp.

Câu hỏi thường gặp

Mạng nơ-ron tích chập (CNN) là gì và tại sao được sử dụng trong nhận dạng cảm xúc?
CNN là mô hình học sâu chuyên xử lý dữ liệu hình ảnh, tận dụng kết nối cục bộ và chia sẻ trọng số để trích xuất đặc trưng hiệu quả. CNN giúp nhận dạng các đặc điểm khuôn mặt quan trọng cho việc phân loại cảm xúc với độ chính xác cao.
Tại sao kết hợp CNN với LSTM trong mô hình nhận dạng cảm xúc?
LSTM có khả năng ghi nhớ thông tin theo chuỗi thời gian, giúp mô hình xử lý tốt dữ liệu video hoặc chuỗi ảnh liên tục, từ đó cải thiện độ chính xác nhận dạng cảm xúc so với chỉ dùng CNN.
Cơ sở dữ liệu FER-2013 có đặc điểm gì nổi bật?
FER-2013 gồm khoảng 35.000 ảnh khuôn mặt với 7 nhãn cảm xúc cơ bản, được sử dụng rộng rãi trong nghiên cứu nhận dạng cảm xúc nhờ tính đa dạng và chuẩn hóa cao.
Các hàm kích hoạt nào được sử dụng trong mô hình và ưu điểm của chúng?
Hàm ReLU được sử dụng phổ biến do tính đơn giản, tốc độ tính toán nhanh và khả năng xử lý phi tuyến hiệu quả, giúp mô hình học sâu hội tụ nhanh hơn so với sigmoid hay tanh.
Ứng dụng thực tế của hệ thống nhận dạng cảm xúc khuôn mặt là gì?
Hệ thống có thể áp dụng trong an ninh giám sát, phát hiện nói dối, tương tác người-máy, an toàn giao thông, chăm sóc sức khỏe và giáo dục, giúp nâng cao hiệu quả và độ chính xác trong các lĩnh vực này.

Kết luận

Luận văn đã xây dựng thành công mô hình nhận dạng cảm xúc khuôn mặt sử dụng mạng nơ-ron tích chập kết hợp LSTM, đạt độ chính xác khoảng 72% trên cơ sở dữ liệu FER-2013.
Nghiên cứu so sánh hiệu quả của nhiều kiến trúc CNN tiêu biểu, chứng minh ưu thế của mô hình lai CNN-LSTM trong nhận dạng cảm xúc.
Hệ thống nhận dạng cảm xúc khuôn mặt theo thời gian thực được phát triển, đáp ứng yêu cầu vận hành nhanh và chính xác trong các ứng dụng thực tế.
Đề xuất các giải pháp nâng cao chất lượng dữ liệu, phát triển mô hình và triển khai ứng dụng nhằm mở rộng phạm vi và hiệu quả sử dụng trong tương lai.
Khuyến khích các nhà nghiên cứu và chuyên gia trong lĩnh vực AI, thị giác máy tính tham khảo và phát triển tiếp các hướng nghiên cứu dựa trên nền tảng này.

Hành trình tiếp theo là mở rộng dữ liệu huấn luyện, tích hợp các kỹ thuật học sâu tiên tiến và triển khai ứng dụng thực tế đa dạng hơn. Để góp phần vào sự phát triển của lĩnh vực nhận dạng cảm xúc khuôn mặt, mời bạn đọc và các nhà nghiên cứu liên hệ và hợp tác phát triển dự án.

Trích đoạn nội dung tài liệu

Chương 1 trình bày khái quát về bài toán nhận dạng cảm xúc khuôn mặt, những ứng dụng cũng như mục tiêu của đề tài. Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan: Chương 2 trình bày cơ sở lý thuyết và các nghiên cứu liên quan đến các thuật toán phát hiện, nhận dạng và phân loại hình ảnh được phát triển trong luận văn. Chương 3: Mô hình đề xuất: Chương 3 trình bày phương pháp phát hiện khuôn mặt, phương pháp nhận dạng, phân loại cảm xúc, sơ đồ liên kết giữa mô hình và ứng dụng web. 4 Chương 4: Thực nghiệm: Chương 4 trình bày quá trình thực nghiệm, kết quả đạt được, phân tích và đánh giá các kết quả đạt được.

Chương 5: Kết luận và hướng phát triển: Chương 5 tổng quát kết quả thực hiện, đưa ra các hướng phát triển cho mô hình trong tương lai. 5 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2. Mạng Nơ-ron tích chập 2. Mạng Nơ-ron nhân tạo Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật hay còn gọi là mạng Nơ-ron sinh học (hình 2.

Cấu tạo từ số lượng lớn các nơ-ron được kết nối với nhau để xử lý thông tin. ANN giống như bộ não con người, được học bởi kinh nghiệm thông qua huấn luyện, có khả năng lưu giữ những kinh nghiệm tri thức và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết. ANN được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits. 1: Mạng Nơ-ron sinh học [21] Các ứng dụng của Mạng neuron được sử dụng trong rất nhiều lĩnh vực như điện, điện tử, kinh tế, quân sự,… để giải quyết các bài toán có độ phức tạp và đòi hỏi có độ chính xác cao như điều khiển tự động, khai phá dữ liệu, nhận dạng,… Một ANN gồm ba tầng: lớp đầu vào (input layer), các lớp ẩn (hidden layers) và cuối cùng là lớp đầu ra (output layer) được mô tả trong hình 2.2 6 [21], trong đó, lớp ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ các lớp trước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo.

Một ANN có thể có nhiều lớp ẩn hoặc không có lớp ẩn. 2: Cấu trúc của mạng nơ-ron nhân tạo [21] Mỗi node trong mạng gọi là một nơ-ron. Mỗi nơ-ron nhận các dữ liệu đầu vào xử lý chúng và trả ra một kết quả duy nhất. Kết quả đầu ra của nơ- ron này có thể làm dữ liệu đầu vào của các nơ-ron khác.3 [21] mô tả quá trình xử lý của một nơ-ron trong ANN.

Trong đó input là dữ liệu đầu vào, output là kết quả đầu ra. Trọng số liên kết hay trọng số (connection weights hay gọi tắt là weights) là thành phần rất quan trọng, thể hiện mức độ quan trọng đối với quá trình xử lý dữ liệu từ lớp này sang lớp khác. Quá trình học của ANN thực ra là quá trình điều chỉnh trọng số của các dữ liệu đầu vào. 3: Quá trình xử lý của một nơ-ron trong ANN [21] Hàm tổng Σ tính tổng của tích trọng số và dữ liệu vào.

Hàm tính tổng một nơ-ron của k dữ liệu đầu vào của lớp thứ i 𝑎𝑖 = ∑ 𝑥𝑘 𝜔𝑖,𝑘 (2.1) Hàm kích hoạt hay hàm chuyển đổi 𝑓 tính toán đầu ra của một nơ-ron để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thông qua các biến đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơn giản nhất, không có lớp ẩn). Một số hàm kích hoạt phi tuyến thường dùng là ReLU (Rectified Linear Unit), sigmoid, logistic, Gaussian, tanh, softmax. 4: Đồ thị các hàm kích hoạt: (a).

Hàm Sigmoid Kết quả xử lý đầu ra hàm tổng của nơ-ron đôi khi quá lớn, hàm kích hoạt thường dùng để xử lý đầu ra này trước khi chuyển đến lớp tiếp theo. Đôi khi thay vì sử dụng hàm kích hoạt, ta thường sử dụng giá trị ngưỡng để 9 kiểm soát đầu ra của nơ-ron. Nếu đầu ra của một nơ-ron nhỏ hơn ngưỡng thì sẽ không được chuyển đến lớp tiếp theo. Một số dạng mạng nơ-ron nhân tạo: Mạng liên kết đầy đủ (fully connected-FC): nếu mọi đầu ra của một lớp liên kết với mọi nơ-ron của lớp tiếp theo.

Mạng lan truyền thẳng (feedforward network): nếu không tồn tại liên kết giữa các nơ-ron thuộc cùng một lớp. Mạng phản hồi (feedback network): nếu tồn tại đầu ra của một nơ-ron liên kết ngược lại làm đầu vào của một nơ-ron cùng lớp. Mạng hồi quy (recurrent network): nếu các mạng phản hồi có các vòng lặp kín. Quá trình học của mạng nơron là quá trình lan truyền thông tin để làm thay đổi các trọng số tốt nhất có thể.

Mạng nơ-ron được huấn luyện hay được học theo ba phương pháp học có giám sát, học không giám sát và học tăng cường: Học có giám sát (supervised learning): là phương pháp học từ một tập dữ liệu huấn luyện ta đã biết trước nhãn của dữ liệu cần học và số lớp cần phân loại của bộ dữ liệu được đem đi huấn luyện. Đây là phương pháp học phổ biến nhất trong các phương pháp học của mạng nơ-ron. Mục đích của phương pháp này là từ tập dữ liệu đã gán nhãn qua quá trình học tạo ra một hàm số thật tốt để khi có dữ liệu mới ta có thể tính hay dự đoán được nhãn tương ứng của dữ liệu đó [21]. Phương pháp học có giám sát chia ra thành hai loại chính là: - Phân loại (classification): Nếu nhãn của các dữ liệu đầu vào được chia thành một số hữu hạn nhóm.

Như các bài toán nhận dạng chữ số viết tay, dò tìm khuôn mặt người, … 10 - Hồi quy (regression): Nếu nhãn của các dữ liệu đầu vào không được chia thành các nhóm mà là một giá trị thực cụ thể. Ví dụ như bài toán dự đoán giá của một căn nhà, giá trị dinh dưỡng của một món ăn,… Học không giám sát (Unsupervised Learning): là phương pháp học từ một tập dữ liệu cần học ta không biết trước nhãn của dữ liệu, cũng như số lớp đầu ra. Thuật toán sẽ dựa vào cấu trúc của dữ liệu để phân nhóm hay giảm chiều của dữ liệu,… Học không giám sát có liên quan chặt chẽ đến việc ước lượng mật độ trong thống kê. Cách học này không sử dụng tri thức từ bên ngoài trong quá trình học nên còn được gọi là tự tổ chức.

Mạng nơ-ron điển hình cho cách học này là Self – Organizing Map (SOM). Một số thuật toán học không giám sát khác như k-means, Hierarchical Agglomerative Clustering (HAC), Fuzzy Cognitive Map (FCM),….[21] Phần lớn ứng dụng học không giám sát vào các bài toán ước lượng như mô hình hóa thống kê, nén, lọc, phân nhóm,… Học tăng cường (Reinforcement Learning): là phương pháp học giúp cho một hệ thống tự động xác định hành động dựa trên hoàn cảnh để đạt lợi ích cao nhất. Học tăng cường bằng cách thử nghiệm dữ liệu để khám phá ra hành động nào là tốt nhất. Hành động đó không chỉ có lợi ích tốt cho bước hiện tại mà còn cho các bước tiếp theo.

Hai đặc điểm quan trọng để phân biệt học tăng cường là tìm kiếm thử - sai (trialand-error search) và bồi dưỡng chậm (delayed reward).[21] Môi trường học thường được biểu diễn dưới dạng quy trình quyết định markov (Markov Decision Process - MDP) trạng thái hữu hạn và các thuật toán học tăng cường liên quan đến các kỹ thuật quy hoạch động. Hiện tại, học tăng cường chủ yếu được áp dụng vào Lý thuyết trò chơi, thuật toán cần xác định hành động tiếp theo để đạt số điểm tốt nhất. Ví 11 dụ, AlphaGo của Google đánh cờ vây thắng con người, trong khi cờ vây có độ phức tạp cao xấp xỉ 10761. AlphaGo kết hợp cả học có giám sát và học tăng cường, Hình 2.

5: AlphaGo của Google1 Thuật toán lan truyền ngược Với thuật toán lan truyền ngược (Backpropagation Algorithm), giả sử L(W,b,X,Y) là một hàm lỗi của bài toán, trong đó W,b là tập hợp tất cả các ma trận trọng số giữa các lớp và hướng của mỗi lớp. X,Y là cặp dữ liệu huấn luyện, X là tập hợp các điểm dữ liệu, Y là nhãn của các điểm dữ liệu tương ứng trong X. Đầu ra dự đoán y ̂ của dữ liệu đầu vào x của mạng neural truyền thẳng đa lớp được tính như sau: 𝑎(0) = 𝑥 (2.com 12 Với 𝑙 = 1, … , 𝐿 là số thứ tự của lớp, a là kết quả của hàm kích hoạt tại mỗi node của một lớp. Bước này được gọi là truyền thẳng vì cách tính toán được thực hiện từ lớp đầu tiên đến lớp cuối của mạng nơ-ron.

Phương pháp phổ biến nhất để tối ưu mạng nơ-ron truyền thẳng đa lớp là trượt dốc. Để có thể áp dụng trượt dốc, ta cần tính được đạo hàm của hàm lỗi theo từng ma trận trọng số W(l) và vector hướng b(l) 𝜕𝐿 𝜕𝐿 ; (2.12) 𝑁 Với N là số cặp dữ liệu (X,Y) trong tập huấn luyện. Theo công thức (2.12) thì việc tính đạo hàm của hàm lỗi theo trọng số và hướng một cách trực tiếp là cực kỳ phức tạp, vì hàm lỗi không phụ thuộc trực tiếp vào các hệ số. Phương pháp phổ biến nhất để tính đạo hàm của hàm lỗi có tên là lan truyền ngược.

Lan truyền ngược giúp tính đạo hàm ngược từ lớp cuối cùng đến lớp đầu tiên. Lớp cuối cùng được tính trước vì nó gần hơn với đầu ra dự đoán và hàm lỗi. Việc tính toán đạo hàm của các lớp trước được thực hiện dựa trên nguyên tắc xích, tức là đạo hàm của hàm hợp.13) 𝜕𝑥 𝜕𝑦 𝜕𝑥 Với z = f(y) và y = g(x) 13 Với một cặp điểm dữ liệu huấn luyện (x,y) và hàm lỗi L chỉ xét cho cặp điểm này, ta có thể tính đạo hàm của hàm lỗi theo ma trận trọng số và hướng. Đạo hàm của hàm lỗi theo chỉ một thành phần của ma trận trọng số của lớp cuối cùng.6 mô phỏng cách tính lan truyền ngược, với đạo hàm theo hệ số ở các lớp 𝑙 thấp hơn, lớp cuối có thể là lớp đầu ra, 𝑑 (𝑙) là số node trong lớp ẩn thứ 𝑙.

6: Mô phỏng cách tính lan truyền ngược [1] 14 Dựa vào hình 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Trí tuệ nhân tạo và học máy

Xử lý ảnh và thị giác máy tính

nhận dạng khuôn mặt và cảm xúc