Luận văn thạc sĩ HCMUTE về nhận dạng hành động người dùng bằng mạng nơron tích chập

Luận văn thạc sĩ phân tích hcmute nhận dạng hành động người dùng mạng nơron tích chập, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

ABSTRACT

TÓM TẮT

DANH SÁCH CÁC CHỮ VIẾT TẮT

DANH MỤC HÌNH

DANH MỤC BẢNG

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng Quan Về Lĩnh Vực Nghiên Cứu

1.2. Mục Đích Của Đề Tài

1.3. Nhiệm Vụ Và Giới Hạn Của Đề Tài

1.4. Phương Pháp Nghiên Cứu

1.5. Tóm Tắt Nội Dung Chính Của Đề Tài

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Mạng Nơ-ron nhân tạo (ANN - Artificial Neural Network)

2.1.1. Giới thiệu về mạng Nơ-ron (mạng thần kinh)

2.1.2. Phân loại mạng Nơ-ron nhân tạo

2.2. Các phương pháp huấn luyện mạng Nơ-ron nhân tạo

2.3. Mạng nơron tích chập (Convolutional Neural Networks - CNN)

2.3.1. Kiến trúc mạng Nơ-ron tích chập

3. CHƯƠNG 3: XÂY DỰNG BỘ PHÂN LOẠI HÀNH ĐỘNG NGƯỜI SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP

3.1. Bài toán phân loại sử dụng Machine learning và Deep learning

3.2. Kiến trúc mạng CNN 10 lớp sử dụng trong nhận dạng hành động người

3.2.1. Dữ liệu huấn luyện

3.2.2. Thiết lập cấu hình phần cứng

3.2.3. Mô hình huấn luyện

3.2.4. Quá trình huấn luyện

3.2.5. Giao diện chương trình

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Những hạn chế và hướng phát triển của đề tài

4.1.1. Hạn chế của đề tài

4.1.2. Hướng phát triển của đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Lĩnh Vực Nghiên Cứu

Trong bối cảnh hiện đại, nhận dạng hành động của con người trở thành một lĩnh vực nghiên cứu quan trọng, đặc biệt trong các ứng dụng như giám sát video, phân tích hành vi và thương mại điện tử. Mạng nơron tích chập (CNN) đã được chứng minh là một công cụ mạnh mẽ trong việc xử lý hình ảnh và nhận diện hành động. Nghiên cứu này nhằm phát triển một mô hình CNN có khả năng nhận diện chính xác các hành động của người dùng từ video. Việc áp dụng machine learning và deep learning trong lĩnh vực này không chỉ giúp cải thiện độ chính xác mà còn mở ra nhiều ứng dụng thực tiễn trong cuộc sống hàng ngày.

1.1 Mục Đích Của Đề Tài

Mục đích chính của đề tài là nghiên cứu và ứng dụng mạng nơron tích chập để xử lý hình ảnh, từ đó xây dựng một thuật toán học sâu có khả năng phát hiện hành động của con người trong các hình ảnh mới. Đề tài cũng hướng đến việc dự đoán hành động của người trong một đoạn video, nhằm nâng cao khả năng nhận diện và phân tích hành vi người dùng trong các tình huống thực tế.

1.2 Nhiệm Vụ Và Giới Hạn Của Đề Tài

Nhiệm vụ của đề tài bao gồm việc tìm hiểu các mô hình và ứng dụng của deep learning trong xử lý hình ảnh, cũng như các phương pháp tìm điểm đặc trưng trong ảnh. Đề tài sẽ thực hiện huấn luyện và mô phỏng bằng phần mềm Matlab để dự đoán hành động của đối tượng. Tuy nhiên, giới hạn của đề tài là chỉ dự đoán hành động người dựa trên tập dữ liệu của chính tác giả và chưa thể dự đoán cùng lúc hành động của nhiều người trong một ảnh.

II. Cơ Sở Lý Thuyết

Cơ sở lý thuyết của nghiên cứu này bao gồm các khái niệm về mạng nơron nhân tạo (ANN) và mạng nơron tích chập (CNN). Mạng nơron nhân tạo là mô hình toán học phỏng theo cách thức xử lý thông tin của não người, bao gồm các tế bào thần kinh kết nối với nhau qua các trọng số. Mạng nơron tích chập là một biến thể của ANN, được thiết kế đặc biệt để xử lý dữ liệu hình ảnh. CNN sử dụng các lớp tích chập để trích xuất đặc trưng từ hình ảnh, giúp cải thiện hiệu suất nhận diện hành động. Việc áp dụng các phương pháp huấn luyện như học có giám sát, học củng cố và học không giám sát là rất quan trọng trong quá trình phát triển mô hình.

2.1 Mạng Nơ ron Nhân Tạo

Mạng nơron nhân tạo (ANN) là một mô hình xử lý thông tin phỏng theo cách thức hoạt động của não người. Mỗi nơron trong mạng có thể nhận nhiều đầu vào và sản sinh một đầu ra. Quá trình học của ANN liên quan đến việc điều chỉnh trọng số của các liên kết giữa các nơron thông qua các thuật toán như lan truyền ngược. Việc hiểu rõ cấu trúc và chức năng của ANN là cần thiết để phát triển các mô hình phức tạp hơn như CNN.

2.2 Mạng Nơ ron Tích Chập

Mạng nơron tích chập (CNN) là một loại mạng nơron được thiết kế đặc biệt cho việc xử lý hình ảnh. CNN sử dụng các lớp tích chập để phát hiện các đặc trưng trong hình ảnh, giúp giảm thiểu số lượng tham số cần thiết cho việc huấn luyện. Các lớp pooling trong CNN giúp giảm kích thước dữ liệu đầu vào, từ đó tăng tốc độ xử lý và cải thiện độ chính xác. Việc áp dụng CNN trong nhận dạng hành động đã mở ra nhiều cơ hội mới trong lĩnh vực computer vision.

III. Xây Dựng Bộ Phân Loại Hành Động

Quá trình xây dựng bộ phân loại hành động người sử dụng mạng nơron tích chập bao gồm nhiều bước quan trọng. Đầu tiên, cần thu thập và chuẩn bị dữ liệu huấn luyện, bao gồm các video và hình ảnh có chứa các hành động khác nhau. Sau đó, thiết lập kiến trúc của CNN với các lớp tích chập và pooling phù hợp. Việc huấn luyện mô hình sẽ được thực hiện bằng cách sử dụng các thuật toán machine learning để tối ưu hóa trọng số của mạng. Kết quả của quá trình này sẽ là một mô hình có khả năng nhận diện chính xác các hành động của người dùng trong video.

3.1 Dữ Liệu Huấn Luyện

Dữ liệu huấn luyện là yếu tố quyết định đến hiệu suất của mô hình. Trong nghiên cứu này, dữ liệu được thu thập từ nhiều nguồn khác nhau, bao gồm các video và hình ảnh có chứa các hành động cụ thể. Việc chuẩn bị dữ liệu bao gồm việc gán nhãn cho các hành động, giúp mô hình học được cách phân loại chính xác. Sự đa dạng của dữ liệu huấn luyện sẽ giúp mô hình có khả năng tổng quát tốt hơn khi áp dụng vào thực tế.

3.2 Thiết Lập Cấu Hình Phần Cứng

Thiết lập cấu hình phần cứng là một bước quan trọng trong quá trình huấn luyện mô hình. Việc sử dụng các GPU mạnh mẽ sẽ giúp tăng tốc độ xử lý và giảm thời gian huấn luyện. Cấu hình phần cứng cần được tối ưu hóa để đảm bảo rằng mô hình có thể xử lý lượng dữ liệu lớn một cách hiệu quả. Sự kết hợp giữa phần mềm và phần cứng sẽ quyết định đến khả năng thực thi của mô hình trong các ứng dụng thực tế.

IV. Kết Luận và Hướng Phát Triển

Nghiên cứu về nhận dạng hành động người dùng bằng mạng nơron tích chập đã chỉ ra tiềm năng lớn trong việc ứng dụng công nghệ AI vào thực tiễn. Mặc dù đã đạt được những kết quả khả quan, vẫn còn nhiều thách thức cần phải vượt qua. Các hạn chế của đề tài bao gồm việc chưa thể nhận diện đồng thời nhiều hành động trong một khung hình. Hướng phát triển trong tương lai có thể bao gồm việc mở rộng tập dữ liệu huấn luyện và cải thiện kiến trúc của mô hình để nâng cao độ chính xác và khả năng tổng quát.

4.1 Những Hạn Chế Của Đề Tài

Một trong những hạn chế lớn nhất của đề tài là khả năng nhận diện hành động trong các tình huống phức tạp. Mô hình hiện tại chỉ có thể nhận diện hành động của một người trong một khung hình, điều này hạn chế khả năng ứng dụng trong các tình huống thực tế. Việc mở rộng khả năng nhận diện nhiều hành động đồng thời sẽ là một thách thức lớn trong nghiên cứu tiếp theo.

4.2 Hướng Phát Triển Của Đề Tài

Hướng phát triển trong tương lai có thể bao gồm việc cải thiện kiến trúc của CNN để nâng cao khả năng nhận diện hành động. Việc áp dụng các kỹ thuật mới trong machine learning và deep learning sẽ giúp cải thiện độ chính xác của mô hình. Ngoài ra, việc mở rộng tập dữ liệu huấn luyện và áp dụng các phương pháp học không giám sát có thể giúp mô hình tổng quát hơn trong các tình huống thực tế.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute nhận dạng hành động người dùng mạng nơron tích chập

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI), việc nhận dạng hành động người qua hình ảnh và video trở thành một lĩnh vực nghiên cứu quan trọng với nhiều ứng dụng thực tiễn như giám sát an ninh, phân tích hành vi, và chăm sóc sức khỏe. Theo ước tính, lượng dữ liệu video được tạo ra và chia sẻ trên các nền tảng trực tuyến ngày càng tăng nhanh, đòi hỏi các hệ thống tự động có khả năng phân tích và nhận dạng chính xác hành động con người. Mục tiêu của nghiên cứu này là phát triển một mô hình mạng nơ-ron tích chập (Convolutional Neural Network - CNN) nhằm nhận dạng các hành động cơ bản của người trong hình ảnh và video, bao gồm các trạng thái như cúi chào (Bowing), đi bộ (Walking), vẫy tay (Waving) và không hành động (Nothing). Nghiên cứu được thực hiện trên dữ liệu thu thập tại một phòng nhỏ với khoảng cách camera cố định từ 2 đến 3 mét, trong phạm vi thời gian và điều kiện ánh sáng ổn định nhằm đảm bảo tính khả thi và hiệu quả của mô hình. Việc ứng dụng CNN trong nhận dạng hành động không chỉ nâng cao độ chính xác mà còn góp phần giảm thiểu sự phụ thuộc vào kỹ thuật trích xuất đặc trưng thủ công, từ đó thúc đẩy phát triển các hệ thống giám sát thông minh và tự động hóa trong nhiều lĩnh vực.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và mạng nơ-ron tích chập (Convolutional Neural Network - CNN). ANN mô phỏng cấu trúc và chức năng của bộ não người với các nơ-ron nhân tạo kết nối qua trọng số, có khả năng học và tổng quát hóa thông tin. Các phương pháp huấn luyện mạng ANN bao gồm học có giám sát, học củng cố và học không giám sát, trong đó học có giám sát được sử dụng phổ biến cho các bài toán phân loại. CNN là một dạng mạng nơ-ron đặc biệt, sử dụng các lớp tích chập (convolutional layers) để tự động trích xuất đặc trưng từ dữ liệu hình ảnh, giảm thiểu số lượng tham số cần học nhờ cơ chế chia sẻ trọng số (shared weights) và kết nối cục bộ (local receptive fields). Các thành phần chính của CNN bao gồm lớp tích chập, lớp pooling (thường là max pooling) để giảm kích thước dữ liệu và tăng tính trừu tượng, lớp biến đổi tuyến tính ReLU (Rectified Linear Unit) để tạo phi tuyến tính và lớp fully connected để phân loại cuối cùng. Hàm ReLU được ưu tiên sử dụng nhờ tính toán đơn giản, khả năng tạo tính thưa thớt và tăng tốc độ huấn luyện.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập ảnh màu gồm 3.418 hình ảnh kích thước 227x227, được phân loại thành 4 nhóm hành động: Bowing (660 ảnh), Walking (1.146 ảnh), Waving (1.400 ảnh) và Nothing (212 ảnh). Dữ liệu được trích xuất từ video quay tại một phòng nhỏ với camera cố định, nhằm loại bỏ ảnh hưởng của điều kiện ánh sáng và phức tạp nền ảnh. Phương pháp phân tích sử dụng mô hình CNN 10 lớp do tác giả thiết kế, bao gồm các lớp tích chập, ReLU, pooling và fully connected, được huấn luyện trên phần mềm Matlab với cấu hình máy tính sử dụng GPU GeForce GTX 750 Ti để tăng tốc quá trình huấn luyện. Dữ liệu được chia thành 70% để huấn luyện và 30% để kiểm tra, với thuật toán huấn luyện là stochastic gradient descent with momentum (SGDM), tối đa 20 epoch và tốc độ học ban đầu 0.0001. Quá trình huấn luyện được giám sát chặt chẽ để đảm bảo độ chính xác và tránh overfitting. Kết quả được đánh giá dựa trên tỷ lệ phân loại chính xác trên tập kiểm tra.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Mô hình CNN 10 lớp đạt độ chính xác lên tới 99,79% trên tập dữ liệu kiểm tra gồm 3.418 ảnh, sau 20 epoch huấn luyện với tổng thời gian khoảng 4 giờ. Đây là mức độ chính xác rất cao, cho thấy hiệu quả của kiến trúc mạng và phương pháp huấn luyện được áp dụng.
So sánh với tập dữ liệu chuẩn Cifar-10 gồm 60.000 ảnh màu kích thước 32x32 thuộc 10 lớp khác nhau, mô hình CNN 10 lớp cũng thể hiện khả năng phân loại tốt, chứng minh tính tổng quát và khả năng áp dụng rộng rãi của mô hình.
Việc sử dụng GPU GeForce GTX 750 Ti giúp giảm đáng kể thời gian huấn luyện so với CPU truyền thống, từ đó tăng hiệu quả nghiên cứu và khả năng thử nghiệm nhiều cấu hình mạng khác nhau.
Mô hình CNN tự động trích xuất đặc trưng từ ảnh đầu vào, thay thế hoàn toàn bước trích xuất đặc trưng thủ công như HOG hay SIFT trong học máy truyền thống, giúp giảm thiểu sai số và tăng tính chính xác.

Thảo luận kết quả

Nguyên nhân chính dẫn đến độ chính xác cao của mô hình là nhờ kiến trúc CNN 10 lớp với các lớp tích chập và pooling được thiết kế hợp lý, giúp mạng học được các đặc trưng từ mức thấp đến cao của hình ảnh như cạnh, góc, hình dạng và đặc trưng hành động. Việc sử dụng hàm kích hoạt ReLU giúp tăng tốc độ huấn luyện và giảm hiện tượng vanishing gradient. So với các nghiên cứu trước đây sử dụng học máy truyền thống với kỹ thuật trích xuất đặc trưng thủ công, mô hình CNN cho kết quả vượt trội về độ chính xác và khả năng mở rộng. Kết quả có thể được trình bày qua biểu đồ độ chính xác theo số epoch, thể hiện sự ổn định và tiến bộ của mô hình trong quá trình huấn luyện. Tuy nhiên, nghiên cứu còn giới hạn ở việc nhận dạng hành động đơn lẻ trong môi trường kiểm soát, chưa xử lý được nhiều người cùng lúc hoặc các hành động phức tạp hơn, mở ra hướng phát triển trong tương lai.

Đề xuất và khuyến nghị

Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu đa dạng về hành động và điều kiện môi trường nhằm nâng cao khả năng tổng quát của mô hình, dự kiến thực hiện trong 6-12 tháng, do nhóm nghiên cứu và các tổ chức giám sát an ninh thực hiện.
Phát triển mô hình nhận dạng đa người: Nghiên cứu và tích hợp các kỹ thuật phát hiện và phân tách đối tượng trong ảnh để nhận dạng hành động của nhiều người cùng lúc, hướng tới ứng dụng trong giám sát công cộng, thời gian 12-18 tháng, do nhóm nghiên cứu AI chuyên sâu đảm nhiệm.
Tối ưu hóa mô hình cho thiết bị di động và nhúng: Giảm kích thước mô hình và tăng tốc độ xử lý để ứng dụng trên các thiết bị có tài nguyên hạn chế như camera giám sát thông minh, dự kiến 6 tháng, phối hợp với các công ty công nghệ phần cứng.
Kết hợp với các kỹ thuật học sâu khác: Áp dụng các kiến trúc mạng mới như ResNet, LSTM để cải thiện khả năng nhận dạng hành động liên tục trong video, thời gian 12 tháng, do nhóm nghiên cứu AI và thị giác máy tính thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điện tử - Truyền thông: Nghiên cứu sâu về mạng nơ-ron tích chập và ứng dụng trong xử lý ảnh, giúp phát triển các đề tài liên quan đến AI và Deep Learning.
Chuyên gia phát triển hệ thống giám sát an ninh: Áp dụng mô hình nhận dạng hành động để tự động phát hiện hành vi bất thường, nâng cao hiệu quả giám sát và giảm thiểu sai sót do con người.
Nhà phát triển phần mềm AI và thị giác máy tính: Tham khảo kiến trúc mạng CNN 10 lớp và quy trình huấn luyện để xây dựng các ứng dụng nhận dạng hình ảnh và video chính xác.
Doanh nghiệp công nghệ và startup AI: Tìm hiểu về ứng dụng Deep Learning trong thực tế, từ đó phát triển sản phẩm mới như camera thông minh, trợ lý ảo giám sát hành vi người dùng.

Câu hỏi thường gặp

Mạng nơ-ron tích chập (CNN) là gì và tại sao được sử dụng trong nhận dạng hành động?
CNN là một loại mạng nơ-ron nhân tạo chuyên xử lý dữ liệu dạng lưới như hình ảnh. CNN tự động trích xuất đặc trưng từ ảnh qua các lớp tích chập và pooling, giúp nhận dạng hành động chính xác hơn so với phương pháp truyền thống cần trích đặc trưng thủ công.
Dữ liệu huấn luyện trong nghiên cứu này có đặc điểm gì?
Dữ liệu gồm 3.418 ảnh màu kích thước 227x227, phân thành 4 lớp hành động cơ bản, được trích xuất từ video quay tại phòng nhỏ với camera cố định, nhằm đảm bảo điều kiện ánh sáng và nền ảnh ổn định.
Phương pháp huấn luyện mạng CNN được áp dụng như thế nào?
Mạng được huấn luyện bằng thuật toán stochastic gradient descent with momentum (SGDM) với 20 epoch, tốc độ học ban đầu 0.0001, sử dụng GPU GeForce GTX 750 Ti để tăng tốc quá trình huấn luyện.
Độ chính xác của mô hình đạt được ra sao?
Mô hình CNN 10 lớp đạt độ chính xác 99,79% trên tập kiểm tra, cho thấy khả năng phân loại hành động người rất hiệu quả trong điều kiện nghiên cứu.
Những hạn chế và hướng phát triển tiếp theo của nghiên cứu là gì?
Hiện tại mô hình chỉ nhận dạng được hành động đơn lẻ trong môi trường kiểm soát, chưa xử lý được nhiều người cùng lúc hoặc hành động phức tạp. Hướng phát triển bao gồm mở rộng dữ liệu, nhận dạng đa người, tối ưu mô hình cho thiết bị nhúng và áp dụng kiến trúc mạng mới.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình mạng nơ-ron tích chập 10 lớp nhận dạng chính xác 4 hành động cơ bản của người với độ chính xác 99,79%.
Mô hình tự động trích xuất đặc trưng từ ảnh, vượt trội hơn so với phương pháp học máy truyền thống.
Việc sử dụng GPU giúp rút ngắn thời gian huấn luyện, tăng hiệu quả nghiên cứu.
Nghiên cứu giới hạn trong môi trường kiểm soát và hành động đơn giản, mở ra nhiều hướng phát triển trong tương lai.
Khuyến nghị mở rộng dữ liệu, phát triển nhận dạng đa người và tối ưu mô hình cho ứng dụng thực tế.

Tiếp theo, nghiên cứu sẽ tập trung vào mở rộng tập dữ liệu và phát triển mô hình nhận dạng đa người nhằm nâng cao tính ứng dụng trong các hệ thống giám sát thông minh. Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm dựa trên nền tảng này để thúc đẩy sự phát triển của trí tuệ nhân tạo trong lĩnh vực nhận dạng hành động người.

Trích đoạn nội dung tài liệu

Chương I: Tổng quan Giới thiệu tổng quan về mục đích của đề tài cũng như các nghiên cứu, trình bày mục tiêu và phương pháp thực hiện đề tài. Chương II: Cơ sở lý thuyết Giới thiệu cơ sở lý thuyết liên quan đến nội dung của đề tài như sau: 2. Mạng Nơ-ron nhân tạo (ANN - Artificial Neural Network). Mạng nơron tích chập (Convolutional Neural Networks - CNN).

3 Luan van Chương III: Xây dựng bộ phân loại hành động người sử dụng mạng Nơ-ron tích chập. Bài toán phân loại sử dụng Machine learning và Deep learning 3. Kiến trúc mạng CNN 10 lớp sử dụng trong nhận dạng hành động người Chương IV: Kết luận và hướng phát triển đề tài Phần này sẽ phân tích và so sánh các kết quả thực hiện được cũng như nói về các hạn chế của đề tài, từ đó nêu lên hướng phát triển trong tương lai thể hiện qua các mục sau: 4. Những hạn chế và hướng phát triển của đề tài 4 Luan van CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Mạng Nơ-ron nhân tạo (ANN - Artificial Neural Network) 2.1 Giới thiệu về mạng Nơ-ron (mạng thần kinh) Đặc điểm bộ não người: Hệ xử lý thông tin phức tạp, phi tuyến và song song, có khả năng học, ghi nhớ, tổng quát hóa, xử lý lỗi và có khoảng 1011 tế bào thần kinh.

Tế bào thần kinh sinh học gồm: Đầu dây thần kinh, thân tế bào, sợi thần kinh.1 Tế bào thần kinh sinh học Tế bào thần kinh nhân tạo: được biết như là mô hình toán học đơn giản của bộ não con người. Đặc điểm: Cần được huấn luyện trước khi sử dụng, các nghiên cứu về lĩnh vực này bắt từ 1940. Hiện nay có rất nhiều mạng và các thuật toán huấn luyện tương ứng được công bố để giải quyết các bài toán khác nhau. Mạng thần kinh nhân tạo: Nó bao gồm các tế bào thần kinh kết nối với nhau bởi các liên kết, mỗi liên kết kèm theo một trọng số.

Các Véc tơ tín hiệu ngõ vào và Véc tơ trọng số của tế bào thần kinh. 5 Luan van Hình 2.2 Tế bào thần kinh nhân tạo Định nghĩa: Mạng nơron (thần kinh) nhân tạo, Artificial Neural Network (ANN) là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh học. Nó được tạo nên từ một số lượng lớn các phần tử (nơron) kết nối với nhau thông qua các liên kết (trọng số liên kết) làm việc nhờ một thể thống nhất để giải quyết một vấn đề cụ thể nào đó. Một mạng nơron nhân tạo được cấu hình cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, .) thông qua một quá trình học từ tập các mẫu huấn luyện.

Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơron. Các thành phần cơ bản của một nơron nhân tạo bao gồm: • Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này tường được đưa vào dưới dạng một vector N chiều., xn  T • Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết – Synaptic weight. Trọng số liên kết giữa tín hiệu vào thứ j với nơron k thường được kí hiệu là wij. Thông thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng., win  T • Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó.

• Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào nhờ một thành phần của hàm truyền. 6 Luan van • Hàm truyền (Transfer function): Hàm này được dùng để giới hạn phạm vi đầu ra của mỗi nơron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng. • Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một đầu ra.

Xét về mặt toán học, cấu trúc của một nơron k, được mô tả bằng biểu thức sau:  Hàm xử lý ngõ vào: Hàm tuyến tính: n f  neti  ( wij x j )  i  W T X   (1) j 1 Hàm toàn phương: n f  net  ( wij xij 2 )  i (2) j 1 Hàm cầu: n f  net  (  2  ( wij  xij ) 2 )  i   2 ( X  W )T ( X  W )   (3) j 1  Hàm xử lý ngõ ra _ Hàm kích hoạt: Y = a(f), bao gồm: Hàm nấc: a(f) 1 𝑛ế𝑢 𝑓 ≥ 0 𝑎 (𝑓 ) = { 1 0 𝑛ế𝑢 𝑓 < 0 f 0 Hình 2.3 Hàm nấc Hàm dấu: 7 Luan van a(f) 1 1 𝑛ế𝑢 𝑓 ≥ 0 f 𝑎 (𝑓 ) = { −1 𝑛ế𝑢 𝑓 < 0 0 -1 Hình 2.4 Hàm dấu Hàm tuyến tính: a(f) 𝑎 (𝑓 ) = 𝑓 f 0 Hình 2.5 Hàm tuyến tính Hàm dốc bão hòa: a(f) 1 𝑛ế𝑢 𝑓 ≥ 1 𝑎(𝑓) = {𝑓 𝑛ế𝑢 0 ≤ 𝑓 ≤ 1 1 0 𝑛ế𝑢 𝑓 < 0 f 0 1 Hình 2.6 Hàm dốc bão hòa Hàm tuyến tính bão hòa: a(f) 1 𝑛ế𝑢 𝑓 ≥ 1 1 𝑎(𝑓) = {𝑓 𝑛ế𝑢 0 ≤ |𝑓| ≤ 1 -1 f 0 1 −1 𝑛ế𝑢 𝑓 < 0 -1 8 Luan van Hình 2.7 Hàm tuyến tính bão hòa Hàm dạng S đơn cực: a(f) 1 𝑎 (𝑓 ) = 1 1 + 𝑒 −𝜆𝑓 0 Hình 2.8 Hàm S đơn cực Hàm dạng S lưỡng cực: a(f) 1 2 f 𝑎 (𝑓 ) = −1 1 + 𝑒 −𝜆𝑓 0 -1 Hình 2.9 Hàm S lưỡng cực Tùy theo cấu trúc mạng người ta chia ra các loại mạng sau: Mạng truyền Là mạng chỉ gồm một lớp thẳng một lớp tế bào thần kinh xử lý. Tín hiệu chỉ truyền theo một chiều từ ngõ vào đến ngõ ra 9 Luan van Mạng truyền Là mạng gồm nhiều lớp tế thẳng nhiều bào thần kinh xử lý. Tín lớp hiệu chỉ truyền theo một chiều từ ngõ vào đến ngõ ra Mạng hồi quy Là mạng chỉ gồm một lớp một lớp trong đó có tín hiệu hồi tiếp từ ngõ ra trở về ngõ vào. Mạng hồi quy Là mạng gồm nhiều lớp tế nhiều lớp bào thần kinh xử lý.

Trong đó có tín hiệu hồi tiếp từ ngõ ra trở về ngõ vào.1 Phân loại mạng Nơ-ron nhân tạo 2.2 Các phương pháp huấn luyện mạng Nơ-ron nhân tạo 10 Luan van Hình 2.10 Các phương pháp huấn luyện mạng Nơ-ron nhân tạo a. Học có giám sát: Học có giám sát: Là quá trình học có sự tham gia giám sát của một “thầy giáo”. Cũng giống như việc ta dạy một em nhỏ các chữ cái. Ta đưa ra một chữ “a” và bảo với em đó rằng đây là chữ “a”.

Việc này được thực hiện trên tất cả các mẫu chữ cái. Sau đó khi kiểm tra ta sẽ đưa ra một chữ cái bất kì (có thể viết hơi khác đi) và hỏi em đó đây là chữ gì? Như vậy với học có giám sát, số lớp cần phân loại đã được biết trước. Nhiệm vụ của thuật toán là phải xác định được một cách thức phân lớp sao chovới mỗi vector đầu vào sẽ được phân loại chính xác vào lớp của nó.11 Phương pháp học có giám sát b. Học củng cố: Học củng cố: đôi khi còn được gọi là học thưởng-phạt (rewardpenalty learning), là sự tổ hợp của cả hai mô hình trên.

Phương pháp này cụ thể như sau: với vector đầu vào, quan sát vector đầu ra do mạng tính được. Nếu kết quả được xem là “tốt” thì mạng sẽ được thưởng theo nghĩa tăng các trọng số kết nối lên; ngược lại mạng sẽ bị phạt, các trọng số kết nối không thích hợp sẽ được giảm xuống. Do đó học tăng cường là học theo nhà phê bình (critic), ngược với học có giám sát là học theo thầy giáo (teacher). 11 Luan van Hình 2.12 Phương pháp học củng cố c.

Học không giám sát: Học không giám sát: Là việc học không cần có bất kỳ một sự giám sát nào. Trong bài toán học không giám sát, tập dữ liệu huấn luyện được cho dưới dạng: D = {(x1, x2, ., xN) là vector đặc trưng của mẫu huấn luyện. Nhiệm vụ của thuật toán là phải phân chia tập dữ liệu D thành các nhóm con, mỗi nhóm chứa các vector đầu vào có đặc trưng giống nhau. Như vậy với học không giám sát, số lớp phân loại chưa được biết trước, và tùy theo tiêu chuẩn đánh giá độ tương tự giữa các mẫu mà ta có thể có các lớp phân loại khác nhau.13 Phương pháp học không giám sát So sánh các phương pháp học của mạng thần kinh nhân tạo Bộ não con người Mạng Nơron Học có sự hướng dẫn của giáo viên Học có giám sát Học có sự đánh giá của giáo viên Học củng cố Tự học Học không có giám sát 12 Luan van Bảng 2.2 Phương pháp học của mạng Nơ-ron sinh học và Nơ-ron nhân tạo Tổng quát Trọng số W của mạng thần kinh thay đổi theo quy luật wij (k  1)  wij (k )  wij (k ) (4) wij (k )   r x j (k ) Trong đó: : tốc độ học.

Huấn luyện mạng thần kinh nhân tạo Mục tiêu của giai đoạn huấn luyện là việc học các trọng số trong mạng (weights). Chúng ta cần hai yếu tố:  Dữ liệu huấn luyện (Training data): Trong trường hợp phân loại hình ảnh, dữ liệu huấn luyện bao gồm hình ảnh và nhãn tương ứng.  Hàm mất mát (Loss funtion): Một hàm chức năng đo lường mức độ không chính xác của dự đoán. Khi chúng ta có hai phần tử trên, chúng ta đào tạo ANN bằng cách sử dụng một thuật toán gọi là lan truyền ngược cùng với gradient descent (suy giảm độ dốc).

Dưới đây là các bước trong giải thuật lan truyền ngược MLP: Bước 1: Chọn tốc độ học  >0, chọn sai số cực đại Emax. Bước 2: Khởi động: - Gán sai số E=0. - Gán các trọng số wiq (k), vqi (k) bằng giá trị ngẫu nhiên nhỏ bất kỳ. 13 Luan van Bước 3: (Truyền thuận dữ liệu) Tính ngõ ra của mạng với tín hiệu vào là x(k) Lớp ẩn: m netq (k )   Vqj (k ).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ HCMUTE về nhận dạng hành động người dùng bằng mạng nơron tích chập" của tác giả Nguyễn Thành Tâm, dưới sự hướng dẫn của TS. Lê Mỹ Hà, trình bày một nghiên cứu sâu sắc về việc áp dụng mạng nơron tích chập (CNN) trong việc nhận dạng hành động của người dùng. Nghiên cứu này không chỉ cung cấp cái nhìn tổng quan về công nghệ hiện đại trong lĩnh vực nhận dạng hình ảnh mà còn mở ra hướng đi mới cho các ứng dụng trong thực tiễn, từ an ninh đến tương tác người-máy. Độc giả sẽ tìm thấy nhiều thông tin hữu ích về cách mà CNN có thể cải thiện độ chính xác trong việc nhận diện hành động, từ đó nâng cao trải nghiệm người dùng.

Nếu bạn quan tâm đến các khía cạnh khác của công nghệ thông tin và giáo dục, hãy tham khảo thêm bài viết Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ, nơi khám phá ứng dụng công nghệ trong giáo dục. Bên cạnh đó, bài viết Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt cũng sẽ mang đến cho bạn cái nhìn về các kỹ thuật nhận dạng và phân tích văn bản. Cuối cùng, bài viết Luận văn thạc sĩ về nhận diện tạp chí hiện đại Nhật Bản qua học sâu và mô hình ngôn ngữ sẽ giúp bạn hiểu thêm về ứng dụng của học sâu trong nhận diện và phân tích ngữ nghĩa. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực công nghệ thông tin.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#trí tuệ nhân tạo

#mạng nơron tích chập

#nhận dạng hành động người dùng

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực công nghệ thông tin

Ứng dụng trí tuệ nhân tạo trong đời sống

Công nghệ nhận dạng hành động

Mạng nơron và học máy