Luận văn thạc sĩ HCMUTE về nhận dạng đối tượng tham gia giao thông bằng mạng nơron học sâu

Luận văn thạc sĩ HCMUTE nghiên cứu nhận dạng đối tượng tham gia giao thông bằng mạng nơron học sâu, ứng dụng trong an toàn giao thông.

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LÝ LỊCH KHOA HỌC

LỜI CAM ĐOAN

CẢM TẠ

TÓM TẮT

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về lĩnh vực nghiên cứu

1.2. Mục đích của đề tài

1.3. Nhiệm vụ và giới hạn của đề tài

1.4. Phương pháp nghiên cứu

1.5. Tóm tắt nội dung chính của đề tài

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Tế bào thần kinh và mạng thần kinh nhân tạo

2.1.1. Tế bào thần kinh

2.1.2. Mạng thần kinh nhân tạo

2.1.3. Một số kiểu mạng nơron

2.1.3.1. Tự kết hợp

2.1.3.2. Kết hợp khác kiểu

2.1.3.3. Kiến trúc hồi tiếp

2.1.4. Các phương pháp huấn luyện mạng thần kinh nhân tạo

2.1.4.1. Học không giám sát

2.1.4.2. Học củng cố

2.1.5. Thuật toán lan truyền ngược

2.1.5.1. Mô hình mạng

2.2. Sự khác biệt giữa AI, Machine Learning và Deep Learning

2.2.1. Trí tuệ nhân tạo (Artificial Intelligence – AI)

2.2.2. Machine Learning – Cách tiếp cận để chinh phục trí tuệ nhân tạo

2.2.3. Deep Learning – Kỹ thuật để hiện thực hóa Machine Learning

2.2.4. Nhờ Deeplearning, AI có một tương lai tươi sáng

2.3. Mạng nơ ron tích chập (Convolutional Neural Networks – CNNs)

2.3.1. Chi tiết các lớp của mô hình CNNs

3. CHƯƠNG 3: ÁP DỤNG MẠNG NƠ RON TÍCH CHẬP TRONG VIỆC NHẬN DẠNG CÁC ĐỐI TƯỢNG THAM GIA GIAO THÔNG

3.1. Dữ liệu huấn luyện

3.2. Chia dữ liệu huấn luyện

3.3. Xây dựng mô hình CNN

3.4. Bộ phân loại

3.5. Dự đoán đối tượng

3.6. Lưu đồ quá trình huấn luyện

3.7. Cách hoạt động của mô hình

3.7.1. Trên tập dữ liệu tự tạo tên T_01

3.7.2. Trên tập dữ liệu Caltech-101

3.7.3. Trên tập dữ liệu Cifar-10

3.7.4. Trên tập dữ liệu trong Matlab tên DigitDataset và Merch

3.8. Nhận dạng trên hình ảnh

3.9. Nhận dạng trên video

3.10. So sánh phương pháp CNN với HOG – Histogram of Oriented Gradient

3.10.1. Giới thiệu về HOG

3.10.2. Dữ liệu so sánh

3.10.3. Kết quả so sánh

4. CHƯƠNG 4: KẾT LUẬN

4.1. Kết quả đạt được

4.2. Ưu, nhược điểm

4.3. Hướng phát triển của đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về nhận dạng đối tượng giao thông

Nhận dạng đối tượng giao thông là một lĩnh vực quan trọng trong nghiên cứu và phát triển công nghệ thông tin. Việc sử dụng mạng nơron trong nhận dạng đối tượng giúp cải thiện độ chính xác và hiệu suất của các hệ thống giao thông thông minh. Luận văn này tập trung vào việc áp dụng học sâu để nhận diện các đối tượng tham gia giao thông, từ đó hỗ trợ cho việc phát triển các ứng dụng như xe tự lái và hệ thống giám sát giao thông. Theo tác giả, việc áp dụng mạng nơron tích chập (CNN) cho phép nhận diện nhiều loại đối tượng khác nhau với độ chính xác cao, có thể lên tới 90%.

1.1. Tầm quan trọng của nhận dạng đối tượng trong giao thông

Nhận dạng đối tượng trong giao thông không chỉ giúp cải thiện an toàn mà còn tối ưu hóa lưu thông. Các hệ thống nhận dạng có thể phát hiện và phân loại các đối tượng như xe cộ, người đi bộ, và các vật thể khác trên đường. Điều này rất quan trọng trong việc phát triển hệ thống thông minh cho giao thông, giúp giảm thiểu tai nạn và nâng cao hiệu quả di chuyển. Việc áp dụng machine learning và học sâu trong lĩnh vực này đã mở ra nhiều cơ hội mới cho việc phát triển công nghệ giao thông hiện đại.

II. Cơ sở lý thuyết về mạng nơron và học sâu

Mạng nơron nhân tạo là một mô hình tính toán được lấy cảm hứng từ cấu trúc và chức năng của não bộ. Học sâu là một nhánh của machine learning sử dụng các mạng nơron với nhiều lớp để học từ dữ liệu. Luận văn này trình bày chi tiết về kiến trúc của mạng nơron tích chập (CNN), bao gồm các lớp như Convolutional, Pooling, và Fully Connected. Mỗi lớp có vai trò riêng trong việc trích xuất đặc trưng và phân loại đối tượng. Việc sử dụng CNN cho phép xử lý hình ảnh một cách hiệu quả, giúp nhận diện đối tượng trong các tình huống giao thông phức tạp.

2.1. Các thành phần của mạng nơron tích chập

Mạng nơron tích chập bao gồm nhiều lớp khác nhau, mỗi lớp thực hiện một chức năng cụ thể. Lớp Convolutional giúp trích xuất các đặc trưng từ hình ảnh, trong khi lớp Pooling giảm kích thước dữ liệu và giữ lại các thông tin quan trọng. Lớp Fully Connected kết nối tất cả các nơron từ lớp trước đó, giúp phân loại đối tượng. Việc hiểu rõ về các thành phần này là rất quan trọng để tối ưu hóa mô hình và cải thiện độ chính xác trong nhận dạng đối tượng giao thông.

III. Phương pháp nghiên cứu và thực nghiệm

Luận văn áp dụng phương pháp nghiên cứu thực nghiệm để đánh giá hiệu quả của mô hình CNN trong việc nhận dạng đối tượng giao thông. Dữ liệu huấn luyện được thu thập từ nhiều nguồn khác nhau, bao gồm các tập dữ liệu công khai như Caltech-101 và Cifar-10. Quá trình huấn luyện được thực hiện với nhiều tham số khác nhau để tìm ra cấu hình tối ưu. Kết quả cho thấy mô hình có khả năng nhận diện chính xác các đối tượng trong nhiều điều kiện khác nhau, từ đó khẳng định tính khả thi của việc ứng dụng CNN trong thực tế.

3.1. Dữ liệu và quy trình huấn luyện

Dữ liệu huấn luyện là yếu tố quyết định đến hiệu quả của mô hình. Trong nghiên cứu này, dữ liệu được chia thành các tập huấn luyện và kiểm tra. Quy trình huấn luyện bao gồm nhiều bước, từ việc chuẩn bị dữ liệu, xây dựng mô hình, đến việc đánh giá kết quả. Việc sử dụng các kỹ thuật như phân tích dữ liệu lớn và phân loại đối tượng giúp tối ưu hóa quá trình huấn luyện, từ đó nâng cao độ chính xác của mô hình trong việc nhận diện đối tượng giao thông.

IV. Kết luận và hướng phát triển

Luận văn đã chứng minh rằng việc áp dụng mạng nơron tích chập trong nhận dạng đối tượng giao thông mang lại nhiều lợi ích. Độ chính xác cao và khả năng nhận diện trong các điều kiện khác nhau cho thấy tiềm năng ứng dụng của công nghệ này trong thực tế. Hướng phát triển tương lai có thể bao gồm việc tích hợp mô hình vào các hệ thống giao thông thông minh, hỗ trợ cho xe tự lái và các ứng dụng khác trong lĩnh vực giao thông.

4.1. Đề xuất ứng dụng trong thực tế

Việc ứng dụng mô hình CNN trong nhận dạng đối tượng giao thông có thể mở ra nhiều cơ hội mới cho các hệ thống giao thông thông minh. Các ứng dụng như giám sát giao thông, hỗ trợ lái xe và phát triển xe tự lái đều có thể được cải thiện nhờ vào công nghệ này. Tương lai của giao thông thông minh sẽ phụ thuộc vào khả năng áp dụng các công nghệ tiên tiến như học sâu và machine learning để giải quyết các vấn đề phức tạp trong lĩnh vực này.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute nhận dạng các đối tượng tham gia giao thông dùng mạng nơron học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh giao thông ngày càng phức tạp và nhu cầu tự động hóa trong nhận dạng các đối tượng tham gia giao thông ngày càng tăng, việc ứng dụng các phương pháp trí tuệ nhân tạo, đặc biệt là Deep Learning, trở thành xu hướng tất yếu. Theo ước tính, các hệ thống nhận dạng hình ảnh truyền thống gặp nhiều khó khăn khi xử lý dữ liệu lớn và đa dạng trong môi trường giao thông thực tế. Luận văn thạc sĩ này tập trung nghiên cứu và phát triển mô hình nhận dạng các đối tượng tham gia giao thông sử dụng mạng nơ ron tích chập (Convolutional Neural Network - CNN), một trong những mô hình Deep Learning tiên tiến nhất hiện nay.

Mục tiêu cụ thể của nghiên cứu là xây dựng một kiến trúc CNN gồm 15 lớp, bao gồm các lớp Convolutional, Pooling, Rectified Linear Unit (ReLU), Fully Connected, Softmax, Input và Output, nhằm nhận dạng chính xác các đối tượng như xe đạp, xe máy, ô tô, người đi bộ và động vật trong môi trường giao thông. Nghiên cứu được thực hiện trên nhiều tập dữ liệu khác nhau, bao gồm Caltech-101, Cifar-10, DigitDataset và tập dữ liệu tự tạo, với độ chính xác đạt tới 90%. Phạm vi nghiên cứu tập trung vào dữ liệu hình ảnh ban ngày, do hạn chế về dữ liệu ban đêm, và được thực hiện tại Thành phố Hồ Chí Minh trong giai đoạn 2015-2018.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả nhận dạng đối tượng trong giao thông, góp phần phát triển các ứng dụng như xe tự lái, robot hoạt động ngoài trời, từ đó cải thiện an toàn và quản lý giao thông thông minh. Các chỉ số đánh giá như độ chính xác nhận dạng và thời gian huấn luyện được sử dụng làm metrics quan trọng để đo lường hiệu quả mô hình.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết về mạng thần kinh nhân tạo (Artificial Neural Network - ANN) và mạng nơ ron tích chập (Convolutional Neural Network - CNN). Mạng thần kinh nhân tạo mô phỏng cấu trúc và chức năng của bộ não con người, gồm các tế bào thần kinh nhân tạo kết nối với nhau qua các trọng số, được điều chỉnh thông qua quá trình học. Các hàm kích hoạt phổ biến như hàm nấc, hàm tuyến tính, hàm ReLU giúp mạng học các đặc trưng phi tuyến tính của dữ liệu.

CNN là một dạng mạng thần kinh nhân tạo chuyên biệt cho xử lý dữ liệu hình ảnh, với kiến trúc gồm các lớp chính:

Lớp Convolutional: trích xuất đặc trưng cục bộ từ ảnh đầu vào bằng các bộ lọc (filter).
Lớp Pooling: giảm kích thước dữ liệu, giữ lại các đặc trưng quan trọng, giúp giảm thiểu tính toán và tránh overfitting.
Lớp ReLU: áp dụng hàm kích hoạt phi tuyến tính để tăng khả năng biểu diễn của mạng.
Lớp Fully Connected: kết nối toàn bộ các nút để phân loại cuối cùng.
Lớp Softmax: chuyển đổi đầu ra thành xác suất phân lớp.

Ngoài ra, luận văn cũng đề cập đến các mô hình Deep Learning khác như Deep Neural Network (DNN), Deep Belief Network (DBN), Recurrent Neural Network (RNN) để làm rõ sự khác biệt và ưu thế của CNN trong nhận dạng hình ảnh.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng trong nghiên cứu bao gồm các tập dữ liệu chuẩn như Caltech-101, Cifar-10, DigitDataset, Merch và tập dữ liệu tự tạo với các đối tượng tham gia giao thông chính: Bicycle, Car, Dog, Motorbike, People. Tổng số mẫu huấn luyện dao động từ vài nghìn đến vài chục nghìn ảnh, phù hợp với khả năng xử lý của phần cứng.

Phương pháp phân tích chính là xây dựng và huấn luyện mô hình CNN với kiến trúc 15 lớp, sử dụng thuật toán lan truyền ngược (Backpropagation) để cập nhật trọng số mạng. Quá trình huấn luyện được thực hiện trên phần mềm Matlab, với việc điều chỉnh các siêu tham số như kích thước filter, stride, số lượng filter, số epoch để tối ưu độ chính xác.

Timeline nghiên cứu kéo dài trong khoảng 2 năm, bao gồm các giai đoạn: thu thập và xử lý dữ liệu, thiết kế mô hình CNN, huấn luyện và đánh giá mô hình, so sánh với phương pháp truyền thống như Histogram of Oriented Gradient (HOG), và đề xuất hướng phát triển tiếp theo.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Kiến trúc CNN 15 lớp hiệu quả: Mô hình CNN do tác giả xây dựng gồm 3 lớp Convolutional, 3 lớp Pooling, 4 lớp ReLU, 2 lớp Fully Connected, 1 lớp Softmax, 1 lớp Input và 1 lớp Output, với 32 filter trong các lớp Convolutional, đạt độ chính xác nhận dạng lên tới 90% trên tập dữ liệu thử nghiệm. Thời gian huấn luyện dao động từ vài giờ đến vài chục giờ tùy thuộc vào kích thước tập dữ liệu.
Độ chính xác cao trên nhiều loại đối tượng: Mạng CNN nhận dạng chính xác các đối tượng Bicycle, Car, Dog, Motorbike, People với tỷ lệ nhận dạng đúng trên 85% đối với từng loại, trong đó đối tượng Car và People có độ chính xác cao nhất, lần lượt đạt 92% và 90%.
So sánh với phương pháp HOG: Khi so sánh với phương pháp truyền thống Histogram of Oriented Gradient (HOG), CNN cho kết quả vượt trội hơn khoảng 15-20% về độ chính xác nhận dạng, đồng thời giảm thiểu sai số nhầm lẫn giữa các lớp đối tượng.
Khả năng nhận dạng trên ảnh và video: Mô hình CNN không chỉ hiệu quả trên ảnh tĩnh mà còn có khả năng nhận dạng chính xác trên video, mở rộng ứng dụng thực tế trong giám sát giao thông và hệ thống xe tự lái.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình CNN đạt hiệu quả cao là do kiến trúc mạng tận dụng được đặc trưng cục bộ của ảnh thông qua các lớp Convolutional và Pooling, đồng thời hàm kích hoạt ReLU giúp mạng học các đặc trưng phi tuyến phức tạp. So với các nghiên cứu trước đây, mô hình CNN 15 lớp với 32 filter là một cải tiến đáng kể, phù hợp với khả năng phần cứng và dữ liệu thực tế tại Việt Nam.

Kết quả so sánh với HOG cho thấy CNN có ưu thế vượt trội trong việc trích xuất đặc trưng tự động và khả năng tổng quát hóa tốt hơn, phù hợp với các ứng dụng nhận dạng đa dạng và phức tạp. Việc áp dụng trên video cũng chứng minh tính khả thi của mô hình trong môi trường thực tế, mặc dù vẫn còn hạn chế về dữ liệu ban đêm và phần cứng.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa CNN và HOG theo từng loại đối tượng, cũng như bảng thống kê thời gian huấn luyện và tỷ lệ nhận dạng đúng trên các tập dữ liệu khác nhau, giúp minh họa rõ ràng hiệu quả của mô hình.

Đề xuất và khuyến nghị

Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu ban đêm và trong điều kiện thời tiết khác nhau để nâng cao khả năng nhận dạng trong thực tế, dự kiến hoàn thành trong 12 tháng tới, do các trung tâm nghiên cứu và cơ quan quản lý giao thông phối hợp thực hiện.
Tối ưu hóa kiến trúc mạng CNN: Nghiên cứu và áp dụng các kỹ thuật như batch normalization, dropout, và tăng số lượng lớp để cải thiện độ chính xác và giảm overfitting, với mục tiêu tăng độ chính xác lên trên 95% trong vòng 18 tháng, do nhóm nghiên cứu phát triển phần mềm đảm nhiệm.
Phát triển ứng dụng thực tế: Triển khai mô hình CNN vào các hệ thống robot ngoài trời và xe tự lái, tích hợp với các cảm biến khác như lidar, radar để nâng cao độ tin cậy, dự kiến thử nghiệm trong 24 tháng, phối hợp với các doanh nghiệp công nghệ và trường đại học.
Nâng cao hiệu suất tính toán: Sử dụng phần cứng GPU hoặc FPGA để giảm thời gian huấn luyện và xử lý, đồng thời phát triển phiên bản mô hình nhẹ cho thiết bị di động, nhằm mở rộng ứng dụng trong các thiết bị giám sát giao thông di động, hoàn thành trong 12 tháng, do bộ phận kỹ thuật phần cứng đảm nhận.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điện tử - Truyền thông: Có thể áp dụng kiến thức về mạng nơ ron tích chập và Deep Learning trong các đề tài nghiên cứu liên quan đến xử lý ảnh và nhận dạng mẫu.
Chuyên gia phát triển hệ thống giao thông thông minh: Sử dụng mô hình CNN để cải thiện các hệ thống giám sát, nhận dạng phương tiện và người tham gia giao thông, góp phần nâng cao an toàn và hiệu quả quản lý.
Doanh nghiệp công nghệ phát triển xe tự lái và robot: Áp dụng kiến trúc CNN được đề xuất để phát triển các thuật toán nhận dạng đối tượng trong môi trường thực tế, tăng cường khả năng tự động hóa và an toàn.
Cơ quan quản lý giao thông và an toàn đường bộ: Tham khảo để xây dựng các giải pháp giám sát và phân tích lưu lượng giao thông, hỗ trợ công tác điều phối và xử lý vi phạm hiệu quả hơn.

Câu hỏi thường gặp

Mạng nơ ron tích chập (CNN) là gì và tại sao lại phù hợp cho nhận dạng hình ảnh?
CNN là một loại mạng thần kinh nhân tạo chuyên biệt cho xử lý dữ liệu hình ảnh, sử dụng các lớp tích chập để trích xuất đặc trưng cục bộ và lớp pooling để giảm kích thước dữ liệu. Điều này giúp CNN học được các đặc trưng phức tạp và giảm thiểu số lượng tham số, phù hợp với bài toán nhận dạng hình ảnh đa dạng.
Độ chính xác 90% của mô hình CNN có ý nghĩa như thế nào trong thực tế?
Độ chính xác 90% cho thấy mô hình có khả năng nhận dạng đúng 9 trên 10 trường hợp, đây là mức độ khá cao trong lĩnh vực nhận dạng đối tượng giao thông, giúp giảm thiểu sai sót và tăng tính tin cậy cho các ứng dụng như xe tự lái hoặc giám sát giao thông.
Tại sao chỉ chọn 5 loại đối tượng tham gia giao thông để nhận dạng?
5 loại đối tượng Bicycle, Car, Dog, Motorbike, People được chọn vì chúng là những đối tượng phổ biến và chủ yếu trong giao thông, đồng thời phù hợp với giới hạn phần cứng và dữ liệu của nghiên cứu, giúp tập trung tối ưu mô hình hiệu quả.
Phương pháp CNN có ưu điểm gì so với các phương pháp truyền thống như HOG?
CNN tự động trích xuất đặc trưng từ dữ liệu đầu vào mà không cần thiết kế thủ công, có khả năng học các đặc trưng phức tạp và tổng quát hóa tốt hơn, dẫn đến độ chính xác cao hơn và khả năng áp dụng rộng rãi trong nhiều điều kiện khác nhau.
Ứng dụng thực tế của mô hình CNN trong giao thông là gì?
Mô hình CNN có thể được ứng dụng trong hệ thống giám sát giao thông, nhận dạng phương tiện và người đi bộ, hỗ trợ xe tự lái, robot ngoài trời, giúp nâng cao an toàn, giảm tai nạn và tối ưu hóa quản lý giao thông thông minh.

Kết luận

Đã xây dựng thành công mô hình CNN 15 lớp với 32 filter, đạt độ chính xác nhận dạng lên tới 90% trên nhiều tập dữ liệu khác nhau.
Mô hình CNN vượt trội hơn phương pháp truyền thống HOG về độ chính xác và khả năng nhận dạng đa dạng đối tượng giao thông.
Nghiên cứu mở ra hướng phát triển ứng dụng cho xe tự lái và robot hoạt động ngoài trời, góp phần nâng cao an toàn giao thông.
Hạn chế hiện tại là dữ liệu huấn luyện còn nhỏ và chưa có tính thực tế cao do mô phỏng trên Matlab, cần mở rộng và tối ưu thêm.
Đề xuất các giải pháp mở rộng dữ liệu, tối ưu kiến trúc mạng, phát triển ứng dụng thực tế và nâng cao hiệu suất tính toán trong các giai đoạn tiếp theo.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp nên phối hợp thu thập dữ liệu thực tế đa dạng, áp dụng các kỹ thuật tối ưu mạng và triển khai thử nghiệm trên các nền tảng phần cứng hiện đại. Hành động ngay hôm nay sẽ góp phần thúc đẩy sự phát triển của công nghệ nhận dạng giao thông thông minh tại Việt Nam và khu vực.

Trích đoạn nội dung tài liệu

Chương 1 TỔNG QUAN 1. Tổng quan về lĩnh vực nghiên cứu Deep Learning là một thuật toán dựa trên một số ý tưởng từ não bộ tới việc tiếp thu nhiều tầng biểu đạt, cả cụ thể lẫn trừu tượng, qua đó làm rõ nghĩa của các loại dữ liệu. Deep Learning được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên. Hiện nay rất nhiều các bài toán nhận dạng sử dụng Deep Learning để giải quyết do Deep Learning có thể giải quyết các bài toán với số lượng lớn, kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống.

Convolutional Neural Network (CNNs – Mạng nơ-ron tích chập) là một trong những mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao. Hiện nay trên thế giới có một số mô hình kiến trúc CNNs đạt được kết quả khả quan như: - Lenet [1]: Đây là mô hình CNN thành công đầu tiên, đặc biệt là trong việc nhận dạng chữ số, ký tự trong văn bản. Được phát triển bởi Yann Lecun vào cuối những năm 90. - AlexNet [2]: Được phát triển bởi Alex Krizhevsky, Ilya Sutskever và Geoff Hinton.

Lần đầu được giới thiệu vào năm 2012 với cấu trúc khá tượng tự như LeNet nhưng với số lượng neural, filter và layer lớn hơn. Được coi là mạng neural đầu tiên phổ biến rộng rãi khả năng của CNNs. Mạng neural này được phát triển từ AlexNet với việc tinh chỉnh các 1 Luan van hyperparameter (filter size, stride…). Với những layer gần input layer, filter size và stride nhỏ hơn.

- GoogLeNet [4]: Là mạng CNNs tốt nhất năm 2014 được phát triển bởi Szegedy từ Google. Với một số thay đổi như giảm thiểu số lượng tham số trong AlexNet từ 60 triệu xuống còn 4 triệu sử dụng Average Pooling thay cho FC-Layer. - VGGNet [5]: Là mạng CNNs tốt nhất năm 2015 được phát triển bởi Karen Simonyan và Andrew Zisserman. Sử dụng filter 3x3 và pooling 2x2 từ đầu tới cuối mạng.

Bỏ qua FC-Layer ở cuối mạng và sử dụng “special skip connection” và “batch normalization”. Và vẫn được tiếp tục phát triển, với kết quả gần nhất được xuất bản vào tháng 3 năm 2016. Các mô hình CNNs nói trên được huấn luyện với tập dữ liệu rất lớn lên tới hàng ngàn đối tượng và có độ chính xác khá cao, nhưng nhược điểm của các mô hình CNNs này là phải cần cấu hình phần cứng máy tính rất cao và không đi vào một ứng dụng cụ thể nào. Trong luận văn cao học này, tác giả đi vào nghiên cứu về mạng neural cũng như mạng neural tích chập (Convolution) cũng như ý tưởng của mô hình CNNs trong phân lớp ảnh (Image Classification), và áp dụng trong việc xây dựng hệ thống nhận dạng các đối tượng tham gia giao thông.

Trong đề tài này tác giả đi sâu vào mạng nơ ron tích chập - CNN là vì trong quá trình tìm hiểu tác giả thấy được CNN là một mô hình dễ sử dụng, rất phổ biến và có rất nhiều ứng dụng hay trong lĩnh vực nhận dạng và xử lý ảnh số. Tên đề tài khác với tên hiện nay là vì dữ liệu ban đêm rất hiếm và không có số lượng nhiều để huấn luyện mạng nên tác giả đổi tên đề tài thành dữ liệu 2 Luan van ban ngày và huấn luyện trên nhiều tập dữ liệu khác nhau để thực nghiệm mô hình.8: lưu đồ quá trình huấn luyện và hình 3.10: minh họa các bước tính các lớp CNN là của tác giả tự đề xuất. Đề tài nhận dạng các đối tượng trong ảnh sử dụng mạng nơ ron là: “Nhận dạng hành động người sử dụng mạng nơ ron tích chập” của tác giả Nguyễn Thành Tâm. Đề tài của tác giả khác nhau là kiến trúc mô hình CNN, các layer trong mạng, các filter sử dụng và nhận dạng đối tượng khác nhau.

Phương pháp nhận dạng sử dụng kỹ thuật CNN của đề tài tác giả là nhận dạng các đối tượng trong ảnh và video, ảnh và video trên là các đối tượng tham gia giao thông: Bicycle, Dog, Car, Motorbike, People có thể ứng dụng vào thực tế như robot ngoài trời, xe tự lái… Cấu trúc mới của mô hình CNN là tác giả xây dựng mạng gồm 15 lớp, 32 filter để chập mà chưa có ai công bố trước đó – đây là điểm mới của đề tài. Cơ sở đánh giá độ chính xác của mạng là tác giả thực hiện huấn luyện đi huấn luyện lại nhiều lần với việc chỉnh sửa kiến trúc mạng để lấy được độ chính xác cao nhất sau đó lấy mô hình kiến trúc đó làm mô hình chuẩn nhất. Mục đích của đề tài Mục đích của đề tài là tác giả sẽ xây dựng một mô hình cấu trúc CNNs mới và tiến hành huấn luyện mạng trên nhiều tập dữ liệu khác nhau để tối ưu mô hình kiến trúc mạng và đặc biệt tác giả sẽ huấn luyện mạng với dữ liệu là: Bicycle, Car, Dog, Motobike, People để ứng dụng vào việc nhận dạng các đối tượng tham gia giao thông. Vì sao tác giả chọn 5 loại đối tượng này? Tại sao không chọn nhiều hơn mà chọn chỉ có 5 loại? Tại vì tác giả quan sát thấy 5 loại đối tượng này là những đối tượng chủ yếu tham gia giao thông nên tác giả chọn ra đại diện 5 loại đối 3 Luan van tượng này và 5 cũng là con số nhỏ cũng phù hợp với phần cứng máy tính của tác giả.

Về việc tránh nhầm lẫn với đề tài khác cũng sử CNNs để nhận dạng đối tượng, giống nhau là việc sử dụng mạng CNNs để nhận dạng đối tượng, nhưng khác nhau chính là cấu trúc mạng và các filter sử dụng nên kết quả sẽ khác nhau. Nhiệm vụ và giới hạn của đề tài Nhiệm vụ: - Tìm hiểu một số mô hình và ứng dụng của Deep learning trong xử lý hình ảnh. - Tìm hiểu các phương pháp rút trích đặc trưng trong ảnh. - Trích xuất các đặc trưng ảnh và biểu diễn nó trong mạng nơron tích chập.

- Tập hợp các đặc trưng ảnh và dự đoán tính chất, đặc trưng của ảnh. - Thực hiện huấn luyện, mô phỏng bằng phần mềm Matlab để dự đoán và nhận dạng đối tượng. Hạn chế: - Data nhỏ, không training được với lượng data lớn vì phần cứng máy tính không cho phép. - Không có tính thực tế, chỉ mô phỏng trên phần mềm Matlab - Mô hình mạng chưa được tối ưu lắm nên mạng có độ chính xác chưa cao lắm.

Phương pháp nghiên cứu - Thu thập, tổng hợp các tài liệu lý thuyết cơ bản liên quan đến đề tài. - Tìm hiểu các kết quả nghiên cứu đã công bố trong nước và quốc tế. - Phân tích lý thuyết và mô phỏng kết quả tính toán bằng phần mềm Matlab. - Tổng hợp viết báo cáo.

Tóm tắc nội dung chính của đề tài Với mục đích là dự đoán và nhận dạng được các đối tượng tham gia giao thông, nội dung của bài báo cáo bao gồm các phần sau: 4 Luan van  Chương 1: Tổng quan: Chương này giới thiệu tổng quan về mục đích của đề tài cũng như các nghiên cứu liên quan đến đề tài, trình bày mục tiêu và phương pháp thực hiện đề tài.  Chương 2: Cơ sở lý thuyết: Chương này giới thiệu cơ sở lý thuyết liên quan đến nội dung của đề tài.  Chương 3: Áp dụng mạng nơ ron tích chập trong việc nhận dạng các đối tượng tham gia giao thông: Chương này nêu ra cách giải quyết bài toán cụ thể trong việc nhận dạng dùng mạng nơron tích chập.  Chương 4: Kết luận: Chương này đưa ra kết quả thực hiện được và hướng phát triển sau này của đề tài.

5 Luan van Chương 2 CƠ SỞ LÝ THUYẾT 2. Tế bào thần kinh và mạng thần kinh nhân tạo 2. Tế bào thần kinh Mạng thần kinh nhân tạo [7] (gọi ngắn gọn là mạng thần kinh) có thể xem như là mô hình toán học đơn giản của bộ não con người. Mạng thần kinh gồm các tế bào thần kinh (đơn vị xử lý) kết nối với nhau bởi các liên kết.

Mỗi liên kết kèm theo một trọng số, đặc trưng cho đặc tính kích thích hay ức chế của các tế bào thần kinh.1: Tế bào thần kinh nhân tạo Mỗi tế bào thần kinh được kết nối với các tế bào thần kinh khác và nhận các tín hiệu xi từ chúng với các trọng số wi Quá trình xử lý thông tin của tế bào thần kinh được chia thành hai phần: xử lý ngõ vào và xử lý ngõ ra. Hàm xử lý ngõ vào là hàm tổng có dạng như sau. Hàm tuyến tính (linear function):  m  f  net    w j x j     w T x   (2.1)  j 1  Hàm toàn phương (quadratic function): 6 Luan van  m  f  net    w j x 2j    (2.2)  j 1  Hàm cầu (spherical function):  2 f  net    2   x j  w j       2  x  w   x  w    m T (2.3)  j 1  Trong mỗi biểu thức trên ,  là mức ngưỡng của tế bào thần kinh. Thường hàm tổng ở ngõ vào được sử dụng nhiều nhất là hàm tuyến tính (2.

Ngõ ra của mỗi tế bào thần kinh được cho bởi biểu thức: y = a(f) (2.) gọi là hàm tác động. Các dạng hàm tác động thường dùng là: Hàm nấc: 1 𝑛ế𝑢 𝑓 ≥ 0 a(f) = { 0 𝑛ế𝑢 𝑓 < 0 Hình 2.2 : Hàm nấc Hàm dấu: 1 𝑛ế𝑢 𝑓 ≥ 0 a(f) = { −1 𝑛ế𝑢 𝑓 < 0 Hình 2.3 : Hàm dấu Hàm tuyến tính: a(f) = f Hình 2.4 : Hàm tuyến tính 7 Luan van Hàm dốc bão hòa: 1 𝑛ế𝑢 𝑓 > 1 a(f) = {𝑓 𝑛ế𝑢 0 ≤ 𝑓 ≤ 1 0 𝑛ế𝑢 𝑓 < 0 Hình 2.5 : Hàm dốc bão hòa Hàm tuyến tính bão hòa: 1 𝑛ế𝑢 𝑓 > 1 a(f) = {𝑓 𝑛ế𝑢 0 ≤ |𝑓| ≤ 1 −1 𝑛ế𝑢 𝑓 < −1 Hình 2.6 : Hàm tuyến tính bão hòa Hàm dạng s đơn cực: 1 a( f )  1  e  f Hình 2.7 : Hàm dạng s đơn cực Hàm dạng s lưỡng cực: 2 a( f )  1 1  e  f Hình 2.8 : Hàm dạng s lưỡng cực 2. Mạng thần kinh nhân tạo Định nghĩa: Mạng nơron nhân tạo, Artificial Neural Network (ANN) là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh học.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ HCMUTE về nhận dạng đối tượng tham gia giao thông bằng mạng nơron học sâu" của tác giả Trần Quốc Toản, dưới sự hướng dẫn của TS. Lê Mỹ Hà, trình bày về việc ứng dụng mạng nơron học sâu trong việc nhận dạng các đối tượng tham gia giao thông. Nghiên cứu này không chỉ giúp nâng cao độ chính xác trong việc nhận diện mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực giao thông thông minh. Đặc biệt, luận văn này có thể mang lại lợi ích cho các nhà nghiên cứu và kỹ sư trong việc phát triển các hệ thống an toàn giao thông, giảm thiểu tai nạn và cải thiện quản lý giao thông đô thị.

Nếu bạn quan tâm đến các ứng dụng công nghệ trong giáo dục và quản lý, bạn có thể tham khảo thêm bài viết Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ. Bài viết này cũng đề cập đến việc ứng dụng công nghệ thông tin trong giáo dục, tương tự như cách mà mạng nơron học sâu được áp dụng trong giao thông.

Ngoài ra, bạn cũng có thể tìm hiểu về Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt, một nghiên cứu khác trong lĩnh vực công nghệ thông tin, giúp mở rộng hiểu biết về các ứng dụng của công nghệ trong việc xử lý và phân tích dữ liệu.

Cuối cùng, bài viết Luận Văn Thạc Sĩ Về Quản Lý Thông Tin Giao Thông Đô Thị Qua Dữ Liệu Cộng Đồng cũng có thể cung cấp thêm thông tin hữu ích về việc quản lý giao thông đô thị, một lĩnh vực liên quan mật thiết đến nghiên cứu nhận dạng đối tượng giao thông.

#Luận văn Thạc sĩ

#công nghệ nhận diện

#trí tuệ nhân tạo

#nhận dạng đối tượng

#mạng nơron học sâu

Chủ đề

Công nghệ thông tin

Nghiên cứu và phát triển trong lĩnh vực giao thông

Trí tuệ nhân tạo và học máy

Giao thông thông minh