Luận văn thạc sĩ kỹ thuật cơ điện tử nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại dữ liệu khác nhau sử dụng bộ dữ liệu vân tay và âm thanh

Luận văn thạc sĩ kỹ thuật nghiên cứu kỹ thuật cơ điện tử nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại, khảo sát thực trạng, phân tích nguyên nhân,

Trường đại học

Trường Đại Học Bách Khoa

Chuyên ngành

Kỹ Thuật Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Tốt Nghiệp

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

1. GIỚI THIỆU VỀ ĐỀ TÀI

1.1. Giới thiệu về đề tài

1.2. Tình hình nghiên cứu

1.3. Mục tiêu và nhiệm vụ đề tài

2. CHẤT LƯỢNG ẢNH VÂN TAY VÀ ẢNH ÂM THANH (SPECTROGRAM)

2.1. Chất lượng ảnh vân tay

2.2. Chất lượng ảnh âm thanh (spectrogram)

2.3. Thính giác con người

2.4. Các phương pháp xử lý tín hiệu âm thanh

3. MẠNG NƠ-RO TÍCH CHỦ ĐỘNG

3.1. Convolutional neural network

3.2. Hàm kích hoạt phi tuyến (ReLU)

3.3. Deep Neural Network

3.4. Hàm kích hoạt

4. NGHIÊN CỨU VÀ THỰC NGHIỆM

4.1. Kết quả thực nghiệm phân loại ngữ cảnh âm thanh

4.2. Ứng dụng mô hình mạng CDNN cho nhận dạng dấu vân tay

4.3. Kết quả thực hiện

5. KẾT LUẬN VÀ PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Nghiên cứu này tập trung vào việc phát triển một kiến trúc mạng nơ ron tích chập đa nhân để phân loại dữ liệu âm thanh và dữ liệu vân tay. Mục tiêu chính là tối ưu hóa khả năng nhận dạng của mô hình bằng cách áp dụng machine learning và học sâu. Việc sử dụng mạng nơ ron tích chập trong nghiên cứu này nhằm mục đích cải thiện độ chính xác trong việc phân loại các loại dữ liệu khác nhau, đặc biệt là trong các ứng dụng thực tiễn như nhận dạng âm thanh và vân tay. Theo nghiên cứu, mạng nơ ron có khả năng xử lý và phân tích dữ liệu phức tạp, từ đó đưa ra những dự đoán chính xác hơn.

1.1. Tầm quan trọng của nghiên cứu

Nghiên cứu này không chỉ có ý nghĩa lý thuyết mà còn mang lại giá trị thực tiễn cao. Phân loại dữ liệu âm thanh và vân tay có ứng dụng rộng rãi trong các lĩnh vực như an ninh, nhận diện cá nhân và tương tác người-máy. Sự phát triển của các thuật toán như Deep Learning đã mở ra nhiều cơ hội mới cho việc cải thiện độ chính xác và tốc độ trong các hệ thống nhận dạng. Việc ứng dụng kiến trúc mạng nơ ron đa nhân có thể giúp giảm thiểu thời gian xử lý và nâng cao hiệu suất của các mô hình nhận dạng.

II. Kiến trúc mạng nơ ron tích chập

Kiến trúc mạng nơ ron tích chập đa nhân được thiết kế để xử lý đồng thời nhiều loại dữ liệu khác nhau. Mô hình này bao gồm các lớp tích chập và lớp phân loại, cho phép hệ thống học hỏi từ nhiều đặc trưng khác nhau của dữ liệu. Học sâu sử dụng các lớp nơ ron để trích xuất các đặc điểm quan trọng từ dữ liệu âm thanh và dữ liệu vân tay. Cấu trúc này giúp mô hình đạt được khả năng tổng quát tốt hơn trong việc nhận dạng và phân loại. Các nghiên cứu trước đây đã chỉ ra rằng việc sử dụng mạng nơ ron sâU có thể cải thiện đáng kể hiệu suất của các hệ thống nhận dạng.

2.1. Các lớp trong mạng nơ ron

Mạng nơ ron tích chập bao gồm các lớp tích chập (Convolutional Layers) và lớp kích hoạt (Activation Layers) như ReLU. Các lớp này giúp mô hình học hỏi từ các đặc trưng của dữ liệu đầu vào một cách hiệu quả. Phân tích âm thanh được thực hiện thông qua việc chuyển đổi tín hiệu âm thanh thành spectrogram, từ đó giúp mô hình dễ dàng nhận diện và phân loại các âm thanh khác nhau. Đối với dữ liệu vân tay, các đặc trưng như ridge và valley được trích xuất để cải thiện độ chính xác của quá trình nhận diện.

III. Phương pháp và kết quả

Phương pháp nghiên cứu được thực hiện thông qua việc áp dụng thuật toán phân loại trên các tập dữ liệu âm thanh và vân tay. Các mô hình được huấn luyện trên các tập dữ liệu lớn để đạt được độ chính xác cao nhất. Kết quả cho thấy rằng mạng nơ ron tích chập đa nhân có khả năng phân loại chính xác lên đến 95% trong nhận diện âm thanh và 98% trong nhận diện vân tay. Các nghiên cứu đã chỉ ra rằng việc sử dụng tích chập đa nhân giúp cải thiện đáng kể hiệu suất so với các mô hình truyền thống.

3.1. Đánh giá hiệu suất

Hiệu suất của mô hình được đánh giá thông qua các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu. Kết quả cho thấy rằng mô hình có thể nhận diện âm thanh và vân tay với độ chính xác cao, cho thấy tính khả thi của việc áp dụng mạng nơ ron trong các ứng dụng thực tiễn. Sự phát triển của các thuật toán học sâu đã tạo ra những bước tiến vượt bậc trong lĩnh vực nhận dạng, mở ra nhiều cơ hội mới cho các nghiên cứu tiếp theo.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật cơ điện tử nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại dữ liệu khác nhau sử dụng bộ dữ liệu vân tay và âm thanh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của khoa học công nghệ, đặc biệt là lĩnh vực học máy (machine learning), việc ứng dụng các mô hình mạng nơ-ron sâu (Deep Neural Network - DNN) và mạng nơ-ron tích chập (Convolutional Neural Network - CNN) ngày càng được quan tâm. Theo báo cáo của ngành, các thuật toán học máy mới đã được nghiên cứu và phát triển nhằm giải quyết các bài toán phức tạp trong nhận dạng và phân loại dữ liệu đa dạng. Tuy nhiên, phần lớn các nghiên cứu hiện nay chỉ tập trung vào việc áp dụng các mô hình này cho từng bài toán cụ thể mà chưa có nhiều công trình đề xuất một kiến trúc mạng có thể ứng dụng đa nhiệm cho nhiều loại dữ liệu khác nhau.

Luận văn thạc sĩ này tập trung nghiên cứu một kiến trúc mạng CNN đa kernel nhằm giải quyết đồng thời hai bài toán phân loại khác nhau: nhận dạng dấu vân tay và phân loại ngữ cảnh âm thanh. Nghiên cứu được thực hiện trên dữ liệu thực tế gồm ảnh dấu vân tay với kích thước mẫu đa dạng và dữ liệu âm thanh được chuyển đổi thành dạng spectrogram với các kỹ thuật Log-Mel, Gammatone và Constant-Q transform (CQT). Mục tiêu chính là xây dựng và thử nghiệm một mô hình mạng CNN có khả năng thích ứng cao, có thể xử lý hiệu quả nhiều loại dữ liệu khác nhau, đồng thời nâng cao độ chính xác phân loại.

Phạm vi nghiên cứu được giới hạn trong việc áp dụng mô hình trên hai bộ dữ liệu chính: bộ dữ liệu âm thanh DCASE 2016 với 15 lớp ngữ cảnh âm thanh và bộ dữ liệu ảnh dấu vân tay với các kích thước mẫu khác nhau. Thời gian nghiên cứu kéo dài từ năm 2018 đến cuối năm 2019 tại Trường Đại học Bách Khoa, TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu được thể hiện qua việc đề xuất một kiến trúc mạng CNN đa nhiệm, có thể ứng dụng rộng rãi trong các bài toán nhận dạng và phân loại dữ liệu đa dạng, góp phần nâng cao hiệu quả và tính linh hoạt của các hệ thống trí tuệ nhân tạo trong thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): CNN là mô hình mạng nơ-ron được thiết kế đặc biệt để xử lý dữ liệu dạng lưới như ảnh hoặc tín hiệu âm thanh chuyển đổi thành ảnh (spectrogram). CNN sử dụng các lớp tích chập với nhiều kernel kích thước khác nhau để trích xuất đặc trưng không gian và thời gian của dữ liệu. Các thành phần chính của CNN bao gồm lớp tích chập (convolutional layer), hàm kích hoạt phi tuyến ReLU, lớp pooling để giảm kích thước dữ liệu, lớp chuẩn hóa batchnorm để ổn định quá trình huấn luyện và lớp dropout nhằm giảm overfitting.
Mạng nơ-ron sâu (Deep Neural Network - DNN): DNN là mạng nơ-ron nhiều lớp ẩn, có khả năng học các biểu diễn phức tạp của dữ liệu. Trong nghiên cứu, DNN được sử dụng để phân loại dựa trên các đặc trưng trích xuất từ CNN. Hàm kích hoạt softmax được áp dụng ở lớp đầu ra để tính xác suất phân lớp.

Các khái niệm chuyên ngành quan trọng bao gồm: spectrogram (ảnh biểu diễn phổ tần theo thời gian của tín hiệu âm thanh), các kỹ thuật chuyển đổi phổ như Log-Mel, Gammatone, Constant-Q transform (CQT), các loại kernel đa kích thước trong CNN, và các kỹ thuật huấn luyện mạng như batch normalization, dropout, backpropagation, gradient descent.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm:

Bộ dữ liệu âm thanh DCASE 2016 với 15 lớp ngữ cảnh âm thanh, mỗi mẫu âm thanh dài 30 giây, tần số lấy mẫu 44.1 kHz, được chuyển đổi thành các spectrogram kích thước 128x128 sử dụng các kỹ thuật Log-Mel, Gammatone và CQT.
Bộ dữ liệu ảnh dấu vân tay với các kích thước mẫu khác nhau (200x200, 153x185, 152x200 pixel), được xử lý để trích xuất đặc trưng minutiae và các đặc trưng cục bộ, toàn cục.

Phương pháp phân tích bao gồm:

Xây dựng mô hình CNN đa kernel với 4 loại kernel kích thước khác nhau ([9x9], [7x7], [5x5], [3x3]) trong mỗi lớp tích chập nhằm tăng khả năng trích xuất đặc trưng đa dạng.
Huấn luyện mô hình CNN kết hợp với DNN để phân loại dữ liệu âm thanh và dấu vân tay.
Áp dụng kỹ thuật pre-trained và post-trained để cải thiện hiệu suất mô hình.
Sử dụng các hàm kích hoạt ReLU, softmax, và các kỹ thuật batch normalization, dropout để tối ưu hóa quá trình huấn luyện và giảm overfitting.
Cỡ mẫu huấn luyện cho bộ dữ liệu âm thanh là khoảng 5120 mẫu spectrogram, chia thành 40 phần nhỏ để huấn luyện từng batch.
Phương pháp chọn mẫu ngẫu nhiên (random sampling) được áp dụng trong quá trình huấn luyện để đảm bảo tính đại diện của dữ liệu.
Timeline nghiên cứu kéo dài từ tháng 01/2018 đến tháng 12/2019, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, huấn luyện, thử nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất phân loại ngữ cảnh âm thanh:
- Mô hình CNN đa kernel kết hợp với DNN đạt độ chính xác lên đến 85% trên bộ dữ liệu DCASE 2016 với 15 lớp.
- So với mô hình baseline sử dụng một kernel duy nhất, mô hình đa kernel cải thiện độ chính xác khoảng 4-5%.
- Việc áp dụng kỹ thuật post-trained giúp tăng thêm khoảng 5% độ chính xác so với pre-trained.
Hiệu quả trích xuất đặc trưng từ các kỹ thuật spectrogram:
- Kết quả cho thấy việc kết hợp ba loại spectrogram Log-Mel, Gammatone và CQT giúp mô hình học được các đặc trưng âm thanh phong phú hơn, góp phần nâng cao hiệu suất phân loại.
- Mỗi loại spectrogram đóng góp một tập xác suất phân lớp riêng, được tổng hợp để cải thiện độ chính xác cuối cùng.
Nhận dạng dấu vân tay:
- Mô hình CNN đa kernel được thử nghiệm trên các bộ dữ liệu dấu vân tay với kích thước mẫu khác nhau cho thấy khả năng nhận dạng chính xác cao.
- Việc sử dụng nhiều kernel kích thước khác nhau giúp mô hình trích xuất được các đặc trưng minutiae và các đặc trưng cục bộ hiệu quả hơn.
- Kết quả thử nghiệm cho thấy mô hình có tính bao quát cao, có thể áp dụng cho nhiều loại dữ liệu dấu vân tay khác nhau.
Tác động của các kỹ thuật huấn luyện:
- Batch normalization giúp ổn định quá trình huấn luyện, giảm hiện tượng bão hòa hàm kích hoạt và tăng tốc độ hội tụ.
- Dropout giảm thiểu overfitting, giúp mô hình tổng quát hóa tốt hơn trên dữ liệu kiểm tra.
- Hàm kích hoạt ReLU được chứng minh là hiệu quả hơn so với sigmoid trong việc huấn luyện các mạng sâu.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình CNN đa kernel đạt hiệu suất cao là do khả năng trích xuất đặc trưng đa dạng từ các kernel kích thước khác nhau, từ đó mô hình có thể học được các biểu diễn phức tạp và phong phú hơn của dữ liệu. So với các nghiên cứu trước đây chỉ sử dụng một loại kernel hoặc một mô hình CNN đơn nhiệm, nghiên cứu này mở rộng phạm vi ứng dụng của CNN cho nhiều loại dữ liệu khác nhau, thể hiện tính linh hoạt và hiệu quả.

Việc kết hợp các kỹ thuật spectrogram khác nhau trong phân loại âm thanh cũng là một điểm mới, giúp mô hình tận dụng được các đặc trưng phổ tần khác nhau, từ đó cải thiện độ chính xác phân loại. Kết quả này phù hợp với các báo cáo của ngành về hiệu quả của việc đa dạng hóa đặc trưng đầu vào trong học máy.

Các kỹ thuật huấn luyện như batch normalization và dropout được áp dụng hiệu quả, giúp mô hình tránh được các vấn đề thường gặp như overfitting và hội tụ chậm, điều này cũng được nhiều nghiên cứu học thuật khác xác nhận.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác giữa mô hình baseline và mô hình đa kernel, cũng như bảng tổng hợp kết quả pre-trained và post-trained cho từng loại spectrogram, giúp minh họa rõ ràng sự cải thiện hiệu suất.

Đề xuất và khuyến nghị

Phát triển mô hình CNN đa kernel cho các bài toán đa nhiệm khác:
- Động từ hành động: Mở rộng
- Target metric: Độ chính xác phân loại trên các loại dữ liệu đa dạng
- Timeline: 12-18 tháng
- Chủ thể thực hiện: Các nhóm nghiên cứu AI và học máy tại các trường đại học và viện nghiên cứu
Tích hợp thêm các kỹ thuật chuyển đổi phổ mới cho dữ liệu âm thanh:
- Động từ hành động: Nghiên cứu và áp dụng
- Target metric: Tăng độ chính xác phân loại âm thanh ít nhất 3%
- Timeline: 6-12 tháng
- Chủ thể thực hiện: Các nhà phát triển phần mềm và chuyên gia xử lý tín hiệu âm thanh
Ứng dụng mô hình trong các hệ thống nhận dạng sinh trắc học và giám sát an ninh:
- Động từ hành động: Triển khai
- Target metric: Tăng độ chính xác nhận dạng dấu vân tay lên trên 90%
- Timeline: 12 tháng
- Chủ thể thực hiện: Các công ty công nghệ an ninh, cơ quan quản lý
Tối ưu hóa quá trình huấn luyện bằng kỹ thuật tăng cường dữ liệu và học chuyển giao:
- Động từ hành động: Áp dụng
- Target metric: Giảm thời gian huấn luyện 20%, tăng khả năng tổng quát hóa
- Timeline: 6 tháng
- Chủ thể thực hiện: Các nhà nghiên cứu và kỹ sư AI

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Khoa học Máy tính, Trí tuệ nhân tạo:
- Lợi ích: Hiểu sâu về kiến trúc mạng CNN đa kernel và ứng dụng trong phân loại đa nhiệm.
- Use case: Áp dụng trong các đề tài nghiên cứu về học máy và xử lý tín hiệu.
Chuyên gia phát triển hệ thống nhận dạng sinh trắc học:
- Lợi ích: Nắm bắt công nghệ mới trong nhận dạng dấu vân tay với độ chính xác cao.
- Use case: Cải tiến hệ thống an ninh và xác thực người dùng.
Kỹ sư xử lý tín hiệu âm thanh và phát triển ứng dụng âm thanh:
- Lợi ích: Áp dụng các kỹ thuật spectrogram và mô hình CNN để phân loại ngữ cảnh âm thanh.
- Use case: Phát triển các ứng dụng nhận dạng âm thanh trong môi trường thực tế.
Các nhà nghiên cứu và phát triển AI trong lĩnh vực đa nhiệm và học chuyển giao:
- Lợi ích: Tham khảo mô hình mạng đa nhiệm có khả năng xử lý nhiều loại dữ liệu khác nhau.
- Use case: Phát triển các hệ thống AI linh hoạt, đa năng.

Câu hỏi thường gặp

Mô hình CNN đa kernel là gì và có ưu điểm gì so với CNN truyền thống?
Mô hình CNN đa kernel sử dụng nhiều loại kernel kích thước khác nhau trong cùng một lớp tích chập, giúp trích xuất đặc trưng đa dạng hơn từ dữ liệu. Ưu điểm là tăng khả năng học biểu diễn phức tạp, cải thiện độ chính xác phân loại và khả năng áp dụng cho nhiều loại dữ liệu khác nhau.
Tại sao lại sử dụng nhiều loại spectrogram khác nhau cho dữ liệu âm thanh?
Mỗi loại spectrogram như Log-Mel, Gammatone, CQT phản ánh các đặc trưng phổ tần khác nhau của âm thanh. Việc kết hợp chúng giúp mô hình học được nhiều khía cạnh của tín hiệu âm thanh, từ đó nâng cao hiệu quả phân loại.
Batch normalization và dropout có vai trò gì trong huấn luyện mạng CNN?
Batch normalization giúp ổn định và tăng tốc quá trình huấn luyện bằng cách chuẩn hóa dữ liệu đầu vào mỗi lớp, còn dropout giảm overfitting bằng cách ngẫu nhiên loại bỏ một số neuron trong quá trình huấn luyện, giúp mô hình tổng quát hóa tốt hơn.
Mô hình này có thể áp dụng cho các bài toán nhận dạng khác ngoài dấu vân tay và âm thanh không?
Có, kiến trúc mạng CNN đa kernel có tính linh hoạt cao, có thể được điều chỉnh và áp dụng cho nhiều bài toán nhận dạng và phân loại dữ liệu khác như nhận dạng khuôn mặt, phân loại hình ảnh y tế, hoặc phân tích video.
Quá trình pre-trained và post-trained khác nhau như thế nào?
Pre-trained là giai đoạn huấn luyện ban đầu của mô hình trên dữ liệu lớn để học các đặc trưng cơ bản, còn post-trained là giai đoạn tinh chỉnh mô hình trên dữ liệu cụ thể nhằm cải thiện hiệu suất phân loại cuối cùng. Kết hợp cả hai giúp mô hình đạt hiệu quả cao hơn.

Kết luận

Đã xây dựng thành công kiến trúc mạng CNN đa kernel có khả năng ứng dụng đa nhiệm cho phân loại dấu vân tay và ngữ cảnh âm thanh.
Mô hình đạt độ chính xác phân loại âm thanh lên đến 85%, cải thiện đáng kể so với các mô hình baseline.
Kỹ thuật kết hợp nhiều loại spectrogram và kernel đa kích thước giúp trích xuất đặc trưng hiệu quả, nâng cao khả năng tổng quát hóa của mô hình.
Các kỹ thuật huấn luyện như batch normalization, dropout và hàm kích hoạt ReLU góp phần ổn định và tối ưu quá trình huấn luyện.
Đề xuất mở rộng nghiên cứu áp dụng mô hình cho các bài toán đa nhiệm khác và tích hợp thêm kỹ thuật học chuyển giao để nâng cao hiệu quả.

Next steps: Triển khai mô hình trong các ứng dụng thực tế, mở rộng bộ dữ liệu huấn luyện, và nghiên cứu các kỹ thuật tối ưu hóa mới.

Các nhà nghiên cứu và kỹ sư AI nên tham khảo và áp dụng kiến trúc mạng CNN đa kernel để phát triển các hệ thống nhận dạng đa nhiệm hiệu quả hơn.

Bài luận văn thạc sĩ của Nguyễn Khắc Hưng mang tên "Nghiên cứu kiến trúc mạng nơ ron tích chập đa nhân cho phân loại dữ liệu âm thanh và vân tay" tập trung vào việc phát triển và áp dụng các kiến trúc mạng nơ ron tích chập (CNN) đa nhân để phân loại dữ liệu âm thanh và vân tay. Nghiên cứu này không chỉ giúp nâng cao hiệu suất phân loại mà còn mở ra hướng đi mới trong việc ứng dụng công nghệ trí tuệ nhân tạo trong các lĩnh vực nhận diện và bảo mật. Bài viết sẽ mang lại cho độc giả cái nhìn sâu sắc về cách mà mạng nơ ron có thể được tối ưu hóa để xử lý các loại dữ liệu phức tạp.

Nếu bạn quan tâm đến các khía cạnh liên quan đến công nghệ mạng nơ ron và ứng dụng trong nhận diện âm thanh, bạn có thể tham khảo thêm bài viết "Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói". Bài viết này cũng khám phá các phương pháp học máy trong nhận diện giọng nói, từ đó cung cấp thêm góc nhìn về sự phát triển của công nghệ.

Ngoài ra, bài "Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ" cũng rất đáng chú ý. Nghiên cứu này liên quan đến việc áp dụng học sâu trong nhận diện giọng nói, một lĩnh vực có mối liên hệ chặt chẽ với kiến trúc mạng nơ ron mà bài luận văn của Hưng nghiên cứu.

Cuối cùng, bạn cũng có thể tìm hiểu thêm về "Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ", bài viết này mở rộng về ứng dụng học sâu trong các lĩnh vực ngôn ngữ, cho thấy tính đa dạng và khả năng ứng dụng của công nghệ học máy trong nhiều lĩnh vực khác nhau.

Những tài liệu này không chỉ bổ sung cho kiến thức của bạn về các công nghệ tiên tiến mà còn giúp bạn hiểu rõ hơn về các ứng dụng thực tiễn của chúng trong đời sống.

#trí tuệ nhân tạo

#mạng nơ ron tích chập

#phân loại dữ liệu âm thanh

#phân loại vân tay

#kiến trúc mạng nơ ron

#nhận dạng mẫu

Chủ đề

Học máy và trí tuệ nhân tạo

Xử lý tín hiệu âm thanh

Nhận dạng sinh trắc học

Kiến trúc mạng nơ ron

Luận văn thạc sĩ kỹ thuật cơ điện tử nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại dữ liệu khác nhau sử dụng bộ dữ liệu vân tay và âm thanh

1. GIỚI THIỆU VỀ ĐỀ TÀI

1.1. Giới thiệu về đề tài

1.2. Tình hình nghiên cứu

1.3. Mục tiêu và nhiệm vụ đề tài

2. CHẤT LƯỢNG ẢNH VÂN TAY VÀ ẢNH ÂM THANH (SPECTROGRAM)

2.1. Chất lượng ảnh vân tay

2.2. Chất lượng ảnh âm thanh (spectrogram)

2.3. Thính giác con người

2.4. Các phương pháp xử lý tín hiệu âm thanh

3. MẠNG NƠ-RO TÍCH CHỦ ĐỘNG

3.1. Convolutional neural network

3.2. Hàm kích hoạt phi tuyến (ReLU)

3.3. Deep Neural Network

3.4. Hàm kích hoạt

4. NGHIÊN CỨU VÀ THỰC NGHIỆM

4.1. Kết quả thực nghiệm phân loại ngữ cảnh âm thanh

4.2. Ứng dụng mô hình mạng CDNN cho nhận dạng dấu vân tay

4.3. Kết quả thực hiện

5. KẾT LUẬN VÀ PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

I. Giới thiệu

1.1. Tầm quan trọng của nghiên cứu

II. Kiến trúc mạng nơ ron tích chập

2.1. Các lớp trong mạng nơ ron

III. Phương pháp và kết quả

3.1. Đánh giá hiệu suất

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Khắc Hưng

Người hướng dẫn: PGS. Hoàng Trang

Trường học: Trường Đại Học Bách Khoa

Chuyên ngành: Kỹ Thuật Máy Tính

Đề tài: Nghiên Cứu Kiến Trúc Mạng Nơ Ron Tích Chập Đa Nhân Cho Phân Loại Dữ Liệu Âm Thanh Và Vân Tay

Loại tài liệu: Luận Văn Tốt Nghiệp

Năm xuất bản: 2020

Địa điểm: Thành Phố Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm