Khóa Luận Tốt Nghiệp: Tối Ưu Kiến Trúc Mạng Neural Bằng Thuật Toán Tiến Hóa Để Nhận Diện Giọng ...

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Khóa luận tốt nghiệp

2021

100

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Giới thiệu bài toán NAS (Neural Architecture Search, tìm kiếm kiến trúc thần kinh)

1.2. Thách thức

1.3. Mục tiêu, nội dung thực hiện và đóng góp

1.3.1. Mục tiêu

1.3.2. Nội dung thực hiện

1.3.3. Đóng góp

1.4. Cấu trúc khóa luận tốt nghiệp

2. CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN VÀ KIẾN THỨC NỀN TẢNG

2.1. Công trình liên quan

2.1.1. SincNet

2.2. Kiến thức nền tảng xử lý tín hiệu âm thanh

2.2.1. Biến đổi Fourier

2.2.2. Lấy mẫu dữ liệu và định lý lấy mẫu Nyquist

2.2.3. Kỹ thuật trích xuất đặc trưng

2.2.3.1. Mel frequency cepstral coefficient

2.2.3.2. Analog to digital conversion và pre-emphasis

2.2.3.3. Inverse discrete Fourier transform

3. CHƯƠNG 3: CƠ CHẾ MÃ HÓA, GIẢI MÃ MÔ HÌNH

3.1. Depthwise Separable Convolution

3.2. Identity block và Convolutional block

3.3. Kiến trúc mô hình mã hóa

3.4. Cơ chế giải mã mô hình

3.5. Residual Block MobileNetV2 và Squeeze and Excitation (Bottleneck Block) trong MobileNet V2

3.6. Identity Block trong ResNet

4. CHƯƠNG 4: BỘ DỮ LIỆU FAMOUS VOICE, VIETNAM VOICE

4.1. Cấu trúc tổ chức bộ dữ liệu Famous Voice

4.2. Cấu trúc tổ chức bộ dữ liệu Vietnam Voice

4.3. Trích xuất đặc trưng

4.4. Các độ đo được sử dụng

4.4.1. Cross-Entropy Loss

5. CHƯƠNG 5: GENETIC CONVOLUTION NEURAL NETWORK

5.1. Tổng quan phương pháp

5.2. Giải thuật tiến hóa

5.2.1. Tối ưu hóa

5.2.2. Khởi tạo quần thể

5.2.3. Chọn lọc tranh đấu

5.2.4. Cài đặt POPOP

5.2.5. Thực nghiệm và phân tích

5.2.5.1. Thách thức

5.3. Mô hình mã hóa

6. CHƯƠNG 6: NON-DOMINATED SORTING GENETIC ALGORITHM NETWORK

6.1. Tổng quan phương pháp

6.2. Nondominated Sorting Genetic Algorithm

6.2.1. Một số định nghĩa trong tối ưu đa mục tiêu

6.2.2. Thực nghiệm và phân tích

6.2.2.1. Thách thức

6.2.3. Dữ liệu và mô hình mã hóa

6.2.4. So sánh, đánh giá và ứng dụng

6.2.5. Phương pháp

6.2.6. Thời gian đào tạo

6.2.7. Chương trình ứng dụng

6.2.7.1. Giao diện chương trình

6.2.7.2. Minh họa kết quả dự đoán

7. CHƯƠNG 7: SO SÁNH VÀ ĐÁNH GIÁ KIẾN TRÚC MẠNG

7.1. Minh họa bài toán Speaker Recognition

7.2. Thách thức bài toán Speaker Recognition

7.3. Kiến trúc mô hình SincNet

7.4. Kiến trúc mô hình VGGVox

7.4.1. Lấy mẫu tín hiệu số

7.4.2. Lượng tử hóa tín hiệu số

7.4.3. Minh họa tín hiệu âm thanh

7.4.4. Lấy mẫu và lượng tử hóa tín hiệu âm thanh

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC TỪ VIẾT TẮT

TÓM TẮT KHÓA LUẬN

Tóm tắt

I. Kiến trúc mạng neural và thuật toán tiến hóa

Kiến trúc mạng neural và thuật toán tiến hóa là hai yếu tố chính trong nghiên cứu này. Kiến trúc mạng neural được sử dụng để xử lý dữ liệu âm thanh, trong khi thuật toán tiến hóa giúp tối ưu hóa cấu trúc mạng. Nhận diện giọng nói là mục tiêu chính, đặc biệt là với tiếng Việt, một ngôn ngữ có đặc thù riêng. Học máy và trí tuệ nhân tạo là nền tảng để phát triển các mô hình hiệu quả.

1.1. Kiến trúc mạng neural

Kiến trúc mạng neural được thiết kế để xử lý tín hiệu âm thanh. Các mô hình như SincNet và VGGVox được sử dụng để trích xuất đặc trưng từ dữ liệu âm thanh. Mạng nơ-ron tích chập (CNN) là công cụ chính để phân loại âm thanh và nhận diện giọng nói. Các kiến trúc này được tối ưu hóa để đạt hiệu suất cao trong việc xử lý ngôn ngữ tự nhiên.

1.2. Thuật toán tiến hóa

Thuật toán tiến hóa như Simple Genetic Algorithm (sGA) và Non-Dominated Sorting Genetic Algorithm (NSGA-II) được áp dụng để tìm kiếm kiến trúc mạng tối ưu. Các thuật toán này sử dụng các phép biến đổi như chọn lọc, trao đổi chéo và đột biến để tìm ra cấu trúc mạng phù hợp. Tối ưu hóa thuật toán là yếu tố quan trọng để giảm chi phí tính toán và nâng cao hiệu suất.

II. Nhận diện giọng nói tiếng Việt

Nhận diện giọng nói tiếng Việt là trọng tâm của nghiên cứu. Dữ liệu giọng nói được thu thập và chuẩn hóa để đảm bảo chất lượng đầu vào. Phân tích giọng nói và xử lý ngôn ngữ tự nhiên là các bước quan trọng để xây dựng mô hình hiệu quả. Học sâu được áp dụng để cải thiện độ chính xác trong việc nhận diện giọng nói.

2.1. Dữ liệu giọng nói

Dữ liệu giọng nói được thu thập từ các nguồn khác nhau, bao gồm Famous Voice và VietNam Voice. Các bộ dữ liệu này được chuẩn hóa để đảm bảo tính nhất quán. Phân loại âm thanh và nhận diện âm thanh là các bước quan trọng trong quá trình xử lý dữ liệu.

2.2. Phân tích giọng nói

Phân tích giọng nói bao gồm việc trích xuất các đặc trưng từ tín hiệu âm thanh. Các phương pháp như Mel Frequency Cepstral Coefficients (MFCC) được sử dụng để cải thiện độ chính xác. Xử lý ngôn ngữ tự nhiên là yếu tố quan trọng để hiểu và phân loại giọng nói.

III. Ứng dụng thực tế và đánh giá

Nghiên cứu này có nhiều ứng dụng thực tế, đặc biệt trong lĩnh vực IoT và AI. VoiceNet là kiến trúc mạng được tìm kiếm và tối ưu hóa cho bài toán nhận diện giọng nói tiếng Việt. Mô hình học máy được đánh giá dựa trên độ chính xác và chi phí tính toán.

3.1. Ứng dụng trong IoT

VoiceNet được tích hợp vào các thiết bị IoT để nhận diện giọng nói và phân quyền điều khiển. Ứng dụng này giúp cải thiện tính bảo mật và hiệu quả trong việc sử dụng các thiết bị thông minh.

3.2. Đánh giá mô hình

Mô hình học máy được đánh giá dựa trên độ chính xác và thời gian đào tạo. VoiceNet được so sánh với các kiến trúc hiện đại khác để xác định hiệu quả và khả năng ứng dụng thực tế.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính tìm kiếm kiến trúc mạng neural với thuật toán tiến hóa cho bài toán nhận diện giọng người nói tiếng việt

Tải đầy đủ

Tài liệu "Tìm Kiếm Kiến Trúc Mạng Neural Với Thuật Toán Tiến Hóa Cho Nhận Diện Giọng Nói Tiếng Việt" tập trung vào việc tối ưu hóa kiến trúc mạng neural thông qua thuật toán tiến hóa, nhằm nâng cao hiệu quả nhận diện giọng nói tiếng Việt. Nghiên cứu này mang lại lợi ích lớn cho các nhà phát triển AI và kỹ sư máy học, giúp họ xây dựng các hệ thống nhận diện giọng nói chính xác và hiệu quả hơn. Để hiểu sâu hơn về các kỹ thuật xử lý ngôn ngữ tự nhiên, bạn có thể tham khảo Luận văn thạc sĩ tóm tắt văn bản sử dụng các kỹ thuật trong deep learning. Ngoài ra, nếu quan tâm đến ứng dụng của mạng neural trong các lĩnh vực khác, Luận văn thạc sĩ xây dựng mạng neuron trong phát hiện xâm nhập mạng sẽ cung cấp thêm góc nhìn đa chiều. Cuối cùng, để khám phá các phương pháp học sâu liên quan, Luận văn thạc sĩ nghiên cứu phương pháp học sâu cho lọc cộng tác là tài liệu không thể bỏ qua.

#khóa luận tốt nghiệp

#Nhận Diện Giọng Nói

#thuật toán tiến hóa

#AI tiếng Việt

#tối ưu kiến trúc

Chủ đề

Trí tuệ nhân tạo

xử lý ngôn ngữ