Xây Dựng Ứng Dụng Chuyển Giọng Nói Thành Văn Bản Sử Dụng WAV2VEC

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

2024

60
0
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BÀI TOÁN

1.1. Giới thiệu về giọng nói

1.2. Tổng quan về nhận dạng giọng nói

1.2.1. Lịch sử phát triển của nhận dạng giọng nói

1.2.2. Các thuật toán và mô hình nhận dạng giọng nói hiện nay

1.2.3. Ứng dụng trong thực tế

1.2.4. Khó khăn và thách thức

1.3. Phân tích bài toán nhận dạng giọng nói

1.4. Lý do chọn đề tài

2. CÁC KĨ THUẬT XỬ LÝ BÀI TOÁN

2.1. Thuật toán giảm nhiễu Noise reduction

2.1.1. Cổng Nhiễu – Noise Gate

2.1.2. Giảm nhiễu tĩnh

2.1.3. Giảm nhiễu động

2.2. Kĩ thuật phát hiện giọng nói (Voice activity detection)

2.2.1. Hàm mất mát phân loại theo khoảng thời gian CTC

2.2.2. Word error rate (WER)

2.2.3. Character error rate (CER)

3. MÔ HÌNH CHUYỂN GIỌNG NÓI THÀNH VĂN BẢN WAV2VEC

3.1. Giới thiệu mô hình

3.2. Kiến trúc mô hình. Học tập đối lập

3.3. Mặt nạ che dấu dữ liệu

3.4. Hàm mục tiêu

3.5. Tinh chỉnh mô hình

3.6. Mô hình ngôn ngữ N-gram

3.7. Tìm kiếm đầu ra của mô hình – Beam search

3.7.1. Tìm kiếm tham lam – Ý tưởng ngây thơ

3.7.2. Beam search – sử dụng xác suất có điều kiện

4. XÂY DỰNG ỨNG DỤNG PHẦN MỀM CHUYỂN GIỌNG NÓI THÀNH VĂN BẢN XỬ DỤNG WAV2VEC

4.1. Bộ dữ liệu sử dụng cho thực nghiệm

4.2. Mô hình sử dụng cho thực nghiệm và ứng dụng

4.3. Quy trình thực hiện thực nghiệm

4.3.1. Tiền xử lý dữ liệu

4.4. Môi trường và công nghệ sử dụng

4.4.1. Môi trường

4.5. Xây dựng phần mềm

4.5.1. Tổng quan về hệ thống

4.5.2. Phân tích thiết kế phần mềm

4.5.3. Xây dựng giao diện người dùng

TÀI LIỆU THAM KHẢO

Đồ án tốt nghiệp xây dựng ứng dụng chuyển giọng nói thành văn bản xử dụng wav2vec