Hướng Tiếp Cận Dựa Trên Phổ Tần Số Cho Bài Toán Nhận Thức Tiếng Nói

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2019

141
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. MỤC LỤC

1.1. Tính cấp thiết của đề tài

1.2. Mục tiêu, phạm vi nghiên cứu của luận án

1.3. Phương pháp và nội dung nghiên cứu

1.4. Kết quả đạt được của luận án

1.5. Cấu trúc luận án

2. TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI

2.1. Quá trình nhận thức tiếng nói ở người

2.2. Tai ngoài thu nhận tín hiệu tiếng nói từ

2.3. Tai trong và cơ chế truyền sóng âm trong ốc tai

2.4. Quá trình mô phỏng nhận thức tiếng nói trên máy tính

2.4.1. Lấy mẫu tín hiệu tiếng nói

2.4.2. Lượng tử hoá các mẫu

2.4.3. Mã hóa các mẫu lượng tử hóa

2.4.4. Biểu diễn tín hiệu tiếng nói

2.4.5. Trích chọn đặc trưng tiếng nói

2.4.6. Phân lớp, phân cụm dữ liệu

2.5. Tổng quan tình hình nghiên cứu về nhận thức tiếng nói

2.6. Bài toán nhận thức tiếng nói trong khoa học máy tính

2.6.1. Bài toán nhận dạng người nói

2.6.2. Bài toán nhận dạng tiếng nói

2.6.3. Bài toán nhận thức tiếng nói

2.7. Một số khó khăn trong nhận thức tiếng nói

2.7.1. Tính tuyến tính

2.7.2. Phân đoạn tiếng nói

2.7.3. Vấn đề phụ thuộc người nói

2.7.4. Đơn vị nhận thức cơ bản

2.8. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu tiếng nói với các tín hiệu khác

3. MỘT SỐ HƯỚNG TIẾP CẬN HỌC MÁY CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI

3.1. Một số mô hình học máy cho bài toán nhận thức tiếng nói

3.1.1. Mô hình Markov ẩn

3.1.2. Mô hình ngôn ngữ

3.1.3. Mô hình mạng nơ-ron

3.1.4. Mạng học sâu

3.2. Trích chọn đặc trưng tiếng nói cho các mô hình học máy

3.2.1. Đặc trưng MFCC

3.2.2. Phương pháp mã dự đoán tuyến tính LPC

3.2.3. Đặc trưng PLP

3.3. HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI TRONG MỐI LIÊN HỆ VỚI CÁC KHÁI NIỆM

3.3.1. Phổ tần số của tín hiệu tiếng nói

3.3.2. Đặc trưng bất biến SIFT

3.3.3. Phương pháp phân lớp NBNN

3.3.4. Phương pháp phân lớp LNBNN

3.3.5. Hướng tiếp cận trích chọn đặc trưng tiếng nói dựa trên phổ tần số cho bài toán nhận thức tiếng nói

3.3.6. Hướng tiếp cận mạng tích chập dựa trên phổ tần số cho bài toán nhận thức tiếng nói

3.4. Thực nghiệm và kết quả

3.4.1. Dữ liệu thực nghiệm

3.4.2. Thí nghiệm so sánh độ chính xác phân lớp của đặc trưng SIFT với đặc trưng MFCC khi sử dụng LNBNN

3.4.3. Thí nghiệm với dữ liệu co dãn theo thời gian

3.4.4. Thí nghiệm so sánh LNBNN và các phương pháp phân lớp khác

3.4.5. Thí nghiệm khả năng học tăng cường của LNBNN

3.4.6. Thí nghiệm với mạng tích chập trên tín hiệu tiếng nói

4. MÔ HÌNH NHẬN THỨC TIẾNG NÓI THÔNG QUA HỌC MỐI QUAN HỆ GIỮA TÍN HIỆU TIẾNG NÓI VÀ HÌNH ẢNH

4.1. Các phương pháp học mối quan hệ

4.1.1. Học mối quan hệ bằng mạng nhân tạo

4.1.2. Học mối quan hệ bằng HMM

4.1.3. Học mối quan hệ dựa trên luật

4.1.4. Học mối quan hệ dựa trên thống kê

4.2. Đề xuất mô hình nhận thức tiếng nói

4.2.1. Cơ sở đề xuất mô hình

4.2.2. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu âm thanh và tín hiệu hình ảnh

4.2.3. Mô hình nhận thức tiếng nói dựa trên ánh xạ giữa tín hiệu âm thanh và tín hiệu hình ảnh bằng mạng tích chập

4.3. Thực nghiệm và kết quả

4.3.1. Thực nghiệm mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu âm thanh và tín hiệu hình ảnh

4.3.2. Thực nghiệm mô hình nhận thức dựa trên mạng tích chập

5. MỘT SỐ CẢI TIẾN CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI DỮ LIỆU LỚN

5.1. Rút gọn đặc trưng

5.1.1. Giới thiệu về rút gọn đặc trưng

5.1.2. Rút gọn đặc trưng SIFT

5.1.3. Bảng băm đa chỉ số

5.2. Thực nghiệm và kết quả

5.3. Cài đặt phương pháp phân lớp LNBNN cho bài toán nhận thức tiếng nói dữ liệu lớn

5.3.1. Giới thiệu Framework Hadoop

5.3.2. Cài đặt thuật toán phân lớp LNBNN trên nền Hadoop

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG

DANH MỤC THUẬT TOÁN

Hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói

Bạn đang xem trước tài liệu:

Hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói

Tài liệu có tiêu đề Nghiên Cứu Nhận Thức Tiếng Nói Dựa Trên Phổ Tần Số cung cấp cái nhìn sâu sắc về cách mà công nghệ nhận diện tiếng nói hoạt động dựa trên phân tích phổ tần số. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về các phương pháp và thuật toán hiện có trong lĩnh vực nhận diện tiếng nói, mà còn chỉ ra những ứng dụng thực tiễn của chúng trong cuộc sống hàng ngày. Một trong những lợi ích lớn nhất mà tài liệu mang lại là khả năng nâng cao nhận thức về công nghệ, từ đó giúp người đọc có thể áp dụng kiến thức này vào các lĩnh vực khác nhau, như phát triển ứng dụng hoặc cải thiện giao tiếp.

Nếu bạn muốn mở rộng thêm kiến thức về các ứng dụng công nghệ trong giao tiếp, hãy tham khảo tài liệu Sử dụng thuật toán yolo nhận diện thủ ngữ hỗ trợ giao tiếp cho người khiếm thính khiếm thị đồ án tốt nghiệp ngành công nghệ kỹ thuật máy tính. Tài liệu này sẽ giúp bạn hiểu rõ hơn về cách mà các thuật toán có thể hỗ trợ giao tiếp cho những người có nhu cầu đặc biệt, mở ra nhiều cơ hội nghiên cứu và phát triển trong lĩnh vực này.