Luận án Tiến sĩ Nguyễn Quang Trung: Nhận thức tiếng nói dựa trên phổ tần số

Luận án tiến sĩ toán học nghiên cứu hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án ts máy tính 94801, phân tích chuyên sâu, xây dựng mô hình lý

Trường đại học

Trường Đại học Công Nghệ - Đại Học Quốc Gia Hà Nội

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Án Tiến Sĩ

2019

141

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. MỞ ĐẦU

1.1. Tính cấp thiết của đề tài

1.2. Mục tiêu, phạm vi nghiên cứu của luận án

1.3. Phương pháp và nội dung nghiên cứu

1.4. Kết quả đạt được của luận án

2. TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI

2.1. Quá trình nhận thức tiếng nói ở người

2.2. Tai ngoài thu nhận tín hiệu tiếng nói

2.3. Tai trong và cơ chế truyền sóng âm trong ốc tai

2.4. Quá trình mô phỏng nhận thức tiếng nói trên máy tính

2.4.1. Lấy mẫu tín hiệu tiếng nói

2.4.2. Lượng tử hoá các mẫu

2.4.3. Mã hóa các mẫu lượng tử hóa

2.4.4. Biểu diễn tín hiệu tiếng nói. Trích chọn đặc trưng tiếng nói

2.5. Phân lớp, phân cụm dữ liệu

2.6. Tổng quan tình hình nghiên cứu về nhận thức tiếng nói

2.7. Bài toán nhận thức tiếng nói trong khoa học máy tính

2.8. Bài toán nhận dạng người nói

2.9. Bài toán nhận dạng tiếng nói

2.10. Bài toán nhận thức tiếng nói

2.11. Một số khó khăn trong nhận thức tiếng nói

2.12. Tính tuyến tính. Phân đoạn tiếng nói

2.13. Vấn đề phụ thuộc người nói

2.14. Đơn vị nhận thức cơ bản. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu tiếng nói với các tín hiệu khác

3. MỘT SỐ HƯỚNG TIẾP CẬN HỌC MÁY CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI

3.1. Một số mô hình học máy cho bài toán nhận thức tiếng nói

3.1.1. Mô hình Markov ẩn

3.1.2. Mô hình ngôn ngữ

3.1.3. Mô hình mạng nơ-ron

3.1.4. Mạng học sâu

3.2. Trích chọn đặc trưng tiếng nói cho các mô hình học máy

3.2.1. Đặc trưng MFCC

3.2.2. Phương pháp mã dự đoán tuyến tính LPC

3.2.3. Đặc trưng PLP

3.3. HƯỚNG TIẾP CẬN DỰA TRÊN PHỔ TẦN SỐ CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI TRONG MỐI LIÊN HỆ VỚI CÁC KHÁI NIỆM

3.3.1. Phổ tần số của tín hiệu tiếng nói

3.3.2. Đặc trưng bất biến SIFT

3.3.3. Phương pháp phân lớp NBNN

3.3.4. Phương pháp phân lớp LNBNN

3.3.5. Hướng tiếp cận trích chọn đặc trưng tiếng nói dựa trên phổ tần số cho bài toán nhận thức tiếng nói

3.3.6. Hướng tiếp cận mạng tích chập dựa trên phổ tần số cho bài toán nhận thức tiếng nói

3.4. Thực nghiệm và kết quả

3.4.1. Dữ liệu thực nghiệm

3.4.2. Thí nghiệm so sánh độ chính xác phân lớp của đặc trưng SIFT với đặc trưng MFCC khi sử dụng LNBNN

3.4.3. Thí nghiệm với dữ liệu co dãn theo thời gian

3.4.4. Thí nghiệm so sánh LNBNN và các phương pháp phân lớp khác

3.4.5. Thí nghiệm khả năng học tăng cường của LNBNN

3.4.6. Thí nghiệm với mạng tích chập trên tín hiệu tiếng nói

4. MÔ HÌNH NHẬN THỨC TIẾNG NÓI THÔNG QUA HỌC MỐI QUAN HỆ GIỮA TÍN HIỆU TIẾNG NÓI VÀ HÌNH ẢNH

4.1. Các phương pháp học mối quan hệ

4.1.1. Học mối quan hệ bằng mạng nhân tạo

4.1.2. Học mối quan hệ bằng HMM

4.1.3. Học mối quan hệ dựa trên luật

4.1.4. Học mối quan hệ dựa trên thống kê

4.2. Đề xuất mô hình nhận thức tiếng nói

4.2.1. Cơ sở đề xuất mô hình

4.2.2. Mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu âm thanh và tín hiệu hình ảnh

4.2.3. Mô hình nhận thức tiếng nói dựa trên ánh xạ giữa tín hiệu âm thanh và tín hiệu hình ảnh bằng mạng tích chập

4.3. Thực nghiệm và kết quả

4.3.1. Thực nghiệm mô hình nhận thức tiếng nói dựa trên học quan hệ giữa tín hiệu âm thanh và tín hiệu hình ảnh

4.3.2. Thực nghiệm mô hình nhận thức dựa trên mạng tích chập

5. MỘT SỐ CẢI TIẾN CHO BÀI TOÁN NHẬN THỨC TIẾNG NÓI DỮ LIỆU LỚN

5.1. Rút gọn đặc trưng

5.1.1. Giới thiệu về rút gọn đặc trưng

5.1.2. Rút gọn đặc trưng SIFT

5.1.3. Bảng băm đa chỉ số

5.2. Thực nghiệm và kết quả

5.2.1. Cài đặt phương pháp phân lớp LNBNN cho bài toán nhận thức tiếng nói dữ liệu lớn

5.2.2. Giới thiệu Framework Hadoop

5.2.3. Cài đặt thuật toán phân lớp LNBNN trên nền Hadoop

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG

DANH MỤC THUẬT TOÁN

Tóm tắt

I. Tổng quan về luận án tiến sĩ 94801 trong nhận thức tiếng nói

Luận án tiến sĩ 94801 tập trung vào việc nghiên cứu và phát triển các phương pháp nhận thức tiếng nói dựa trên phổ tần số. Đề tài này không chỉ mang tính lý thuyết mà còn có ứng dụng thực tiễn cao trong lĩnh vực công nghệ thông tin. Việc áp dụng các phương pháp mới trong nhận thức tiếng nói sẽ giúp cải thiện khả năng giao tiếp giữa con người và máy tính, mở ra nhiều cơ hội cho các ứng dụng trong đời sống hàng ngày.

1.1. Tính cấp thiết của nghiên cứu nhận thức tiếng nói

Nhu cầu giao tiếp giữa con người và máy tính ngày càng tăng cao. Việc phát triển các hệ thống nhận thức tiếng nói có thể giúp cải thiện trải nghiệm người dùng và tối ưu hóa quy trình làm việc.

1.2. Mục tiêu và phạm vi nghiên cứu của luận án

Mục tiêu chính của luận án là xây dựng mô hình nhận thức tiếng nói dựa trên liên kết giữa tín hiệu thính giác và các tín hiệu khác. Phạm vi nghiên cứu bao gồm xử lý tín hiệu, trích chọn đặc trưng và mô phỏng quá trình nhận thức.

II. Vấn đề và thách thức trong nhận thức tiếng nói hiện nay

Mặc dù đã có nhiều tiến bộ trong lĩnh vực nhận thức tiếng nói, nhưng vẫn còn nhiều thách thức cần phải giải quyết. Các vấn đề như độ chính xác trong nhận diện, khả năng phân biệt giữa các giọng nói khác nhau và ảnh hưởng của nhiễu âm vẫn là những thách thức lớn.

2.1. Các khó khăn trong quá trình nhận thức tiếng nói

Một số khó khăn chính bao gồm tính tuyến tính của tín hiệu, vấn đề phân đoạn tiếng nói và sự phụ thuộc vào người nói. Những yếu tố này có thể ảnh hưởng đến độ chính xác của hệ thống nhận thức.

2.2. Tác động của nhiễu âm đến nhận thức tiếng nói

Nhiễu âm từ môi trường xung quanh có thể làm giảm khả năng nhận diện tiếng nói. Việc phát triển các phương pháp xử lý tín hiệu hiệu quả là cần thiết để cải thiện độ chính xác.

III. Phương pháp tiếp cận dựa trên phổ tần số cho nhận thức tiếng nói

Phương pháp tiếp cận dựa trên phổ tần số đã được chứng minh là hiệu quả trong việc cải thiện khả năng nhận thức tiếng nói. Việc sử dụng các đặc trưng như SIFT-SPEECH giúp tăng cường khả năng phân lớp và nhận diện.

3.1. Đặc trưng SIFT SPEECH trong nhận thức tiếng nói

Đặc trưng SIFT-SPEECH được trích xuất từ phổ tần số của tín hiệu tiếng nói, giúp cải thiện khả năng nhận diện và phân lớp. Phương pháp này dựa trên cơ chế thu nhận đặc trưng của hệ thính giác con người.

3.2. Phương pháp phân lớp LNBNN SIFT SPEECH

Phương pháp phân lớp LNBNN kết hợp với đặc trưng SIFT-SPEECH đã cho thấy kết quả khả quan trong các thí nghiệm thực nghiệm, giúp nâng cao độ chính xác trong nhận thức tiếng nói.

IV. Ứng dụng thực tiễn của mô hình nhận thức tiếng nói

Mô hình nhận thức tiếng nói dựa trên phổ tần số có thể được ứng dụng trong nhiều lĩnh vực khác nhau, từ công nghệ thông tin đến giáo dục và y tế. Việc cải thiện khả năng nhận thức tiếng nói sẽ giúp nâng cao trải nghiệm người dùng và tối ưu hóa quy trình làm việc.

4.1. Ứng dụng trong công nghệ thông tin

Trong lĩnh vực công nghệ thông tin, mô hình này có thể được sử dụng để phát triển các hệ thống trợ lý ảo, giúp người dùng tương tác dễ dàng hơn với máy tính.

4.2. Ứng dụng trong giáo dục và y tế

Mô hình nhận thức tiếng nói cũng có thể được áp dụng trong giáo dục để hỗ trợ việc học ngôn ngữ, cũng như trong y tế để phát triển các hệ thống hỗ trợ bệnh nhân.

V. Kết luận và tương lai của nghiên cứu nhận thức tiếng nói

Nghiên cứu về nhận thức tiếng nói dựa trên phổ tần số mở ra nhiều hướng đi mới cho các ứng dụng trong tương lai. Việc tiếp tục cải tiến các phương pháp và mô hình sẽ giúp nâng cao khả năng nhận thức và mở rộng ứng dụng của công nghệ này.

5.1. Tương lai của nghiên cứu nhận thức tiếng nói

Nghiên cứu trong lĩnh vực này sẽ tiếp tục phát triển, với nhiều ứng dụng tiềm năng trong các lĩnh vực khác nhau. Việc kết hợp giữa nhận thức tiếng nói và các giác quan khác sẽ là một hướng đi mới.

5.2. Định hướng phát triển công nghệ nhận thức tiếng nói

Định hướng phát triển công nghệ nhận thức tiếng nói sẽ tập trung vào việc cải thiện độ chính xác, khả năng xử lý trong môi trường nhiễu và phát triển các ứng dụng thực tiễn.

23/07/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ hướng tiếp cận dựa trên phổ tần số cho bài toán nhận thức tiếng nói luận án ts máy tính 94801

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. TỔNG QUAN VỀ NHẬN THỨC TIẾNG NÓI 1. Giới thiệu Nhận thức nói chung là việc tổ chức, xác định và diễn giải thông tin từ các giác quan để biểu diễn và hiểu môi trường xung quanh [Schacter, 2011]. Nhận thức liên quan đến các tín hiệu trong hệ thần kinh mà nó là kết quả từ sự kích thích vật lý hay hóa học của các cơ quan giác quan.

Nhận thức tiếng nói là khả năng nhận biết cấu trúc ngôn ngữ trong tín hiệu âm thanh hay nhận thức tiếng nói là quá trình tín hiệu âm thanh của một ngôn ngữ được nghe, diễn dịch để hiểu ngôn ngữ. Tín hiệu Hệ Kích Lưu trữ Liên kết Âm thính thích lên vỏ với vùng vỏ Hành động thanh giác nơ- ron não não khác Hình 1.1 Sơ đồ quá trình nhận thức tiếng nói Từ sơ đồ quá trình nhận thức, tín hiệu âm thanh được thu nhận thông qua hệ thính giác, khi tín hiệu đủ mạnh sẽ làm kích thích các nơ-ron thần kinh làm kích hoạt một số nơ-ron trên vùng vỏ não. Đồng thời, cùng với các tín hiệu thu được từ hệ thính giác khác vỏ não sẽ tạo nên các liên kết giữa vùng vỏ não của vùng não thính giác với các vũng não khác để lưu trữ các thông tin bậc cao, thông tin ở mức trừu tượng về sự vật hiện tượng và có phản ứng phù hợp với tín hiệu thu được. Trong khoa học máy tính, để máy tính có thể nhận thức được tiếng nói các nhà nghiên cứu đã cố gắng mô phỏng, giải thích cơ chế hoạt động nhận thức tiếng nói của con người.

Chúng tôi cho rằng, quá trình mô phỏng nhận thức tiếng nói trong máy tính cơ bản có những bước sau: Tín hiệu Lấy Lượng Mã hóa Biểu diễn Trích chọn Âm mẫu tín tử hóa tín hiệu tín hiệu đặc trưng thanh hiệu Phân lớp, Trả về đáp phân cụm ứng tín hiệu Hình 1. 2 Mô phỏng các bước trong nhận thức tiếng nói của máy tính 19 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Trong phần 1.3 của chương này sẽ giải thích sơ lược các bước trong quá trình nhận thức tiếng nói ở người, và phần 1.4 sẽ giải thích các bước trong mô hình mô phỏng nhận thức tiếng nói trên máy tính. Quá trình nhận thức tiếng nói ở người Quá trình nhận thức tiếng nói được bắt đầu từ việc thu nhận tín hiệu âm thanh trải qua một số giai đoạn sau: 1. Tai ngoài thu nhận tín hiệu tiếng nói từ Tai ngoài được cấu tạo bởi vành tai và ống tai ngoài.

Vành tai là một bộ phận có chức năng thu nhận âm thanh. Ống tai ngoài có tác dụng khuếch đại các âm thanh ở tần số âm thanh từ 2,5kHz đến 3,5kHz [Menezes, 2004]. Vành tai có tác dụng thu thập và tập trung tín hiệu âm thanh để truyền tải vào tai giữa và tai trong. Tai giữa Tai giữa được ngăn cách với tai ngoài bởi màng nhĩ.

Màng nhĩ cực kỳ đàn hồi và là bộ phận chính tiếp nhận sóng âm để tạo ra các rung động tương ứng. Khi âm thanh đi vào trong ống tai, nó sẽ làm rung động màng nhĩ. Màng nhĩ có thể dễ dàng tiếp nhận sóng âm dù âm thanh được truyền đến từ bất cứ vị trí nào trên màng nhĩ. Khi tiếp nhận được tín hiệu âm thanh, mãng nhĩ sẽ dao động và làm dịch chuyển hệ thống khuếch đại âm thanh thông qua cấu trúc liên kết của ba hệ xương là xương búa, xương đe và xương bàn đạp.

Tín hiệu âm thanh sau khi được khuếch đại sẽ được truyền vào tai trong. Tai trong và cơ chế truyền sóng âm trong ốc tai Tai trong gồm bộ phận tiền đình và ốc tai. Ốc tai là bộ phận phức tạp nhất của hệ thống thính giác. Ốc tai có nhiệm vụ là sử dụng các dao động vật lý của sóng âm để chuyển hóa thành các tín hiệu mà bộ não hiểu được.

Cấu tạo ốc tai gồm ba ống đặt kề nhau ngăn cách bởi các màng mẫn cảm, các ống này co lại thành hình xoắn như trôn ốc. 20 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Xung kích thích được dây thần kinh thính giác truyền 1. Sóng âm làm tới vỏ não thính giác rung mãng nhĩ, được khuếch đại qua hệ xương 2.

Cửa sổ Oval dịch chuyển làm chuyển động 3. Các sợi sinh học chất lỏng trong ốc tai dao động cộng hưởng làm rung các sợi sinh với tín hiệu sẽ tạo ra học xung kích thích truyền tới vỏ não thính giác Hình 1. 3 Quá trình thu nhận âm thanh ở ốc tai Màng đáy, là một bề mặt cứng dàn trải toàn bộ chiều dài của ốc tai có chức năng tiếp nhận sóng âm thanh truyền từ bên ngoài đến đầu còn lại của ốc tai. Màng đáy được cấu tạo bởi khoảng 15.5001 sợi sinh học dàn trải trên toàn bộ kích thước ốc tai.

Các sợi này có cấu tạo khác nhau để cộng hưởng với các tần số khác nhau của sóng âm [Guenter, 1978] [Purves, 2001]. Khi một tần số sóng âm cộng hưởng với các sợi sinh học này ở một điểm nào đó, làm chúng dao động liên tục dẫn đến năng lượng của sóng âm sẽ được giải phóng. Các tín hiệu âm thanh với tần số cao sẽ làm dao động các sợi sinh học ở gần gốc trong khi các tín hiệu âm với tần số thấp sẽ làm dao động các sợi ở phần đỉnh của ốc tai.eu/en/hair-cells 21 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. 4 Cộng hưởng với các tần số âm khác nhau ở ốc tai Các xung này lại tiếp tục được gửi đến vỏ não thính giác và được não tiếp nhận.

Bộ não sẽ phân biệt âm thanh với các cao độ khác nhau qua các vị trí khác nhau mà những xung này được gởi đến từ các nang bào. Âm thanh có âm lượng càng lớn sẽ giải tỏa nhiều năng lượng hơn và làm di chuyển nhiều nang bào hơn. Bộ não phân biệt được các âm thanh là nhờ vào số lượng các nang bào cùng được kích hoạt trong một vị trí nào đó. Khu vực vỏ não thính giác trước đây được chia thành các khu vực sơ cấp (A1), khu vực thứ cấp (A2) và vùng vành đai.

Các quan điểm hiện đại [Pickles, 2012] [Purves, 2001] chia vỏ não thính giác thành các vùng là vùng lõi (A1), vùng vành đai và vùng parabelt. Vùng vành đai là khu vực ngay xung quanh lõi; vùng parabelt là tiếp giáp với phía bên của vành đai. Một số tác giả nghiên cứu về vai trò của não đối với hoạt động nhận thức chia vùng vỏ não thính giác thành vùng sơ cấp, vùng liên kết thính giác và vùng liên kết bậc cao hay còn gọi là vùng liên kết đa giác quan. 22 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chức năng của vỏ não thính giác sơ cấp là xử lý âm thanh.

Vỏ não thính giác sơ cấp xử lý các thông tin như độ cao, âm lượng và vị trí của âm thanh, những đặc trưng này rất cần thiết cho việc hiểu ngôn ngữ. Các nơ-ron trong vỏ não thính giác được sắp xếp theo trật tự của tần số tương ứng với sự sắp xếp các sợ sinh học trong ốc tai, mỗi nơ-ron trong vỏ não thính giác phản ứng tốt nhất với một dải tần số cụ thể và được sắp xếp theo tần số từ cao xuống thấp từ gốc của đến đỉnh ốc tai. Vỏ não thính giác thứ cấp chịu trách nhiệm xử lý các tính chất âm thanh phức tạp hơn như các mẫu nhịp điệu trong khi vùng vành đai giúp tích hợp thính giác với các hệ thống giác quan khác.5 Khu vực lưu trữ đặc trưng tiếng nói trên vỏ não 1. Quá trình mô phỏng nhận thức tiếng nói trên máy tính Tín hiệu tiếng nói là tín hiệu tương tự, do đó khi biểu diễn tín hiệu tiếng nói trong môi trường tính toán tín hiệu số, việc biểu diễn và lưu trữ sao cho không bị mất thông tin là vấn đề rất quan trọng trong các hệ thống thông tin sử dụng tiếng nói.

Biểu diễn tín hiệu tiếng nói dưới dạng số chịu ảnh hưởng quan trọng của lý thuyết lấy mẫu, do đó các trạng thái của tín hiệu có dải tần số giới hạn có thể được biểu diễn dưới dạng các mẫu lấy tuần hoàn theo một chu kì cố định được gọi là chu kì lấy mẫu. Phương pháp biểu diễn tín hiệu theo dạng sóng, được xem xét đến với việc bảo quản thông tin theo cách thông thường là giữ nguyên hình dạng sóng của tín hiệu tương ứng khi đã qua các bước lấy mẫu và lượng tử hoá tín hiệu. Phương pháp thứ hai được dùng để biểu diễn tiếng nói là phương pháp biểu diễn theo tham số. Phương pháp này xem xét đến trên khía 23 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com cạnh biểu diễn tín hiệu tiếng nói như là đầu ra của hệ thống tổng hợp tiếng nói.

Để thu được các tham số biểu diễn tiếng nói, đầu tiên tín hiệu tiếng nói cũng được biểu diễn theo dạng sóng, nghĩa là tín hiệu tiếng nói được lấy mẫu và lượng tử hóa giống như phương pháp biểu diễn tín hiệu tiếng nói dạng sóng, sau đó sẽ tiến hành xử lý để thu được các tham số của tín hiệu tiếng nói của mô hình tổng hợp tiếng nói nêu trên. Các tham số của mô hình tổng hợp tiếng nói này thường được phân loại thành các tham số kích thích và các tham số của bộ máy phát âm tương ứng. Để thu được biểu diễn của tín hiệu tiếng nói dưới dạng sóng người ta phải biểu diễn tín hiệu tiếng nói dưới dạng rời rạc. Quá trình rời rạc hoá tín hiệu tiếng nói bao gồm các bước sau: lấy mẫu tín hiệu tiếng nói, lượng tử hoá các mẫu, và mã hoá và nén tín hiệu.

Lấy mẫu tín hiệu tiếng nói Lấy mẫu tín hiệu là quá trình chuyển đổi tín hiệu từ liên tục thành rời rạc bằng cách lấy từng mẫu (sample) của tín hiệu liên tục tại các thời điểm rời rạc. Vậy nếu tín hiệu x(t) được đưa vào bộ lấy mẫu thì đầu ra là x(nT) ≡ x(n) với T là chu kỳ lấy mẫu. Nghịch đảo của chu kỳ lấy mẫu sẽ được gọi là tần số lấy mẫu. Sau khi lấy mẫu, tín hiệu liên tục trở thành dãy các giá trị rời rạc và có thể lưu trữ trong bộ nhớ máy tính để xử lý.

Khi lấy mẫu một tín hiệu tương tự với tần số lấy mẫu f0, cần đảm bảo rằng việc khôi phục lại tín hiệu đó từ tín hiệu rời rạc tương ứng phải thực hiện được. Shanon đã đưa ra một định lý để xác định tần số lấy mẫu đảm bảo khôi phục được tín hiệu gốc.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng trí tuệ nhân tạo trong ngôn ngữ

xử lý và nhận dạng tiếng nói

phân tích phổ tần số âm thanh