Luận văn thạc sĩ hay nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

Luận văn thạc sĩ nghiên cứu hay nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện

Trường đại học

Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI

1.1. Thông tin tiếng nói

1.2. Quá trình tạo tiếng nói

1.3. Cơ quan thính giác

1.4. Thông tin người nói trong tiếng nói

1.5. Biến đổi thông tin người nói trong tiếng nói và ứng dụng

1.6. Phương pháp biến đổi thay đổi tham số trực tiếp

2. CHƯƠNG 2: KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG DỤNG TRONG BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI

2.1. Kỹ thuật phân rã tiếng nói theo thời gian. Phương pháp TD nguyên thủy

2.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD

2.3. Phương pháp MRTD

2.4. Một số kỹ thuật biến đổi thông tin người nói dùng TD

2.5. Biến đổi thông tin người nói bằng TD-GMM

2.6. Biến đổi thông tin người nói bằng HTD

3. CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI

3.1. Ngữ âm tiếng Việt

3.2. Cơ sở dữ liệu tiếng nói tiếng Việt

3.3. Tổng hợp tiếng nói tiếng Việt

3.4. Lựa chọn cơ sở dữ liệu

3.5. Đánh giá các phương pháp

3.6. Tiêu chí đánh giá

3.7. Thực nghiệm các phương pháp

3.8. Kết quả đánh giá

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nghiên cứu biến đổi thông tin người nói trong tiếng nói

Nghiên cứu về biến đổi thông tin người nói trong tiếng nói là một lĩnh vực quan trọng trong công nghệ xử lý tiếng nói. Tiếng nói không chỉ là phương tiện giao tiếp mà còn chứa đựng nhiều thông tin về người nói như giới tính, độ tuổi và cảm xúc. Việc hiểu và biến đổi thông tin này giúp cải thiện chất lượng và tính tự nhiên của tiếng nói tổng hợp. Nghiên cứu này không chỉ có ý nghĩa lý thuyết mà còn ứng dụng thực tiễn trong nhiều lĩnh vực như truyền thông đa phương tiện và nhận dạng tiếng nói.

1.1. Ứng dụng của biến đổi thông tin người nói trong tiếng nói

Biến đổi thông tin người nói có nhiều ứng dụng thực tiễn, từ việc tạo ra giọng nói nhân tạo cho phim ảnh đến việc cải thiện trải nghiệm người dùng trong các hệ thống nhận dạng tiếng nói. Các ứng dụng này yêu cầu sự chính xác cao trong việc nhận diện và tái tạo giọng nói.

1.2. Tầm quan trọng của thông tin người nói trong tiếng nói

Thông tin người nói đóng vai trò quan trọng trong việc xác định tính tự nhiên của tiếng nói. Các yếu tố như giới tính, độ tuổi và cảm xúc ảnh hưởng đến cách mà người nghe tiếp nhận thông điệp. Việc nghiên cứu và biến đổi thông tin này giúp nâng cao chất lượng tiếng nói tổng hợp.

II. Vấn đề và thách thức trong nghiên cứu biến đổi thông tin người nói

Mặc dù có nhiều nghiên cứu về phương pháp xử lý tiếng nói, vẫn tồn tại nhiều thách thức trong việc biến đổi thông tin người nói. Một trong những vấn đề chính là việc mô hình hóa chính xác các đặc trưng của giọng nói. Các yếu tố như thói quen phát âm và cấu trúc cơ quan phát âm có thể gây khó khăn trong việc nhận diện và biến đổi giọng nói một cách tự nhiên.

2.1. Những khó khăn trong việc mô hình hóa giọng nói

Mô hình hóa giọng nói yêu cầu sự chính xác cao trong việc xác định các tham số đặc trưng. Các yếu tố sinh học và thói quen phát âm của người nói có thể tạo ra sự khác biệt lớn trong cách phát âm, gây khó khăn cho các hệ thống xử lý.

2.2. Thách thức trong việc duy trì tính tự nhiên của tiếng nói

Một thách thức lớn là làm sao để biến đổi giọng nói mà vẫn giữ được tính tự nhiên. Việc thay đổi quá nhiều các tham số có thể dẫn đến tiếng nói không còn giống với giọng nói gốc, làm giảm chất lượng và tính chân thực của thông điệp.

III. Phương pháp biến đổi thông tin người nói trong tiếng nói

Có nhiều phương pháp biến đổi thông tin người nói trong tiếng nói, trong đó kỹ thuật phân rã theo thời gian là một trong những phương pháp hiệu quả nhất. Phương pháp này cho phép phân tích và biến đổi các tham số của giọng nói một cách chính xác, từ đó tạo ra giọng nói tổng hợp tự nhiên hơn.

3.1. Kỹ thuật phân rã theo thời gian và ứng dụng

Kỹ thuật phân rã theo thời gian giúp tách biệt các thành phần của tín hiệu tiếng nói, từ đó cho phép biến đổi các tham số như cao độ và âm sắc. Phương pháp này đã được áp dụng thành công trong nhiều hệ thống xử lý tiếng nói hiện đại.

3.2. Các phương pháp biến đổi khác trong tiếng nói

Ngoài kỹ thuật phân rã theo thời gian, còn có nhiều phương pháp khác như mô hình Gaussian hỗn hợp (GMM) và các phương pháp dự đoán tuyến tính. Những phương pháp này cũng đóng vai trò quan trọng trong việc cải thiện chất lượng tiếng nói tổng hợp.

IV. Đánh giá thực nghiệm các phương pháp biến đổi thông tin người nói

Đánh giá thực nghiệm là bước quan trọng trong nghiên cứu biến đổi thông tin người nói. Các phương pháp cần được thử nghiệm để xác định hiệu quả và tính chính xác của chúng trong việc tái tạo giọng nói. Việc thu thập dữ liệu và phân tích kết quả sẽ giúp cải thiện các phương pháp hiện tại.

4.1. Quy trình thu thập dữ liệu tiếng nói

Quy trình thu thập dữ liệu tiếng nói bao gồm việc ghi âm giọng nói của nhiều người nói khác nhau, từ đó tạo ra một cơ sở dữ liệu phong phú cho việc thử nghiệm. Dữ liệu này sẽ được sử dụng để đánh giá các phương pháp biến đổi.

4.2. Tiêu chí đánh giá các phương pháp

Các phương pháp biến đổi sẽ được đánh giá dựa trên nhiều tiêu chí như độ chính xác, tính tự nhiên và khả năng nhận diện. Việc đánh giá này sẽ giúp xác định phương pháp nào là hiệu quả nhất trong việc biến đổi thông tin người nói.

V. Kết luận và tương lai của nghiên cứu biến đổi thông tin người nói

Nghiên cứu về biến đổi thông tin người nói trong tiếng nói đang ngày càng trở nên quan trọng trong bối cảnh công nghệ phát triển. Tương lai của nghiên cứu này hứa hẹn sẽ mang lại nhiều ứng dụng mới trong lĩnh vực truyền thông và công nghệ thông tin. Việc tiếp tục cải thiện các phương pháp hiện tại sẽ giúp nâng cao chất lượng tiếng nói tổng hợp và mở rộng khả năng ứng dụng của chúng.

5.1. Triển vọng phát triển công nghệ biến đổi tiếng nói

Công nghệ biến đổi tiếng nói có tiềm năng lớn trong nhiều lĩnh vực như giáo dục, giải trí và chăm sóc sức khỏe. Việc phát triển các phương pháp mới sẽ giúp nâng cao trải nghiệm người dùng và tạo ra những sản phẩm chất lượng hơn.

5.2. Những thách thức cần vượt qua trong tương lai

Mặc dù có nhiều tiến bộ, vẫn còn nhiều thách thức cần giải quyết như việc duy trì tính tự nhiên của tiếng nói và khả năng nhận diện chính xác thông tin người nói. Nghiên cứu và phát triển liên tục sẽ là chìa khóa để vượt qua những thách thức này.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hay nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 1. Thông tin tiếng nói Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay.

Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói… 1. Tín hiệu tiếng nói Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng.

Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh). Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não. 5 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz.

Tiếng nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu.1: Dạng sóng tiếng nói một câu tiếng Việt Hình 1.2: Tiếng nói hữu thanh 6 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Quá trình tạo tiếng nói a. Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành cách mô, cơ bụng.

Làn hơi đưa lên quyết định cường độ của âm thanh.3: Bộ phận cung cấp làn hơi Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong thanh quản: Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau, cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm thanh có cao độ khác nhau. Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông.4: Dây thanh âm 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi.

Cuống họng và miệng chủ yếu đóng vai trò truyền âm. Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng. Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm.

Mở khẩu hình không đúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ lời, phát âm đúng. Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.5: Cấu trúc cơ quan phát âm 8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm d. Biễu diễn bộ phận phát âm: Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau.

Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác.7: Mô hình hóa cơ quan phát âm 9 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 1. Cơ quan thính giác Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ quan thính giác con người có thể cảm thụ được các tần số âm thanh trong khoảng 15 Hz - 20. Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn là hạ âm.9: Mô hình cơ quan thính giác 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%).

Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz. Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém. Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần số Bark như trong hình 1. Trong mỗi băng con, con người không cảm nhận được sự khác biệt.10: Thang tần số Bark Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ trên miền thời gian (hình 1.12) và tần số (hình 1.11: Ngưỡng nghe 11 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau) Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm) 1.

Xử lý tiếng nói Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói.

Để biến đổi tiếng nói, người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác 12 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này.14: Một số ứng dụng của xử lý tiếng nói Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý thông tin người nói 1. Thông tin người nói trong tiếng nói Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [8]. Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đã được quan tâm nghiên cứu trong thời gian gần đây [6]. Một trong những vấn 13 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết như thông tin nhận danh chính xác người nói [4,5,6,9,11].

Có nhiều yếu tố ảnh hưởng đến thông tin người nói trong tiếng nói như hình dạng, cấu trúc cơ quan phát âm (đặc trưng sinh học), thói quen, cách thức phát âm,. Con người có thể phân biệt được thông tin người nói một cách dễ dàng do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân biệt thông tin người nói, thông tin người nói cần phải được mô hình hóa và việc phân biệt, định danh, biến đổi cần phải được thực hiện thông qua các tham số vector đặc trưng được tính toán từ tín hiệu tiếng nói.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác nhau dẫn tới tiếng nói khác nhau Hình 1.1: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm 14 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Biến đổi thông tin người nói trong tiếng nói và ứng dụng Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng.

Một số ví dụ điển hình như: - Trong các bộ phim lịch sử cần diễn viên nói với giọng giống với giọng của nhân vật lịch sử [6]. - Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát của diễn viên theo các tiêu chí cụ thể khác nhau như cao hơn, trầm hơn, giống với nhân vật thật hơn,… [6] - Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như văn bản với tốc độ bit cực thấp [11]. Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được bổ sung ở đầu ra.

Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói cụ thể.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói cung cấp cái nhìn sâu sắc về các kỹ thuật và phương pháp để biến đổi thông tin từ giọng nói của người nói. Nghiên cứu này không chỉ giúp hiểu rõ hơn về cách thức mà thông tin được truyền tải qua giọng nói mà còn mở ra những ứng dụng tiềm năng trong lĩnh vực nhận diện giọng nói và xử lý ngôn ngữ tự nhiên.

Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc nắm bắt các phương pháp hiện đại trong việc phân tích và biến đổi thông tin giọng nói, từ đó có thể áp dụng vào các dự án nghiên cứu hoặc phát triển công nghệ mới.

Để mở rộng thêm kiến thức, bạn có thể tham khảo tài liệu Luận văn thạc sĩ hay nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm, nơi cung cấp cái nhìn sâu hơn về cảm xúc trong giọng nói. Ngoài ra, tài liệu Luận văn thạc sĩ nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian cũng sẽ giúp bạn khám phá thêm về các kỹ thuật biến đổi thông tin theo thời gian. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn đào sâu hơn vào lĩnh vực này và mở rộng hiểu biết của mình.

#Đại học Thái Nguyên

#Luận văn thạc sĩ khoa học máy tính

#biến đổi thông tin người nói

#kỹ thuật phân rã theo thời gian

#thông tin phi ngôn ngữ

#ứng dụng xử lý tiếng nói

Chủ đề

Ứng dụng trong hệ thống viễn thông

Kỹ thuật xử lý tín hiệu tiếng nói

Nghiên cứu về tiếng nói và thông tin

Phương pháp biến đổi thông tin người nói

Luận văn thạc sĩ hay nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI

1.1. Thông tin tiếng nói

1.2. Quá trình tạo tiếng nói

1.3. Cơ quan thính giác

1.4. Thông tin người nói trong tiếng nói

1.5. Biến đổi thông tin người nói trong tiếng nói và ứng dụng

1.6. Phương pháp biến đổi thay đổi tham số trực tiếp

2. CHƯƠNG 2: KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG DỤNG TRONG BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI

2.1. Kỹ thuật phân rã tiếng nói theo thời gian. Phương pháp TD nguyên thủy

2.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD

2.3. Phương pháp MRTD

2.4. Một số kỹ thuật biến đổi thông tin người nói dùng TD

2.5. Biến đổi thông tin người nói bằng TD-GMM

2.6. Biến đổi thông tin người nói bằng HTD

3. CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI

3.1. Ngữ âm tiếng Việt

3.2. Cơ sở dữ liệu tiếng nói tiếng Việt

3.3. Tổng hợp tiếng nói tiếng Việt

3.4. Lựa chọn cơ sở dữ liệu

3.5. Đánh giá các phương pháp

3.6. Tiêu chí đánh giá

3.7. Thực nghiệm các phương pháp

3.8. Kết quả đánh giá

TÀI LIỆU THAM KHẢO

I. Tổng quan về nghiên cứu biến đổi thông tin người nói trong tiếng nói

1.1. Ứng dụng của biến đổi thông tin người nói trong tiếng nói

1.2. Tầm quan trọng của thông tin người nói trong tiếng nói

II. Vấn đề và thách thức trong nghiên cứu biến đổi thông tin người nói

2.1. Những khó khăn trong việc mô hình hóa giọng nói

2.2. Thách thức trong việc duy trì tính tự nhiên của tiếng nói

III. Phương pháp biến đổi thông tin người nói trong tiếng nói

3.1. Kỹ thuật phân rã theo thời gian và ứng dụng

3.2. Các phương pháp biến đổi khác trong tiếng nói

IV. Đánh giá thực nghiệm các phương pháp biến đổi thông tin người nói

4.1. Quy trình thu thập dữ liệu tiếng nói

4.2. Tiêu chí đánh giá các phương pháp

V. Kết luận và tương lai của nghiên cứu biến đổi thông tin người nói

5.1. Triển vọng phát triển công nghệ biến đổi tiếng nói

5.2. Những thách thức cần vượt qua trong tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Thân Thế Huyến

Người hướng dẫn: TS. Phùng Trung Nghĩa

Trường học: Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên

Chuyên ngành: Khoa học máy tính

Đề tài: Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2018

Địa điểm: Thái Nguyên

Có thể bạn quan tâm