Luận văn thạc sĩ: Nghiên cứu các phương pháp tổng hợp tiếng Việt cho hệ thống có tài nguyên hạn chế

Luận văn thạc sĩ VNU UET nghiên cứu các phương pháp tổng hợp tiếng Việt cho hệ thống có tài nguyên hạn chế, mang lại giải pháp hiệu quả.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2011

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI VÀ HỆ THỐNG TÀI NGUYÊN HẠN CHẾ

1.1. Giới thiệu về tổng hợp tiếng nói

1.2. Các phương pháp tổng hợp tiếng nói

1.2.1. Tổng hợp theo cấu âm

1.2.2. Tổng hợp formant theo quy luật

1.2.3. Tổng hợp ghép nối

1.2.4. Tổng hợp xích chuỗi

1.2.5. Tổng hợp dựa trên thống kê

1.3. Các đặc trưng cơ bản của ngữ âm tiếng Việt

1.3.1. Cấu trúc âm tiết tiếng Việt

1.3.2. Phân loại âm tiết tiếng Việt

1.3.3. Một số đặc trưng cơ bản của ngôn điệu tiếng Việt

1.3.4. Tần số cơ bản F0

1.4. Giới thiệu về các hệ thống tài nguyên hạn chế

2. CHƯƠNG 2: TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN VÀ YÊU CẦU TRÊN HỆ THỐNG TÀI NGUYÊN HẠN CHẾ

2.1. Các thành phần cơ bản của hệ thống tổng hợp tiếng nói từ văn bản

2.1.1. Thành phần xử lý ngôn ngữ tự nhiên

2.1.1.1. Phân tích văn bản

2.1.1.2. Chuyển ký tự thành âm thanh

2.1.1.3. Sinh ngôn điệu

2.1.2. Thành phần xử tín hiệu số

2.2. Tổng hợp tiếng nói trên hệ thống hạn chế tài nguyên

2.3. Hệ tổng hợp tiếng nói HTS

2.4. Hệ tổng hợp tiếng Việt VnVoice

2.4.1. Mô tả hệ thống

2.4.2. Thay đổi cao độ tần số cơ bản với PSOLA

2.4.3. Làm trơn biên ghép nối các âm tiết

3. CHƯƠNG 3: TỐI ƯU HÓA LƯU TRỮ VÀ TÍNH TOÁN TÍN HIỆU TIẾNG NÓI CHO HỆ TỔNG HỢP VNVOICE

3.1. Lựa chọn hệ tổng hợp cơ sở

3.2. Một số phương pháp biểu diễn số

3.3. Nén tín hiệu tiếng của các bán âm tiết với ADPCM

3.4. Tối ưu tính toán thuật toán ghép nối tín hiệu

3.5. Sơ đồ quá trình sinh tiếng nói sau khi tối ưu

3.6. Cấu trúc CSDL âm thanh sau khi đã tối ưu

3.7. Cực tiểu hóa lưu trữ các đoạn âm thanh

3.8. Phân tích khả năng áp dụng giải pháp tối ưu cho việc xây dựng hệ thổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế

4. CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG VIỆT TRÊN HỆ THỐNG TÀI NGUYÊN BỘ NHỚ HẠN CHẾ

4.1. Xây dựng chương trình thử nghiệm

4.2. Quy trình hệ thống

4.3. Chức năng hệ thống

4.4. Các lớp tham gia usecase

4.5. Biểu đồ trình tự

4.6. Giao diện chương trình

4.7. Các điểm trong giải pháp được áp dụng trong VnPDA

4.8. Thử nghiệm khả năng tích hợp trên hệ thống tài nguyên hạn chế

4.9. So sánh chất lượng giọng tổng hợp giữa chương trình thử nghiệm với hệ tổng hợp VnVoice và phiên bản VnSpeech chạy trên nền tảng Window Mobile

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về phương pháp tổng hợp tiếng Việt cho hệ thống tài nguyên hạn chế

Phương pháp tổng hợp tiếng Việt cho hệ thống tài nguyên hạn chế đang trở thành một lĩnh vực nghiên cứu quan trọng. Nhu cầu phát triển các hệ thống này ngày càng tăng, đặc biệt trong bối cảnh công nghệ thông tin phát triển mạnh mẽ. Việc tổng hợp tiếng nói từ văn bản không chỉ giúp cải thiện giao tiếp mà còn hỗ trợ nhiều ứng dụng thực tiễn trong đời sống. Các nhà nghiên cứu đã chỉ ra rằng, việc xây dựng hệ thống tổng hợp tiếng nói hiệu quả cần phải dựa trên các phương pháp khoa học và công nghệ tiên tiến.

1.1. Giới thiệu về tổng hợp tiếng nói và hệ thống tài nguyên hạn chế

Tổng hợp tiếng nói là quá trình chuyển đổi văn bản thành âm thanh. Hệ thống tài nguyên hạn chế thường gặp khó khăn trong việc xử lý và lưu trữ dữ liệu. Do đó, việc phát triển các phương pháp tổng hợp tiếng nói phù hợp với các hệ thống này là rất cần thiết.

1.2. Lịch sử phát triển tổng hợp tiếng nói tại Việt Nam

Việt Nam đã có những bước tiến đáng kể trong nghiên cứu tổng hợp tiếng nói. Các hệ thống như VnVoice và VietVoice đã được phát triển, tuy nhiên vẫn còn nhiều thách thức cần vượt qua để đạt được chất lượng tự nhiên hơn.

II. Vấn đề và thách thức trong tổng hợp tiếng Việt cho hệ thống hạn chế

Mặc dù đã có nhiều tiến bộ, nhưng việc tổng hợp tiếng Việt vẫn gặp phải nhiều thách thức. Đặc điểm ngôn ngữ và âm vị của tiếng Việt phức tạp, điều này gây khó khăn cho việc phát triển các hệ thống tổng hợp tiếng nói. Hơn nữa, các hệ thống tài nguyên hạn chế thường có giới hạn về bộ nhớ và khả năng tính toán, điều này càng làm tăng độ khó cho việc triển khai.

2.1. Đặc điểm ngôn ngữ tiếng Việt và ảnh hưởng đến tổng hợp

Tiếng Việt là ngôn ngữ đơn âm đa thanh điệu, điều này tạo ra nhiều thách thức trong việc tổng hợp. Các âm vị và ngữ điệu cần được xử lý một cách chính xác để đảm bảo chất lượng âm thanh.

2.2. Giới hạn của hệ thống tài nguyên hạn chế

Hệ thống tài nguyên hạn chế thường có bộ nhớ và khả năng tính toán thấp. Điều này yêu cầu các phương pháp tổng hợp phải tối ưu hóa để phù hợp với các điều kiện này.

III. Phương pháp tổng hợp tiếng Việt hiệu quả cho hệ thống hạn chế

Để giải quyết các thách thức trong tổng hợp tiếng Việt, nhiều phương pháp đã được nghiên cứu và phát triển. Các phương pháp này không chỉ giúp cải thiện chất lượng âm thanh mà còn tối ưu hóa việc sử dụng tài nguyên hệ thống.

3.1. Tổng hợp theo cấu âm và ứng dụng

Phương pháp tổng hợp theo cấu âm sử dụng mô hình sinh học để tạo ra âm thanh. Mặc dù còn nhiều hạn chế, nhưng đây là một trong những phương pháp hứa hẹn nhất cho tổng hợp tiếng nói tự nhiên.

3.2. Tổng hợp formant theo quy luật

Phương pháp này dựa trên việc phân tích âm thanh để tìm ra các quy luật tổng hợp. Nó cho phép tạo ra âm thanh gần giống với tiếng nói tự nhiên hơn, mặc dù vẫn cần cải thiện.

IV. Ứng dụng thực tiễn của tổng hợp tiếng Việt trong hệ thống hạn chế

Các ứng dụng của tổng hợp tiếng Việt trong hệ thống tài nguyên hạn chế rất đa dạng. Từ việc hỗ trợ người khuyết tật đến các ứng dụng trong giáo dục và truyền thông, tổng hợp tiếng nói đang ngày càng trở nên quan trọng.

4.1. Hỗ trợ người khuyết tật và giáo dục

Hệ thống tổng hợp tiếng nói có thể giúp người mù tiếp cận thông tin dễ dàng hơn. Ngoài ra, nó cũng hỗ trợ trong việc học ngoại ngữ cho người nước ngoài.

4.2. Ứng dụng trong truyền thông và giải trí

Tổng hợp tiếng nói được sử dụng trong các ứng dụng đọc sách điện tử và các trò chơi, giúp nâng cao trải nghiệm người dùng.

V. Kết luận và tương lai của tổng hợp tiếng Việt cho hệ thống hạn chế

Tổng hợp tiếng Việt cho hệ thống tài nguyên hạn chế đang trên đà phát triển. Mặc dù còn nhiều thách thức, nhưng với sự nỗ lực của các nhà nghiên cứu, tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều thành tựu đáng kể.

5.1. Triển vọng nghiên cứu và phát triển

Nghiên cứu về tổng hợp tiếng nói sẽ tiếp tục được mở rộng, với mục tiêu cải thiện chất lượng và khả năng ứng dụng trong thực tiễn.

5.2. Tích hợp công nghệ mới vào tổng hợp tiếng nói

Việc áp dụng các công nghệ mới như trí tuệ nhân tạo và học máy sẽ giúp nâng cao hiệu quả của các hệ thống tổng hợp tiếng nói trong tương lai.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu các phương pháp tổng hợp tiếng việt cho hệ thống có tài nguyên hạn chế

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tổng hợp tiếng nói là lĩnh vực khoa học nghiên cứu việc tạo ra tiếng nói từ văn bản hoặc các mã hóa phát âm, đóng vai trò quan trọng trong giao tiếp giữa người và máy. Trên thế giới, công nghệ tổng hợp tiếng nói đã phát triển mạnh mẽ, tuy nhiên việc ứng dụng trên các hệ thống có tài nguyên hạn chế như thiết bị di động cầm tay, hệ thống nhúng vẫn còn nhiều thách thức do giới hạn về bộ nhớ và năng lực tính toán. Ở Việt Nam, nhu cầu phát triển các hệ thống tổng hợp tiếng Việt trên nền tảng tài nguyên hạn chế ngày càng tăng, đặc biệt trong các ứng dụng như trợ giúp người tàn tật, học ngoại ngữ, truyền thông đa phương tiện và viễn thông. Mục tiêu nghiên cứu của luận văn là khảo sát, phân tích các phương pháp tổng hợp tiếng Việt hiện có và đề xuất các giải pháp tối ưu hóa lưu trữ và tính toán nhằm xây dựng hệ thống tổng hợp tiếng Việt hiệu quả trên các nền tảng có tài nguyên hạn chế. Phạm vi nghiên cứu tập trung vào các phương pháp tổng hợp tiếng nói từ văn bản, đặc biệt là hệ thống VnVoice và HTS, với dữ liệu và thử nghiệm thực hiện tại Việt Nam trong giai đoạn từ năm 2010 đến 2011. Ý nghĩa nghiên cứu được thể hiện qua việc nâng cao chất lượng giọng tổng hợp, giảm thiểu bộ nhớ sử dụng và chi phí tính toán, từ đó mở rộng khả năng ứng dụng trong các thiết bị di động và hệ thống nhúng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực tổng hợp tiếng nói, bao gồm:

Phương pháp tổng hợp ghép nối (Concatenative Synthesis): Sử dụng các đoạn âm thanh đã ghi âm sẵn làm đơn vị tổng hợp, với kỹ thuật PSOLA để điều chỉnh cao độ và độ dài, đảm bảo chất lượng giọng tự nhiên và mượt mà.
Phương pháp tổng hợp dựa trên thống kê (Statistical Parametric Synthesis): Sử dụng mô hình ẩn Markov (HMM) để mô hình hóa các đặc trưng phổ và tần số cơ bản F0, điển hình là hệ thống HTS, cho phép tổng hợp tiếng nói với kích thước mô hình nhỏ và khả năng điều chỉnh giọng nói linh hoạt.
Khái niệm chuyên ngành: Âm vị, âm tiết, thanh điệu, tần số cơ bản F0, formant, PSOLA, ADPCM, HMM, HTS, LPC, SOC, FPGA.
Mô hình xử lý ngôn ngữ tự nhiên: Bao gồm chuẩn hóa văn bản, chuyển ký tự thành âm vị, sinh ngôn điệu và phân tích cú pháp hình vị.
Mô hình xử lý tín hiệu số: Chuyển đổi các tham số ngôn ngữ thành tín hiệu âm thanh, sử dụng các thuật toán mã hóa và giải mã như ADPCM để tối ưu lưu trữ.

Phương pháp nghiên cứu

Luận văn sử dụng phương pháp nghiên cứu kết hợp giữa phân tích lý thuyết, khảo sát thực nghiệm và phát triển hệ thống thử nghiệm:

Nguồn dữ liệu: Cơ sở dữ liệu tiếng nói tiếng Việt gồm 22 phụ âm đầu và 800 vần có thanh điệu, dữ liệu huấn luyện cho hệ thống HTS với 567 câu.
Phương pháp phân tích: So sánh ưu nhược điểm của các hệ thống tổng hợp tiếng nói hiện có (VnVoice, HTS, VnSpeech), đánh giá chất lượng giọng tổng hợp qua thang điểm MOS, phân tích yêu cầu tài nguyên bộ nhớ và tính toán.
Phương pháp tối ưu: Áp dụng kỹ thuật nén tín hiệu ADPCM 4 bit để giảm kích thước lưu trữ dữ liệu âm thanh, sử dụng biểu diễn số dấu phảy tĩnh để giảm chi phí tính toán trên hệ thống hạn chế tài nguyên.
Timeline nghiên cứu: Nghiên cứu và phát triển từ năm 2010 đến 2011, bao gồm khảo sát lý thuyết, xây dựng mô hình, tối ưu hóa thuật toán và thử nghiệm trên các nền tảng hạn chế tài nguyên.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Chất lượng giọng tổng hợp: Hệ thống VnVoice và HTS cho chất lượng giọng tổng hợp tốt với điểm MOS trung bình trên 4.0, trong khi VnSpeech có chất lượng thấp hơn đáng kể, không phù hợp cho ứng dụng trên hệ thống tài nguyên hạn chế.
Kích thước bộ nhớ: Bộ mô hình HTS sau huấn luyện có kích thước khoảng 1MB, phù hợp với các thiết bị có bộ nhớ hạn chế. CSDL âm thanh của VnVoice ban đầu khoảng 5MB, sau khi nén bằng ADPCM 4 bit giảm xuống còn khoảng 1.25MB, giảm 75% dung lượng lưu trữ.
Chi phí tính toán: Phương pháp PSOLA trong VnVoice có chi phí tính toán thấp, phù hợp với các thiết bị có năng lực xử lý trung bình và thấp. Biểu diễn số dấu phảy tĩnh giúp giảm đáng kể thời gian xử lý so với biểu diễn dấu phảy động.
Tính khả thi trên hệ thống hạn chế: Việc tối ưu lưu trữ và tính toán cho phép tích hợp hệ thống tổng hợp tiếng Việt trên các thiết bị di động cầm tay và hệ thống nhúng với bộ nhớ từ vài MB đến vài chục MB và tốc độ xử lý từ 24MHz đến 80MHz.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy phương pháp tổng hợp ghép nối với kỹ thuật PSOLA là lựa chọn phù hợp cho các hệ thống tài nguyên hạn chế nhờ khả năng giữ chất lượng giọng tự nhiên và chi phí tính toán thấp. Việc sử dụng nén ADPCM 4 bit giúp giảm đáng kể dung lượng lưu trữ, tuy có ảnh hưởng nhẹ đến chất lượng âm thanh nhưng vẫn đảm bảo độ nghe hiểu. So sánh với phương pháp tổng hợp dựa trên HMM (HTS), mặc dù HTS có ưu điểm về kích thước mô hình nhỏ và khả năng điều chỉnh giọng nói, nhưng chất lượng giọng khi tổng hợp các từ, âm tiết ngắn chưa đạt yêu cầu cao cho các ứng dụng thực tế trên thiết bị hạn chế tài nguyên. Việc áp dụng biểu diễn số dấu phảy tĩnh thay vì dấu phảy động giúp giảm chi phí tính toán, phù hợp với các vi điều khiển và vi xử lý nhúng không hỗ trợ phép toán dấu phảy động. Các biểu đồ so sánh điểm MOS, kích thước bộ nhớ và thời gian xử lý minh họa rõ sự ưu việt của giải pháp tối ưu hóa trên hệ thống VnVoice. Kết quả này phù hợp với các nghiên cứu quốc tế về tổng hợp tiếng nói trên nền tảng tài nguyên hạn chế, đồng thời đáp ứng các yêu cầu đặc thù của tiếng Việt như hệ thống thanh điệu phức tạp và cấu trúc âm tiết chặt chẽ.

Đề xuất và khuyến nghị

Áp dụng nén ADPCM 4 bit cho dữ liệu âm thanh: Giảm dung lượng lưu trữ CSDL âm thanh xuống còn khoảng 25% so với dữ liệu gốc, giúp tiết kiệm bộ nhớ trên các thiết bị hạn chế tài nguyên. Thời gian thực hiện: 3-6 tháng. Chủ thể thực hiện: nhóm phát triển phần mềm tổng hợp tiếng nói.
Sử dụng biểu diễn số dấu phảy tĩnh trong tính toán: Giảm chi phí tính toán và tăng tốc độ xử lý trên các vi điều khiển và vi xử lý nhúng không hỗ trợ dấu phảy động. Thời gian thực hiện: 2-4 tháng. Chủ thể thực hiện: nhóm phát triển thuật toán xử lý tín hiệu.
Tối ưu thuật toán PSOLA và làm trơn biên ghép nối: Đảm bảo chất lượng giọng tổng hợp tự nhiên, giảm hiện tượng gián đoạn âm thanh khi ghép nối các đơn vị âm. Thời gian thực hiện: 4-6 tháng. Chủ thể thực hiện: nhóm nghiên cứu xử lý tín hiệu số.
Phát triển hệ thống thử nghiệm tích hợp trên nền tảng di động và nhúng: Kiểm tra khả năng tích hợp và hiệu năng thực tế của hệ thống tổng hợp tiếng Việt trên các thiết bị có bộ nhớ từ 4MB đến 64MB và tốc độ xử lý từ 24MHz đến 80MHz. Thời gian thực hiện: 6-9 tháng. Chủ thể thực hiện: nhóm phát triển phần mềm và phần cứng.
Nâng cao chất lượng sinh ngôn điệu: Tích hợp các mô hình dự báo ngôn điệu chính xác hơn để cải thiện tính tự nhiên và biểu cảm của giọng tổng hợp. Thời gian thực hiện: 6-12 tháng. Chủ thể thực hiện: nhóm nghiên cứu ngôn ngữ học và xử lý ngôn ngữ tự nhiên.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển công nghệ xử lý tiếng nói: Luận văn cung cấp kiến thức chuyên sâu về các phương pháp tổng hợp tiếng nói, kỹ thuật tối ưu hóa lưu trữ và tính toán trên hệ thống tài nguyên hạn chế, hỗ trợ phát triển các sản phẩm mới.
Kỹ sư phát triển phần mềm nhúng và di động: Tham khảo các giải pháp tối ưu bộ nhớ và thuật toán xử lý tín hiệu phù hợp với các thiết bị có giới hạn tài nguyên, giúp cải thiện hiệu năng và chất lượng sản phẩm.
Chuyên gia ngôn ngữ học ứng dụng: Hiểu rõ đặc điểm ngữ âm, ngữ điệu tiếng Việt và cách thức áp dụng vào tổng hợp tiếng nói, phục vụ cho nghiên cứu và phát triển các ứng dụng ngôn ngữ tự nhiên.
Doanh nghiệp phát triển sản phẩm trợ giúp người khuyết tật và giáo dục: Áp dụng hệ thống tổng hợp tiếng Việt chất lượng cao trên các thiết bị di động, hỗ trợ người khiếm thị, người mất khả năng nói và học sinh học ngoại ngữ.

Câu hỏi thường gặp

Tại sao cần tối ưu hóa lưu trữ và tính toán cho hệ thống tổng hợp tiếng nói?
Hệ thống tổng hợp tiếng nói thường yêu cầu bộ nhớ lớn và tính toán phức tạp. Trên các thiết bị có tài nguyên hạn chế như điện thoại di động hay hệ thống nhúng, việc tối ưu giúp giảm dung lượng lưu trữ và tăng tốc độ xử lý, đảm bảo hệ thống hoạt động hiệu quả và tiết kiệm năng lượng.
Phương pháp PSOLA có ưu điểm gì trong tổng hợp tiếng nói?
PSOLA thao tác trực tiếp trên tín hiệu dạng sóng, cho phép điều chỉnh cao độ và độ dài âm thanh mà không làm mất đặc trưng phổ, giúp tạo ra giọng tổng hợp tự nhiên với chi phí tính toán thấp, phù hợp cho các hệ thống hạn chế tài nguyên.
ADPCM giúp giảm dung lượng lưu trữ như thế nào?
ADPCM mã hóa tín hiệu âm thanh bằng cách lưu trữ sai khác giữa các mẫu liên tiếp với số bit thấp hơn so với PCM gốc. Việc sử dụng ADPCM 4 bit thay vì PCM 16 bit giúp giảm dung lượng lưu trữ xuống còn khoảng 25%, tiết kiệm bộ nhớ đáng kể.
Tại sao biểu diễn số dấu phảy tĩnh được ưu tiên trên hệ thống hạn chế tài nguyên?
Các vi điều khiển và vi xử lý nhúng thường không hỗ trợ phép toán dấu phảy động hoặc có chi phí tính toán cao. Biểu diễn dấu phảy tĩnh cho phép thực hiện các phép toán số học nhanh hơn, đơn giản hơn, phù hợp với giới hạn phần cứng.
Hệ thống tổng hợp tiếng nói VnVoice và HTS khác nhau như thế nào?
VnVoice sử dụng phương pháp tổng hợp ghép nối với cơ sở dữ liệu âm thanh lớn, cho chất lượng giọng tự nhiên và phù hợp với các từ, cụm từ ngắn. HTS dựa trên mô hình HMM, có kích thước mô hình nhỏ, dễ dàng điều chỉnh giọng nói nhưng chất lượng giọng khi tổng hợp các từ ngắn chưa cao bằng VnVoice.

Kết luận

Luận văn đã phân tích và đánh giá các phương pháp tổng hợp tiếng Việt phù hợp với hệ thống tài nguyên hạn chế, lựa chọn hệ thống VnVoice làm cơ sở để tối ưu hóa.
Áp dụng kỹ thuật nén ADPCM 4 bit và biểu diễn số dấu phảy tĩnh giúp giảm đáng kể dung lượng lưu trữ và chi phí tính toán, phù hợp với các thiết bị di động và hệ thống nhúng.
Kỹ thuật PSOLA và làm trơn biên ghép nối đảm bảo chất lượng giọng tổng hợp tự nhiên, đáp ứng yêu cầu nghe hiểu và biểu cảm.
Hệ thống thử nghiệm tích hợp thành công trên nền tảng hạn chế tài nguyên, mở rộng khả năng ứng dụng trong nhiều lĩnh vực như trợ giúp người khuyết tật, giáo dục và viễn thông.
Đề xuất các giải pháp tiếp theo tập trung nâng cao chất lượng ngôn điệu và mở rộng phạm vi ứng dụng, kêu gọi các nhà nghiên cứu và doanh nghiệp cùng hợp tác phát triển công nghệ tổng hợp tiếng Việt trên nền tảng tài nguyên hạn chế.

Khuyến khích triển khai thử nghiệm thực tế trên các thiết bị di động phổ biến, đồng thời phát triển các công cụ hỗ trợ tích hợp và đánh giá chất lượng giọng tổng hợp trong môi trường thực tế.

Trích đoạn nội dung tài liệu

mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang tính độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong âm tiết. Đặc điểm âm đầu  Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật trên lối ra của đường không khí.

Điểm có chướng ngại gọi là vị trí cấu âm.  Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ thịt ở vị trí cấu âm.  Luồng hơi ra mạnh. Phân loại  Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu tạo của âm đầu Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh nhiều hơn tiếng ồn) và phụ âm ồn.

Trong các phụ âm ồn lại chia thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh do dây thanh rung động) và phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh). Nhóm phụ âm vang có thể coi là nhóm trung gian giữa các nguyên âm và phụ âm ồn. Khi phát âm các phụ âm vang, chướng ngại được tạo thành nhưng có thể là chỗ tắc yếu hoặc không khí không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự do qua mũi (như các phụ âm [m], [n] trong tiếng Việt). LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - 18 -  Phân chia theo phương thức cấu tạo tiếng ồn  Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản trở hoàn toàn lối ra của luồng không khí.

Ví dụ như các phụ âm [p], [b], [d], [t].  Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra của luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành của bộ máy phát âm. Ví dụ, các phụ âm [v], [s], [h].  Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, luồng không khí đi ra mạnh làm cho các khí quản ấy rung lên.

Ví dụ phụ âm [r]. Trong các cấu âm của phụ âm, người ta thường phân biệt ba giai đoạn:  Giai đoạn tiến: khí quản phát âm chuyển đến vị trí cấu âm  Giai đoạn giữ: khí quản phát âm ở vị trí cấu âm  Giai đoạn lùi: khí quản phát âm rời khỏi vị trí cấu âm Hai giai đoạn đầu giống nhau ở bất kỳ âm tắc nào. Về giai đoạn thứ ba, cần phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc-xát và âm khép  Phân chia theo vị trí tạo ra tiếng ồn Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính: phụ âm môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu. Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi, lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu.

Trong các nhóm này, có một số cần chia nhỏ nữa. Ví dụ trong các âm môi, người ta phân biệt các âm hai môi, thường gọi là âm môi- môi ([b], [p], [m]). Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm quặt lưỡi,. Âm đệm Đóng vai trò là âm lướt trong kết cấu âm tiết.

Âm đệm ảnh hưởng đến cách mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi do không có âm đệm. LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Âm chính Là nguyên âm âm tiết tính trong âm tiết.

Âm tiết chính có thể là một nguyên âm đơn hay nguyên âm đôi. Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê, o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là yếu tố tạo nên đỉnh âm thanh, có biên độ và cường độ lớn nhất trong các thành phần âm tiết. Đặc điểm  Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi  Bộ máy phát âm căng thẳng toàn bộ  Luồng hơi ra yếu hơn phụ âm Phân loại Các nguyên âm không thể phân chia theo tiêu chuẩn như của phụ âm.

Về mặt phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra tự do. Nguyên âm không có vị trí cấu âm vì các khí quản không tạo thành khe, cũng không tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh, vì bình thường, bất kỳ nguyên âm nào cũng có tiếng thanh. Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong đó quan trọng nhất là lưỡi.

Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa các nguyên âm. Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và tạo nên những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về trước, làm kéo dài lối thoát của luồng không khí, hoặc môi chành ra, làm cộng minh trường phía trước ngắn lại. Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi và hình dáng môi  Theo vị trí của lưỡi Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng nâng lên).

Ví dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u], [o], [ô], nguyên âm dòng giữa là [ư], [ơ], [a].  Theo độ nâng của lưỡi Các nguyên âm được chia tùy theo từng ngôn ngữ. Độ nâng của lưỡi tương ứng với độ mở của miệng nên các nguyên âm có độ nâng cao còn gọi là nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở. Trong ngữ âm học đại cương không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - 20 - ngôn ngữ có một hệ thống nguyên âm khác nhau.

Ví dụ, các nguyên âm dòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong tiếng Ðức có 5 độ nâng, tiếng Nga có 3 độ nâng, tiếng Anh có 6 độ nâng. Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 nâng: Bảng 1.1: Phân chia nguyên âm theo độ nâng của lưỡi. Ðộ nâng Gồm các nguyên âm Hẹp [i], [u], … Hơi hẹp [ê], [u], … Hơi rộng [o], [e], … Rộng [a], [a], …  Theo hình dáng môi Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]). Sự tròn môi rõ nhất ở nguyên âm khép và yếu nhất ở nguyên âm mở.

Âm cuối Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: má, đi, cho,. Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng,.

Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm. Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ âm /m, n, ng (nh), p, t, c/. Thanh điệu Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu thanh của âm tiết. Ở mức vật lý, phần thanh của thanh điệu chính là đường nét của tần số âm cơ bản F0.

Về cảm thụ, thanh điệu là sự cảm nhận về thay đổi của cao đọ tần số cơ bản F0 của âm tiết. Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc. Thanh không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương đối đơn giản. Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh điệu phức tạp.

Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm huyền, hỏi và nặng thuộc âm vực thấp. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - 21 - Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống nhất. Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo thành hệ thống các đặc trưng phụ để phân biệt các thanh điệu đặc biệt của thanh ngã và sắc, thanh hỏi, thanh nặng. Phân loại âm tiết tiếng Việt Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại như trong bảng 1.2: Phân loại âm tiết tiếng Việt.

STT Loại âm tiết Đặc điểm Ví dụ Là các loại âm tiết không có âm cuối, kết 1 Âm mở Ma, mẹ, … thúc âm tiết bằng nguyên âm chính âm cuối kết thúc âm tiết là một bán nguyên 2 Âm nửa mở Mai, sau,. âm 3 Âm đóng Khi âm cuối là một phụ âm tắc vô thanh Tập, học,. 4 Âm nửa đóng Khi âm cuối là một phụ âm mũi Làm, ngành,. Một số đặc trưng cơ bản của ngôn điệu tiếng Việt 1.

Tần số cơ bản F0 Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như tuần hoàn). Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của dây thanh. Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau.

Dưới đây là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi: Giá trị tần số cơ bản Người nói 80 – 200 Hz Nam giới 150 – 450 Hz Phụ nữ 200 – 600 Hz Trẻ em LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1: Đường F0 trong câu tổng hợp ”chỉ biết mình là con riêng”. Trường độ Trường độ (duration) của âm vị là độ dài của đoạn sóng tiếng nói tương ứng với âm vị tính theo thời gian.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử lý ngôn ngữ tự nhiên tiếng Việt

Xử lý tiếng nói và âm thanh

công nghệ phần mềm ứng dụng