Luận văn thạc sĩ về nâng cao chất lượng tổng hợp tiếng Việt và phần mềm VnVoice

Luận văn thạc sĩ VNU UET nghiên cứu phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm phần mềm VNVoice trong công nghệ thông tin.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2007

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI

1.1. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói

1.2. Đặc điểm ngữ âm tiếng Việt

1.3. Âm chính

1.4. Một số đặc trưng của âm vị về mặt âm học

1.5. Các phương pháp tổng hợp tiếng nói

1.5.1. Tổng hợp theo cấu âm

1.5.2. Tổng hợp formant theo quy luật

1.5.3. Tổng hợp ghép nối

1.5.4. Tổng hợp xích chuỗi

1.6. Đánh giá các phương pháp tổng hợp tiếng nói

2. CHƯƠNG 2: CÁC THÀNH PHẦN CƠ BẢN CỦA HỆ TỔNG HỢP TIẾNG NÓI

2.1. Giới thiệu hệ tổng hợp tiếng nói

2.2. Thành phần xử lý ngôn ngữ tự nhiên

2.3. Phân tích văn bản

2.4. Chuyển ký tự thành âm thanh

2.5. Sinh ngôn điệu

2.6. Thành phần xử tín hiệu số

3. CHƯƠNG 3: MỘT SỐ PHƯƠNG PHÁP CẢI TIẾN CHẤT LƯỢNG GIỌNG TỔNG HỢP

3.1. Các phương pháp cải tiến chất lượng giọng tổng hợp

3.2. Mô hình trường độ

3.3. Thay đổi biên độ

3.4. Hiệu chỉnh đường tần số cơ bản

3.5. Sử dụng mô hình Fujisaki hiệu chỉnh đường F0

3.6. Mô hình Tilt

3.7. Phân lớp đường thanh điệu trong ngữ cảnh câu

4. CHƯƠNG 4: THỬ NGHIỆM CẢI TIẾN GIỌNG ĐỌC TỔNG HỢP TIẾNG VIỆT TRONG PHẦN MỀM VNVOICE

4.1. Đánh giá VnVoice và một số giọng tổng hợp tiếng Việt hiện nay

4.2. Một số hạn chế của VnVoice

4.3. Cơ sở dữ liệu tiếng nói

4.4. Đánh giá thực nghiệm

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nâng cao chất lượng tổng hợp tiếng Việt trong VnVoice

Nâng cao chất lượng tổng hợp tiếng Việt trong phần mềm VnVoice là một nhiệm vụ quan trọng trong lĩnh vực công nghệ thông tin. Việc cải thiện chất lượng giọng nói tổng hợp không chỉ giúp nâng cao trải nghiệm người dùng mà còn mở rộng khả năng ứng dụng của phần mềm trong nhiều lĩnh vực khác nhau. Đặc biệt, với sự phát triển của công nghệ AI, việc tối ưu hóa chất lượng âm thanh trở nên khả thi hơn bao giờ hết.

1.1. Giới thiệu về phần mềm VnVoice và ứng dụng của nó

VnVoice là phần mềm tổng hợp tiếng nói được phát triển nhằm phục vụ cho nhiều mục đích khác nhau, từ giáo dục đến giải trí. Phần mềm này sử dụng công nghệ tiên tiến để chuyển đổi văn bản thành giọng nói tự nhiên, giúp người dùng dễ dàng tiếp cận thông tin.

1.2. Tầm quan trọng của chất lượng tổng hợp tiếng Việt

Chất lượng tổng hợp tiếng Việt ảnh hưởng trực tiếp đến khả năng giao tiếp của phần mềm. Một giọng nói tự nhiên và dễ nghe sẽ tạo ra sự thoải mái cho người dùng, từ đó nâng cao hiệu quả sử dụng phần mềm trong các ứng dụng thực tiễn.

II. Những thách thức trong việc nâng cao chất lượng tổng hợp tiếng Việt

Mặc dù đã có nhiều tiến bộ trong công nghệ tổng hợp tiếng nói, nhưng vẫn còn nhiều thách thức cần phải vượt qua. Các vấn đề như độ tự nhiên của giọng nói, khả năng nhận diện ngữ điệu và các yếu tố ngữ âm đặc trưng của tiếng Việt vẫn đang là những vấn đề nan giải.

2.1. Đặc điểm ngữ âm tiếng Việt và ảnh hưởng đến tổng hợp giọng nói

Tiếng Việt là một ngôn ngữ đơn âm đa thanh điệu, điều này tạo ra nhiều khó khăn trong việc tổng hợp giọng nói tự nhiên. Các yếu tố như thanh điệu và âm vị cần được xử lý một cách chính xác để đảm bảo chất lượng âm thanh.

2.2. Các yếu tố kỹ thuật ảnh hưởng đến chất lượng tổng hợp

Chất lượng tổng hợp tiếng nói còn phụ thuộc vào nhiều yếu tố kỹ thuật như bộ dữ liệu âm thanh, thuật toán xử lý ngôn ngữ tự nhiên và khả năng tối ưu hóa các tham số trong quá trình tổng hợp.

III. Phương pháp cải tiến chất lượng tổng hợp tiếng Việt trong VnVoice

Để nâng cao chất lượng tổng hợp tiếng Việt, nhiều phương pháp đã được nghiên cứu và áp dụng. Các phương pháp này không chỉ tập trung vào cải thiện âm thanh mà còn tối ưu hóa quy trình tổng hợp để đạt được kết quả tốt nhất.

3.1. Sử dụng công nghệ AI trong tổng hợp tiếng nói

Công nghệ AI giúp cải thiện khả năng nhận diện và tổng hợp giọng nói tự nhiên hơn. Việc áp dụng các mô hình học sâu có thể tạo ra giọng nói gần gũi với con người hơn.

3.2. Cải tiến thuật toán tổng hợp giọng nói

Các thuật toán mới như mô hình Fujisaki và Tilt đã được áp dụng để cải thiện độ tự nhiên và tính chính xác của giọng nói tổng hợp, giúp người dùng có trải nghiệm tốt hơn.

IV. Ứng dụng thực tiễn của VnVoice trong giáo dục và đời sống

VnVoice không chỉ được sử dụng trong lĩnh vực giáo dục mà còn có nhiều ứng dụng khác trong đời sống hàng ngày. Việc nâng cao chất lượng tổng hợp tiếng Việt sẽ mở ra nhiều cơ hội mới cho phần mềm này.

4.1. Ứng dụng trong giáo dục

Phần mềm VnVoice có thể hỗ trợ học sinh và sinh viên trong việc học ngoại ngữ, giúp họ cải thiện kỹ năng nghe và phát âm thông qua giọng nói tổng hợp tự nhiên.

4.2. Ứng dụng trong công nghệ thông tin

VnVoice có thể được tích hợp vào các hệ thống thông tin, giúp cải thiện khả năng giao tiếp giữa người và máy, từ đó nâng cao hiệu quả làm việc.

V. Kết luận và tương lai của tổng hợp tiếng Việt trong VnVoice

Tương lai của tổng hợp tiếng Việt trong phần mềm VnVoice rất hứa hẹn với sự phát triển không ngừng của công nghệ. Việc cải thiện chất lượng tổng hợp sẽ không chỉ mang lại lợi ích cho người dùng mà còn góp phần vào sự phát triển của ngành công nghệ thông tin tại Việt Nam.

5.1. Triển vọng phát triển công nghệ tổng hợp tiếng nói

Với sự phát triển của công nghệ AI và các nghiên cứu mới, chất lượng tổng hợp tiếng nói sẽ ngày càng được cải thiện, mở ra nhiều cơ hội mới cho các ứng dụng thực tiễn.

5.2. Tầm quan trọng của nghiên cứu và phát triển

Nghiên cứu và phát triển trong lĩnh vực tổng hợp tiếng nói cần được chú trọng hơn nữa để đáp ứng nhu cầu ngày càng cao của người dùng và thị trường.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng việt và thử nghiệm cho phần mềm vnvoice luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và truyền thông, tổng hợp tiếng nói trở thành một lĩnh vực nghiên cứu quan trọng, đặc biệt với ngôn ngữ tiếng Việt – một ngôn ngữ đơn âm đa thanh điệu có cấu trúc âm tiết chặt chẽ. Theo ước tính, chất lượng tổng hợp tiếng Việt hiện nay mới chỉ đạt mức độ đọc rõ ràng, chưa đáp ứng được yêu cầu về tính tự nhiên và trôi chảy như tiếng nói con người. Vấn đề này trở nên cấp thiết khi các ứng dụng thực tế như trợ giúp người tàn tật, học ngoại ngữ, truyền thông tin bằng âm thanh, và viễn thông ngày càng đòi hỏi giọng tổng hợp phải tự nhiên và dễ nghe.

Luận văn thạc sĩ này tập trung nghiên cứu một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt, đặc biệt thử nghiệm trên phần mềm tổng hợp tiếng Việt VnVoice. Mục tiêu cụ thể là cải tiến các kỹ thuật xử lý ngôn điệu, điều chỉnh tần số cơ bản (F0), năng lượng, trường độ và làm trơn các điểm ghép nối trong tổng hợp ghép nối đơn vị. Nghiên cứu được thực hiện trong phạm vi tiếng Việt chuẩn miền Bắc, với dữ liệu thu thập và thử nghiệm trong khoảng thời gian từ năm 2005 đến 2007 tại Hà Nội.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao chất lượng giọng tổng hợp, góp phần phát triển các ứng dụng công nghệ tiếng nói trong nước, đồng thời tạo nền tảng cho các nghiên cứu tiếp theo về xử lý tiếng nói tiếng Việt. Các chỉ số đánh giá như Mean Opinion Score (MOS) và độ tự nhiên của giọng tổng hợp được cải thiện rõ rệt, mở rộng khả năng ứng dụng trong giáo dục, y tế và viễn thông.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu tổng hợp tiếng nói hiện đại, trong đó nổi bật là:

Mô hình tổng hợp ghép nối (Concatenative Synthesis): Phương pháp này sử dụng các đơn vị âm thanh đã ghi âm sẵn (âm vị, diphone, triphone) để ghép nối tạo thành tiếng nói tổng hợp. Ưu điểm là giọng nói tự nhiên hơn so với tổng hợp theo luật, nhưng đòi hỏi cơ sở dữ liệu lớn và kỹ thuật làm trơn biên ghép nối phức tạp.
Mô hình xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP): Bao gồm các bước chuẩn hóa văn bản, chuyển ký tự thành âm vị, phân tích ngữ cảnh và sinh ngôn điệu. Đây là nền tảng để tạo ra các tham số điều khiển cho bộ tổng hợp tiếng nói.
Mô hình điều khiển ngôn điệu và tần số cơ bản (F0 Modeling): Sử dụng các kỹ thuật như mô hình Fujisaki, mô hình Tilt, và phân lớp đường thanh điệu để mô phỏng chính xác các đặc trưng ngôn điệu của tiếng Việt, bao gồm thanh điệu và ngữ điệu câu.

Các khái niệm chính được sử dụng gồm: âm vị, diphone, formant, tần số cơ bản (F0), ngôn điệu, thanh điệu, trường độ, và các thuật toán làm trơn ghép nối.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp thực nghiệm kết hợp phân tích lý thuyết và thử nghiệm trên phần mềm VnVoice. Cụ thể:

Nguồn dữ liệu: Cơ sở dữ liệu tiếng nói chuẩn miền Bắc gồm các đoạn ghi âm được phân đoạn thành các đơn vị âm vị, diphone, triphone. Dữ liệu được thu thập và xử lý trong giai đoạn 2005-2007 tại Hà Nội.
Phương pháp phân tích: Sử dụng kỹ thuật xử lý tín hiệu số để phân tích phổ, xác định tần số formant, băng thông formant, và tần số cơ bản F0. Áp dụng thuật toán PSOLA và TD-PSOLA để làm trơn và điều chỉnh các tham số siêu đoạn tính.
Phương pháp thử nghiệm: Thử nghiệm các kỹ thuật cải tiến như hiệu chỉnh đường F0 theo mô hình Fujisaki, điều chỉnh biên độ, thay đổi trường độ, và phân lớp đường thanh điệu trong ngữ cảnh câu. Đánh giá chất lượng giọng tổng hợp qua các chỉ số MOS và phản hồi người dùng.
Timeline nghiên cứu: Nghiên cứu được thực hiện trong vòng 2 năm, bao gồm giai đoạn thu thập dữ liệu, phát triển thuật toán, thử nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Cải tiến chất lượng giọng tổng hợp qua điều chỉnh ngôn điệu: Việc áp dụng mô hình Fujisaki để hiệu chỉnh đường tần số cơ bản F0 giúp giọng tổng hợp đạt độ tự nhiên cao hơn, với mức tăng MOS trung bình khoảng 15% so với phiên bản chưa hiệu chỉnh.
Hiệu quả của kỹ thuật làm trơn ghép nối: Sử dụng thuật toán nội suy tuyến tính và kỹ thuật PSOLA làm giảm rõ rệt các gián đoạn biên độ và năng lượng tại điểm ghép nối, nâng cao tính mượt mà của giọng tổng hợp. Tỷ lệ lỗi ghép nối giảm khoảng 20% so với phương pháp truyền thống.
Ảnh hưởng của việc mở rộng cơ sở dữ liệu đơn vị âm: Mở rộng cơ sở dữ liệu từ âm vị lên diphone và triphone giúp tăng khả năng bao phủ ngữ cảnh, giảm sai lệch ngữ điệu và cải thiện độ tự nhiên của giọng nói tổng hợp. Tỷ lệ nhận diện và hiểu đúng câu tăng lên khoảng 10%.
Thử nghiệm trên phần mềm VnVoice: Các cải tiến được tích hợp vào phần mềm VnVoice 1 cho kết quả thực nghiệm khả quan, với giọng tổng hợp nghe tự nhiên hơn, rõ ràng hơn và phù hợp với đặc trưng thanh điệu tiếng Việt.

Thảo luận kết quả

Nguyên nhân chính của sự cải tiến là do việc mô hình hóa chính xác hơn các đặc trưng ngôn điệu và thanh điệu, vốn là yếu tố quyết định tính tự nhiên của tiếng Việt. So với các nghiên cứu trước đây chỉ tập trung vào tổng hợp theo luật hoặc tổng hợp ghép nối đơn giản, nghiên cứu này đã kết hợp hiệu quả các kỹ thuật xử lý ngôn ngữ tự nhiên và xử lý tín hiệu số.

Kết quả cũng phù hợp với các nghiên cứu quốc tế về tổng hợp tiếng nói, trong đó mô hình hóa ngôn điệu và làm trơn ghép nối được xem là yếu tố then chốt để nâng cao chất lượng giọng tổng hợp. Việc áp dụng mô hình Fujisaki và thuật toán PSOLA đã chứng minh tính khả thi và hiệu quả trong ngữ cảnh tiếng Việt.

Dữ liệu có thể được trình bày qua biểu đồ so sánh điểm MOS giữa các phiên bản phần mềm trước và sau cải tiến, cũng như bảng thống kê tỷ lệ lỗi ghép nối và mức độ bao phủ ngữ cảnh của cơ sở dữ liệu đơn vị âm.

Đề xuất và khuyến nghị

Xây dựng cơ sở dữ liệu đơn vị âm phong phú hơn: Mở rộng cơ sở dữ liệu từ diphone lên triphone hoặc đơn vị dài hơn để tăng khả năng bao phủ ngữ cảnh, giảm lỗi ghép nối và nâng cao tính tự nhiên của giọng tổng hợp. Chủ thể thực hiện: các trung tâm nghiên cứu và phát triển phần mềm tổng hợp tiếng nói. Thời gian: 1-2 năm.
Áp dụng mô hình ngôn điệu tiên tiến: Tiếp tục nghiên cứu và ứng dụng các mô hình ngôn điệu như Fujisaki, Tilt, kết hợp với kỹ thuật học máy để dự đoán và điều chỉnh ngôn điệu chính xác hơn. Chủ thể thực hiện: nhóm nghiên cứu ngôn ngữ học và xử lý tín hiệu. Thời gian: 1 năm.
Phát triển thuật toán làm trơn ghép nối hiệu quả: Nâng cao thuật toán làm trơn biên độ, năng lượng và trường độ tại điểm ghép nối, sử dụng các kỹ thuật nội suy và xử lý tín hiệu số hiện đại. Chủ thể thực hiện: kỹ sư phần mềm và chuyên gia xử lý tín hiệu. Thời gian: 6-12 tháng.
Tích hợp và thử nghiệm trên các nền tảng phần mềm: Đưa các cải tiến vào phần mềm tổng hợp tiếng Việt như VnVoice, tiến hành thử nghiệm thực tế với người dùng để đánh giá và điều chỉnh. Chủ thể thực hiện: nhà phát triển phần mềm và đơn vị thử nghiệm. Thời gian: 6 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển công nghệ tiếng nói: Luận văn cung cấp cơ sở lý thuyết và thực nghiệm về các phương pháp nâng cao chất lượng tổng hợp tiếng Việt, hỗ trợ phát triển các hệ thống tổng hợp tiếng nói trong nước.
Chuyên gia xử lý ngôn ngữ tự nhiên và xử lý tín hiệu số: Tài liệu chi tiết về mô hình ngôn điệu, kỹ thuật phân tích phổ và thuật toán làm trơn ghép nối giúp chuyên gia hiểu sâu và áp dụng trong các dự án tương tự.
Nhà phát triển phần mềm ứng dụng tiếng nói: Các giải pháp cải tiến được thử nghiệm trên phần mềm VnVoice có thể áp dụng để nâng cao chất lượng sản phẩm, phục vụ các ứng dụng trợ giúp người tàn tật, học ngoại ngữ, viễn thông.
Giảng viên và sinh viên ngành công nghệ thông tin, ngôn ngữ học: Luận văn là tài liệu tham khảo quý giá cho các khóa học về xử lý tiếng nói, tổng hợp tiếng nói và ứng dụng công nghệ thông tin trong ngôn ngữ.

Câu hỏi thường gặp

Tại sao tổng hợp tiếng Việt khó hơn các ngôn ngữ khác?
Tiếng Việt là ngôn ngữ đơn âm đa thanh điệu với cấu trúc âm tiết chặt chẽ và hệ thống thanh điệu phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính. Điều này đòi hỏi mô hình tổng hợp phải xử lý chính xác các đặc trưng ngôn điệu và thanh điệu, làm tăng độ phức tạp so với các ngôn ngữ như tiếng Anh hay tiếng Trung.
Phương pháp tổng hợp ghép nối có ưu điểm gì?
Tổng hợp ghép nối sử dụng các đoạn tiếng nói đã ghi âm sẵn, giúp tạo ra giọng tổng hợp tự nhiên hơn so với tổng hợp theo luật. Tuy nhiên, nó yêu cầu cơ sở dữ liệu lớn và kỹ thuật làm trơn ghép nối phức tạp để tránh các gián đoạn âm thanh.
Mô hình Fujisaki được áp dụng như thế nào trong nghiên cứu?
Mô hình Fujisaki được sử dụng để mô phỏng và hiệu chỉnh đường tần số cơ bản F0, giúp tái tạo chính xác các đặc trưng ngôn điệu của tiếng Việt, từ đó nâng cao tính tự nhiên và biểu cảm của giọng tổng hợp.
Làm thế nào để giảm lỗi ghép nối trong tổng hợp tiếng nói?
Sử dụng các thuật toán làm trơn như nội suy tuyến tính, PSOLA và TD-PSOLA để điều chỉnh biên độ, năng lượng và trường độ tại điểm ghép nối, giúp các đoạn âm thanh liên kết mượt mà, giảm hiện tượng gián đoạn và vỡ tiếng.
Phần mềm VnVoice có thể ứng dụng trong những lĩnh vực nào?
VnVoice có thể được ứng dụng trong trợ giúp người tàn tật (đọc văn bản cho người mù), học ngoại ngữ, viễn thông (hệ thống trả lời tự động), truyền thông tin bằng âm thanh và các ứng dụng đa phương tiện khác, nhờ khả năng tổng hợp tiếng Việt với chất lượng ngày càng được cải thiện.

Kết luận

Luận văn đã nghiên cứu và thử nghiệm thành công một số phương pháp nâng cao chất lượng tổng hợp tiếng Việt, tập trung vào cải tiến ngôn điệu và làm trơn ghép nối trong phần mềm VnVoice.
Việc áp dụng mô hình Fujisaki và thuật toán PSOLA giúp giọng tổng hợp đạt độ tự nhiên và rõ ràng hơn, tăng MOS trung bình khoảng 15%.
Mở rộng cơ sở dữ liệu đơn vị âm từ âm vị lên diphone và triphone góp phần giảm lỗi ghép nối và nâng cao khả năng bao phủ ngữ cảnh.
Các giải pháp đề xuất có thể được triển khai trong vòng 1-2 năm, phù hợp với nhu cầu phát triển công nghệ tiếng nói trong nước.
Khuyến khích các nhà nghiên cứu, phát triển phần mềm và giảng viên ngành công nghệ thông tin, ngôn ngữ học tham khảo và ứng dụng kết quả nghiên cứu để thúc đẩy lĩnh vực tổng hợp tiếng Việt phát triển bền vững.

Đẩy mạnh hợp tác nghiên cứu đa ngành, mở rộng thử nghiệm thực tế và phát triển các ứng dụng tổng hợp tiếng Việt chất lượng cao phục vụ cộng đồng.

Trích đoạn nội dung tài liệu

mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi do không có âm đệm. Âm chính Là nguyên âm âm tiết tính trong âm tiết. Âm tiết chính có thể là một nguyên âm đơn hay nguyên âm đôi.

Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê, o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là yếu tố tạo nên đỉnh âm thanh, có biên độ và cường độ lớn nhất trong các thành phần âm tiết. Đặc điểm  Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi  Bộ máy phát âm căng thẳng toàn bộ  Luồng hơi ra yếu hơn phụ âm Phân loại Các nguyên âm không thể phân chia theo tiêu chuẩn như của phụ âm. Về mặt phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra tự do.

Nguyên âm không có vị trí cấu âm vì các khí quản không tạo thành khe, cũng không tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh, vì bình thường, bất kỳ nguyên âm nào cũng có tiếng thanh. Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong đó quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa các nguyên âm.

Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và tạo nên những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về trước, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 18 làm kéo dài lối thoát của luồng không khí, hoặc môi chành ra, làm cộng minh trường phía trước ngắn lại. Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi và hình dáng môi  Theo vị trí của lưỡi Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng nâng lên). Ví dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u], [o], [ô], nguyên âm dòng giữa là [ư], [ơ], [a].

 Theo độ nâng của lưỡi Các nguyên âm được chia tùy theo từng ngôn ngữ. Độ nâng của lưỡi tương ứng với độ mở của miệng nên các nguyên âm có độ nâng cao còn gọi là nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở. Trong ngữ âm học đại cương không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi ngôn ngữ có một hệ thống nguyên âm khác nhau. Ví dụ, các nguyên âm dòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong tiếng Ðức có 5 độ nâng, tiếng Nga có 3 độ nâng, tiếng Anh có 6 độ nâng.

Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 nâng: Bảng 1.1: Phân chia nguyên âm theo độ nâng của lưỡi. Ðộ nâng Gồm các nguyên âm Hẹp [i], [u], … Hơi hẹp [ê], [u], … Hơi rộng [o], [e], … Rộng [a], [a], …  Theo hình dáng môi Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]). Sự tròn môi rõ nhất ở nguyên âm khép và yếu nhất ở nguyên âm mở. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Âm cuối Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: má, đi, cho,. Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng,.

Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm. Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ âm /m, n, ng (nh), p, t, c/. Thanh điệu Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu thanh của âm tiết. Ở mức vật lý, phần thanh của thanh điệu chính là đường nét của tần số âm cơ bản F0.

Về cảm thụ, thanh điệu là sự cảm nhận về thay đổi của cao đọ tần số cơ bản F0 của âm tiết. Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc. Thanh không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương đối đơn giản. Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh điệu phức tạp.

Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm huyền, hỏi và nặng thuộc âm vực thấp. Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống nhất. Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo thành hệ thống các đặc trưng phụ để phân biệt các thanh điệu đặc biệt của thanh ngã và sắc, thanh hỏi, thanh nặng. *Phân loại âm tiết tiếng Việt Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại như trong bảng 1.2: Phân loại âm tiết tiếng Việt.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 20 STT Loại âm tiết Đặc điểm Ví dụ Là các loại âm tiết không có âm cuối, kết 1 Âm mở Ma, mẹ, … thúc âm tiết bằng nguyên âm chính âm cuối kết thúc âm tiết là một bán 2 Âm nửa mở Mai, sau,. nguyên âm 3 Âm đóng Khi âm cuối là một phụ âm tắc vô thanh Tập, học,. 4 Âm nửa đóng Khi âm cuối là một phụ âm mũi Làm, ngành,. Một số đặc trƣng của âm vị về mặt âm học Sự phân loại các âm vị về mặt âm học đã được xây dựng dựa trên âm phổ.

Các máy phân tích âm phổ cho chúng ta các ảnh phổ (spectrogram), qua đó các âm vị thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ,. Để biểu diễn phổ tiếng nói tại một thời điểm t, người ta dùng một biểu đồ với trục ngang biểu diễn các tần số (Hz) tham gia cấu âm thành âm thanh tại thời điểm t và trục đứng với cường độ tương ứng (dB).3: Phổ (spectrum) của một nguồn âm thanh tại thời điểm t. Để biểu diễn phổ tiếng nói theo sự biến thiên thời gian, người ta dùng ảnh phổ với trục ngang biểu diễn thời gian, trục đứng biểu diễn tần số, cường độ của LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 21 mỗi sóng có tần số fi tại thời điểm ti được biểu diễn bằng 1 chấm. Nếu cường độ càng mạnh thì chấm biểu diễn càng đậm.

Ngoài ra còn có thể biểu diễn ảnh phổ của tiếng nói theo sự biến thiên thời gian trong không gian 3 chiều. Khi đó, phổ thu được có dạng như thác nước và người ta gọi đó là ảnh phổ thác nước (Waterfall Spectrogram).4: Ảnh phổ của tiếng ”hai” và sóng âm tương ứng. Những vùng có cường độ cao (vùng đen) tạo thành những dải bắt ngang qua ảnh phổ, đó là những vệt formant, được đánh số từ dưới lên F1, F2, F3,. Dựa trên đặc điểm của ảnh phổ, âm vị được chia thành 12 đặc trưng sau:  Nguyên âm-không nguyên âm Đặc trưng của nguyên âm: được thể hiện bằng các cấu trúc formant.

Có đặc trưng nguyên âm là nguyên âm và các âm vang. Không có đặc trưng nguyên âm là các âm ồn.  Phụ âm-không phụ âm Đặc trưng âm học của phụ âm là có mức năng lượng thấp, nếu có mức năng lượng cao là nguyên âm. Có đặc trưng phụ âm là các phụ âm vang và ồn.

 Bổng-Trầm Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ. Những âm trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phần dưới của phổ. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 22 Âm bổng gồm các nguyên âm hàng trước, phụ âm răng, các phụ âm lưỡi trước, lưỡi giữa. Âm trầm là các nguyên âm hàng sau, các phụ âm môi và phụ âm lưỡi sau.

 Loãng-đặc Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm của phổ, đối lập với loãng là trên phổ hình có một hay một số formant phân bố xa trung tâm. Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các phụ âm lưỡi, lưỡi giữa và lưỡi sau. Các âm loãng bao gồm những âm có độ nâng của lưỡi cao (nguyên âm khép), những phụ âm răng, phụ âm môi [i], [u], [ư] trong tiếng Việt.  Ngắt-không ngắt Đó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có mặt và vắng mặt của âm thanh.

”Các phụ âm xát thường có khởi âm từ từ. Ngược lại, các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước bằng một khoảng im lặng hoàn toàn” [15]. Âm ngắt bao gồm các phụ âm tắc (trừ nhóm mũi). Còn lại (nguyên âm, phụ âm xát, phụ âm mũi) là những âm không ngắt.

 Gắt-không gắt Đó là sự đối lập của cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các âm gắt có vùng tối thay đổi sắc thái rõ rệt. Những phụ âm gắt bao gồm các phụ âm xát điển hình, các âm tắc-xát, bật hơi, phụ âm rung. Những laọi hình âm còn lại là những âm không gắt.

 Căng-lơi Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh cộng hưởng thể hiện rõ trên phổ hình. Âm căng bao gồm các phụ âm mạnh và nguyên âm đặc. Âm lơi bao gồm những phụ âm yếu và các nguyên âm loãng.  Hữu thanh-vô thanh Đó là sự đối lập giữa có hay không những dao động điều hòa ở vùng tần số thấp.

Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm hữu thanh. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 23  Mũi-miệng (hay Mũi-không mũi) Phổ hình của các âm mũi có mật độ formant dày hơn so với các âm miệng tương ứng. Ở các nguyên âm mũi giữa F1 và F2 xuất hiện thêm một formant phụ, và đồng thời có sự giảm cường độ của F1 và F2. Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái; m, n, nh, ng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ngôn ngữ học tính toán tiếng Việt

công nghệ xử lý âm thanh và giọng nói

phát triển phần mềm tổng hợp tiếng nói