THE UNIVERSITY OF CHICAGO BROAD CLASS PHONEME DETECTION

Luận án tiến sĩ về phát hiện âm vị diện rộng. Nghiên cứu chuyên sâu về nhận dạng tiếng nói, phân loại âm vị tiếng Anh, và ứng dụng trong công nghệ.

Trường đại học

The University Of Chicago

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Dissertation

2006

134
0
0

Phí lưu trữ

35 Point

Tóm tắt

I. Phát Hiện Âm Vị Tiếng Anh Tổng Quan Nghiên Cứu Quan Trọng

Phát hiện âm vị là khả năng nhận diệnphân biệt âm vị tiếng Anh một cách chính xác. Đây là nền tảng quan trọng cho việc học phát âm tiếng Anhnghe hiểu ngôn ngữ. Luận án tiến sĩ và các nghiên cứu chuyên sâu đóng vai trò then chốt trong việc làm sáng tỏ các cơ chế nhận thức, khó khăn trong phát âm tiếng Anh mà người học gặp phải. Mục tiêu của các nghiên cứu này là tìm ra phương pháp phát âm tiếng Anh hiệu quả, giảm thiểu lỗi phát âm tiếng Anh, và nâng cao khả năng phát âm chuẩn tiếng Anh cho người học. Các nghiên cứu thường dựa trên ngữ âm học tiếng Anh, âm vị học tiếng Anh và ứng dụng các công cụ như IPA (International Phonetic Alphabet). Nghiên cứu của Zhimin Xie tại Đại học Chicago (2006) phân loại âm vị tiếng Anh và xây dựng bộ dò tìm âm vị dựa trên các đặc trưng âm học.

1.1. Tầm Quan Trọng Của Phát Hiện Âm Vị Trong Giao Tiếp Tiếng Anh

Khả năng phát hiện âm vị ảnh hưởng trực tiếp đến khả năng nghe hiểugiao tiếp hiệu quả bằng tiếng Anh. Việc phân biệt âm vị tiếng Anh kém có thể dẫn đến hiểu lầm, đặc biệt khi đối diện với những tối thiểu cặp (minimal pairs). Người học cần rèn luyện kỹ năng này thông qua các bài tập nhận diện âm vị và luyện tập phát âm thường xuyên. Một nghiên cứu năm 2021 chỉ ra rằng người học có khả năng nhận diện âm vị tốt hơn thường tự tin hơn khi phát âm tiếng Anh và ít gặp phải khó khăn trong phát âm tiếng Anh hơn. Do đó, việc phát triển kỹ năng này là then chốt cho sự thành công trong việc học tiếng Anh.

1.2. Ứng Dụng IPA Trong Nghiên Cứu và Giảng Dạy Phát Âm Tiếng Anh

IPA (International Phonetic Alphabet) đóng vai trò quan trọng trong việc mô tả và phân tích âm vị của tiếng Anh. Các nghiên cứu chuyên sâu thường sử dụng IPA để ghi lại chính xác cách phát âm và phân biệt các biến thể âm vị. Trong giảng dạy, IPA giúp người học hiểu rõ hơn về cấu trúc âm vị học tiếng Anh và cải thiện khả năng phát âm chuẩn tiếng Anh. Việc sử dụng IPA trong tài liệu phát âm tiếng Anh cũng giúp đảm bảo tính chính xác và nhất quán trong việc truyền đạt kiến thức ngữ âm học tiếng Anh.

II. Thách Thức Trong Phát Hiện Âm Vị Nghiên Cứu Giải Pháp Hiệu Quả

Khó khăn trong phát âm tiếng Anhnhận diện âm vị là vấn đề phổ biến đối với người học. Sự khác biệt giữa hệ thống âm vị của tiếng mẹ đẻ và tiếng Anh gây ra nhiều thách thức. L1 interference in English pronunciation là một yếu tố quan trọng cần xem xét. Các nghiên cứu tập trung vào việc xác định những lỗi phát âm tiếng Anh phổ biến và đề xuất các phương pháp phát âm tiếng Anh phù hợp. Nghiên cứu của Xie (2006) cũng đề cập đến các thử nghiệm trong môi trường bất lợi, cho thấy sự suy giảm hiệu suất phát hiện âm vị khi có nhiễu.

2.1. Ảnh Hưởng Của Tiếng Mẹ Đẻ Đến Khả Năng Nhận Diện Âm Vị

Tiếng mẹ đẻ có ảnh hưởng sâu sắc đến khả năng nhận diện âm vị của người học tiếng Anh. L1 interference in English pronunciation xảy ra khi người học cố gắng áp dụng các quy tắc phát âmâm vị học của tiếng mẹ đẻ vào tiếng Anh, dẫn đến lỗi phát âm tiếng Anh. Ví dụ, người Việt thường gặp khó khăn trong việc phân biệt /θ/ và /s/ do tiếng Việt không có âm /θ/. Các nghiên cứu cần tập trung vào việc xác định những âm vị cụ thể nào gây ra khó khăn và phát triển các phương pháp khắc phục hiệu quả.

2.2. Các Yếu Tố Âm Học Gây Khó Khăn Trong Nhận Diện Âm Vị Tiếng Anh

Một số yếu tố âm học có thể gây khó khăn trong việc nhận diện âm vị tiếng Anh, bao gồm sự biến đổi trong cách phát âm, sự khác biệt giữa phát âm giọng Anh-Mỹphát âm giọng Anh-Anh, và sự hiện diện của nhiễu. Acoustic phonetics giúp chúng ta hiểu rõ hơn về các đặc trưng âm học của từng âm vị và cách chúng biến đổi trong các ngữ cảnh khác nhau. Việc phân tích acoustic phonetics có thể giúp người học cải thiện khả năng nhận diện âm vị trong các tình huống thực tế.

III. Phương Pháp Cải Thiện Phát Hiện Âm Vị Tiếng Anh Hướng Dẫn Chi Tiết

Cải thiện khả năng phát hiện âm vị đòi hỏi sự kết hợp giữa lý thuyết và thực hành. Việc nắm vững kiến thức về âm vị học tiếng Anhngữ âm học tiếng Anh là cần thiết. Bên cạnh đó, việc luyện tập thường xuyên với các bài tập nhận diện âm vị, phân biệt âm vị tiếng Anh, và sử dụng các nguồn tài liệu phát âm tiếng Anh chất lượng cũng rất quan trọng. Các nghiên cứu đã chỉ ra rằng việc luyện tập với tối thiểu cặp (minimal pairs) có thể giúp người học cải thiện đáng kể khả năng phát âm chuẩn tiếng Anh.

3.1. Luyện Tập Phát Âm Với Minimal Pairs Để Nhận Diện Âm Vị Chuẩn

Sử dụng tối thiểu cặp (minimal pairs) là một phương pháp hiệu quả để cải thiện khả năng phát hiện âm vị tiếng Anh. Minimal pairs là các cặp từ chỉ khác nhau ở một âm vị duy nhất, ví dụ như "ship" và "sheep". Luyện tập với minimal pairs giúp người học tập trung vào sự khác biệt nhỏ giữa các âm vị và cải thiện khả năng phân biệt âm vị tiếng Anh một cách chính xác. Các bài tập nhận diện âm vị dựa trên minimal pairs có thể được tìm thấy trong nhiều tài liệu phát âm tiếng Anh.

3.2. Sử Dụng Phần Mềm và Ứng Dụng Hỗ Trợ Phát Âm Tiếng Anh Hiệu Quả

Nhiều phần mềmứng dụng hiện nay cung cấp các công cụ hỗ trợ học phát âm tiếng Anhnhận diện âm vị. Các công cụ này thường sử dụng công nghệ nhận dạng giọng nói để cung cấp phản hồi về cách phát âm của người học và giúp họ cải thiện phát âm tiếng Anh một cách hiệu quả. Một số phần mềm còn tích hợp các bài tập phân biệt âm vị tiếng Anhnhận diện âm vị để giúp người học rèn luyện kỹ năng này.

IV. Nghiên Cứu Về Phát Hiện Âm Vị Ứng Dụng Kết Quả Thực Tiễn Hiện Nay

Nghiên cứu phát âmluận văn phát âm tiếng Anh đóng vai trò quan trọng trong việc nâng cao hiểu biết về âm vị học tiếng Anh và phát triển các phương pháp giảng dạy hiệu quả. Các nghiên cứu thường tập trung vào việc xác định những yếu tố ảnh hưởng đến khả năng phát hiện âm vị, đánh giá hiệu quả của các phương pháp luyện tập, và đề xuất các giải pháp để giúp người học cải thiện phát âm tiếng Anh.

4.1. Phân Tích Luận Án Tiến Sĩ Về Khó Khăn Phát Âm Của Người Việt

Nhiều luận văn phát âm tiếng Anh đã tập trung vào việc nghiên cứu khó khăn trong phát âm tiếng Anh của người Việt. Các nghiên cứu này thường phân tích những lỗi phát âm tiếng Anh phổ biến, xác định nguyên nhân gây ra những lỗi này, và đề xuất các phương pháp phát âm tiếng Anh phù hợp với người Việt. Việc phân tích các luận văn này giúp chúng ta hiểu rõ hơn về những thách thức mà người Việt gặp phải và phát triển các giải pháp hiệu quả hơn.

4.2. Đánh Giá Hiệu Quả Của Các Phương Pháp Dạy Phát Âm Tiếng Anh

Các nghiên cứu thường xuyên đánh giá hiệu quả của các phương pháp dạy phát âm tiếng Anh khác nhau. Việc đánh giá này giúp chúng ta xác định những phương pháp nào hiệu quả nhất trong việc giúp người học cải thiện phát âm tiếng Anhnhận diện âm vị một cách chính xác. Các kết quả nghiên cứu này có thể được sử dụng để cải thiện chương trình giảng dạy và giúp người học đạt được kết quả tốt hơn.

V. Áp Dụng Phát Hiện Âm Vị Vào Dạy Học Phát Âm Kinh Nghiệm Quý Báu

Việc áp dụng kiến thức về phát hiện âm vị vào quá trình dạy phát âm tiếng Anhhọc phát âm tiếng Anh mang lại nhiều lợi ích. Giáo viên có thể sử dụng các bài tập nhận diện âm vịphân biệt âm vị tiếng Anh để giúp học sinh phát triển kỹ năng phát âm chuẩn tiếng Anh. Học sinh có thể sử dụng các tài liệu phát âm tiếng Anhphần mềm hỗ trợ để tự luyện tập và cải thiện phát âm tiếng Anh của mình. Second language acquisition (SLA) nghiên cứu việc học ngôn ngữ thứ hai cũng giúp chúng ta hiểu rõ hơn về quá trình này.

5.1. Thiết Kế Bài Tập Nhận Diện Âm Vị Phù Hợp Với Từng Trình Độ

Thiết kế các bài tập nhận diện âm vị phù hợp với từng trình độ của người học là rất quan trọng. Các bài tập cho người mới bắt đầu nên tập trung vào việc phân biệt các âm vị cơ bản, trong khi các bài tập cho người học nâng cao có thể tập trung vào các âm vị khó hơn và các biến thể âm vị. Giáo viên cần lựa chọn các bài tập phù hợp với trình độ của học sinh và cung cấp phản hồi kịp thời để giúp họ tiến bộ.

5.2. Tạo Môi Trường Luyện Tập Phát Âm Tiếng Anh Tích Cực Và Hiệu Quả

Tạo một môi trường luyện tập phát âm tiếng Anh tích cực và hiệu quả là yếu tố quan trọng để giúp người học đạt được thành công. Giáo viên nên khuyến khích học sinh tham gia vào các hoạt động luyện tập phát âm khác nhau, tạo cơ hội cho họ thực hành phát âm trong các tình huống giao tiếp thực tế, và cung cấp phản hồi mang tính xây dựng để giúp họ cải thiện phát âm tiếng Anh của mình.

VI. Tương Lai Nghiên Cứu Phát Hiện Âm Vị Hướng Phát Triển Mới Nhất

Lĩnh vực nghiên cứu phát âmphát hiện âm vị tiếp tục phát triển với nhiều hướng đi mới đầy hứa hẹn. Các nghiên cứu hiện nay đang tập trung vào việc ứng dụng trí tuệ nhân tạo (AI) và học máy (machine learning) để phát triển các công cụ hỗ trợ học phát âm tiếng Anhnhận diện âm vị tiên tiến hơn. Các nghiên cứu cũng đang khám phá các phương pháp cá nhân hóa quá trình học phát âm để đáp ứng nhu cầu của từng người học.

6.1. Ứng Dụng AI Và Học Máy Trong Phát Triển Công Cụ Phát Âm

Ứng dụng AI và học máy đang mở ra những khả năng mới trong việc phát triển các công cụ hỗ trợ học phát âm tiếng Anhnhận diện âm vị. Các thuật toán AI có thể được sử dụng để phân tích phát âm của người học, cung cấp phản hồi chi tiết về những lỗi phát âm tiếng Anh, và đề xuất các bài tập luyện tập phù hợp. Học máy cũng có thể được sử dụng để tạo ra các mô hình phát âm chính xác và cá nhân hóa, giúp người học đạt được kết quả tốt hơn.

6.2. Cá Nhân Hóa Phương Pháp Học Phát Âm Dựa Trên Đặc Điểm Cá Nhân

Cá nhân hóa quá trình học phát âm dựa trên đặc điểm cá nhân của từng người học là một xu hướng quan trọng trong tương lai. Mỗi người học có một nền tảng ngôn ngữ, phong cách học tập, và mục tiêu khác nhau. Các phương pháp học phát âm cần được điều chỉnh để đáp ứng những nhu cầu riêng biệt này. Các công cụ AI và học máy có thể giúp thu thập và phân tích dữ liệu về người học để tạo ra các chương trình học phát âm cá nhân hóa, giúp họ đạt được kết quả tốt nhất.

14/05/2025

Trích đoạn nội dung tài liệu

THE UNIVERSITY OF CHICAGO BROAD CLASS PHONEME DETECTION A DISSERTATION SUBMITTED TO THE FACULTY OF THE DIVISION OF THE PHYSICAL SCIENCES IN CANDIDACY FOR THE DEGREE OF DOCTOR OF PHILOSOPHY DEPARTMENT OF COMPUTER SCIENCE BY ZHIMIN XIE CHICAGO, ILLINOIS DECEMBER 2006 UMI Number: 3240138 INFORMATION TO USERS The quality of this reproduction is dependent upon the quality of the copy submitted. Broken or indistinct print, colored or poor quality illustrations and photographs, print bleed-through, substandard margins, and improper alignment can adversely affect reproduction. In the unlikely event that the author did not send a complete manuscript and there are missing pages, these will be noted. Also, if unauthorized copyright material had to be removed, a note will indicate the deletion.

® UMI UMI Microform 3240138 Copyright 2007 by ProQuest Information and Learning Company. All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code. ProQuest Information and Learning Company 300 North Zeeb Road P.

Box 1346 Ann Arbor, MI 48106-1346 To my parents and my wife. ABSTRACT We categorize American English phonemes into several groups: vowel, semi-vowel, nasal, whisper, fricative/affricative, closure/stop, silence and some special phonemes (/q/ and /dx/), among which five main groups (vowel, semi-vowel, nasal, fricative, stop) are fur- ther examined. Thereafter, we construct several detectors based on acoustic features for each phoneme group and compare them with HMM-based systems by testing on contin- uous speech data, TIMIT, and some data in unfavorable environments, like TIMIT with additive noise, and NTIMIT. To detect vowels, a compact vowel detector based only on two acoustic features, peri- odicity and energy, is implemented.

It performs with 86.4% total error rate. Even under some adverse environments, it still works stably. To detect fricatives, several detectors based on SVMs using different acoustic features are constructed and a typical performance of one of these has 90.8% as accuracy and total error rate, respectively. Whereas for stops, features of total energy, energy above 3kHz and Wiener entropy are employed into SVMs and the detector obtains accuracy of 93.2% and total error rate of 19.

All of these results are comparable with or even better than HMM-based systems. However, detectors based on static acoustic features for nasals and semi-vowels do not perform as well as expected. By examining the details of the errors, the associated detection problems are revealed, and inspire a new approach to detection. To deal with non-static features, we propose a combination of HMMs and SVMs for detection of phoneme groups and obtain satisfactory results.

We believe that this method can also be extended for more general speech recognition applications. ili ACKNOWLEDGEMENTS I would like to thank Partha Niyogi for motivating me to think about problems in speech recognition and giving me support through my research with knowledge, advice and re- sources. I really appreciate his guidance and encouragement in designing the speech recog- nition system, which is presented in this thesis. I would also like to thank him for being flexible and understanding during my doctoral research work.

I am very grateful to John Goldsmith and Gina-Anne Levow, who gave instructive suggestions on my research and also kindly served as my committee members. Thanks to Dinoj Surendran for vital assistance on the testing framework and providing many other resources and insightful discussions. Many of my friends have given me strength through these years. I would like to thank Jing Liu, Xuehai Zhang, Yu Hu, Jing Cao, and Vikas Sindhwani.

Last and most important, I offer my deepest thanks to my parents and wife. Without their persistent and tremendous support, I could not have come all the way through this far. iv TABLE OF CONTENTS ABSTRACT ili ACKNOWLEDGEMENTS IV LIST OF FIGURES Vili LIST OF TABLES 1 INTRODUCTION 1. HH HQ kg gà kg 1.2 Statistically Based Recognition.3 Knowledge Based Recognition and Our Approach.3 TIMIT with Additive White Noise.

ee ee ee 2.2 American English Phonemes .3 HMM-based Automatic Speech RecogmzefT. Q Q Q Q HH hà na 3 VOWEL DETECTION AND CLASSIFICATION 3. n n ng k kg kg Nà kg 3. ch HQ kg gà ta 3.

HQ HH Hà ah va 3. HH ee ees 3. Q Q Q HH HQ ng kg kg k kA 3. LH HQ HQ ko 3.6 Performance by Category.1 Insertion Errors by CategOTY.2 Deletion Errors by ContextPhonemes.6 Q Q Q Q HH HH ga kia 3.

Q Q Q Q HQ HH HH gà kg kg ki vo 3. co HH na 3. ch gà kh hà ki ha 3.1 Application to Mandarin Chinese. ee ee ki ha FRICATIVE DETECTION 4.

0 c c Q Q Q LH ng và hà k kg VN ki na 443 FricativeFeatires. LH ha kg ki kg ng 4.4 Landmark Detection with Distinctive Featires.5 SVMs with Distinctive Features. Q Q HQ HH HH hà ở 46. - CO Q ky Q2 va 46.

c c Q Q c LH ng gu và kg kg ki xa STOP DETECTION — TT TŨẶỮẶ. c c c Q LH Q Q ng cv Q k vn V k kg kg 53 StopFeatres. c Q Q Q Q HH HH hà kh kh kg 5.4 Stop Detection with Distinctive Featres. 1 ee kg na 5.

và ke Ha 5. DD NASAL, SEMIVOWEL AND OTHER PHONEMES 6. kh HaHgHaa na.3 Nasal Detection with Distinctive Features .5 Problems with Nasal Detection. và và kg k kh kia 62.22 Performance Based on Acoustic Features.

HH HH hà gà kh kg 6. HQ HH He kh ha 6. Q Q Q Q HH HH gà kg gà ky 7 HYBRID OF HMMS AND SVMS 100 7.1 Probabilistic Outputs forSVMs. ee ee ee 100 7.

Front-ends for HMM-basedSystems. es 106 8 DISCUSSION AND CONCLUSIONS 109 8. va 111 A THE PHONEMES USED IN TIMIT/NTIMIT AND SPHINX AUTOMATIC SPEECH SYSTEM 113 REFERENCES 116 LIST OF FIGURES 2.1 White noise example. The sentence is sa2, “Don’t ask me to carry an oily rag like that.” by a female speaker,faks0.2 Example of spectrogram.

The sentence is sa2, “Don’t ask me to carry an oily rag like that” by a female speaker,faks0.3 Sphinx2 HMM topology. Q QQ HH HH so 13 2.4 3-state no-skip HMM topology.1 Examples of vowel sounds (top: /iy/, /ae/; bottom: /uw/, /er/) .2 Waveform and periodicity of /eh/and/z/. ee ee ee ee 22 3.3 Example of convex hull algorithm .4 Vowel landmark detecionmethod.5 Vowel detection example. The sentence is si2016, “Heave on those ropes; the boat’s come unstuck.” The segments with ’P’ are resultant periodic seg- ments from the first step.

The final detected vowel landmarks are labeled by ’L’, while asterisks indicate possible false landmarks without the first step of periodicity segmentation.6 Another vowel detection example. The sentence is sx49, “At twilight on the twelfth day we’ll have chablis.” The segments with ’P’ are resultant periodic segments from the first step. The final detected vowel landmarks are labeled by ’L’, while asterisks indicate possible false landmarks without the first step of periodicity segmentation.7 Histogram and CDF of vowel pitchperiod.8 Histogram and CDF of vowel duraion.9 Histogram and CDF of vowel periodiclty.10 Histogram and CDF of vowelenergy. ee ee ee 32 3.11 ROC curves for the vowel detector using different energy and periodicity peak-to-dip threshold values.

The asterisk denotes the reference vowel de- tectOl, 5.12 Degradation of totaÌ errOrTafl@S.13 Example of spectrogram. The sentence is sa2, “Don’t ask me to carry an oily rag like that.” by a female speaker, faks0.14 Periodicity of an utterance under different noise environments. The sen- tence is si2016, ”Heave on those ropes; the boat’s come unstuck.1 Spectrograms of some fricatives (top: /s/, /sh/; bottom: /dh/,/v/) .2 Example of features. The utterance is ”She spouted a mouthful of water into the ait” ©.3 Performance of landmark detection.

Stars are performances of Sphinx sys- tems. Solid line with crosses is the performance of the first method. Dashed line with circles is the performance of the second combination method.4 Performance of SVMs. Circle and diamond are performances of Sphinx2 and Sphinx3.

Plus signs with solid line are SVMs using 5 features before and after post-processing. Crosses with dashed line are SVMs using multi- frames of the five features before and after post-processing. Asterisks with dotted lines are SVMs using Mel scale bands before and after post-processing.5 Performance of SVMs based on multiple frames of Mel scale band ratios and other distinctive features before post-processing.6 Spectrograms of /v/ and /dh/. The left graph is /eh/-/v/-/er/ in “never”, and the right is /n/-/dh/-/ix/in “in the’, 2.7 Degradation of deletion and insertion error rates in fricative detection .1 Waveforms and spectrograms of some stops (/k/,/d/) .3 ROC curves of stop deteCHOn.4 Degradation of deletion and insertion error rates in stop detection.1 Spectrograms of some nasals.

From left to right, they are /m/ in /iy/-/m/- /del/ , /n/ in /ow/-/n/-/ae/, and /ng/ in /ih/-/ng/-/gcl/, 6 ww .2 Spectrograms of some semivowels. The top are /r/ in /eh/-/r/-/iy/, and /1/ in /g/-/M-/ay/. The bottom are /w/ in /axr/-/w/-/ao/, and /y/ in /b/-//-/ux/.3 Spectrograms of some whispers. The top left is /hh/ in “her”, the top right is /hh/ in “his”, the bottom left is /hv/ in “she had”, and the bottom right is /hv/in “and haggard”.4 Spectrograms of some flapped stops.

The top-left is /uw/-/dx/-/ih/ in “suit in”, the top-right is /ux/-/dx/-/ux/ in “beautiful”, the bottom-left is /ay/-/dx/- /ax/ in “coincided”, and the bottom-right is /ay/-/dx/-/ax/ in “idly”.5 Spectrograms of some glottal stops. The top-left is /er/-/q/-/ao/, the top- right is /iy/-/q/-/ae/, the bottom-left is /ix/-/q/-/kcl/, and the bottom-right is Isilence/-/q/-/eh/. ee 98 LIST OF TABLES 2.1 The number of speakers, utterances, and phonemes in TIMIT.2 The number of speakers, utterances, and phonemes in NTIMIT .1 Category of vowels by articulatory description.2 Category of vowels by acoustic features. ee ee ee ee 16 3.3 Duration, periodicity and energy of all the phoneme groups from TIMIT training dataset ©.4 Duration, periodicity and energy for each category of vowels in TIMIT training dataset 26.5 Parameter setting for the baseline detector.6 Performance of detection .7 Detection accuracy in each category ofvowels.8 Category of insertion errors.9 Deletion errors by left context categorles.10 Deletion errors by right context categories.

ee eee ees 39 3.11 Periodicity and segmentation of vowels under different environments.12 Performance of the baseline vowel detector after adaptation.13 Performance on switchboard .14 Performance on Mandarin .15 Performance of syllable detection .16 Variations of second formants of/ae/andñy/(.17 Performance of classification at different locations.18 Performance of vowel classification .1 Some acoustic features of different phoneme groups.2 Performance example of landmark detection.3 Performance of our detectors and Sphinx systems.4 Deletion errors by individual fricaives.5 Insertion errors of fricative detection by category .1 Performance of stop detection ©. ee ee es 78 5.2 Deletion errors by individual stops. ee ee ee es 78 5.3 Duration of individual stops ©. ee ee ee 79 5.4 Insertion errors of stop detection by category .1 Performance of nasal detection on distinctivefeatues.2 Insertion errors of nasal detection.3 Duration of all the phoneme groups from TIMIT training dataset .4 Performance of semivowel detection .5 Insertion errors of semivowel đetecion.

ee ee 93 X 71 Performance of the hybrid model.2 Performance improvement of the hybrid model on vowels, nasals, and semivowels 2. 1 HQ Q HH gà gà gà k K kg 105 7.3 Confusion matrix of the hybrdmodel.1 Motivation We will address the problem of pure speech recognition [41]. Pure speech recognition is the task of obtaining a complete or adequate phonological representation directly from the speech signal based purely on the acoustics and additional knowledge of the phonologi- cal aspects of the language, with no linguistic cues from any higher level (i. syntactic, semantic, or pragmatic) modules.

This problem is not artificial and rather at the heart of spoken language processing. We are also motivated by three considerations on the way of pursuing approaches for pure speech recognition.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ