Luận văn thạc sĩ: Mô hình Markov ẩn và ứng dụng trong nhận dạng tiếng nói

Luận văn thạc sĩ VNU UET nghiên cứu mô hình Markov ẩn và ứng dụng trong nhận dạng tiếng nói, góp phần phát triển công nghệ thông tin.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2007

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: MÔ HÌNH HMM VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI

1.1. Giới thiệu

1.2. Những khái niệm toán học liên quan tới HMM

1.3. Mô hình HMM

1.4. Nhận dạng tiếng nói và nhận dạng âm vị dựa trên HMM

1.5. Mô hình HMM cho âm vị được sử dụng trong luận văn

1.6. Kết luận chương 1

2. CHƯƠNG 2: TIỀN XỬ LÝ TÍN HIỆU TIẾNG NÓI

2.1. Một số thao tác tiền xử lý tín hiệu

2.2. Trích rút đặc trưng

2.3. So sánh các phương pháp trích đặc trưng

2.4. Kết luận chương 2

3. CHƯƠNG 3: THUẬT TOÁN HUẤN LUYỆN NHÚNG – XÂY DỰNG MÔ HÌNH HMM TỰ ĐỘNG CHO ÂM VỊ

3.1. Tách và nhận dạng âm vị tự động dựa trên HMM

3.2. Các công thức ước lượng tham số của mô hình HMM

3.3. Các vấn đề về tham số HMM khi sử dụng thuật toán huấn luyện nhúng

3.4. Dữ liệu huấn luyện

3.5. Kết luận chương 3

4. CHƯƠNG 4: CÀI ĐẶT THUẬT TOÁN – TỪ ĐIỂN TIẾNG NÓI

4.1. Một số giao diện chương trình

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về mô hình Markov ẩn trong nhận dạng tiếng nói

Mô hình Markov ẩn (HMM) là một công cụ mạnh mẽ trong lĩnh vực nhận dạng tiếng nói. Được phát triển từ lý thuyết xác suất, HMM cho phép mô hình hóa các quá trình ngẫu nhiên mà không thể quan sát trực tiếp. Trong bối cảnh nhận dạng tiếng nói, HMM giúp phân tích và nhận diện các âm vị từ tín hiệu âm thanh. Việc áp dụng HMM trong nhận dạng tiếng nói đã mang lại nhiều thành công đáng kể, đặc biệt trong việc cải thiện độ chính xác của các hệ thống nhận diện.

1.1. Khái niệm cơ bản về mô hình Markov ẩn

Mô hình Markov ẩn là một mô hình thống kê trong đó trạng thái không thể quan sát trực tiếp. Thay vào đó, các trạng thái này được ẩn và chỉ có thể được suy luận thông qua các quan sát. HMM được sử dụng rộng rãi trong nhận dạng tiếng nói nhờ khả năng xử lý các biến thể trong âm thanh.

1.2. Lịch sử phát triển của mô hình HMM

Mô hình HMM được phát triển từ những năm 1960 và đã trở thành một trong những phương pháp chính trong nhận dạng tiếng nói. Sự phát triển của công nghệ máy tính và các thuật toán học máy đã thúc đẩy việc áp dụng HMM trong nhiều lĩnh vực khác nhau.

II. Thách thức trong nhận dạng tiếng nói sử dụng HMM

Mặc dù HMM đã đạt được nhiều thành công, nhưng vẫn tồn tại nhiều thách thức trong việc nhận dạng tiếng nói. Các yếu tố như tiếng ồn môi trường, sự biến đổi trong cách phát âm và tốc độ nói đều ảnh hưởng đến độ chính xác của hệ thống. Việc xử lý những yếu tố này là rất quan trọng để cải thiện hiệu suất của các mô hình nhận dạng.

2.1. Ảnh hưởng của tiếng ồn đến nhận dạng tiếng nói

Tiếng ồn môi trường có thể làm giảm chất lượng tín hiệu âm thanh, dẫn đến khó khăn trong việc nhận diện chính xác các âm vị. Các nghiên cứu đã chỉ ra rằng việc áp dụng các kỹ thuật lọc tiếng ồn có thể cải thiện đáng kể độ chính xác của hệ thống.

2.2. Sự biến đổi trong cách phát âm

Mỗi người có cách phát âm khác nhau, điều này tạo ra sự đa dạng trong tín hiệu âm thanh. Hệ thống nhận dạng tiếng nói cần phải được huấn luyện với một lượng lớn dữ liệu để có thể nhận diện chính xác các âm vị từ nhiều người nói khác nhau.

III. Phương pháp áp dụng mô hình HMM trong nhận dạng tiếng nói

Để áp dụng mô hình HMM trong nhận dạng tiếng nói, cần thực hiện một số bước quan trọng. Đầu tiên, tín hiệu âm thanh cần được tiền xử lý để loại bỏ tiếng ồn và trích xuất các đặc trưng quan trọng. Sau đó, mô hình HMM sẽ được huấn luyện trên dữ liệu đã được xử lý để nhận diện các âm vị.

3.1. Tiền xử lý tín hiệu âm thanh

Tiền xử lý tín hiệu là bước quan trọng trong nhận dạng tiếng nói. Các phương pháp như lọc tiếng ồn và trích xuất đặc trưng giúp cải thiện chất lượng tín hiệu, từ đó nâng cao độ chính xác của mô hình HMM.

3.2. Huấn luyện mô hình HMM

Quá trình huấn luyện mô hình HMM bao gồm việc sử dụng dữ liệu đã được gán nhãn để tối ưu hóa các tham số của mô hình. Thuật toán Baum-Welch thường được sử dụng để ước lượng các tham số này, giúp mô hình hoạt động hiệu quả hơn.

IV. Ứng dụng thực tiễn của mô hình HMM trong nhận dạng tiếng nói

Mô hình HMM đã được áp dụng rộng rãi trong nhiều ứng dụng thực tiễn, từ các hệ thống nhận diện giọng nói cho đến các ứng dụng trong lĩnh vực y tế và giáo dục. Những ứng dụng này không chỉ giúp cải thiện trải nghiệm người dùng mà còn mở ra nhiều cơ hội mới trong nghiên cứu và phát triển công nghệ.

4.1. Hệ thống nhận diện giọng nói

Hệ thống nhận diện giọng nói sử dụng HMM đã trở thành một phần quan trọng trong nhiều sản phẩm công nghệ hiện đại. Chúng cho phép người dùng tương tác với máy tính thông qua giọng nói, mang lại sự tiện lợi và hiệu quả.

4.2. Ứng dụng trong lĩnh vực y tế

Trong lĩnh vực y tế, HMM được sử dụng để phân tích và nhận diện các tín hiệu âm thanh từ bệnh nhân, giúp bác sĩ đưa ra chẩn đoán chính xác hơn. Điều này cho thấy tiềm năng lớn của HMM trong việc cải thiện chất lượng dịch vụ y tế.

V. Kết luận và tương lai của mô hình HMM trong nhận dạng tiếng nói

Mô hình HMM đã chứng minh được giá trị của mình trong lĩnh vực nhận dạng tiếng nói. Tuy nhiên, vẫn còn nhiều thách thức cần phải vượt qua để nâng cao độ chính xác và hiệu suất của các hệ thống. Tương lai của HMM trong nhận dạng tiếng nói hứa hẹn sẽ tiếp tục phát triển với sự hỗ trợ của các công nghệ mới.

5.1. Xu hướng phát triển của HMM

Với sự phát triển của công nghệ máy học và trí tuệ nhân tạo, mô hình HMM có thể được cải tiến để xử lý tốt hơn các tín hiệu âm thanh phức tạp. Điều này mở ra nhiều cơ hội mới cho nghiên cứu và ứng dụng trong tương lai.

5.2. Tương lai của nhận dạng tiếng nói

Nhận dạng tiếng nói sẽ tiếp tục là một lĩnh vực nghiên cứu quan trọng, với nhiều ứng dụng tiềm năng trong cuộc sống hàng ngày. Việc cải thiện các mô hình như HMM sẽ giúp nâng cao trải nghiệm người dùng và mở rộng khả năng tương tác giữa con người và máy móc.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet mô hình markov ẩn và ứng dụng trong nhận dạng tiếng nói luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng trong ngành Công nghệ thông tin, với mục tiêu giúp máy tính hiểu và xử lý ngôn ngữ nói của con người. Theo ước tính, các hệ thống nhận dạng tiếng nói hiện đại đã đạt được độ chính xác cao trong nhiều ứng dụng thực tế như trợ lý ảo, hệ thống bảo mật bằng giọng nói, và các dịch vụ tự động hóa. Tuy nhiên, việc nhận dạng tiếng nói vẫn gặp nhiều thách thức do sự biến đổi liên tục của tín hiệu âm thanh, sự khác biệt giữa các người nói, tốc độ nói, ngữ cảnh và môi trường thu âm.

Luận văn tập trung nghiên cứu mô hình Markov ẩn (Hidden Markov Model - HMM) và ứng dụng của nó trong nhận dạng tiếng nói, đặc biệt là nhận dạng âm vị tự động dựa trên dữ liệu không gán nhãn. Mục tiêu cụ thể là xây dựng mô hình HMM cho từng âm vị, sử dụng thuật toán huấn luyện nhúng (Embedded training) để tự động tách và nhận dạng âm vị từ chuỗi âm tiết, qua đó nâng cao độ chính xác nhận dạng tiếng nói liên tục với tốc độ trung bình. Nghiên cứu được thực hiện trên dữ liệu tiếng nói tiếng Việt, trong phạm vi thời gian và địa điểm tại Việt Nam, với ý nghĩa quan trọng trong việc phát triển các hệ thống nhận dạng tiếng nói phù hợp với đặc thù ngôn ngữ và môi trường Việt Nam.

Việc ứng dụng mô hình HMM trong nhận dạng tiếng nói không chỉ góp phần nâng cao hiệu quả giao tiếp giữa người và máy mà còn thúc đẩy sự phát triển của các công nghệ trí tuệ nhân tạo trong nước, hỗ trợ công nghiệp hóa, hiện đại hóa.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của mô hình Markov ẩn (HMM), một mô hình thống kê mô tả quá trình Markov với các trạng thái ẩn không quan sát trực tiếp mà chỉ quan sát được các đầu ra (biểu hiện) có phân phối xác suất phụ thuộc trạng thái đó. Các thành phần chính của HMM bao gồm:

Tập trạng thái ẩn ( S = {s_1, s_2, ..., s_n} )
Ma trận xác suất chuyển trạng thái ( A = {a_{ij}} ), trong đó ( a_{ij} = P(s_t = j | s_{t-1} = i) )
Hàm xác suất quan sát ( B = {b_j(o_t)} ), xác suất quan sát ( o_t ) tại trạng thái ( s_j )
Xác suất khởi tạo trạng thái ( \pi = {\pi_i} )

Ngoài ra, luận văn sử dụng các thuật toán cơ bản của HMM như thuật toán Forward-Backward để tính xác suất chuỗi quan sát, thuật toán Baum-Welch để ước lượng tham số mô hình, và thuật toán Viterbi để giải mã chuỗi trạng thái tối ưu.

Các khái niệm toán học nền tảng bao gồm:

Tính chất Markov: trạng thái hiện tại chỉ phụ thuộc vào trạng thái trước đó
Định lý Bayes: cập nhật xác suất dựa trên bằng chứng mới
Xác suất có điều kiện và xác suất biên duyên
Quá trình Markov bậc 1 và xích Markov

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu là các tập dữ liệu tiếng nói tiếng Việt, bao gồm cả dữ liệu có gán nhãn âm tiết và dữ liệu không gán nhãn âm vị. Dữ liệu được thu thập trong môi trường thực tế tại Việt Nam, với số lượng mẫu đủ lớn để đảm bảo tính đại diện và độ tin cậy.

Phương pháp phân tích chính là xây dựng và huấn luyện mô hình HMM cho từng âm vị dựa trên thuật toán huấn luyện nhúng (Embedded training), cho phép huấn luyện trên dữ liệu không gán nhãn âm vị mà chỉ gán nhãn âm tiết. Quá trình huấn luyện sử dụng thuật toán Baum-Welch kết hợp thuật toán Forward-Backward để ước lượng tham số mô hình tối ưu.

Timeline nghiên cứu bao gồm các bước:

Tiền xử lý tín hiệu tiếng nói: làm nổi tín hiệu, lọc tiếng ồn, trích rút đặc trưng MFCC
Xây dựng mô hình HMM cho âm vị
Huấn luyện mô hình bằng thuật toán huấn luyện nhúng trên dữ liệu không gán nhãn
Cài đặt thuật toán và xây dựng từ điển tiếng nói
Đánh giá hiệu quả nhận dạng trên dữ liệu thử nghiệm

Cỡ mẫu dữ liệu huấn luyện và thử nghiệm được lựa chọn đảm bảo đủ lớn để mô hình học được các biến thiên quan trọng của tiếng nói, đồng thời phương pháp chọn mẫu đảm bảo tính ngẫu nhiên và đại diện cho các biến thể ngôn ngữ trong tiếng Việt.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán huấn luyện nhúng trên dữ liệu không gán nhãn: Mô hình HMM được huấn luyện bằng thuật toán huấn luyện nhúng cho phép nhận dạng âm vị tự động với độ chính xác tương đối cao, đạt khoảng 85-90% trên tập dữ liệu thử nghiệm. So với phương pháp huấn luyện truyền thống trên dữ liệu có gán nhãn, độ chính xác chỉ giảm nhẹ nhưng tiết kiệm đáng kể công sức gán nhãn thủ công.
Độ chính xác nhận dạng tiếng nói liên tục: Hệ thống nhận dạng tiếng nói liên tục với tốc độ trung bình đạt độ chính xác nhận dạng âm tiết khoảng 80%, cho thấy khả năng áp dụng thực tế trong các ứng dụng giao tiếp tự động.
So sánh các phương pháp trích rút đặc trưng: Phương pháp trích rút đặc trưng MFCC kết hợp với các hệ số delta và gia tốc cho kết quả nhận dạng tốt hơn khoảng 10% so với phương pháp LPC truyền thống, nhờ khả năng biểu diễn phổ âm thanh chính xác hơn.
Ảnh hưởng của mô hình ngôn ngữ: Việc sử dụng mô hình ngôn ngữ 2-gram giúp giảm không gian tìm kiếm và tăng độ chính xác nhận dạng lên khoảng 5-7% so với không sử dụng mô hình ngôn ngữ, đặc biệt hiệu quả với từ điển lớn.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao trong nhận dạng âm vị tự động là do thuật toán huấn luyện nhúng tận dụng được dữ liệu không gán nhãn phong phú, tránh được sai số do gán nhãn thủ công không chính xác. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực nhận dạng tiếng nói, khẳng định tính khả thi của phương pháp huấn luyện trên dữ liệu không gán nhãn.

Việc áp dụng mô hình HMM với các thuật toán Forward-Backward và Viterbi giúp giảm đáng kể độ phức tạp tính toán so với phương pháp tính trực tiếp, từ khoảng 10^70 phép nhân xuống còn khoảng vài nghìn phép nhân cho các trường hợp thực tế, giúp hệ thống có thể vận hành hiệu quả trên phần cứng phổ thông.

So với các nghiên cứu trước đây, luận văn đã mở rộng phạm vi áp dụng cho tiếng Việt với đặc thù ngôn ngữ riêng biệt, đồng thời đề xuất giải pháp nhận dạng âm vị tự động phù hợp với nguồn dữ liệu hạn chế về gán nhãn. Kết quả nghiên cứu có thể được trình bày qua biểu đồ so sánh độ chính xác nhận dạng giữa các phương pháp huấn luyện và các kỹ thuật trích rút đặc trưng, cũng như bảng thống kê chi tiết các tham số mô hình và kết quả thử nghiệm.

Đề xuất và khuyến nghị

Mở rộng thu thập dữ liệu không gán nhãn: Tăng cường thu thập dữ liệu tiếng nói đa dạng về người nói, môi trường và ngữ cảnh nhằm nâng cao chất lượng huấn luyện mô hình HMM, dự kiến thực hiện trong 12 tháng tới, do các trung tâm nghiên cứu và trường đại học chủ trì.
Phát triển thuật toán huấn luyện nhúng nâng cao: Nghiên cứu và áp dụng các biến thể thuật toán huấn luyện nhúng kết hợp với mạng nơ-ron nhân tạo để cải thiện độ chính xác nhận dạng, mục tiêu tăng ít nhất 5% độ chính xác trong vòng 18 tháng, do nhóm nghiên cứu công nghệ thông tin thực hiện.
Tích hợp mô hình ngôn ngữ nâng cao: Áp dụng mô hình ngôn ngữ dựa trên deep learning hoặc mô hình ngôn ngữ ngữ cảnh để giảm thiểu lỗi nhận dạng từ và âm tiết, dự kiến hoàn thành trong 24 tháng, phối hợp với các chuyên gia ngôn ngữ học và trí tuệ nhân tạo.
Triển khai ứng dụng thực tế: Phát triển các ứng dụng nhận dạng tiếng nói trong các lĩnh vực như trợ lý ảo, dịch vụ khách hàng, và giáo dục, nhằm đánh giá hiệu quả và thu thập phản hồi người dùng, kế hoạch triển khai trong 12-24 tháng, do các doanh nghiệp công nghệ và tổ chức giáo dục phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin: Có thể áp dụng các kiến thức về mô hình HMM và thuật toán huấn luyện nhúng để phát triển các hệ thống nhận dạng tiếng nói hoặc các ứng dụng trí tuệ nhân tạo khác.
Chuyên gia phát triển phần mềm nhận dạng tiếng nói: Sử dụng các kết quả và phương pháp trong luận văn để cải tiến thuật toán, nâng cao độ chính xác và hiệu suất của sản phẩm.
Các tổ chức giáo dục và đào tạo: Áp dụng nội dung luận văn làm tài liệu giảng dạy về xử lý tín hiệu số, nhận dạng mẫu và trí tuệ nhân tạo, giúp sinh viên tiếp cận công nghệ hiện đại.
Doanh nghiệp công nghệ và viễn thông: Tham khảo để phát triển các giải pháp nhận dạng tiếng nói phù hợp với đặc thù ngôn ngữ Việt Nam, phục vụ các ứng dụng thương mại và dịch vụ khách hàng.

Câu hỏi thường gặp

Mô hình Markov ẩn (HMM) là gì và tại sao được sử dụng trong nhận dạng tiếng nói?
HMM là mô hình thống kê mô tả quá trình Markov với trạng thái ẩn không quan sát trực tiếp mà chỉ quan sát được các đầu ra có phân phối xác suất phụ thuộc trạng thái đó. HMM phù hợp với nhận dạng tiếng nói vì tiếng nói là tín hiệu biến đổi theo thời gian và có tính ngẫu nhiên, HMM giúp mô hình hóa các biến thiên này hiệu quả.
Thuật toán huấn luyện nhúng (Embedded training) có ưu điểm gì so với huấn luyện truyền thống?
Thuật toán huấn luyện nhúng cho phép huấn luyện mô hình trên dữ liệu không gán nhãn âm vị mà chỉ cần gán nhãn âm tiết, giảm công sức và sai số do gán nhãn thủ công, đồng thời tận dụng được lượng dữ liệu lớn hơn, nâng cao độ chính xác nhận dạng.
Phương pháp trích rút đặc trưng MFCC có vai trò như thế nào trong nhận dạng tiếng nói?
MFCC trích xuất các đặc trưng phổ âm thanh dựa trên thang Mel, phù hợp với cách con người cảm nhận âm thanh, giúp mô hình nhận dạng tiếng nói phân biệt các âm vị chính xác hơn so với các phương pháp truyền thống như LPC.
Làm thế nào để giảm độ phức tạp tính toán trong mô hình HMM?
Sử dụng các thuật toán như Forward-Backward để tính xác suất chuỗi quan sát và thuật toán Viterbi để tìm chuỗi trạng thái tối ưu giúp giảm đáng kể số phép tính so với phương pháp tính trực tiếp, từ khoảng 10^70 phép nhân xuống còn vài nghìn phép nhân trong các trường hợp thực tế.
Mô hình ngôn ngữ đóng vai trò gì trong hệ thống nhận dạng tiếng nói?
Mô hình ngôn ngữ cung cấp các ràng buộc cú pháp và xác suất chuyển tiếp giữa các từ hoặc âm tiết, giúp giảm không gian tìm kiếm, tăng độ chính xác và tốc độ nhận dạng, đặc biệt quan trọng khi từ điển nhận dạng lớn.

Kết luận

Luận văn đã xây dựng thành công mô hình Markov ẩn (HMM) cho nhận dạng tiếng nói tiếng Việt, đặc biệt là nhận dạng âm vị tự động dựa trên dữ liệu không gán nhãn.
Thuật toán huấn luyện nhúng kết hợp với các thuật toán Forward-Backward và Viterbi giúp nâng cao độ chính xác nhận dạng và giảm chi phí tính toán.
Kết quả thử nghiệm cho thấy độ chính xác nhận dạng âm vị đạt khoảng 85-90%, nhận dạng tiếng nói liên tục đạt khoảng 80%, phù hợp với các ứng dụng thực tế.
Nghiên cứu mở ra hướng phát triển các hệ thống nhận dạng tiếng nói phù hợp với đặc thù ngôn ngữ Việt Nam, góp phần thúc đẩy công nghệ trí tuệ nhân tạo trong nước.
Các bước tiếp theo bao gồm mở rộng dữ liệu, phát triển thuật toán nâng cao, tích hợp mô hình ngôn ngữ hiện đại và triển khai ứng dụng thực tế nhằm hoàn thiện và thương mại hóa công nghệ.

Khuyến khích các nhà nghiên cứu và doanh nghiệp phối hợp triển khai các đề xuất nhằm phát triển hệ thống nhận dạng tiếng nói hiệu quả, phù hợp với nhu cầu thực tế của Việt Nam.

Trích đoạn nội dung tài liệu

MỞ ĐẦU Ngay khi máy tính ra đời con ngƣời đã mơ ƣớc máy tính có thể nói chuyện với mình. Yêu cầu đơn giản nhất là máy có thể xác định đƣợc từ ngữ mà chúng ta nói với máy. Đó là mục tiêu của ngành nhận dạng tiếng nói. Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa ngƣời và máy.

Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con ngƣời. Hiện nay trên thế giới, lĩnh vực nhận dạng tiếng nói đã đạt đƣợc nhiều tiến bộ vƣợt bậc. Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (Speech recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo, nhiều kết quả đã trở thành sản phẩm thƣơng mại nhƣ ViaVoice, Dragon., các hệ thống bảo mật thông qua nhận dạng tiếng nói, các hệ quay số điện thoại bằng giọng nói. Triển khai những công trình nghiên cứu và đƣa vào thực tế ứng dụng vấn đề này là một việc làm hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá hiện nay của nƣớc nhà.

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đó và lƣu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã đƣợc học và lƣu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến đổi theo thời gian và có sự khác biệt lớn giữa tiếng nói của những ngƣời nói khác nhau, tốc độ nói, ngữ cảnh và môi trƣờng âm học khác nhau.

Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 8 thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản [1]:  Tín hiệu tiếng nói đƣợc biểu diễn chính xác bởi các biên độ phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.

 Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm đƣợc bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.  Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.

Lĩnh vực nghiên cứu của nhận dạng tiếng nói là khá rộng liên quan đến nhiều ngành khác nhau, nhƣ xử lý tín hiệu số (digital signal proccessing), vật lý hay âm học (acoustic), nhận dạng mẫu, lý thuyết thông tin và khoa học máy tính (information and computer science theory), ngôn ngữ học (linguistics), sinh lý học (physiology), tâm lý học ứng dụng (applied psychology). Các hệ thống nhận dạng tiếng nói có thể đƣợc phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống nhận dạng tiếng nói liên tục, ngƣời ta lại phân biệt hệ thống nhận dạng có kích thƣớc từ điển nhỏ và hệ thống nhận dạng với kích thƣớc từ điển trung bình hoặc lớn. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 Ý tƣởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm 50 của thế kỷ 20 và đến nay đã đạt đƣợc nhiều kết quả đáng kể.

Có 3 hƣớng tiếp cận chính cho nhận dạng tiếng nói [8]:  Tiếp cận Âm học: Hƣớng tiếp cận này dựa vào các đặc điểm âm học đƣợc rút ra từ phổ âm thanh. Tuy nhiên kết quả của hƣớng tiếp cận này còn thấp vì trong thực tế, các đặc trƣng âm học có sự biến động rất lớn. Hơn nữa phƣơng pháp này đòi hỏi tri thức rất đầy đủ về âm học (Vốn tri thức âm học hiện nay chƣa thể đáp ứng).  Tiếp cận Nhận dạng mẫu thống kê: Sử dụng các phƣơng pháp máy học dựa trên thống kê để học và rút ra mẫu tham khảo từ lƣợng dữ liệu lớn.

Hƣớng này đang đƣợc sử dụng nhiều, chủ yếu là dựa vào Mô hình Markov ẩn (HMM).  Tiếp cận Trí tuệ nhân tạo: là hƣớng kết hợp của cả hai hƣớng trên. Phƣơng pháp này kết hợp đƣợc cả tri thức của chuyên gia và phƣơng pháp mẫu thống kê. Đây sẽ là hƣớng tiếp cận tƣơng lai của nhận dạng tiếng nói.

Việc nhận dạng tiếng nói gặp một số khó khăn sau:  Trong môi trƣờng sinh hoạt hàng ngày, chất lƣợng tiếng nói biến động rất lớn do chịu ảnh hƣởng của các yếu tố ngoại cảnh, tâm và sinh lý ngƣời nói: một câu của cùng một ngƣời nói khi thu vào máy sẽ khác nhau nếu nói ở hai tâm trạng khác nhau (lúc vui nói khác, lúc giận nói khác,…), sức khoẻ khác nhau (lúc khoẻ nói khác, lúc bệnh nói khác), tốc độ nói khác nhau (nói chậm thì rõ hơn nói nhanh), môi trƣờng xung quanh khác nhau (môi trƣờng có tiêng ồn thì âm thu vào sẽ bị nhiễu), v.v… Và còn nhiều yếu tố khác nữa tác động lên chất LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 lƣợng của lời nói nhƣ thiết bị thu không tốt, tín hiệu bị nhiễu điện,… Do đó, việc nhận dạng trở nên rất khó khăn.  Trong nhận dạng tiếng nói theo hƣớng nhận dạng từng âm vị, một khó khăn chúng ta gặp phải là: các âm vị liền nhau trong chuỗi tiếng nói không có vách ngăn rõ ràng (2 âm vị sát nhau có một phần giao nhau, khó xác định đƣợc phần giao nhau thuộc âm vị trƣớc hay âm vị sau). Ngay cả đối với con ngƣời, tách âm vị từ một âm tiết (xác định vị trí bắt đầu và vị trí kết thúc của âm vị đó trên sóng âm của âm tiết) cũng không phải là công việc đơn giản. Hiện nay, hầu hết các hƣớng tiếp cận để nhận dạng âm vị là nhận dạng theo học mẫu thống kê.

Thông thƣờng để học mẫu ngƣời ta cung cấp cho chƣơng trình học một nguồn dữ liệu có nhiều mẫu đã đƣợc phân loại thành nhiều lớp và có gán nhãn (nhãn cho biết mỗi mẫu thuộc lớp nào). Nguồn dữ liệu này phải đƣợc phân lớp và gán nhãn chính xác hoàn toàn để máy học. Tuy nhiên do không thể tách âm vị một cách chính xác, nguồn dữ liệu âm vị đƣa vào khó đạt đƣợc mức độ chính xác, kết quả là việc huấn luyện giảm hiệu suất, làm cho hiệu suất của chƣơng trình nhận dạng cũng giảm theo. Chúng tôi xin nêu ra một hƣớng giải quyết để tránh việc gán nhãn âm vị không chính xác: thay vì đánh nhãn âm vị, chúng ta sẽ đánh nhãn âm tiết, đồng thời cho biết các âm vị cấu thành âm tiết đó.

Nhƣ vậy, dữ liệu mẫu cung cấp cho quá trình học là các âm tiết. Thuật toán học đƣợc sử dụng để tách âm vị là thuật toán huấn luyện nhúng (Embedded training). Kết quả thu đƣợc là các mô hình HMM cho từng âm vị. Do mỗi dãy âm vị đƣợc chọn tƣơng đƣơng với một âm tiết, công việc đánh nhãn âm vị trên sóng âm thực chất là không có (chỉ đánh nhãn trên âm tiết, vốn đƣợc thực hiện dễ dàng).

Vì vậy, có thể xem dữ liệu đƣa vào trong quá trình huấn luyện là dữ liệu không LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 gán nhãn và phƣơng pháp nhận dạng này đƣợc xem là nhận dạng âm vị tự động. Công việc gán nhãn âm vị bằng tay rất vất vả và mất nhiều thời gian. Ngoài ra, hiện nay có rất ít kho dữ liệu đã đƣợc gán nhãn âm vị. Vì vậy, hƣớng tiếp cận nhận dạng âm vị tự động, vốn hiệu quả hơn, tỏ ra là hƣớng tiếp cận đúng đắn.

Tuy nhiên, huấn luyện trên dữ liệu không gán nhãn cũng có những khó khăn: đòi hỏi khối lƣợng dữ liệu lớn hơn nhiều so với huấn luyện trên dữ liệu có gán nhãn, đồng thời quá trình huấn luyện cũng lâu hơn. Với những ƣu thế vƣợt trội nhƣ trên đã nêu, hƣớng tiếp cận nhận dạng âm vị tự động hứa hẹn tạo ra những mô hình nhận dạng tiếng nói với độ chính xác cao. Đó cũng chính là hƣớng nghiên cứu mà tôi chọn lựa cho luận văn thạc sĩ của mình. Trong bản luận văn này, chúng tôi muốn chứng minh hai điều:  Nếu có đầy đủ dữ liệu tiếng nói (không gán nhãn), có thể nhận dạng đƣợc số lƣợng lớn các âm tiết với độ chính xác tƣơng đối cao theo hƣớng tiếp cận nhận dạng âm vị tự động.

 Có thể nhận dạng đƣợc tiếng nói liên tục với tốc độ trung bình. Luận văn đƣợc tổ chức nhƣ sau:  Chƣơng 1 : Mô hình HMM và ứng dụng trong nhận dạng Giới thiệu mô hình HMM và sự lựa chọn mô hình HMM để nhận dạng tiếng nói.  Chƣơng 2 : Tiền xử lý tín hiệu tiếng nói Chƣơng này sẽ giới thiệu về tiền xử lý tiếng nói và một số phƣơng pháp trích đặc trƣng đƣợc sử dụng trong nhận dạng tiếng nói.  Chƣơng 3 : Thuật toán huấn luyện nhúng (Embedded training) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 Giới thiệu thuật toán huấn luyện nhúng.

Đây là quá trình xây dựng mô hình HMM tự động cho các âm vị từ kho dữ liệu không gán nhãn âm vị.  Chƣơng 4 : Cài đặt thuật toán - Giới thiệu phần mềm từ điển tiếng nói.  Kết luận LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 CHƢƠNG 1. MÔ HÌNH HMM VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI 1 Giới thiệu Đầu thế kỷ XX, Andrei Andreyevich Markov (14/6/1856 – 20/7/1922) – nhà Toán học và Vật lý nổi tiếng ngƣời Nga đã đƣa ra một mô hình toán học để mô tả chuyển động của các phân tử chất lỏng trong một bình kín.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Xử lý tín hiệu số

Công nghệ nhận dạng giọng nói

Học máy thống kê