Trường đại học
Trường Đại Học Ngoại Ngữ - Tin Học TP.HCMChuyên ngành
Công Nghệ Thông TinNgười đăng
Ẩn danhThể loại
khóa luận tốt nghiệp2014
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp người - máy. Nó giúp máy tính hiểu và thực hiện hiệu lệnh của con người nhanh hơn. Đề tài nghiên cứu “Thử nghiệm việc nhận dạng tiếng nói tiếng Việt” nhằm nhận dạng các hiệu lệnh bằng tiếng Việt và chuyển thành văn bản để máy tính hiểu và thực thi. Cụ thể hóa, đề tài xây dựng ứng dụng quản lý chi tiêu cá nhân và hệ thống tra cứu thông tin tuyển sinh Đại học HUFLIT. PGS. Vũ Hải Quân dẫn đầu nhóm nghiên cứu tại Đại học Khoa học Tự nhiên TP.HCM, tập trung vào bài toán truy vấn thông tin cho bản tin thời sự tiếng Việt. Nhóm đã thực hiện đề tài cấp quốc gia về khai thác thông tin đa phương tiện hướng ngữ nghĩa và được tài trợ để nghiên cứu về hệ thống tổng hợp tiếng nói tiếng Việt.
Ý tưởng xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm 1950 và đạt được nhiều kết quả đáng kể. Tại Việt Nam, nhóm nghiên cứu của PGS. Vũ Hải Quân đã liên tục trong 10 năm qua xây dựng thành công nhiều hệ thống như: Hệ thống nhận dạng tiếng nói tiếng Việt liên tục, bộ từ vựng không hạn chế; Hệ thống tổng hợp tiếng nói tiếng Việt dựa trên ghép nối. Các hệ thống này có kết quả nhận dạng khá cao, đạt gần 95%; tiếng nói tổng hợp cũng khá tự nhiên. Đặc biệt, nhóm nghiên cứu đã xây dựng thành công một hệ thống voice server hoàn chỉnh với kết quả nhận dạng đến 93.17%, tạo nền tảng cho việc phát triển các ứng dụng tiếng nói như hệ thống hỏi đáp tự động, hệ thu thoại. [2]
Có 3 hướng tiếp cận chính cho nhận dạng tiếng nói [1]: (1) Tiếp cận Âm học: dựa vào đặc điểm âm học rút ra từ phổ âm thanh, nhưng kết quả còn thấp vì biến động lớn và đòi hỏi tri thức âm học đầy đủ. (2) Tiếp cận Nhận dạng Mẫu thống kê: sử dụng phương pháp máy học dựa trên thống kê để học và rút ra mẫu tham khảo từ lượng dữ liệu lớn, thường dùng Mô hình Markov ẩn (HMM). (3) Tiếp cận Trí tuệ nhân tạo: kết hợp cả hai hướng trên, là hướng tiếp cận tương lai của nhận dạng tiếng nói. Đề tài tập trung xây dựng bộ nhận dạng tiếng nói tiếng Việt theo hướng tiếp cận Nhận dạng mẫu thống kê.
Mục tiêu của đề tài là tìm hiểu về Nhận dạng tiếng nói, các bước huấn luyện, xây dựng bộ nhận dạng tiếng nói theo mô hình Hidden Markov. Đồng thời, tìm hiểu về Xử lý ngôn ngữ tự nhiên để phục vụ cho giai đoạn hậu xử lý sau khi đã nhận dạng tiếng nói. Đề tài tích hợp các thành phần Nhận dạng tiếng nói, Xử lý ngôn ngữ tự nhiên và Tổng hợp tiếng nói vào thành một ứng dụng, hệ thống giao tiếp tiếng nói hoàn chỉnh. Cụ thể hóa qua ứng dụng "Quản lý chi tiêu cá nhân" và hệ thống "Tra cứu thông tin tuyển sinh Đại học HUFLIT".
Ứng dụng "Quản lý chi tiêu cá nhân" đáp ứng các mục tiêu: Nhận dạng được tiếng nói của nhiều người dùng với độ chính xác cao. Có cơ chế xử lý ngôn ngữ tự nhiên (phân tích cú pháp và ngữ nghĩa câu lệnh) hiệu quả. Thực thi các lệnh truy xuất cơ sở dữ liệu từ người dùng. Xuất kết quả thành âm thanh.
Hệ thống "Tra cứu thông tin tuyển sinh Đại học HUFLIT" đáp ứng các mục tiêu: Người dùng giao tiếp với hệ thống bằng tiếng nói thông qua điện thoại. Hệ thống có khả năng nhận dạng tiếng nói, xử lý ngôn ngữ và phản hồi cho người dùng.
Theo hiểu biết của tác giả, đây là hệ thống đầu tiên tại Việt Nam được trang bị một cơ chế xử lý ngôn ngữ tự nhiên hiệu quả vào ứng dụng tiếng nói, giúp hệ thống thông minh và linh hoạt hơn. Về mặt khoa học, đề tài mở ra hướng phát triển mới trong việc nghiên cứu, xây dựng các hệ thống hỏi đáp có thể hiểu và giao tiếp bằng tiếng Việt với người dùng bằng việc tích hợp xử lý ngôn ngữ tự nhiên trong các ứng dụng tiếng nói.
Nghiên cứu sử dụng công nghệ và công cụ mã nguồn mở HTK để nhận dạng tiếng nói. Nghiên cứu các vấn đề về phân tích cú pháp và mô hình biểu diễn ngữ nghĩa cho các câu truy vấn tiếng Việt. Tiếp cận phương pháp phân tích cú pháp và ngữ nghĩa câu lệnh tiếng Việt với DCG (Definite Clause Grammar) [5]. Nghiên cứu xây dựng mô hình và tích hợp hệ thống.
Đối với ứng dụng "Quản lý chi tiêu cá nhân": Dữ liệu huấn luyện được thu âm từ 9 người với 9000 mẫu câu và 50 giọng đọc khác nhau (nam). Dữ liệu này được lấy mẫu ở mức 16000Hz, 16bit theo định dạng PCM trong điều kiện môi trường có tiếng ồn. Việc thu âm 50 giọng đọc khác nhau tốn nhiều thời gian và công sức, được thực hiện chung với nhóm bạn Nguyễn Vũ Kiều Anh và Nguyễn Phạm Bảo Nguyên. Nhóm chia đều việc thu âm và chuẩn hóa file wav.
Đối với hệ thống "Tra cứu thông tin tuyển sinh DH HUFLIT": Dữ liệu huấn luyện được thu âm trong 262 phút với 2550 mẫu câu và 50 giọng đọc khác nhau (nam). Dữ liệu này được lấy mẫu ở mức 8000Hz, 16bit theo định dạng PCM trong điều kiện môi trường ít tiếng ồn.
Từ bộ từ vựng, từ điển phát âm được xây dựng theo kiểu gõ Telex. Ví dụ: A SO AS 0 sp, MUWOWI MUWOWIsp, ... (cho ứng dụng Quản lý chi tiêu cá nhân) và A Asp, CHISNH CHIS NHsp, ... (cho hệ thống Tra cứu HUFLIT).
Mô hình ngôn ngữ cung cấp thông tin về cú pháp, ngữ nghĩa, trật tự từ của câu. Thành phần này giúp hệ thống lựa chọn kết quả nhận dạng tốt nhất trong danh sách các ứng viên chọn lọc được. Việc xây dựng mô hình ngôn ngữ bao gồm việc xác định văn phạm cho ngôn ngữ đó. Tính phức tạp của văn phạm phụ thuộc vào mức độ phức tạp của hệ thống cần nhận dạng. Cấu trúc văn phạm là một đồ thị có hướng tổng quát. Nó chứa các cấu trúc câu có thể có trong ngữ cảnh của ứng dụng.
Mô hình ngôn ngữ giúp loại bỏ các kết quả nhận dạng sai bằng cách đánh giá khả năng xuất hiện của một chuỗi từ trong ngữ cảnh cụ thể. Ví dụ, trong câu "Tôi muốn mua một quyển sách", mô hình ngôn ngữ sẽ đánh giá cao khả năng xuất hiện của cụm từ "quyển sách" hơn là "quyển táo", do từ "sách" thường đi kèm với từ "quyển" hơn là từ "táo".
Có nhiều phương pháp xây dựng văn phạm, từ đơn giản như sử dụng danh sách các câu lệnh có thể có, đến phức tạp như sử dụng các mô hình ngôn ngữ thống kê. Trong đề tài này, văn phạm được xây dựng dựa trên các quy tắc cú pháp đơn giản, phù hợp với phạm vi ứng dụng hạn chế. Tuy nhiên, các quy tắc này vẫn đủ để hệ thống hiểu được các câu lệnh cơ bản của người dùng.
Hệ thống được thử nghiệm trên cả hai ứng dụng: "Quản lý chi tiêu cá nhân" và "Tra cứu thông tin tuyển sinh Đại học HUFLIT". Kết quả cho thấy hệ thống hoạt động ổn định và đáp ứng được các yêu cầu đặt ra. Tuy nhiên, độ chính xác của hệ thống vẫn còn hạn chế, đặc biệt trong môi trường có nhiều tiếng ồn.
Thành phần nhận dạng tiếng nói đạt độ chính xác trên 85%. Tuy nhiên, độ chính xác này có thể giảm xuống khi sử dụng trong môi trường có nhiều tiếng ồn hoặc khi người dùng phát âm không rõ ràng. Cần có các giải pháp để cải thiện độ chính xác của thành phần này, chẳng hạn như sử dụng các thuật toán lọc tiếng ồn hoặc tăng cường dữ liệu huấn luyện.
Thành phần xử lý ngôn ngữ tự nhiên có khả năng phân tích cú pháp và ngữ nghĩa của câu lệnh tiếng Việt khá hiệu quả. Tuy nhiên, thành phần này vẫn còn hạn chế trong việc xử lý các câu lệnh phức tạp hoặc các câu lệnh có nhiều nghĩa. Cần có các giải pháp để cải thiện khả năng của thành phần này, chẳng hạn như sử dụng các mô hình ngôn ngữ phức tạp hơn hoặc tích hợp các kiến thức ngữ nghĩa.
Đề tài đã xây dựng được một ứng dụng và một hệ thống có hệ nhận dạng và tổng hợp tiếng nói tiếng Việt hoàn chỉnh; xây dựng engine xử lý ngôn ngữ tự nhiên, tích hợp thành công vào ứng dụng; 01 bài báo được đăng trên tạp chí Quốc tế chuyên ngành [11]; 02 bài báo được trình bày tham dự Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" - FAIR 2014; 01 bài báo cáo Nghiên cứu khoa học sinh viên dự Giải "Tài năng khoa học trẻ Việt Nam" cấp Bộ.
Đề tài đã đạt được nhiều kết quả đáng khích lệ, bao gồm việc xây dựng thành công các thành phần quan trọng của hệ thống nhận dạng tiếng nói tiếng Việt và tích hợp chúng vào các ứng dụng thực tế. Các kết quả này là tiền đề quan trọng cho việc phát triển các ứng dụng giao tiếp người-máy bằng tiếng Việt trong tương lai.
Hệ thống vẫn còn một số hạn chế, chẳng hạn như độ chính xác chưa cao, khả năng xử lý các câu lệnh phức tạp còn hạn chế và khả năng hoạt động trong môi trường có nhiều tiếng ồn chưa tốt. Cần có các nghiên cứu tiếp theo để khắc phục các hạn chế này và nâng cao hiệu quả của hệ thống.
Hướng phát triển trong tương lai bao gồm: Cải thiện độ chính xác của hệ thống, Mở rộng phạm vi ứng dụng của hệ thống, Nghiên cứu các phương pháp xử lý tiếng ồn hiệu quả hơn, Tích hợp hệ thống với các ứng dụng khác.
Bạn đang xem trước tài liệu:
Thử nghiệm việc việc nhận dạng tiếng nói tiếng việt với bộ từ vựng giới hạn
Tài liệu "Nghiên cứu và Phát triển Hệ thống Nhận dạng Tiếng Nói Tiếng Việt" cung cấp cái nhìn sâu sắc về công nghệ nhận dạng tiếng nói, đặc biệt là trong ngữ cảnh tiếng Việt. Nghiên cứu này không chỉ phân tích các phương pháp hiện có mà còn đề xuất các giải pháp cải tiến, giúp nâng cao độ chính xác và hiệu suất của hệ thống. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng công nghệ này trong nhiều lĩnh vực như giáo dục, dịch vụ khách hàng và truyền thông.
Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Khóa luận tốt nghiệp khoa học máy tính đánh giá kiến trúc transformer cho bài toán nhận diện văn bản tiếng việt trong ảnh. Tài liệu này sẽ giúp bạn hiểu rõ hơn về các kiến trúc hiện đại trong nhận diện văn bản, từ đó có thể áp dụng vào các hệ thống nhận dạng tiếng nói. Mỗi liên kết là một cơ hội để bạn khám phá sâu hơn về công nghệ và ứng dụng của nó trong thực tiễn.