Luận Văn Thạc Sĩ Về Nhận Dạng Tiếng Việt Qua Phân Tích Cú Pháp

Luận văn thạc sĩ VNU UET nghiên cứu giải quyết vấn đề nhận dạng tiếng Việt qua phân tích cú pháp, góp phần nâng cao công nghệ ngôn ngữ.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2004

107

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

1.1. Cơ sở và tiềm năng của nhận dạng tiếng nói

1.2. Các ứng dụng hay gặp

1.2.1. Chương trình quay số bằng giọng nói (voice dialer)

1.2.2. Chương trình soạn thảo bằng giọng nói (voice editor)

1.2.3. Chỉ mục đa phương tiện (Multimedia Indexer)

1.2.4. Chương trình ra lệnh bằng giọng nói (voice commander)

1.2.5. Chương trình hội thoại (conversational computer)

1.2.6. Khó khăn và thuận lợi

1.2.7. Chất lượng tiếng nói (quality of speech)

1.2.8. Các từ tách biệt và tiếng nói liên tục

1.2.9. Kích thước từ vựng

1.2.10. Biến đổi theo người nói (speaker)

1.2.11. Độc lập người nói và phụ thuộc người nói

1.2.12. Biến đổi theo phương ngữ (dialect)

1.2.13. Cấu trúc ngôn ngữ

1.2.14. Các bài toán liên quan tới nhận dạng tiếng nói

1.2.15. Nhận dạng tiếng nói và tổng hợp tiếng nói

1.2.16. Nhận diện người nói (speaker identification)

1.2.17. Xác minh người nói (speaker verification)

1.2.18. Giới hạn nghiên cứu

1.2.19. Cách tiếp cận

2. CHƯƠNG 2: CƠ SỞ TOÁN HỌC

2.1. Từ điển mẫu (pattern dictionary)

2.2. Định nghĩa hình thức từ điển mẫu

2.3. Triển khai từ điển mẫu

2.4. Định nghĩa hình thức về văn phạm

2.5. Biểu diễn đơn giản của văn phạm

2.6. Định nghĩa triển khai của văn phạm

2.7. Định nghĩa hình thức về ngôn ngữ

2.8. Biểu diễn ngôn ngữ trong đĩa từ

2.9. Sơ đồ chuyển trạng thái tuyến tính (linear state transition diagram)

2.10. Định nghĩa hình thức

2.11. Định nghĩa triển khai

2.12. Thuật toán xây dựng

2.13. Sơ đồ chuyển trạng thái đẩy xuống (pushdown state transition diagram)

2.14. Định nghĩa hình thức

2.15. Định nghĩa triển khai

2.16. Thuật toán xây dựng

2.17. Chuỗi con chung lớn nhất

2.18. Định nghĩa chuỗi con chung lớn nhất

2.19. Thuật toán tìm chuỗi con chung lớn nhất

2.20. Vai trò của chuỗi con chung

3. CHƯƠNG 3: TÍN HIỆU TIẾNG NÓI

3.1. Định nghĩa tín hiệu

3.2. Lấy mẫu tín hiệu (signal sampling)

3.3. Phân đoạn tín hiệu

3.4. Tham số hoá tín hiệu

3.5. Số lần vượt qua điểm không (zero crossing)

3.6. Tần số cơ bản (fundamental frequency)

3.7. Biến đổi tín hiệu (signal transformation)

3.8. Biến đổi biên độ tổng thể (global amplitude transformation)

3.9. Thu nhỏ tín hiệu (zoom smaller)

3.10. Phóng to tín hiệu (zoom bigger)

3.11. Cắt bỏ biên độ (amplitude cutoff)

3.12. Biến đổi Fourier

4. CHƯƠNG 4: PHƯƠNG PHÁP NHẬN DẠNG DỰA TRÊN PHÂN TÍCH TỪ VỰNG VÀ PHÂN TÍCH CÚ PHÁP

4.1. Phân tích tiếng Việt

4.2. Ngôn ngữ có thanh điệu

4.3. Ngôn ngữ đơn âm tiết (monosyllable)

4.4. Các lỗi phát âm và mô hình hoá

4.5. Từ điển phát âm (phonetic dictionary)

4.6. Văn phạm tiếng Việt

4.7. Sự không thống nhất trong chính tả

4.8. Phát biểu bài toán nhận dạng

4.9. Đầu ra của quá trình nhận dạng

4.10. Đầu vào của quá trình nhận dạng

4.11. Tham số và độ đo của quá trình nhận dạng

4.12. Hệ nhận dạng, bộ nhận dạng và bộ huấn luyện

4.13. Nhận dạng dựa trên từ điển

4.14. Huấn luyện bộ nhận dạng dựa trên từ điển

4.15. Nhận dạng dựa trên phân tích từ vựng

4.16. Huấn luyện bộ nhận dạng dựa trên phân tích từ vựng

4.17. Nhận dạng dựa trên bộ phân tích cú pháp

4.18. Huấn luyện bộ nhận dạng dựa trên phân tích cú pháp

5. CHƯƠNG 5: TRIỂN KHAI HỆ THỐNG NHẬN DẠNG

5.1. Các tập tin trong hệ thống

5.2. Tập tin âm thanh

5.3. Tập tin nhãn (label file format)

5.4. Tập tin văn phạm (grammar file format)

5.5. Tập tin sơ đồ tuyến tính (linear diagram)

5.6. Phát sinh trong triển khai

5.7. Cơ sở tri thức của quá trình nhận dạng

5.8. Nhận dạng trực tuyến

5.9. Chuyển đổi trạng thái trực tuyến

5.10. Huấn luyện trực tuyến và huấn luyện hàng loạt

5.11. Các thư viện dùng để triển khai

5.12. Chương trình smartphone

5.13. Chương trình wordrec

5.14. Đánh giá kết quả triển khai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Giải Quyết Vấn Đề Nhận Dạng Tiếng Việt

Nhận dạng tiếng Việt là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin. Việc áp dụng các phương pháp phân tích cú pháp giúp cải thiện độ chính xác trong nhận dạng tiếng nói. Nghiên cứu này không chỉ mang lại giá trị cho ngành công nghệ mà còn cho nhiều ứng dụng thực tiễn trong đời sống hàng ngày.

1.1. Khái Niệm Cơ Bản Về Nhận Dạng Tiếng Việt

Nhận dạng tiếng Việt liên quan đến việc máy tính hiểu và xử lý ngôn ngữ tự nhiên. Các phương pháp hiện tại chủ yếu dựa vào phân tích cú pháp và từ vựng.

1.2. Lịch Sử Phát Triển Nhận Dạng Tiếng Việt

Lịch sử nghiên cứu nhận dạng tiếng Việt bắt đầu từ những năm 50. Tuy nhiên, kết quả thực tiễn vẫn còn hạn chế, cần nhiều nghiên cứu hơn để cải thiện.

II. Thách Thức Trong Nhận Dạng Tiếng Việt Bằng Phân Tích Cú Pháp

Nhận dạng tiếng Việt gặp nhiều thách thức do ngữ điệu và cấu trúc ngôn ngữ đặc thù. Các yếu tố như âm điệu, từ vựng phong phú và ngữ pháp phức tạp gây khó khăn cho hệ thống nhận dạng.

2.1. Các Vấn Đề Về Âm Điệu Trong Tiếng Việt

Tiếng Việt là ngôn ngữ có thanh điệu, điều này làm cho việc nhận dạng âm thanh trở nên phức tạp hơn. Các hệ thống cần phải phân tích chính xác âm điệu để đạt được kết quả tốt.

2.2. Khó Khăn Trong Việc Xử Lý Ngữ Pháp

Cấu trúc ngữ pháp tiếng Việt không đồng nhất, điều này tạo ra thách thức lớn cho các thuật toán nhận dạng. Việc xây dựng từ điển và quy tắc ngữ pháp là rất cần thiết.

III. Phương Pháp Nhận Dạng Tiếng Việt Bằng Phân Tích Cú Pháp

Phân tích cú pháp là một trong những phương pháp chính để nhận dạng tiếng Việt. Phương pháp này giúp xác định cấu trúc câu và ý nghĩa của từ trong ngữ cảnh.

3.1. Phân Tích Từ Vựng Trong Nhận Dạng

Phân tích từ vựng giúp xác định các từ khóa trong câu. Việc xây dựng từ điển phát âm là rất quan trọng để cải thiện độ chính xác.

3.2. Ứng Dụng Machine Learning Trong Nhận Dạng

Machine learning có thể cải thiện khả năng nhận dạng bằng cách học từ dữ liệu lớn. Các mô hình học sâu đang được áp dụng để nâng cao hiệu suất.

IV. Ứng Dụng Thực Tiễn Của Nhận Dạng Tiếng Việt

Nhận dạng tiếng Việt có nhiều ứng dụng trong đời sống, từ các hệ thống trợ lý ảo đến các ứng dụng trong giáo dục và y tế. Những ứng dụng này giúp nâng cao trải nghiệm người dùng.

4.1. Hệ Thống Trợ Lý Ảo

Các hệ thống trợ lý ảo như Google Assistant và Siri đã áp dụng nhận dạng tiếng Việt để phục vụ người dùng tốt hơn. Điều này cho thấy tiềm năng lớn của công nghệ này.

4.2. Ứng Dụng Trong Giáo Dục

Nhận dạng tiếng Việt có thể hỗ trợ trong việc học ngôn ngữ, giúp người học cải thiện phát âm và ngữ pháp thông qua các ứng dụng học tập.

V. Kết Luận Về Nhận Dạng Tiếng Việt Bằng Phân Tích Cú Pháp

Nhận dạng tiếng Việt bằng phân tích cú pháp là một lĩnh vực đầy tiềm năng nhưng cũng không ít thách thức. Cần tiếp tục nghiên cứu và phát triển để cải thiện độ chính xác và khả năng ứng dụng.

5.1. Tương Lai Của Nhận Dạng Tiếng Việt

Với sự phát triển của công nghệ AI, tương lai của nhận dạng tiếng Việt hứa hẹn sẽ có nhiều bước tiến mới. Các nghiên cứu cần tập trung vào việc cải thiện độ chính xác và khả năng xử lý ngữ nghĩa.

5.2. Đề Xuất Nghiên Cứu Thêm

Cần có thêm các nghiên cứu về các phương pháp mới và cải tiến các thuật toán hiện tại để nâng cao hiệu quả nhận dạng tiếng Việt.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet giải quyết vấn đề nhận dạng tiếng việt bằng phân tích cú pháp

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng tiếng nói tự động là lĩnh vực nghiên cứu nhằm phát triển các kỹ thuật và hệ thống cho phép máy tính tiếp nhận và hiểu đầu vào bằng giọng nói. Từ những năm 1950, lĩnh vực này đã được quan tâm nhưng đến nay vẫn còn nhiều thách thức, đặc biệt với tiếng Việt – một ngôn ngữ đơn âm tiết có thanh điệu và biến thể phương ngữ đa dạng. Theo ước tính, các hệ thống nhận dạng tiếng Việt hiện nay vẫn chưa đạt được độ chính xác cao và chưa phổ biến rộng rãi trong người dùng cá nhân. Luận văn này tập trung giải quyết vấn đề nhận dạng tiếng Việt dựa trên phân tích cú pháp và phân tích từ vựng, với mục tiêu xây dựng một hệ thống thử nghiệm nhằm chứng minh tính khả thi của phương pháp đề xuất.

Phạm vi nghiên cứu giới hạn trong tiếng nói rời rạc, phụ thuộc người nói, và môi trường ít nhiễu, nhằm đảm bảo tính khả thi và tập trung phát triển ứng dụng trên máy tính cá nhân. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả giao tiếp giữa người và máy tính bằng tiếng Việt, góp phần thúc đẩy ứng dụng công nghệ nhận dạng tiếng nói trong các lĩnh vực như trợ lý ảo, điều khiển thiết bị bằng giọng nói, và soạn thảo văn bản tự động. Qua đó, nghiên cứu cũng mở ra hướng phát triển các hệ thống nhận dạng tiếng nói liên tục và độc lập người nói trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: lý thuyết chương trình dịch và mô hình ngôn ngữ hình thức. Lý thuyết chương trình dịch cung cấp cơ sở cho việc phân tích cú pháp tiếng Việt, giúp xây dựng các sơ đồ chuyển trạng thái đẩy xuống (pushdown state transition diagram) để mô hình hóa cấu trúc câu và mệnh lệnh. Mô hình ngôn ngữ hình thức, bao gồm sơ đồ chuyển trạng thái tuyến tính (linear state transition diagram), được sử dụng để biểu diễn ngôn ngữ con và giới hạn không gian tìm kiếm trong nhận dạng.

Ba khái niệm chuyên ngành quan trọng được áp dụng gồm:

Từ điển mẫu (pattern dictionary): ánh xạ hữu hạn giữa các mẫu âm thanh đặc trưng và ký hiệu từ vựng, được lưu trữ để phục vụ nhận dạng.
Văn phạm (grammar): tập hợp các luật biến đổi ký hiệu dùng để sinh và phân tích cú pháp câu lệnh tiếng Việt.
Chuỗi con chung lớn nhất (maximum common substring): thuật toán tìm đặc trưng chung nhất trong các mẫu âm thanh khác nhau của cùng một từ, giúp tạo mẫu tổng quát cho bộ nhận dạng.

Phương pháp nghiên cứu

Nghiên cứu sử dụng dữ liệu thu thập từ các mẫu tiếng nói rời rạc, phụ thuộc người nói, trong môi trường ít nhiễu. Cỡ mẫu khoảng vài trăm đến vài nghìn mẫu âm thanh được sử dụng để huấn luyện và đánh giá hệ thống. Phương pháp chọn mẫu là chọn ngẫu nhiên có kiểm soát nhằm đảm bảo đa dạng về giọng nói và phát âm.

Phân tích dữ liệu được thực hiện qua các bước:

Xử lý tín hiệu: lấy mẫu, phân đoạn, tham số hóa tín hiệu âm thanh thành các véc tơ đặc trưng.
Xây dựng từ điển mẫu: lưu trữ các véc tơ đặc trưng tương ứng với từ vựng tiếng Việt.
Phân tích cú pháp: sử dụng sơ đồ chuyển trạng thái đẩy xuống dựa trên văn phạm tiếng Việt để định hướng quá trình nhận dạng.
Huấn luyện bộ nhận dạng: áp dụng thuật toán tìm chuỗi con chung lớn nhất để tạo mẫu tổng quát, giảm số lượng mẫu cần lưu trữ.
Triển khai và đánh giá: xây dựng hệ thống nhận dạng thử nghiệm, đánh giá độ chính xác và tốc độ nhận dạng.

Timeline nghiên cứu kéo dài khoảng 12 tháng, bao gồm thu thập dữ liệu, phát triển thuật toán, triển khai hệ thống và thử nghiệm thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phân tích cú pháp trong nhận dạng: Việc áp dụng sơ đồ chuyển trạng thái đẩy xuống dựa trên văn phạm tiếng Việt giúp giới hạn không gian tìm kiếm, tăng độ chính xác nhận dạng lên khoảng 15-20% so với phương pháp chỉ dựa trên từ điển mẫu.
Mẫu tổng quát qua chuỗi con chung lớn nhất: Thuật toán tìm chuỗi con chung lớn nhất giúp giảm số lượng mẫu trong từ điển khoảng 30%, đồng thời rút ngắn độ dài mẫu trung bình 25%, góp phần tăng tốc độ nhận dạng và giảm dung lượng lưu trữ.
Ảnh hưởng của chất lượng tín hiệu: Tín hiệu thu trong môi trường ít nhiễu và phát âm rõ ràng đạt độ chính xác nhận dạng trên 85%, trong khi tín hiệu nhiễu cao hoặc phát âm không chuẩn giảm độ chính xác xuống dưới 70%.
Phụ thuộc người nói: Hệ thống nhận dạng phụ thuộc người nói đạt độ chính xác cao hơn khoảng 20% so với hệ thống độc lập người nói, phù hợp với mục tiêu ứng dụng trên máy tính cá nhân.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là do việc tích hợp thông tin cú pháp giúp hệ thống nhận dạng loại bỏ các kết quả không hợp lệ về mặt ngữ pháp, từ đó giảm sai sót. Kết quả này phù hợp với các nghiên cứu trong lĩnh vực nhận dạng tiếng nói đa ngôn ngữ, cho thấy vai trò quan trọng của phân tích cú pháp trong xử lý ngôn ngữ tự nhiên.

Việc sử dụng chuỗi con chung lớn nhất để tạo mẫu tổng quát là một bước tiến quan trọng, giúp giảm thiểu sự đa dạng quá mức của mẫu âm thanh do biến đổi người nói và điều kiện thu âm. Điều này cũng tương đồng với các phương pháp học máy hiện đại sử dụng đặc trưng trừu tượng để tăng khả năng khái quát hóa.

Tuy nhiên, hạn chế của nghiên cứu là chưa mở rộng sang nhận dạng tiếng nói liên tục và môi trường công cộng, do đó độ chính xác và tính ứng dụng thực tế còn bị giới hạn. Các biểu đồ so sánh độ chính xác giữa các phương pháp và điều kiện thu âm có thể minh họa rõ nét hơn hiệu quả của phương pháp đề xuất.

Đề xuất và khuyến nghị

Phát triển nhận dạng tiếng nói liên tục: Nghiên cứu và áp dụng các kỹ thuật phân tách ranh giới từ trong tiếng nói liên tục nhằm mở rộng phạm vi ứng dụng, hướng tới giao tiếp tự nhiên hơn. Thời gian thực hiện dự kiến 12-18 tháng, do nhóm nghiên cứu chuyên sâu đảm nhiệm.
Tăng cường khả năng nhận dạng độc lập người nói: Xây dựng bộ dữ liệu đa dạng về giọng nói và phương ngữ, áp dụng kỹ thuật học sâu để cải thiện độ chính xác trong môi trường công cộng. Mục tiêu tăng độ chính xác lên trên 80% trong 2 năm tới.
Tối ưu hóa thuật toán chuỗi con chung: Nâng cao hiệu quả tính toán và khả năng xử lý dữ liệu lớn, giảm thời gian huấn luyện và tăng tốc độ nhận dạng. Chủ thể thực hiện là nhóm phát triển phần mềm, thời gian 6-9 tháng.
Mở rộng bộ từ vựng và văn phạm: Cho phép người dùng thêm từ mới và câu lệnh mở rộng, tăng tính linh hoạt và phù hợp với nhu cầu thực tế. Thực hiện song song với phát triển giao diện người dùng thân thiện, thời gian 6 tháng.
Triển khai ứng dụng thực tế: Phát triển các ứng dụng điều khiển thiết bị, soạn thảo văn bản và trợ lý ảo dựa trên hệ thống nhận dạng, nhằm đánh giá hiệu quả và thu thập phản hồi người dùng để hoàn thiện. Thời gian 12 tháng, phối hợp với các đối tác công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Nghiên cứu sâu về xử lý ngôn ngữ tự nhiên, nhận dạng tiếng nói, và phát triển thuật toán phân tích cú pháp. Luận văn cung cấp cơ sở lý thuyết và phương pháp thực nghiệm chi tiết.
Phát triển phần mềm và kỹ sư AI: Áp dụng các mô hình toán học và thuật toán nhận dạng tiếng nói trong phát triển sản phẩm, đặc biệt các ứng dụng tiếng Việt. Luận văn cung cấp hướng tiếp cận mới và các thuật toán tối ưu.
Doanh nghiệp công nghệ và startup: Tìm hiểu về tiềm năng ứng dụng nhận dạng tiếng nói trong các sản phẩm như trợ lý ảo, điều khiển giọng nói, và soạn thảo tự động, từ đó phát triển giải pháp phù hợp với thị trường Việt Nam.
Cơ quan quản lý và giáo dục: Đánh giá khả năng ứng dụng công nghệ nhận dạng tiếng nói trong giáo dục, đào tạo và dịch vụ công, hỗ trợ xây dựng chính sách và đầu tư phát triển công nghệ.

Câu hỏi thường gặp

Nhận dạng tiếng nói rời rạc và liên tục khác nhau thế nào?
Nhận dạng tiếng nói rời rạc xử lý các từ phát âm cách quãng, dễ phân tách, trong khi nhận dạng tiếng nói liên tục xử lý giọng nói tự nhiên, không có khoảng lặng rõ ràng giữa các từ, phức tạp hơn nhiều. Ví dụ, câu "cộng hòa xã hội chủ nghĩa Việt Nam" phát âm liên tục có thể bị biến đổi âm thanh gây khó khăn nhận dạng.
Tại sao cần phân tích cú pháp trong nhận dạng tiếng nói?
Phân tích cú pháp giúp hệ thống hiểu cấu trúc ngữ pháp của câu, loại bỏ các kết quả nhận dạng không hợp lệ về mặt ngữ pháp, từ đó tăng độ chính xác và tính hợp lý của kết quả. Đây là điểm khác biệt quan trọng so với các phương pháp chỉ dựa trên khớp mẫu.
Chuỗi con chung lớn nhất có vai trò gì trong huấn luyện?
Thuật toán này giúp tạo mẫu tổng quát từ nhiều mẫu ghi âm khác nhau của cùng một từ, giảm số lượng mẫu cần lưu trữ và tăng khả năng nhận dạng chính xác khi gặp biến thể âm thanh mới.
Hệ thống nhận dạng phụ thuộc người nói có ưu điểm gì?
Hệ thống này được huấn luyện riêng cho từng người dùng, do đó có độ chính xác cao hơn, phù hợp với ứng dụng cá nhân trên máy tính cá nhân hoặc thiết bị di động.
Làm thế nào để mở rộng hệ thống nhận dạng cho môi trường công cộng?
Cần thu thập dữ liệu đa dạng về giọng nói, phương ngữ và điều kiện môi trường, áp dụng các kỹ thuật học máy nâng cao để xây dựng mô hình độc lập người nói và chịu được nhiễu, đồng thời phát triển thuật toán phân tách tiếng nói liên tục.

Kết luận

Luận văn đã phát triển thành công phương pháp nhận dạng tiếng Việt dựa trên phân tích cú pháp và phân tích từ vựng, nâng cao độ chính xác nhận dạng khoảng 15-20%.
Thuật toán chuỗi con chung lớn nhất giúp tạo mẫu tổng quát, giảm 30% số lượng mẫu và tăng tốc độ nhận dạng.
Hệ thống thử nghiệm đạt độ chính xác trên 85% trong môi trường ít nhiễu và phụ thuộc người nói.
Nghiên cứu giới hạn trong tiếng nói rời rạc và môi trường cá nhân, mở ra hướng phát triển nhận dạng tiếng nói liên tục và độc lập người nói.
Đề xuất các giải pháp phát triển tiếp theo nhằm mở rộng ứng dụng và nâng cao hiệu quả nhận dạng trong thực tế.

Khuyến khích các nhà nghiên cứu và doanh nghiệp công nghệ tiếp cận, ứng dụng và phát triển các giải pháp nhận dạng tiếng Việt dựa trên nền tảng lý thuyết và thực nghiệm của luận văn này để thúc đẩy chuyển đổi số và cải thiện trải nghiệm người dùng.

Trích đoạn nội dung tài liệu

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI Trong phần này, chúng tôi muốn nêu ra các khái niệm cơ bản cũng như các vấn đề cơ bản của nhận dạng tiếng nói. Các khái niệm và vấn đề này sẽ được làm rõ và cụ thể hoá trong các phần tiếp theo của tài liệu. Các vấn đề trong phần này sẽ được bố trí theo thứ tự xuất hiện của chúng. Nghĩa là các vấn đề sau sẽ ít nhiều liên quan đến các vấn đề trước và do đó chúng ta cần hiểu các vấn đề theo cách tuần tự.

Trong phần sau, chúng tôi sẽ trình bày theo cách phát triển của vấn đề. Cơ sở và tiềm năng của nhận dạng tiếng nói Các tín hiệu hữu tuyến cũng như vô tuyến xuất phát từ hành động bấm nút đã tồn tại rất lâu trong lịch sử điều khiển điện tử. Việc ta bấm nút Power trong bảng điều khiển từ xa của vô tuyến cũng giống như việc ta ra lệnh vô tuyến hãy bật lên hoặc tắt đi (chuyển trạng thái làm việc). Việc ta bấm nút Volume+ trong bảng điều khiển từ xa của vô tuyến cũng giống việc ta ra lệnh vô tuyến hãy tăng tiếng lên một chút.

Thực chất việc phát một tín hiệu bằng sóng hồng ngoại vào mắt thần của vô tuyến không khác việc phát một tín hiệu âm thanh vào tai nghe của vô tuyến. Chúng đều là các tín hiệu mang thông tin hay cụ thể hơn là mang mệnh lệnh, và các tín hiệu khác nhau dẫn tới hành vi khác nhau của vật bị điều khiển. Nhưng việc phát ra một chuỗi âm thanh đơn giản hơn việc phát ra một chuỗi hồng ngoại, vì thứ nhất chuỗi âm thanh do con người sản sinh còn chuỗi hồng ngoại cần phải có thiết bị điều khiển, thứ hai con người không cần thời gian thông dịch mệnh lệnh trong đầu mình thành nút bấm trên bàn phím, thứ ba chúng ta có thể ra lệnh bằng âm thanh ngay trong bóng tối được trong khi chúng ta cần ánh sáng để nhìn vào bảng điều khiển để ra lệnh, thứ tư chúng ta ít cần học điều khiển thiết bị điện tử bằng giọng nói trong khi chúng ta cần phải học ý nghĩa của các nút bấm, thậm chí ý nghĩa ngữ cảnh của chúng trong các màn hình điều khiển khác nhau. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 Với nhiều lý do như vậy, việc điều khiển bằng chuỗi âm thanh sẽ được ưa chuộng sử dụng hơn việc phát các chuỗi hồng ngoại tới mắt thần hay phát các chuỗi tín hiệu điện tới các cổng bàn phím hay con chuột.

Mục đích của nhận dạng tiếng nói tự động là phát triển các kỹ thuật và các hệ thống cho phép máy tính chấp nhận đầu vào tiếng nói. Vấn đề của nhận dạng tiếng nói đã được nghiên cứu tích cực từ những năm 50 nhưng cho đến thời điểm này vẫn có những kết quả thực hành khiêm tốn. Bằng chứng là các hệ nhận dạng thương mại đều khuyến cáo việc người dùng nên cẩn thận và chính xác trong cách phát âm của mình để đạt được kết quả chính xác cao. Trong lĩnh vực nhận dạng tiếng Việt, các kết quả nghiên cứu cũng rất khiêm tốn và chưa có các sản phẩm thương mại được phân phát rộng rãi trong người dùng máy tính cá nhân.

Có rất nhiều ứng dụng cần đến nhận dạng tiếng nói. Do các tiến bộ gần đây trong lĩnh vực khoa học tiếng nói (speech science) và công nghệ máy tính (computer technology), hiệu quả của các bộ nhận dạng tiếng nói được cải thiện đáng kể. Với sự ra đời của các máy tính tốc độ nhanh và các thuật toán có độ chính xác và ít chi phí, chúng ta chắc chắn rằng việc giao tiếp giữa người và máy tính bằng tiếng nói tự nhiên sẽ trở thành hiện thực. Các ứng dụng hay gặp Trong phần này, chúng tôi muốn trình bày một số chương trình ứng dụng đã được thương mại hoá có sử dụng các nghiên cứu liên quan đến nhận dạng tiếng nói.

Qua đó người đọc có thể hiểu được tính hiện thực hay khả thi của vấn đề nhận dạng tiếng nói. Người đọc cũng có thể cảm nhận được các hệ thống nhận dạng tiếng nói là cụ thể, gần gũi, và thiết thực trong đời sống hàng ngày cũng như công việc văn phòng. Và cuối cùng người đọc có cái nhìn tổng quát về bài toán nhận dạng tiếng nói thông qua các ví dụ cụ thể. Chương trình quay số bằng giọng nói (voice dialer) Chương trình quay số bằng giọng nói là một chương trình rất đơn giản và hiệu quả được cài đặt trong một số máy điện thoại di động.

Tác dụng rất lớn của chương LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 trình này là tìm ra một số điện thoại nhanh chóng và ít thao tác nhất. Chúng ta biết điện thoại di động vốn nhỏ gọn và bàn phím chỉ gồm các con số và vài phím chức năng. Do đó việc đánh các ký tự được thực hiện bằng cách lặp phím. Nên việc đánh một tên người để gọi cho người đó rất khó khăn.

Chính vì vậy việc quay số bằng giọng nói, tức là nói một tên người vào lỗ nghe của máy điện thoại thì trên màn hình của điện thoại xuất hiện một hộp thoại bao gồm tên người vừa nói, số điện thoại của người đó, nút chấp nhận gọi cho số tìm được, và nút huỷ bỏ kết quả tìm được. Như vậy quá trình gọi cho một người hầu như chỉ mất hai thao tác đọc tên người gọi và bấm nút chấp nhận. Để một máy điện thoại di động có thể quay số đến một người bất kỳ, chúng ta cần huấn luyện cho máy. Việc huấn luyện chỉ đơn giản là gắn cho mỗi số điện thoại với một đoạn âm thanh.

Do đó một từ điển hay ánh xạ từ tập các đoạn âm thanh tới tập các số điện thoại sẽ được thiết lập. Quá trình nhận dạng sẽ sử dụng từ điển đã được thiết lập trong quá trình huấn luyện để đưa ra kết quả. Mỗi khi người nói có nhu cầu quay số, họ sẽ đưa vào lỗ nghe của máy điện thoại một đoạn âm thanh. Đoạn âm thanh này sẽ được so sánh với các đoạn âm thanh trong từ điển đã được thiết lập trong khi huấn luyện.

Nếu việc so sánh là khớp thì số điện thoại tương ứng sẽ được đưa ra. Ứng dụng nhận dạng tiếng nói này có lẽ là đơn giản nhất trong tất cả các ứng dụng nhận dạng. Mặc dù vậy kết quả nhận dạng nói chung cũng không cao. Đôi lúc người dùng thường phải nói vài lần vào máy mà vẫn chưa được số điện thoại mong muốn.

Một vài người dùng mất bình tĩnh thậm chí còn hét vào máy điện thoại ngay ở nơi công cộng với hy vọng máy có thể tìm ra được số đúng. Điều này khiến những người nghiên cứu trong lĩnh vực tiếng nói cần phải tìm ra các phương pháp cũng như tham số tốt hơn để nhận dạng tiếng nói. Nói chung các hãng điện thoại không công bố chính xác họ làm thế nào để nhận dạng được mẫu âm thanh đưa vào và tìm ra số điện thoại tương ứng. Ta cũng không có cách nào để đo được dung lượng của tri thức nhận dạng hay từ điển nhận dạng để xem phương pháp lưu trữ của họ là mạng lưới hay danh sách.

Nhưng theo LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 suy luận đơn thuần, chúng ta có thể thấy đoạn âm thanh đưa vào huấn luyện (được dùng làm khoá tìm kiếm) sẽ được biến thành một khối tham số nhất định. Khối tham số này thường bất biến với độ to (amplitude) và độ dừng (duration) của các đoạn âm thanh. Đoạn âm thanh đưa vào để quay số cũng sẽ được biến thành một khối tham số cùng kiểu với khối tham số của đoạn âm thanh huấn luyện. Do đó quá trình tìm kiếm nhanh hơn do các khối tham số nhỏ hơn, không gian lưu trữ từ điển nhận dạng cũng nhỏ hơn, và quá trình tìm kiếm cũng chính xác hơn và thất bại ít hơn do các khối tham số bất biến hay ổn định với các đoạn âm thanh huấn luyện và nhận dạng khác nhau.

name add to dictionary dictionary speech of name parameterize vector speech find best of parameterize vector name name name Hình 1-1. Sơ đồ của hệ quay số bằng giọng nói Nói chung nhận dạng trong điện thoại di động cũng chỉ dừng ở mức độ lưu trữ thành từ điển và nhận dạng dựa trên khớp mẫu. Vì đơn giản là các bộ vi xử lý của điện thoại di động không có nhiều chỉ thị hay chưa đủ thông minh. Bộ nhớ trong của điện thoại di động nói chung không đủ lớn để có thể tổ chức được mạng lưới tìm kiếm.

Chương trình soạn thảo bằng giọng nói (voice editor) Chúng tôi muốn đưa vào phần tổng quan một ứng dụng đã được thương mại hoá của Microsoft như một kết quả đã đạt được của những người đi trước trong lĩnh vực nhận dạng. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 Chương trình đọc chính tả là một chương trình đơn giản nhất và thường được coi như ví dụ kinh điển của nhận dạng tiếng nói. Khi chương trình khởi động, một cơ sở tri thức về tiếng nói sẽ được tải lên. Cơ sở tri thức này có thể bị thay đổi, hoặc bị tải lại, cũng như bị lưu lại trong quá trình hoạt động.

Cũng trong quá trình khởi động, một màn hình soạn thảo được mở ra để đón các từ nhận dạng và thiết bị ghi âm cũng được chuẩn bị để đón nhận tín hiệu tiếng nói. Sau khi các công việc khởi động hoàn tất, người dùng có thể đọc các từ và trên màn hình soạn thảo sẽ xuất hiện từ tương ứng. Trong khi đọc chính tả, có thể một từ do người đọc phát âm chưa có trong từ điển, do đó từ này có thể không được nhận dạng. Do vậy người sử dụng có thể thêm một từ vào từ điển đồng thời với việc thêm mẫu phát âm của từ đó vào để nhận dạng.

Kết quả là tri thức nhận dạng được cập nhật. Về cơ bản, Microsoft cho phép người dùng đưa vào các từ bằng giọng nói và các từ hiện ra ở một số cửa sổ soạn thảo hỗ trợ nhận dạng tiếng nói như Microsoft Word, Microsoft Excel. Kết quả nhận dạng cũng không cao và thường phải mất nhiều ngày để huấn luyện. Nhưng đặc biệt chương trình huấn luyện do Microsoft thiết kế rất tự nhiên như quá trình nhận dạng ở người, nghĩa là nhìn các chữ và nghe các âm thanh tương ứng với các chữ đó phát ra.

Chính vì vậy người dùng không mất nhiều công sức để học cách sử dụng hệ thống và huấn luyện hệ thống.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử lý ngôn ngữ tự nhiên (NLP)

Nhận dạng tiếng nói tự động

Khoa học máy tính và AI

Xử lý tín hiệu số và âm thanh