Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp

Tài liệu nghiên cứu Nghiên ứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt ứng dụng ho phần mềm ghi biên bản họp, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Trường đại học

Trường Đại học Bách khoa Hà Nội

Chuyên ngành

Kỹ thuật Điều khiển và Tự động hóa

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

1. CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI

1.1. Tổng quan phần mềm

1.2. Tính năng của phần mềm

1.3. Kiến trúc của phần mềm

1.4. Tình hình nghiên cứu phát triển các sản phẩm nhận dạng tiếng nói

1.4.1. Các sản phẩm trên thế giới

1.4.2. Tình hình các sản phẩm nhận dạng tiếng nói trong nước

2. CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG NÓI

2.1. Giới thiệu công nghệ nhận dạng

2.2. Phương diện toán học

2.3. Trích xuất đặc trưng

2.3.1. Đặc trưng MFCC

2.3.2. Đặc trưng Pitch

2.4. Mô hình âm học

2.4.1. Mô hình HMM-GMM

2.4.2. Mô hình lai ghép HMM-DNN

2.5. Mô hình ngôn ngữ

3. CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

3.1. Lựa chọn công cụ

3.2. Chuẩn bị cơ sở dữ liệu

3.3. Phương pháp đề xuất

3.3.1. Huấn luyện mô hình âm học

3.3.2. Huấn luyện mô hình ngôn ngữ

4. CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM

4.1. Giao diện sản phẩm

4.2. Đánh giá chất lượng

4.3. Đánh giá hiệu năng

Lời cảm ơn

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Hệ Thống Nhận Dạng Tiếng Nói Tiếng Việt Hiện Nay

Hệ thống nhận dạng tiếng nói đã có những bước tiến vượt bậc, đặc biệt là trong lĩnh vực chuyển đổi giọng nói thành văn bản. Các sản phẩm phần mềm ghi biên bản họp tự động ngày càng trở nên phổ biến, giúp tiết kiệm thời gian và công sức cho người dùng. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết, đặc biệt là đối với tiếng Việt, một ngôn ngữ có nhiều phương ngữ và biến thể. Các nghiên cứu tập trung vào việc nâng cao độ chính xác nhận dạng tiếng nói và tốc độ nhận dạng tiếng nói để đáp ứng nhu cầu thực tế. Theo luận văn, từ năm 2018 đã có những sản phẩm bóc băng tiếng Việt được đưa ra thị trường và được triển khai ở các bộ ban ngành, các doanh nghiệp đem lại những phản hồi rất tích cực từ phía người dùng.

1.1. Ứng dụng nhận dạng giọng nói trong phần mềm biên bản họp

Phần mềm ghi biên bản họp có khả năng chuyển tiếng nói thành văn bản trực tuyến, giúp giảm thiểu thời gian ghi chép. Ngoài ra, nó hỗ trợ chuyển đổi từ các file audio và video đã có. Tính năng chỉnh sửa nhanh chóng và trích xuất thông tin chính xác phục vụ xuất biên bản hoặc tra cứu được đánh giá cao. Phần mềm còn có khả năng chuẩn hóa văn bản tự động, lưu trữ và đối sánh nội dung họp một cách an toàn.

1.2. Lịch sử phát triển và tiềm năng của công nghệ ASR tiếng Việt

Công nghệ ASR tiếng Việt đã trải qua một quá trình phát triển dài, từ những năm 1960 đến nay. Sự thành công của công nghệ này đã mở ra nhiều ứng dụng thực tế, bao gồm giao tiếp người-máy qua lời nói và hệ thống học ngôn ngữ. Mục tiêu của hệ thống ASR là tìm ra chuỗi văn bản tương ứng với chuỗi âm thanh đầu vào. Với sự phát triển vượt bậc của công nghệ học sâu, chất lượng của hệ thống nhận dạng tiếng nói gần tiệm cận với khả năng nghe của con người.

II. Thách Thức Trong Nhận Dạng Giọng Nói Tiếng Việt Vùng Miền

Một trong những thách thức lớn nhất trong nhận dạng giọng nói tiếng Việt là sự đa dạng về phương ngữ và giọng vùng miền. Các hệ thống hiện tại thường hoạt động tốt hơn với giọng chuẩn, nhưng gặp khó khăn khi xử lý giọng địa phương. Điều này đòi hỏi các nhà nghiên cứu phải phát triển các mô hình ngôn ngữ tiếng Việt có khả năng thích nghi với sự khác biệt này. Bên cạnh đó, vấn đề xử lý nhiễu và tiếng ồn trong môi trường thực tế cũng là một yếu tố quan trọng cần được quan tâm. Chất lượng nhận dạng có thể giảm đáng kể trong môi trường ồn ào.

2.1. Ảnh hưởng của phương ngữ đến độ chính xác nhận dạng

Sự khác biệt về phát âm và từ vựng giữa các phương ngữ có thể gây ra sai sót trong quá trình nhận dạng tiếng nói. Các hệ thống nhận dạng giọng vùng miền Việt Nam cần được huấn luyện trên một lượng lớn dữ liệu đa dạng để có thể xử lý tốt các biến thể ngôn ngữ. Hiện tại, chất lượng nhận dạng của mô hình không ổn định đối với các phương ngữ khác nhau, có thể đa phần hệ thống sẽ nhận dạng tiếng miền Trung kém hơn so với giọng 2 miền còn lại.

2.2. Vấn đề nhiễu và tạp âm trong môi trường thực tế

Nhiễu và tạp âm là một vấn đề lớn trong nhận dạng tiếng nói offline và nhận dạng tiếng nói online. Các hệ thống cần có khả năng lọc nhiễu và tách biệt tiếng nói khỏi tiếng ồn để đảm bảo độ chính xác nhận dạng tiếng nói. Các phương pháp như giảm nhiễu phổ, lọc Kalman và các kỹ thuật học sâu đang được sử dụng để giải quyết vấn đề này.

2.3. Đánh giá hiệu năng hệ thống nhận dạng tiếng nói trong điều kiện thực tế

Việc đánh giá hiệu năng hệ thống nhận dạng tiếng nói trong điều kiện thực tế là rất quan trọng. Các chỉ số như Word Error Rate (WER) được sử dụng để đo lường mức độ chính xác của hệ thống. Ngoài ra, cần đánh giá tốc độ nhận dạng tiếng nói và khả năng hoạt động ổn định của hệ thống trong các điều kiện khác nhau.

III. Phương Pháp Xây Dựng Mô Hình Âm Học Acoustic Model Tiếng Việt

Mô hình âm học đóng vai trò quan trọng trong hệ thống nhận dạng tiếng nói. Nó hoạt động như tai người, tiếp nhận đặc trưng tiếng nói và đưa ra xác suất có điều kiện của từ hoặc âm vị. Các mô hình phổ biến bao gồm HMM-GMM và HMM-DNN. Quá trình huấn luyện mô hình đòi hỏi một lượng lớn dữ liệu tiếng nói đã được gán nhãn. Các thuật toán nhận dạng tiếng nói sử dụng Deep Learning nhận dạng tiếng nói ngày càng được ưa chuộng.

3.1. Sử dụng mô hình HMM DNN cho nhận dạng tiếng nói hiệu quả

Mô hình HMM-DNN kết hợp ưu điểm của mô hình Markov ẩn (HMM) và mạng nơ-ron sâu (DNN). HMM giúp mô hình hóa chuỗi âm thanh theo thời gian, trong khi DNN giúp trích xuất đặc trưng và phân loại âm vị một cách hiệu quả. Mô hình HMM-DNN cho kết quả tốt nhất trong các nghiên cứu gần đây [1].

3.2. Tối ưu hóa acoustic model cho môi trường nhiều nhiễu

Để cải thiện khả năng chống nhiễu của mô hình âm học, có thể sử dụng các kỹ thuật như huấn luyện đa dạng (data augmentation) và học thích nghi (adaptation). Huấn luyện đa dạng giúp mô hình làm quen với các loại nhiễu khác nhau, trong khi học thích nghi cho phép mô hình điều chỉnh tham số để phù hợp với môi trường cụ thể.

3.3. Xây dựng acoustic model với dữ liệu tiếng Việt lớn và đa dạng

Chất lượng của mô hình âm học phụ thuộc lớn vào lượng dữ liệu huấn luyện. Cần thu thập một lượng lớn dữ liệu tiếng Việt từ nhiều nguồn khác nhau, bao gồm sách nói, bản tin, podcast và cuộc hội thoại. Dữ liệu cần được gán nhãn chính xác và đa dạng về giọng vùng miền.

IV. Xây Dựng Mô Hình Ngôn Ngữ Cho Phần Mềm Ghi Biên Bản Họp

Mô hình ngôn ngữ (LM) cung cấp thông tin về ngữ pháp và xác suất xuất hiện của các từ trong một ngôn ngữ. Trong phần mềm ghi biên bản họp tự động, LM giúp hệ thống nhận dạng tiếng nói thời gian thực lựa chọn chuỗi từ có khả năng cao nhất dựa trên ngữ cảnh. Các mô hình ngôn ngữ phổ biến bao gồm N-gram và mô hình dựa trên mạng nơ-ron.

4.1. Sử dụng mô hình N gram để dự đoán từ tiếp theo trong câu

Mô hình N-gram dựa trên tần suất xuất hiện của các chuỗi N từ trong một tập văn bản lớn. Nó dự đoán từ tiếp theo trong câu dựa trên N-1 từ trước đó. Mô hình N-gram đơn giản và dễ huấn luyện, nhưng có thể gặp vấn đề với các chuỗi từ ít gặp.

4.2. Ứng dụng mạng nơ ron RNN trong xây dựng mô hình ngôn ngữ

Mạng nơ-ron hồi quy (RNN) có khả năng ghi nhớ thông tin từ các bước trước đó, giúp mô hình dự đoán từ tiếp theo trong câu một cách chính xác hơn. Các biến thể của RNN như LSTM và GRU đặc biệt hiệu quả trong việc xử lý các chuỗi dài.

4.3. Thích nghi mô hình ngôn ngữ với phong cách hội thoại trong cuộc họp

Mô hình ngôn ngữ cần được huấn luyện trên dữ liệu hội thoại thực tế để có thể xử lý tốt các đặc trưng của ngôn ngữ nói, bao gồm câu ngắn, câu lặp và các từ đệm. Có thể sử dụng các kỹ thuật như fine-tuning và domain adaptation để thích nghi mô hình với phong cách hội thoại trong cuộc họp.

V. Tích Hợp Hệ Thống Nhận Dạng Tiếng Nói Vào Phần Mềm Ghi Biên Bản

Sau khi xây dựng và huấn luyện mô hình âm học và mô hình ngôn ngữ, bước tiếp theo là tích hợp chúng vào phần mềm ghi biên bản họp. Hệ thống cần được tối ưu hóa để đảm bảo tốc độ nhận dạng nhanh và độ chính xác cao. Giao diện người dùng cần được thiết kế trực quan và dễ sử dụng.

5.1. Thiết kế API nhận dạng tiếng nói tiếng Việt để dễ dàng tích hợp

Cung cấp API nhận dạng tiếng nói tiếng Việt giúp các nhà phát triển dễ dàng tích hợp hệ thống vào các ứng dụng khác nhau. API nên hỗ trợ nhiều định dạng âm thanh và cung cấp các tùy chọn để tùy chỉnh mô hình nhận dạng.

5.2. Đánh giá và cải thiện hiệu năng sau khi tích hợp

Sau khi tích hợp, cần đánh giá hiệu năng của hệ thống trong điều kiện thực tế và thu thập phản hồi từ người dùng. Dựa trên kết quả đánh giá, có thể tiếp tục cải thiện mô hình và tối ưu hóa hệ thống.

5.3. Xây dựng SDK nhận dạng tiếng nói tiếng Việt cho các nền tảng khác nhau

Phát triển SDK nhận dạng tiếng nói tiếng Việt cho các nền tảng phổ biến như Android, iOS và web giúp các nhà phát triển dễ dàng xây dựng các ứng dụng nhận dạng tiếng nói trên nhiều thiết bị khác nhau.

VI. Kết Luận Hướng Phát Triển Của Nhận Dạng Tiếng Nói Tiếng Việt

Nghiên cứu và phát triển hệ thống nhận dạng tiếng nói tiếng Việt cho phần mềm ghi biên bản họp là một lĩnh vực đầy tiềm năng. Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện khả năng xử lý phương ngữ, giảm nhiễu và tích hợp các công nghệ mới như AI nhận dạng tiếng nói để nâng cao hiệu quả và trải nghiệm người dùng.

6.1. Nghiên cứu các phương pháp mới để xử lý giọng địa phương

Phát triển các mô hình có khả năng tự động thích nghi với giọng địa phương hoặc sử dụng các kỹ thuật học chuyển giao (transfer learning) để tận dụng kiến thức từ các mô hình đã được huấn luyện trên giọng chuẩn.

6.2. Khám phá tiềm năng của AI trong nhận dạng tiếng nói tiếng Việt

Áp dụng các kỹ thuật AI nhận dạng tiếng nói, như mạng nơ-ron biến áp (Transformer), để xây dựng các mô hình mạnh mẽ hơn và có khả năng xử lý các biến thể ngôn ngữ một cách linh hoạt.

6.3. Nâng cao khả năng chống nhiễu và tiếng ồn trong môi trường thực tế

Sử dụng các kỹ thuật lọc nhiễu tiên tiến và phát triển các mô hình có khả năngRobustness với nhiễu để đảm bảo độ chính xác nhận dạng cao trong mọi điều kiện.

23/05/2025

Bạn đang xem trước tài liệu:

Nghiên ứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt ứng dụng ho phần mềm ghi biên bản họp

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh công nghệ trí tuệ nhân tạo phát triển mạnh mẽ, việc tự động hóa quá trình ghi chép và chuyển đổi lời nói thành văn bản ngày càng trở nên cần thiết, đặc biệt trong các cuộc họp và phỏng vấn. Theo ước tính, việc ghi chép thủ công chiếm nhiều thời gian và công sức, gây ảnh hưởng đến hiệu quả làm việc. Luận văn tập trung nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp, nhằm giải quyết vấn đề này. Mục tiêu chính là phát triển mô hình nhận dạng tiếng nói có độ chính xác cao, hoạt động ổn định trong điều kiện thực tế, đồng thời đáp ứng yêu cầu về hiệu năng và tốc độ xử lý.

Phạm vi nghiên cứu tập trung vào tiếng nói tiếng Việt trong môi trường họp, với dữ liệu thu thập từ nhiều nguồn khác nhau, bao gồm các đoạn hội thoại tự nhiên và các môi trường có nhiễu đa dạng. Thời gian nghiên cứu kéo dài trong khóa học thạc sĩ năm 2019-2020 tại Trường Đại học Bách Khoa Hà Nội. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao chất lượng và hiệu quả của phần mềm ghi biên bản họp, giúp giảm thiểu thời gian ghi chép, tăng độ chính xác và hỗ trợ truy xuất thông tin nhanh chóng.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nhận dạng tiếng nói hiện đại, bao gồm:

- **Mô hình âm học (Acoustic Model - AM):** Sử dụng mô hình HMM-GMM truyền thống và mô hình lai HMM-DNN để mô hình hóa xác suất âm thanh đầu vào tương ứng với các âm vị.
- **Mô hình ngôn ngữ (Language Model - LM):** Áp dụng mô hình N-gram với các kỹ thuật làm mịn như Katz smoothing và Kneser-Ney smoothing để dự đoán xác suất xuất hiện của các chuỗi từ trong tiếng Việt.
- **Trích xuất đặc trưng:** Sử dụng kỹ thuật MFCC (Mel-frequency cepstral coefficients) kết hợp với đặc trưng pitch để phản ánh đặc tính thanh điệu của tiếng Việt.
- **Phân tách người nói và xử lý tiếng ồn:** Áp dụng kỹ thuật Voice Activity Detection (VAD) và phân cụm vector đặc trưng người nói để tách biệt các người tham gia trong cuộc họp.

Các khái niệm chính bao gồm: nhận dạng tiếng nói tự động (ASR), tỷ lệ lỗi từ (WER), tỷ lệ tín hiệu trên nhiễu (SNR), mạng nơ-ron học sâu (DNN, LSTM, TDNN), và mô hình Markov ẩn (HMM).

### Phương pháp nghiên cứu

Nguồn dữ liệu được thu thập từ các đoạn hội thoại tự nhiên, các chương trình truyền hình, và các cuộc họp thực tế tại nhiều phòng họp với môi trường âm thanh đa dạng. Tổng dung lượng dữ liệu huấn luyện lên đến hàng nghìn giờ, trong đó có khoảng 200 giờ dữ liệu hội thoại được chuẩn hóa và gán nhãn kỹ lưỡng.

Phương pháp phân tích bao gồm:

- Tiền xử lý dữ liệu: cắt nhỏ đoạn âm thanh theo câu dựa trên module VAD, chuẩn hóa độ dài đoạn, và gán nhãn văn bản tương ứng.
- Huấn luyện mô hình âm học sử dụng bộ công cụ Kaldi, với các mô hình HMM-GMM và HMM-DNN, kết hợp kỹ thuật tăng cường dữ liệu (data augmentation) bằng cách thêm nhiễu và mô phỏng vang vọng (RIR).
- Xây dựng mô hình ngôn ngữ N-gram với các kỹ thuật làm mịn để cải thiện khả năng dự đoán.
- Đánh giá mô hình trên các tập dữ liệu kiểm thử đa dạng, bao gồm VLSP2015, VLSP2012, MEETINGNOTE, VOICENOTE và VIVOS.

Timeline nghiên cứu kéo dài trong năm học 2019-2020, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, thử nghiệm và tích hợp sản phẩm.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Phân bố SNR thực tế:** Kết quả đo tại 12 phòng họp cho thấy SNR dao động từ 0 đến 14 dB, tập trung nhiều nhất ở khoảng 6-8 dB, phản ánh môi trường âm thanh thực tế có nhiều nhiễu như tiếng điều hòa, quạt, và tiếng nói chuyện lao xao.
- **Hiệu quả mô hình âm học:** Mô hình TDNN-LSTM kết hợp đặc trưng MFCC và pitch đạt tỷ lệ lỗi từ (WER) thấp hơn 15% trên các tập kiểm thử thực tế, giảm khoảng 20% so với mô hình HMM-GMM truyền thống.
- **Tác động của data augmentation:** Việc thêm nhiễu và mô phỏng vang vọng vào dữ liệu huấn luyện giúp mô hình duy trì hiệu suất ổn định trong môi trường nhiễu, giảm tỷ lệ lỗi WER xuống khoảng 10% so với mô hình không sử dụng augmentation.
- **Mô hình ngôn ngữ:** Mô hình N-gram với kỹ thuật Kneser-Ney smoothing giảm độ hỗn loạn (perplexity) trên tập phát triển xuống dưới 100, cải thiện khả năng dự đoán từ và cụm từ trong tiếng Việt.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện chất lượng nhận dạng là do việc sử dụng mô hình lai HMM-DNN, tận dụng khả năng học sâu để mô hình hóa các đặc trưng âm thanh phức tạp và phụ thuộc ngữ cảnh. Việc bổ sung đặc trưng pitch giúp mô hình nhận dạng chính xác các thanh điệu trong tiếng Việt, vốn là yếu tố quan trọng trong ngôn ngữ này.

So sánh với các nghiên cứu trước đây, kết quả cho thấy mô hình đề xuất vượt trội hơn về độ chính xác và khả năng thích nghi với môi trường thực tế. Biểu đồ phân bố SNR và bảng tỷ lệ lỗi WER minh họa rõ sự khác biệt giữa các mô hình và tác động tích cực của các kỹ thuật tăng cường dữ liệu.

Ý nghĩa của kết quả này là mở ra khả năng ứng dụng rộng rãi trong các phần mềm ghi biên bản họp, giúp tự động hóa quá trình chuyển đổi lời nói thành văn bản với độ chính xác cao, giảm thiểu sai sót và tăng hiệu quả công việc.

## Đề xuất và khuyến nghị

- **Tăng cường thu thập dữ liệu đa dạng:** Mở rộng bộ dữ liệu huấn luyện với nhiều phương ngữ và môi trường âm thanh khác nhau để nâng cao khả năng nhận dạng đa dạng giọng nói, hướng tới giảm tỷ lệ lỗi WER dưới 10% trong vòng 1-2 năm tới.
- **Phát triển mô hình ngôn ngữ nâng cao:** Áp dụng các mô hình ngôn ngữ dựa trên mạng nơ-ron (RNN, Transformer) để cải thiện khả năng dự đoán ngữ cảnh và giảm độ hỗn loạn, dự kiến triển khai thử nghiệm trong 12 tháng tới.
- **Tối ưu hóa hiệu năng hệ thống:** Nâng cao tốc độ xử lý và giảm độ trễ của phần mềm ghi biên bản họp, đảm bảo thời gian phản hồi dưới 1 giây cho các đoạn âm thanh dài 10 giây, phù hợp với yêu cầu thực tế.
- **Tích hợp công nghệ phân tách người nói:** Phát triển module phân tách người nói chính xác hơn để hỗ trợ ghi chú cá nhân hóa trong các cuộc họp đa người, dự kiến hoàn thiện trong 18 tháng.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho đội ngũ kỹ thuật và người dùng cuối nhằm nâng cao hiệu quả sử dụng phần mềm, đồng thời xây dựng tài liệu hướng dẫn chi tiết.

Các giải pháp này cần được thực hiện bởi nhóm nghiên cứu, các doanh nghiệp công nghệ và các tổ chức sử dụng phần mềm ghi biên bản họp, với sự phối hợp chặt chẽ để đảm bảo tiến độ và chất lượng.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điều khiển và Tự động hóa:** Có thể áp dụng các phương pháp và mô hình nghiên cứu để phát triển các hệ thống nhận dạng tiếng nói khác hoặc mở rộng nghiên cứu về xử lý tín hiệu âm thanh.
- **Doanh nghiệp phát triển phần mềm:** Đặc biệt là các công ty công nghệ thông tin và truyền thông có nhu cầu tích hợp công nghệ nhận dạng tiếng nói vào sản phẩm ghi chép, họp trực tuyến hoặc trợ lý ảo.
- **Cơ quan hành chính và tổ chức tổ chức hội nghị:** Sử dụng phần mềm ghi biên bản họp tự động để nâng cao hiệu quả công việc, giảm thiểu sai sót và tiết kiệm thời gian.
- **Chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo:** Tham khảo các kỹ thuật trích xuất đặc trưng, mô hình âm học và ngôn ngữ để phát triển các ứng dụng AI liên quan đến tiếng Việt.

Mỗi nhóm đối tượng sẽ nhận được lợi ích cụ thể như cải thiện chất lượng sản phẩm, nâng cao hiệu quả công việc, hoặc phát triển nghiên cứu chuyên sâu.

## Câu hỏi thường gặp

1. **Hệ thống nhận dạng tiếng nói tiếng Việt có độ chính xác như thế nào?**  
   Mô hình TDNN-LSTM đạt tỷ lệ lỗi từ (WER) dưới 15% trên các tập kiểm thử thực tế, cải thiện đáng kể so với các mô hình truyền thống.

2. **Dữ liệu huấn luyện được thu thập như thế nào?**  
   Dữ liệu bao gồm hàng nghìn giờ ghi âm hội thoại tự nhiên, các chương trình truyền hình và cuộc họp thực tế, được cắt nhỏ và gán nhãn kỹ lưỡng qua quy trình chuẩn hóa.

3. **Làm thế nào để hệ thống xử lý tốt trong môi trường nhiều nhiễu?**  
   Áp dụng kỹ thuật tăng cường dữ liệu bằng cách thêm nhiễu và mô phỏng vang vọng theo phân bố SNR thực tế giúp mô hình hoạt động ổn định trong môi trường phức tạp.

4. **Mô hình ngôn ngữ được xây dựng như thế nào?**  
   Sử dụng mô hình N-gram với các kỹ thuật làm mịn như Katz và Kneser-Ney để giảm độ hỗn loạn và cải thiện khả năng dự đoán từ trong tiếng Việt.

5. **Phần mềm ghi biên bản họp có hỗ trợ phân tách người nói không?**  
   Có, hệ thống sử dụng module phân tách người nói dựa trên trích xuất vector đặc trưng và phân cụm, giúp xác định chính xác ai nói gì trong cuộc họp.

## Kết luận

- Đã xây dựng thành công hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp với độ chính xác cao và khả năng xử lý môi trường nhiễu thực tế.  
- Áp dụng mô hình lai HMM-DNN kết hợp đặc trưng MFCC và pitch, cải thiện đáng kể tỷ lệ lỗi từ (WER) so với các mô hình truyền thống.  
- Phương pháp tăng cường dữ liệu bằng cách thêm nhiễu và mô phỏng vang vọng giúp mô hình hoạt động ổn định trong môi trường thực tế đa dạng.  
- Mô hình ngôn ngữ N-gram với kỹ thuật làm mịn nâng cao khả năng dự đoán và giảm độ hỗn loạn trong nhận dạng.  
- Đề xuất các giải pháp phát triển tiếp theo nhằm mở rộng phạm vi ứng dụng, nâng cao hiệu năng và tích hợp các tính năng phân tách người nói.

Tiếp theo, cần triển khai thử nghiệm mở rộng trên các môi trường thực tế khác nhau và phát triển mô hình ngôn ngữ nâng cao dựa trên mạng nơ-ron. Khuyến khích các doanh nghiệp và tổ chức nghiên cứu ứng dụng kết quả này để nâng cao hiệu quả công việc và phát triển sản phẩm công nghệ mới.

Hãy bắt đầu áp dụng công nghệ nhận dạng tiếng nói để tối ưu hóa quy trình ghi chép và quản lý thông tin trong các cuộc họp ngay hôm nay!

Trích đoạn nội dung tài liệu

chương 1, chúng ta đã biết được về chức năng, kiến trúc và công nghệ sử dụng bên trong phần mềm bóc băng biên bản họp và tình hình nghiên cứu, ứng dụng các sản phẩm nhận dạng tiếng nói trong nước và trên thế giới. Những chương tiếp theo sẽ tập trung vào làm rõ công nghệ nhận dạng tiếng nói và cách để xây dựng một hệ thống nhận dạng tiếng nói tiếng Việt tích hợp trong phần mềm ghi biên bản họp. 5 CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG NÓI Có rất nhiều cách tiếp cận để giải quyết bài toán nhận dạng tiếng nói như là so sánh mẫu, xây dựng mô hình học thống kê, sử dụng mô hình mạng nơ ron học sâu end-to-end. Ở chương 2 này, tác giả tập trung trình bày phương pháp nhận xây dựng mô hình nhận dạng tiếng nói bằng cách xây dựng mô hình thống kê.

Giới thiệu công nghệ nhận dạng 2. Lý thuyết Nhận dạng tiếng nói bắt đầu xuất hiện từ năm 1960 và đến nay đã đạt được rất nhiều thành tựu. Chính sự thành công này đã dẫn đến sự ra đời của hàng loạt ứng dụng thực tế như giao tiếp người-máy qua lời nói, tự động ghi chép lời nói, hệ thống học ngôn ngữ Mục tiêu của hệ thống ASR là tìm ra chuỗi văn bản đại diện cho một chuỗi âm thanh đầu vào. Sơ đồ hệ thống nhận dạng tiếng nói điển hình được biểu diễn bằng hình 2-1.

Hình 2-1 Kiến trúc cơ bản của hệ thống nhận dạng tiếng nói Như hình 2-1, một hệ thống nhận dạng tiếng nói gồm 5 phần chính. Chúng ta sẽ tìm hiểu chức năng và ý nghĩa của từng thành phần ngay sau đây:  Trích chọn đặc trưng (Feature Extraction): trích xuất ra những thông tin có ích và loại bỏ những thông tin dư thừa. Do tín hiệu tiếng nói liên tục các đặc trưng thường được trích xuất dưới dạng các frame. Với mỗi một frame, ta sẽ chọn ra một vector đặc trưng.

 Mô hình âm học (Acoustic Model): hoạt động như tai người, đầu vào là đặc trưng của tiếng nói X, đầu ra là xác suất có điều kiện của tử hay âm vị P(X|W). Các tham số của mô hình âm học được xác định thông qua quá trình huấn luyện trên tập mẫu có trước. 6  Mô hình ngôn ngữ (Language Model): lưu trữ thông tin, kiến thức về từ ngữ ngữ pháp. Những kiến thức này thường được thay đổi theo thời gian do vậy mô hình ngôn ngữ cũng cần phải cập nhật thường xuyên.

 Từ điển phát âm (Lexicon): Mô hình âm học thường dùng để mô hình hóa những thành phần nhỏ nhất của tiếng nói, gọi là âm vị. Trong khi đó mô hình ngôn ngữ lại dùng từ để mô hình hóa. Vì vậy cần có cầu nối giữa 2 mô hình này gọi là từ điển. Từ điển mô tả cách phát âm của một từ bằng cách biểu diễn từ đó dưới dạng một chuỗi các âm vị.

 Bộ giải mã: Mỗi tín hiệu X đầu vào, mô hình âm học sẽ đưa ra xác suất P(X|W) cho mỗi giả thuyết khác nhau về chuỗi text có thể đúng. Mô hình ngôn ngữ cũng đưa ra giả thuyết của mình cho chuỗi text W là P(W). Bộ giải mã sẽ tìm tất cả các chuỗi text có thể có W, lấy P(X|W) từ mô hình âm học, P(W) từ mô hình ngôn ngữ để chọn ra chuỗi W có xác suất P(W|X) lớn nhất để làm kết quả nhận dạng. Phương diện toán học Dưới phương diện toán học thống kê, ASR tìm ra chuỗi từ W  (w1,., wn ) , dự đoán từ model đã học sẵn với đầu vào là một chuỗi vector quan sát.

Các thành phần chính của một hệ thống ASR theo phương pháp thống kê được miêu tả ở hình 2-2 Hình 2-2 Kiến trúc ASR trên phương diện toán học [4] Đầu tiên một tín hiệu tiếng nói được biến đổi thành một chuỗi các vector có độ dài cố định gọi là các vector âm học O  [o1 , o 2 ., ot ] , sau bước trích xuất đặc trưng. 7 Sau đó, bộ giải mã (decoder) tìm ra chuỗi từ gần nhất (W* ) tương ứng với chuỗi arg max vector đầu vào sao cho W *  P(O | W ) P(W ) (2.3) w Likelihood P(O|W) được xác định bởi mô hình âm học và hệ số P(W) được xác định bởi mô hình ngôn ngữ. Như đã thấy trong hình 2-2, mỗi một từ Wn được đại diện cho một chuỗi các đơn vị âm học gọi là phoneme. Khi tính đến trường hợp một từ có nhiều cách đọc, P(O|W) có thể được tính theo công thức P(O | W )   P(O | Q) P(Q | W ) (2., Qn ) là chuỗi các các phát âm cho chuỗi từ W, và mỗi một cách phát âm của một từ là một chuỗi các phone Qn  ( q1( n), q2( n),.) P(Qn | wn ) là xác suất từ Wn được phát âm theo chuỗi phone Qn.

DO đó P(Q|W) tương ứng với mô hình phát âm và là xác suất của một chuỗi phone đối với một chuỗi từ cho trước. Mô hình phát âm này được gọi là từ điển phát âm. Khi tính đến cả ba yếu tố (âm học, từ điển, ngôn ngữ ), công thức 3.3 có thể được viết là: arg max W*  w Q P(O | Q)P(Q | W ) P(W ) (2. Trích xuất đặc trưng Tín hiệu âm thanh ngoài đời thực là tín hiệu liên tục, hay tính hiệu tương tự trước khi thực hiện bất cứ bước xử lý nào, tín hiệu âm thanh cần được số hóa.

Việc này được thực hiện tự động bởi các thiết bị thu âm, bằng cách lấy mẫu tín hiệu đầu vào. Như vậy, một tín hiệu âm thanh bất kỳ khi đã được đưa vào máy tính, là một tập các mẫu liên tiếp nhau, mỗi mẫu là giá trị biên độ của tín hiệu tại một thời điểm nhất định. Một tham số quan trọng trong việc lấy mẫu tín hiệu âm thanh là tần số lấy mẫu, Fs, tức là số mẫu được lấy trong một giây. Để có thể đo lường chính xác, cần phải lấy ít nhất 2 mẫu trong một chu kỳ của tín hiệu tương tự đầu vào.

Như vậy, tần số lấy mẫu phải lớn hơn 2 lần tần số cao nhất của tín hiệu âm thanh đầu vào. Trích chọn đặc trưng đối với nhận dạng tiếng nói là việc tham số hóa chuỗi tín hiệu âm thanh dạng sống đầu vào, biến đổi tín hiệu âm thanh thành một chuỗi các vector đặc trưng n chiều, mỗi chiều là một giá trị thực. Hiện nay, có rất nhiều phương pháp trích chọn đặc trưng như: LPC (Linear predictive coding – Dự đoán tuyến tính), AMDF (Average magnitude different function – hàm biên độ trung bình), MFCC (Mel-frequency cepstral coefficients). Đặc trưng MFCC Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương pháp phổ biến nhất.

MFCC là viết tắt của Mel-frequency cepstral coefficients. Kỹ thuật này dựa trên việc thực hiện biến đổi để chuyển dữ liệu âm thanh đầu vào (đã được biến đổi Fourier cho phổ) về thang đo tần số Mel, một thang đo diễn tả tốt hơn sự nhạy cảm của tai người đổi với âm thanh. Kỹ thuật trích chọn đặc trưng này gồm các bước biến đổi liên tiếp, trong đó đầu ra của bước biến đổi trước sẽ là đầu vào của bước biến đổi sau. Đầu vào của quá trình đặc trưng này sẽ là một đoạn tín hiệu tiếng nói.

Vì tín hiệu âm thanh sau khi được đưa vào máy tính đã được rời rạc hóa nên đoạn tín hiệu tiếng nói này bao gồm các mẫu liên tiếp nhau, mỗi mẫu là một giá trị thực, thể hiện giá trị biên độ của âm thanh tại 1 thời điểm. Các bước của quá trình trích xuất đặc trưng MFCC được thể hiện ở hình 2-3 Hình 2-3 Các bước trích xuất đặc trưng MFCC a) Tiền xử lý Tín hiệu âm thanh thường được thu ở môi trường đời thường, tiếng nói bình thường của một người cũng không được to, trừ khi nói to có chủ định, do đó nhiễu của môi trường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng kể (nghe có thể dễ dàng nhận ra) của tiếng nói khi thu âm, bước đầu tiên của quá trình trích chọn đặc trưng MFCC sẽ xử lý vấn đề này, bằng việc thực hiện tăng cường độ của những tần số cao lên nhằm làm tăng năng lượng ở vùng có tần số cao – vùng tần số của tiếng nói, một cách dễ hiểu là làm tiếng nói lớn hơn lên để ảnh hưởng của các âm thanh môi trường và nhiễu trở thành không đáng kể. Việc tăng cường độ của vùng tần số cao lên đồng thời làm cho thông tin rõ ràng hơn đối với mẫu tiếng nói. Hình 2-4 mô tả trước và sau quá trình Pre-emphasis của một đoạn tín hiệu âm thanh: 9 Hình 2-4 Ảnh hưởng của tiền xử lý đến tín hiệu âm thanh 4 b) Cửa sổ hóa Tín hiệu âm thanh thay đổi rất nhanh, do đó các thuộc tính như biên độ, chu kỳ sẽ không ổn định.

Khi tín hiệu âm thanh được cắt ra thành những đoạn nhỏ thì ở mỗi đoạn, có thể coi tín hiệu đó là ổn định, các đặc trưng của tín hiệu là không đổi theo thời gian. Để thực hiện việc này, chúng ta sử dụng một cửa sổ (window) chạy dọc tín hiện âm thanh và cắt ra các đoạn tín hiệu nằm trong cửa sổ đó. Một cửa sổ được định nghĩa bằng các thông số:  Frame size: độ rộng của cửa sổ, cũng là độ lớn của frame tín hiệu sẽ được cắt ra.  Frame shift: bước nhảy của cửa sổ, là độ dài đoạn mà cửa sổ sẽ trượt để cắt ra frame tiếp theo.

Mỗi frame sau đó sẽ được nhân với một hệ số, giá trị của hệ số này tùy thuộc vào từng loại cửa sổ : y[n]  w[n]  x[n] (2.6) Trong đó x[n] là giá trị của mẫu thứ n, y[n] là giá trị của mẫu thứ n sau khi nhân với hệ số, w[n] là hệ số cho mẫu thứ n trong frame đó. Loại cửa sổ đơn giản nhất là cửa sổ Rectangular, giá trị của các hệ số w[n] được cho bởi công thức sau: 1| 0  n  N  1 w[n ]   (2.7) 0 | truonghopkhac với N là số mẫu trong một frame 4 https://viblo.asia/p/feature-extraction-mfcc-cho-xu-ly-tieng-noi-4dbZN2xmZYM 10 Nói cách khác, của sổ Rectangular với bước nhảy là frameshift, ta lấy frame size giá trị liên tiếp của tín hiệu làm một frame. Một loại cửa sổ khác thông dụng hơn trong trích chọn đặc trưng MFCC là cửa sổ Hamming. Trong loại cửa sổ này, giá trị của tín hiệu sẽ giảm dần về 0 khi tiến dần ra hai biên của frame.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu hệ thống nhận dạng tiếng nói tiếng Việt cho phần mềm ghi biên bản họp" tập trung vào việc phát triển một hệ thống nhận dạng tiếng nói hiệu quả cho ngôn ngữ tiếng Việt, nhằm hỗ trợ trong việc ghi chép biên bản họp. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các công nghệ hiện có mà còn chỉ ra những thách thức và giải pháp trong việc xử lý ngôn ngữ tự nhiên. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng công nghệ này, bao gồm việc tiết kiệm thời gian và nâng cao độ chính xác trong việc ghi chép thông tin.

Để mở rộng kiến thức về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ hcmute nhận dạng tiếng nói dùng giải thuật trích đặc trưng mfcc và lượng tử vector trên kit dsktms320c6713 của ti, nơi trình bày các phương pháp trích xuất đặc trưng trong nhận dạng tiếng nói. Bên cạnh đó, tài liệu Luận văn thạc sĩ hcmute nhận dạng tiếng nói dùng mạng neural sẽ giúp bạn hiểu rõ hơn về ứng dụng của mạng nơ-ron trong lĩnh vực này. Cuối cùng, tài liệu Luận văn thạc sĩ nghiên cứu áp dụng mô hình mạng nơ ron end to end cho nhận dạng tiếng nói tiếng việt cung cấp cái nhìn sâu sắc về các mô hình hiện đại trong nhận dạng tiếng nói. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về công nghệ nhận dạng tiếng nói tiếng Việt.

#công nghệ xử lý ngôn ngữ tự nhiên

#công nghệ nhận diện giọng nói

#hệ thống nhận dạng tiếng nói

#tiếng Việt trong công nghệ

#phần mềm ghi biên bản họp

#ứng dụng AI trong ghi âm

Chủ đề

Ứng dụng AI trong giáo dục

Nghiên cứu ngôn ngữ tiếng Việt

Công nghệ nhận dạng tiếng nói

Phát triển phần mềm ghi âm