## Tổng quan nghiên cứu

Trong bối cảnh công nghệ trí tuệ nhân tạo phát triển mạnh mẽ, việc tự động hóa quá trình ghi chép và chuyển đổi lời nói thành văn bản ngày càng trở nên cần thiết, đặc biệt trong các cuộc họp và phỏng vấn. Theo ước tính, việc ghi chép thủ công chiếm nhiều thời gian và công sức, gây ảnh hưởng đến hiệu quả làm việc. Luận văn tập trung nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp, nhằm giải quyết vấn đề này. Mục tiêu chính là phát triển mô hình nhận dạng tiếng nói có độ chính xác cao, hoạt động ổn định trong điều kiện thực tế, đồng thời đáp ứng yêu cầu về hiệu năng và tốc độ xử lý.

Phạm vi nghiên cứu tập trung vào tiếng nói tiếng Việt trong môi trường họp, với dữ liệu thu thập từ nhiều nguồn khác nhau, bao gồm các đoạn hội thoại tự nhiên và các môi trường có nhiễu đa dạng. Thời gian nghiên cứu kéo dài trong khóa học thạc sĩ năm 2019-2020 tại Trường Đại học Bách Khoa Hà Nội. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao chất lượng và hiệu quả của phần mềm ghi biên bản họp, giúp giảm thiểu thời gian ghi chép, tăng độ chính xác và hỗ trợ truy xuất thông tin nhanh chóng.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nhận dạng tiếng nói hiện đại, bao gồm:

- **Mô hình âm học (Acoustic Model - AM):** Sử dụng mô hình HMM-GMM truyền thống và mô hình lai HMM-DNN để mô hình hóa xác suất âm thanh đầu vào tương ứng với các âm vị.
- **Mô hình ngôn ngữ (Language Model - LM):** Áp dụng mô hình N-gram với các kỹ thuật làm mịn như Katz smoothing và Kneser-Ney smoothing để dự đoán xác suất xuất hiện của các chuỗi từ trong tiếng Việt.
- **Trích xuất đặc trưng:** Sử dụng kỹ thuật MFCC (Mel-frequency cepstral coefficients) kết hợp với đặc trưng pitch để phản ánh đặc tính thanh điệu của tiếng Việt.
- **Phân tách người nói và xử lý tiếng ồn:** Áp dụng kỹ thuật Voice Activity Detection (VAD) và phân cụm vector đặc trưng người nói để tách biệt các người tham gia trong cuộc họp.

Các khái niệm chính bao gồm: nhận dạng tiếng nói tự động (ASR), tỷ lệ lỗi từ (WER), tỷ lệ tín hiệu trên nhiễu (SNR), mạng nơ-ron học sâu (DNN, LSTM, TDNN), và mô hình Markov ẩn (HMM).

### Phương pháp nghiên cứu

Nguồn dữ liệu được thu thập từ các đoạn hội thoại tự nhiên, các chương trình truyền hình, và các cuộc họp thực tế tại nhiều phòng họp với môi trường âm thanh đa dạng. Tổng dung lượng dữ liệu huấn luyện lên đến hàng nghìn giờ, trong đó có khoảng 200 giờ dữ liệu hội thoại được chuẩn hóa và gán nhãn kỹ lưỡng.

Phương pháp phân tích bao gồm:

- Tiền xử lý dữ liệu: cắt nhỏ đoạn âm thanh theo câu dựa trên module VAD, chuẩn hóa độ dài đoạn, và gán nhãn văn bản tương ứng.
- Huấn luyện mô hình âm học sử dụng bộ công cụ Kaldi, với các mô hình HMM-GMM và HMM-DNN, kết hợp kỹ thuật tăng cường dữ liệu (data augmentation) bằng cách thêm nhiễu và mô phỏng vang vọng (RIR).
- Xây dựng mô hình ngôn ngữ N-gram với các kỹ thuật làm mịn để cải thiện khả năng dự đoán.
- Đánh giá mô hình trên các tập dữ liệu kiểm thử đa dạng, bao gồm VLSP2015, VLSP2012, MEETINGNOTE, VOICENOTE và VIVOS.

Timeline nghiên cứu kéo dài trong năm học 2019-2020, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, thử nghiệm và tích hợp sản phẩm.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Phân bố SNR thực tế:** Kết quả đo tại 12 phòng họp cho thấy SNR dao động từ 0 đến 14 dB, tập trung nhiều nhất ở khoảng 6-8 dB, phản ánh môi trường âm thanh thực tế có nhiều nhiễu như tiếng điều hòa, quạt, và tiếng nói chuyện lao xao.
- **Hiệu quả mô hình âm học:** Mô hình TDNN-LSTM kết hợp đặc trưng MFCC và pitch đạt tỷ lệ lỗi từ (WER) thấp hơn 15% trên các tập kiểm thử thực tế, giảm khoảng 20% so với mô hình HMM-GMM truyền thống.
- **Tác động của data augmentation:** Việc thêm nhiễu và mô phỏng vang vọng vào dữ liệu huấn luyện giúp mô hình duy trì hiệu suất ổn định trong môi trường nhiễu, giảm tỷ lệ lỗi WER xuống khoảng 10% so với mô hình không sử dụng augmentation.
- **Mô hình ngôn ngữ:** Mô hình N-gram với kỹ thuật Kneser-Ney smoothing giảm độ hỗn loạn (perplexity) trên tập phát triển xuống dưới 100, cải thiện khả năng dự đoán từ và cụm từ trong tiếng Việt.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện chất lượng nhận dạng là do việc sử dụng mô hình lai HMM-DNN, tận dụng khả năng học sâu để mô hình hóa các đặc trưng âm thanh phức tạp và phụ thuộc ngữ cảnh. Việc bổ sung đặc trưng pitch giúp mô hình nhận dạng chính xác các thanh điệu trong tiếng Việt, vốn là yếu tố quan trọng trong ngôn ngữ này.

So sánh với các nghiên cứu trước đây, kết quả cho thấy mô hình đề xuất vượt trội hơn về độ chính xác và khả năng thích nghi với môi trường thực tế. Biểu đồ phân bố SNR và bảng tỷ lệ lỗi WER minh họa rõ sự khác biệt giữa các mô hình và tác động tích cực của các kỹ thuật tăng cường dữ liệu.

Ý nghĩa của kết quả này là mở ra khả năng ứng dụng rộng rãi trong các phần mềm ghi biên bản họp, giúp tự động hóa quá trình chuyển đổi lời nói thành văn bản với độ chính xác cao, giảm thiểu sai sót và tăng hiệu quả công việc.

## Đề xuất và khuyến nghị

- **Tăng cường thu thập dữ liệu đa dạng:** Mở rộng bộ dữ liệu huấn luyện với nhiều phương ngữ và môi trường âm thanh khác nhau để nâng cao khả năng nhận dạng đa dạng giọng nói, hướng tới giảm tỷ lệ lỗi WER dưới 10% trong vòng 1-2 năm tới.
- **Phát triển mô hình ngôn ngữ nâng cao:** Áp dụng các mô hình ngôn ngữ dựa trên mạng nơ-ron (RNN, Transformer) để cải thiện khả năng dự đoán ngữ cảnh và giảm độ hỗn loạn, dự kiến triển khai thử nghiệm trong 12 tháng tới.
- **Tối ưu hóa hiệu năng hệ thống:** Nâng cao tốc độ xử lý và giảm độ trễ của phần mềm ghi biên bản họp, đảm bảo thời gian phản hồi dưới 1 giây cho các đoạn âm thanh dài 10 giây, phù hợp với yêu cầu thực tế.
- **Tích hợp công nghệ phân tách người nói:** Phát triển module phân tách người nói chính xác hơn để hỗ trợ ghi chú cá nhân hóa trong các cuộc họp đa người, dự kiến hoàn thiện trong 18 tháng.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho đội ngũ kỹ thuật và người dùng cuối nhằm nâng cao hiệu quả sử dụng phần mềm, đồng thời xây dựng tài liệu hướng dẫn chi tiết.

Các giải pháp này cần được thực hiện bởi nhóm nghiên cứu, các doanh nghiệp công nghệ và các tổ chức sử dụng phần mềm ghi biên bản họp, với sự phối hợp chặt chẽ để đảm bảo tiến độ và chất lượng.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điều khiển và Tự động hóa:** Có thể áp dụng các phương pháp và mô hình nghiên cứu để phát triển các hệ thống nhận dạng tiếng nói khác hoặc mở rộng nghiên cứu về xử lý tín hiệu âm thanh.
- **Doanh nghiệp phát triển phần mềm:** Đặc biệt là các công ty công nghệ thông tin và truyền thông có nhu cầu tích hợp công nghệ nhận dạng tiếng nói vào sản phẩm ghi chép, họp trực tuyến hoặc trợ lý ảo.
- **Cơ quan hành chính và tổ chức tổ chức hội nghị:** Sử dụng phần mềm ghi biên bản họp tự động để nâng cao hiệu quả công việc, giảm thiểu sai sót và tiết kiệm thời gian.
- **Chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo:** Tham khảo các kỹ thuật trích xuất đặc trưng, mô hình âm học và ngôn ngữ để phát triển các ứng dụng AI liên quan đến tiếng Việt.

Mỗi nhóm đối tượng sẽ nhận được lợi ích cụ thể như cải thiện chất lượng sản phẩm, nâng cao hiệu quả công việc, hoặc phát triển nghiên cứu chuyên sâu.

## Câu hỏi thường gặp

1. **Hệ thống nhận dạng tiếng nói tiếng Việt có độ chính xác như thế nào?**  
   Mô hình TDNN-LSTM đạt tỷ lệ lỗi từ (WER) dưới 15% trên các tập kiểm thử thực tế, cải thiện đáng kể so với các mô hình truyền thống.

2. **Dữ liệu huấn luyện được thu thập như thế nào?**  
   Dữ liệu bao gồm hàng nghìn giờ ghi âm hội thoại tự nhiên, các chương trình truyền hình và cuộc họp thực tế, được cắt nhỏ và gán nhãn kỹ lưỡng qua quy trình chuẩn hóa.

3. **Làm thế nào để hệ thống xử lý tốt trong môi trường nhiều nhiễu?**  
   Áp dụng kỹ thuật tăng cường dữ liệu bằng cách thêm nhiễu và mô phỏng vang vọng theo phân bố SNR thực tế giúp mô hình hoạt động ổn định trong môi trường phức tạp.

4. **Mô hình ngôn ngữ được xây dựng như thế nào?**  
   Sử dụng mô hình N-gram với các kỹ thuật làm mịn như Katz và Kneser-Ney để giảm độ hỗn loạn và cải thiện khả năng dự đoán từ trong tiếng Việt.

5. **Phần mềm ghi biên bản họp có hỗ trợ phân tách người nói không?**  
   Có, hệ thống sử dụng module phân tách người nói dựa trên trích xuất vector đặc trưng và phân cụm, giúp xác định chính xác ai nói gì trong cuộc họp.

## Kết luận

- Đã xây dựng thành công hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp với độ chính xác cao và khả năng xử lý môi trường nhiễu thực tế.  
- Áp dụng mô hình lai HMM-DNN kết hợp đặc trưng MFCC và pitch, cải thiện đáng kể tỷ lệ lỗi từ (WER) so với các mô hình truyền thống.  
- Phương pháp tăng cường dữ liệu bằng cách thêm nhiễu và mô phỏng vang vọng giúp mô hình hoạt động ổn định trong môi trường thực tế đa dạng.  
- Mô hình ngôn ngữ N-gram với kỹ thuật làm mịn nâng cao khả năng dự đoán và giảm độ hỗn loạn trong nhận dạng.  
- Đề xuất các giải pháp phát triển tiếp theo nhằm mở rộng phạm vi ứng dụng, nâng cao hiệu năng và tích hợp các tính năng phân tách người nói.

Tiếp theo, cần triển khai thử nghiệm mở rộng trên các môi trường thực tế khác nhau và phát triển mô hình ngôn ngữ nâng cao dựa trên mạng nơ-ron. Khuyến khích các doanh nghiệp và tổ chức nghiên cứu ứng dụng kết quả này để nâng cao hiệu quả công việc và phát triển sản phẩm công nghệ mới.

Hãy bắt đầu áp dụng công nghệ nhận dạng tiếng nói để tối ưu hóa quy trình ghi chép và quản lý thông tin trong các cuộc họp ngay hôm nay!