Luận văn thạc sĩ sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition

Luận văn thạc sĩ nghiên cứu sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỤC LỤC

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN

1.1. Tổng quan

1.2. Quy trình gán nhãn dữ liệu

1.3. Vấn đề chính trong một hệ thống gán nhãn dữ liệu

1.4. Các phương pháp lựa chọn dữ liệu gán nhãn

1.5. Đánh giá chất lượng gán nhãn

2. CHƯƠNG 2: MÔ HÌNH NHẬN DẠNG TIẾNG NÓI

2.1. Giới thiệu

2.2. Kiến trúc mô hình nhận dạng tiếng nói

3. CHƯƠNG 3: PHƯƠNG PHÁP HỌC CHỦ ĐỘNG CHO BÀI TOÁN NHẬN DẠNG TIẾNG NÓI

4. CHƯƠNG 4: THÍ NGHIỆM

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Sử dụng Active Learning trong Nhận Dạng Giọng Nói

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, việc áp dụng Active Learning trong lựa chọn dữ liệu gán nhãn cho bài toán nhận dạng giọng nói đang trở thành một xu hướng quan trọng. Active Learning giúp tối ưu hóa quy trình gán nhãn, giảm thiểu chi phí và thời gian, đồng thời nâng cao chất lượng dữ liệu. Bài viết này sẽ khám phá cách thức mà Active Learning có thể cải thiện hiệu quả của hệ thống nhận dạng giọng nói.

1.1. Khái niệm về Active Learning và Nhận Dạng Giọng Nói

Active Learning là một phương pháp học máy cho phép mô hình tự động chọn mẫu dữ liệu để gán nhãn. Trong lĩnh vực nhận dạng giọng nói, phương pháp này giúp xác định những mẫu âm thanh quan trọng nhất cần được gán nhãn, từ đó cải thiện độ chính xác của mô hình.

1.2. Tầm quan trọng của Dữ Liệu Gán Nhãn trong Nhận Dạng Giọng Nói

Dữ liệu gán nhãn là yếu tố quyết định đến hiệu quả của mô hình nhận dạng giọng nói. Việc lựa chọn dữ liệu gán nhãn chính xác không chỉ giúp tiết kiệm chi phí mà còn nâng cao độ chính xác của hệ thống.

II. Vấn đề trong Quy Trình Gán Nhãn Dữ Liệu cho Nhận Dạng Giọng Nói

Quy trình gán nhãn dữ liệu thường gặp nhiều thách thức, đặc biệt là trong việc lựa chọn mẫu dữ liệu phù hợp. Việc gán nhãn không chính xác có thể dẫn đến việc giảm hiệu suất của mô hình nhận dạng giọng nói. Các vấn đề chính bao gồm sự dư thừa dữ liệu và chi phí gán nhãn cao.

2.1. Thách Thức trong Lựa Chọn Dữ Liệu Gán Nhãn

Một trong những thách thức lớn nhất là xác định mẫu nào cần được gán nhãn. Việc này không chỉ tốn thời gian mà còn yêu cầu nguồn lực lớn, đặc biệt trong các bài toán phức tạp như nhận dạng giọng nói.

2.2. Chi Phí và Thời Gian Gán Nhãn Dữ Liệu

Chi phí gán nhãn dữ liệu có thể rất cao, đặc biệt khi cần hàng triệu mẫu để huấn luyện mô hình. Active Learning giúp giảm thiểu chi phí này bằng cách chỉ gán nhãn những mẫu quan trọng nhất.

III. Phương Pháp Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn

Phương pháp Active Learning cho phép mô hình tự động chọn lựa các mẫu dữ liệu cần gán nhãn từ một tập dữ liệu lớn chưa được gán nhãn. Điều này giúp tối ưu hóa quy trình gán nhãn và nâng cao chất lượng dữ liệu đầu vào cho mô hình nhận dạng giọng nói.

3.1. Cách Thức Hoạt Động của Active Learning

Active Learning hoạt động bằng cách lựa chọn các mẫu mà mô hình cảm thấy khó khăn nhất để phân loại. Những mẫu này thường mang lại giá trị cao nhất cho quá trình huấn luyện.

3.2. Lợi Ích của Active Learning trong Nhận Dạng Giọng Nói

Việc áp dụng Active Learning giúp giảm thiểu số lượng mẫu cần gán nhãn, từ đó tiết kiệm thời gian và chi phí, đồng thời cải thiện độ chính xác của mô hình nhận dạng giọng nói.

IV. Ứng Dụng Thực Tiễn của Active Learning trong Nhận Dạng Giọng Nói

Nhiều nghiên cứu đã chỉ ra rằng việc áp dụng Active Learning trong nhận dạng giọng nói có thể mang lại kết quả ấn tượng. Các ứng dụng thực tiễn cho thấy sự cải thiện rõ rệt trong độ chính xác và hiệu suất của mô hình.

4.1. Các Nghiên Cứu Điển Hình về Active Learning

Nghiên cứu cho thấy rằng việc sử dụng Active Learning trong các bài toán nhận dạng giọng nói đã giúp cải thiện độ chính xác lên đến 95%, gần tương đương với con người.

4.2. Kết Quả Thực Nghiệm và Đánh Giá

Các thí nghiệm cho thấy rằng mô hình sử dụng Active Learning có thể đạt được hiệu suất tốt hơn so với các phương pháp truyền thống, nhờ vào việc lựa chọn dữ liệu gán nhãn thông minh.

V. Kết Luận và Tương Lai của Active Learning trong Nhận Dạng Giọng Nói

Phương pháp Active Learning đang mở ra nhiều cơ hội mới cho việc tối ưu hóa quy trình gán nhãn dữ liệu trong nhận dạng giọng nói. Tương lai của công nghệ này hứa hẹn sẽ mang lại những bước tiến lớn trong việc phát triển các hệ thống nhận dạng giọng nói chính xác hơn.

5.1. Tương Lai của Active Learning trong Công Nghệ Nhận Dạng Giọng Nói

Với sự phát triển không ngừng của công nghệ, Active Learning sẽ tiếp tục đóng vai trò quan trọng trong việc cải thiện độ chính xác và hiệu suất của các hệ thống nhận dạng giọng nói.

5.2. Những Thách Thức Cần Đối Mặt

Mặc dù có nhiều lợi ích, nhưng việc áp dụng Active Learning cũng gặp phải một số thách thức, bao gồm việc xác định các mẫu dữ liệu quan trọng và đảm bảo chất lượng gán nhãn.

16/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, công nghệ thông tin và trí tuệ nhân tạo ngày càng phát triển mạnh mẽ, đặc biệt trong các lĩnh vực như nhận dạng hình ảnh, nhận dạng tiếng nói và dịch máy. Thị trường gán nhãn dữ liệu thủ công năm 2019 đạt giá trị 547 triệu USD và dự kiến tăng gấp hơn 4 lần vào năm 2026, phản ánh nhu cầu lớn về dữ liệu chất lượng để huấn luyện các mô hình học máy. Bài toán nhận dạng tiếng nói (Automatic Speech Recognition - ASR) là một trong những lĩnh vực được đầu tư mạnh mẽ tại Việt Nam, đòi hỏi hàng trăm đến hàng chục nghìn giờ dữ liệu gán nhãn, gây tốn kém lớn về chi phí và thời gian.

Luận văn tập trung nghiên cứu việc sử dụng phương pháp học chủ động (Active Learning) để lựa chọn dữ liệu gán nhãn hiệu quả cho bài toán nhận dạng tiếng nói, nhằm giảm thiểu chi phí gán nhãn trong khi vẫn đảm bảo chất lượng dữ liệu huấn luyện. Nghiên cứu được thực hiện trên hai bộ dữ liệu với tổng cộng 200 giờ âm thanh, trong đó một bộ có độ dư thừa thấp (4%) và bộ còn lại có độ dư thừa cao (20%). Mục tiêu chính là đánh giá hiệu quả của phương pháp học chủ động trong việc lựa chọn dữ liệu quan trọng, đồng thời đề xuất chiến lược kết hợp hai tiêu chí đánh giá độ tin cậy âm học và ngôn ngữ để tối ưu hóa quá trình gán nhãn.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả sử dụng ngân sách gán nhãn, giúp các doanh nghiệp và tổ chức phát triển hệ thống nhận dạng tiếng nói với chi phí hợp lý, đồng thời góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong các lĩnh vực đa dạng như tài chính, y tế, viễn thông và tự động hóa.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Phương pháp học chủ động (Active Learning): Là kỹ thuật học máy tương tác, trong đó mô hình chủ động lựa chọn các mẫu dữ liệu chưa gán nhãn có giá trị thông tin cao nhất để được chuyên gia gán nhãn, giúp giảm số lượng dữ liệu cần gán nhãn mà vẫn duy trì hiệu quả học tập. Ba ngữ cảnh chính của học chủ động gồm: tổng hợp truy vấn thành viên, lấy mẫu chọn lọc dựa trên luồng và lấy mẫu dựa trên nhóm.
Mô hình nhận dạng tiếng nói (ASR): Bao gồm các thành phần chính như Acoustic Front-end (trích xuất đặc trưng âm học), Acoustic Model (mô hình âm học), Language Model (mô hình ngôn ngữ) và Decoder (bộ giải mã). Các mô hình hiện đại sử dụng mạng học sâu đầu cuối (End-to-End) như Conformer, QuartzNet, Deep Speech, kết hợp các kỹ thuật như CTC layer và attention để cải thiện độ chính xác.
Đặc trưng âm học MFCC (Mel-Frequency Cepstrum Coefficients): Phương pháp trích xuất đặc trưng phổ biến trong nhận dạng tiếng nói, mô phỏng cách tai người cảm nhận âm thanh, bao gồm các bước pre-emphasis, phân đoạn tín hiệu, biến đổi Fourier nhanh (FFT), bộ lọc Mel, logarit và biến đổi cosine rời rạc (DCT).
Chiến lược truy vấn trong học chủ động: Bao gồm lấy mẫu không chắc chắn (chọn mẫu mà mô hình ít chắc chắn nhất), truy vấn theo hội đồng (dựa trên sự bất đồng giữa các mô hình), thay đổi mô hình dự kiến và giảm lỗi mong đợi.

Phương pháp nghiên cứu

Nghiên cứu sử dụng hai bộ dữ liệu kiểm thử, mỗi bộ gồm 100 giờ âm thanh:

Bộ dữ liệu 1 (Set 1): 100 giờ, 140,543 câu, độ dư thừa 4% (ngữ cảnh đa dạng, ít trùng lặp).
Bộ dữ liệu 2 (Set 2): 100 giờ, 124,870 câu, độ dư thừa 20% (âm thanh rõ ràng, nhiều trùng lặp).

Mô hình ASR được sử dụng là Kaldi, một công cụ mã nguồn mở phổ biến với mô hình lai HMM-DNN. Độ tin cậy (Confidence Score) của mỗi mẫu dữ liệu được tính dựa trên hai thành phần: acoustic score (độ chính xác mô hình âm học) và language model score (độ chính xác mô hình ngôn ngữ).

Quy trình nghiên cứu gồm các bước:

Huấn luyện mô hình trên tập dữ liệu đã gán nhãn ban đầu.
Áp dụng mô hình để giải mã tập dữ liệu chưa gán nhãn.
Tính toán độ tin cậy dựa trên trọng số kết hợp giữa acoustic score và language model score với các tỷ lệ khác nhau.
Lựa chọn mẫu dữ liệu có độ tin cậy thấp nhất theo chiến lược học chủ động để gán nhãn.
Cập nhật tập dữ liệu huấn luyện và lặp lại quá trình.

Phương pháp phân tích sử dụng so sánh tỷ lệ lỗi từ (Word Error Rate - WER) giữa các phương pháp lựa chọn dữ liệu: học chủ động, lựa chọn ngẫu nhiên và kết hợp hai tiêu chí trọng số. Cỡ mẫu lựa chọn mỗi vòng lặp là 5,000 câu, tương ứng khoảng 20 giờ dữ liệu gán nhãn sau 4 vòng lặp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Ảnh hưởng của độ dư thừa dữ liệu đến hiệu quả học chủ động:
- Trên bộ dữ liệu 1 (độ dư thừa 4%), phương pháp học chủ động chỉ cải thiện 1% WER so với lựa chọn ngẫu nhiên (31.35 vs 31.65 WER).
- Trên bộ dữ liệu 2 (độ dư thừa 20%), học chủ động giảm 5% WER so với lựa chọn ngẫu nhiên (43 vs 45 WER).
  Điều này cho thấy hiệu quả của học chủ động tăng khi dữ liệu có nhiều trùng lặp và dư thừa.
Hiệu quả của việc kết hợp hai tiêu chí trọng số âm học và ngôn ngữ trong lựa chọn dữ liệu:
- Phương pháp đề xuất sử dụng trọng số alpha điều chỉnh tỷ lệ giữa acoustic score và language model score cho kết quả WER tốt nhất là 20.95% trên bộ dữ liệu kiểm thử, giảm từ 23% so với lựa chọn ngẫu nhiên.
- Khi alpha giảm dưới 0.4, hiệu quả giảm, thậm chí kém hơn lựa chọn ngẫu nhiên, cho thấy cần cân bằng hợp lý giữa hai tiêu chí.
- Việc tách riêng lựa chọn dữ liệu theo hai tiêu chí giúp bổ sung dữ liệu phù hợp cho từng mô hình âm học hoặc ngôn ngữ, cải thiện hiệu quả huấn luyện.
Tỷ lệ lỗi từ (WER) giảm đáng kể qua các vòng lặp học chủ động:
- Qua 4 vòng lặp, WER giảm từ khoảng 23% xuống còn gần 21%, thể hiện khả năng chọn lọc dữ liệu quan trọng để gán nhãn hiệu quả.

Thảo luận kết quả

Kết quả cho thấy phương pháp học chủ động có hiệu quả rõ rệt khi áp dụng trên dữ liệu có độ dư thừa cao, phù hợp với đặc điểm của bài toán nhận dạng tiếng nói, nơi dữ liệu thường có nhiều mẫu trùng lặp hoặc tương đồng. Việc kết hợp hai tiêu chí đánh giá độ tin cậy âm học và ngôn ngữ giúp mô hình nhận dạng tiếng nói được cải thiện toàn diện hơn, tránh việc tập trung quá mức vào một khía cạnh dẫn đến mất cân bằng.

So sánh với các nghiên cứu trước đây, kết quả tương đồng với báo cáo của Amazon (2019) khi thêm 100 giờ dữ liệu chọn lọc giảm 2% WER so với lựa chọn ngẫu nhiên. Luận văn cũng mở rộng bằng cách phân tích chi tiết ảnh hưởng của trọng số alpha, cung cấp hướng dẫn thực tiễn cho việc điều chỉnh tham số trong học chủ động.

Dữ liệu có thể được trình bày qua biểu đồ đường thể hiện sự giảm WER qua các vòng lặp, bảng so sánh WER giữa các phương pháp lựa chọn dữ liệu, và biểu đồ cột minh họa ảnh hưởng của trọng số alpha đến hiệu quả mô hình.

Đề xuất và khuyến nghị

Áp dụng phân tích độ dư thừa dữ liệu trước khi triển khai học chủ động:
- Đánh giá phân bố và mức độ trùng lặp của dữ liệu để xác định tính khả thi và hiệu quả của học chủ động.
- Thời gian thực hiện: trước khi bắt đầu gán nhãn, do nhóm nghiên cứu dữ liệu.
Kết hợp hai tiêu chí trọng số âm học và ngôn ngữ trong lựa chọn dữ liệu:
- Điều chỉnh tham số alpha để cân bằng giữa acoustic score và language model score, tối ưu hóa hiệu quả lựa chọn mẫu.
- Thời gian thực hiện: trong quá trình huấn luyện mô hình, do nhóm phát triển mô hình.
Lựa chọn kích thước mẫu gán nhãn hợp lý mỗi vòng lặp:
- Ưu tiên chọn khoảng 5,000 câu mỗi vòng để cân bằng giữa chi phí gán nhãn và hiệu quả huấn luyện.
- Thời gian thực hiện: trong quá trình học chủ động, do nhóm quản lý dự án.
Kết hợp học chủ động với học bán giám sát khi có đủ dữ liệu:
- Sử dụng dữ liệu bán giám sát để tăng cường hiệu quả mô hình khi lượng dữ liệu gán nhãn đã đủ lớn.
- Thời gian thực hiện: giai đoạn nâng cao mô hình, do nhóm nghiên cứu.
Cải tiến tiêu chí đánh giá độ tin cậy (Confidence Score):
- Nghiên cứu và phát triển các chỉ số đánh giá có tương quan cao hơn với WER thực tế để nâng cao hiệu quả lựa chọn dữ liệu.
- Thời gian thực hiện: nghiên cứu dài hạn, do nhóm nghiên cứu và phát triển.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo:
- Hiểu rõ về ứng dụng học chủ động trong bài toán nhận dạng tiếng nói, từ lý thuyết đến thực nghiệm.
- Use case: phát triển các đề tài nghiên cứu liên quan đến học máy và xử lý ngôn ngữ tự nhiên.
Doanh nghiệp và tổ chức phát triển công nghệ nhận dạng tiếng nói:
- Áp dụng phương pháp học chủ động để tối ưu chi phí gán nhãn dữ liệu, nâng cao hiệu quả mô hình.
- Use case: triển khai hệ thống nhận dạng tiếng nói trong các sản phẩm dịch vụ.
Nhà cung cấp dịch vụ gán nhãn dữ liệu:
- Nắm bắt quy trình và chiến lược lựa chọn dữ liệu quan trọng, từ đó cải thiện chất lượng dịch vụ và tư vấn khách hàng.
- Use case: xây dựng quy trình gán nhãn hiệu quả, giảm chi phí và thời gian.
Chuyên gia phát triển mô hình học sâu và xử lý tiếng nói:
- Tham khảo các mô hình nhận dạng tiếng nói hiện đại như Kaldi, Conformer, QuartzNet và cách tích hợp học chủ động.
- Use case: tối ưu hóa mô hình nhận dạng tiếng nói cho các ngôn ngữ có đặc thù như tiếng Việt.

Câu hỏi thường gặp

Học chủ động là gì và tại sao lại quan trọng trong nhận dạng tiếng nói?
Học chủ động là phương pháp học máy chọn lọc dữ liệu quan trọng để gán nhãn, giúp giảm số lượng dữ liệu cần thiết mà vẫn duy trì hiệu quả mô hình. Trong nhận dạng tiếng nói, nó giúp tiết kiệm chi phí và thời gian gán nhãn hàng trăm đến hàng nghìn giờ dữ liệu.
Phương pháp học chủ động có hiệu quả hơn lựa chọn ngẫu nhiên không?
Có, đặc biệt khi dữ liệu có độ dư thừa cao. Nghiên cứu cho thấy học chủ động giảm được từ 1% đến 5% WER so với lựa chọn ngẫu nhiên, tùy thuộc vào đặc điểm dữ liệu.
Tại sao cần kết hợp hai tiêu chí âm học và ngôn ngữ trong lựa chọn dữ liệu?
Vì mô hình nhận dạng tiếng nói dựa trên cả đặc trưng âm học và ngữ cảnh ngôn ngữ. Kết hợp hai tiêu chí giúp chọn được dữ liệu phù hợp để cải thiện cả hai mô hình, tránh mất cân bằng và nâng cao độ chính xác tổng thể.
Làm thế nào để xác định trọng số alpha phù hợp trong việc kết hợp hai tiêu chí?
Trọng số alpha được điều chỉnh dựa trên hiệu quả thực nghiệm. Nghiên cứu cho thấy alpha khoảng 0.8 cho kết quả tốt nhất, cân bằng giữa acoustic score và language model score.
Có thể áp dụng phương pháp này cho các ngôn ngữ khác ngoài tiếng Việt không?
Có, phương pháp học chủ động và chiến lược lựa chọn dữ liệu dựa trên hai tiêu chí có thể áp dụng cho nhiều ngôn ngữ, tuy nhiên cần điều chỉnh phù hợp với đặc điểm ngôn ngữ và dữ liệu cụ thể.

Kết luận

Luận văn đã khảo sát và trình bày tổng quan về bài toán nhận dạng tiếng nói, các mô hình hiện đại và quy trình gán nhãn dữ liệu.
Phương pháp học chủ động được chứng minh hiệu quả trong việc lựa chọn dữ liệu gán nhãn, đặc biệt với dữ liệu có độ dư thừa cao, giúp giảm chi phí và nâng cao chất lượng mô hình.
Việc kết hợp hai tiêu chí trọng số âm học và ngôn ngữ trong lựa chọn dữ liệu cải thiện đáng kể hiệu quả so với phương pháp truyền thống.
Kết quả thực nghiệm trên hai bộ dữ liệu với tổng 200 giờ âm thanh cho thấy giảm từ 1% đến 5% WER so với lựa chọn ngẫu nhiên, đồng thời cung cấp hướng dẫn điều chỉnh tham số trọng số alpha.
Đề xuất các giải pháp thực tiễn và hướng nghiên cứu tiếp theo nhằm nâng cao độ tương quan giữa tiêu chí đánh giá độ tin cậy và tỷ lệ lỗi thực tế, mở rộng ứng dụng trong các hệ thống nhận dạng tiếng nói đa ngôn ngữ.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp nên áp dụng phương pháp học chủ động kết hợp hai tiêu chí trọng số, đồng thời đầu tư nghiên cứu cải tiến tiêu chí đánh giá độ tin cậy nhằm tối ưu hóa hiệu quả lựa chọn dữ liệu gán nhãn. Hành động ngay hôm nay sẽ giúp tiết kiệm chi phí và nâng cao chất lượng các hệ thống nhận dạng tiếng nói trong tương lai.

Trích đoạn nội dung tài liệu

Chương 1. Giới thiệu bài toán 1. Tổng quan Sự phát triển của các mô hình học máy và trí tuệ nhân tạo ngày cảng trở nên rộng rãi, máy móc ngày càng thay thế cho sức lao động của con người nhiều hơn. Đặc biệt trong những năm gần đây, với sự phát triển của mô hình học sâu đã chứng minh tính hiệu quả trong nhiều bài toán thực tế như: Nhận dạng khuôn mặt, Xử lý tiếng nói, Dịch máy… Đây đều là những bài toán phổ biến, được nhiều tập đoàn công nghệ lớn đầu tư và phát triển.

Ảnh 1 Thị trường gán nhãn dữ liệu Để phát triển những công cụ học máy với độ chính xác cao, hầu hết các mô hình đều yêu cầu từ hàng trăm ngàn đến hàng triệu mẫu dữ liệu học. Ngành công nghiệp gán nhãn chưa bao giờ phổ biến như hiện nay, điều này phản ánh sự dịch chuyển về cơ cấu lao động. Thay vì làm công việc máy móc đang làm, công việc gán nhãn đã và đang tạo việc làm cho rất nhiều lao động. Hiện nay, rất nhiều công ty đã được mở ra để kinh doanh dịch vụ gán nhãn dữ liệu.

Theo như thống kê, thị trường gán nhãn dữ liệu thủ công năm 2019 là 547 triệu USD, và sẽ tăng gấp hơn 4 lần vào năm 2026. Tương tự với việc gán nhãn tự động, tuy nhiên thị trường gán nhãn tự động thấp hơn thủ công do yêu cầu chủ yếu của việc gán nhãn là độ chính xác, điều này phụ thuộc vào con người. 13 Chuyển đổi số được thực hiện cho tất cả các ngành nghê, do đó việc gán nhãn dữ liệu có thể đến từ tất cả lĩnh vực như: Tài chính, Kinh tế, Nông nghiệp, Y tế, Viễn thông, Tự động hóa… Các dữ liệu gán nhãn cũng rất đa dạng, phong phú và có thể được lấy từ nhiều nguồn:  Dữ liệu văn bản  Dữ liệu hình ảnh  Dữ liệu âm thanh  Dữ liệu video  Dữ liệu có cấu trúc (HTML, XML, Excel) Đối với dữ liệu văn bản, ta có nhiều bài toán cần gán nhãn như: Tóm tắt, trích rút thực thể, phân loại văn bản. Đối với dữ liệu về ảnh, ta có các lớp bài toán như phân loại đối tượng, phát hiện đối tượng, phân vùng ảnh.

Đối với dữ liệu tiếng nói, ta có bài toán về nhận dạng tiếng nói, tổng hợp tiếng nói. Ngoài việc cung cấp hệ thống gán nhãn dữ liệu, một số doanh nghiệp còn có thể cung cấp về nhân lực con người. Ảnh 2 Một số loại dữ liệu và các bài toán gán nhãn (Lionbridge AI) Một số nhà cung cấp các công cụ, dịch vụ gán nhãn phổ biến như:  Lionbridge AI 14  Amazon Mechanical Turk  Computer Vision Annotation Tool (CVAT)  SuperAnnotate  Dataturks 1. Quy trình gán nhãn dữ liệu Ảnh 3 Quy trình gán nhãn dữ liệu Để có một hệ thống gán nhãn dữ liệu hoàn chỉnh, ta cần các thành phần sau:  Tài liệu đặc tả sử dụng phần mềm  Tài liệu hướng dẫn nhân viên gán nhãn và đánh giá dữ liệu.

Đối với các loại dữ liệu yêu cầu chuyển môn, cần có tài liệu hướng dẫn cụ thể và chi tiết.  Bộ ngữ liệu: Tập dữ liệu cần để gán nhãn.  Người gán nhãn: Nhân viên thực hiện gán nhãn dữ liệu 15  Đánh giá kết quả gán nhãn dữ liệu: Bước tự động đánh giá kết quả sử dụng mô hình đã huấn luyện sẵn.  Người kiểm tra kết quả: Nhân viên đánh giá, xem xét lại kết quả gán nhãn cuối cùng  Đóng gói và chuyển giao dữ liệu: Đóng gói dữ liệu gán nhãn và chuyển cho khách hàng.

Đây là thành phần thiết yếu cần cho một hệ thống gán nhãn dữ liệu. Tuy nhiên, tùy vào mỗi hệ thống gán nhãn và yêu cầu của bài toán gán nhãn mà ta có thể mở rộng kiến trúc hệ thống gán nhãn này để phù hợp và chi tiết hơn với việc gán nhãn và kiểm soát chất lượng gán nhãn của bài toán. Vấn đề chính trong một hệ thống gán nhãn dữ liệu. Một hệ thống gán nhãn dữ liệu thường gặp 2 vấn đề chính sau đây:  Lựa chọn dữ liệu gán nhãn: bước quan trọng nhất trong hệ thống gán nhãn.

Lựa chọn dữ liệu không những giúp giảm thiểu số lượng mẫu cần gán nhãn, giảm chi phí ngân quỹ gán nhãn mà còn giúp cải thiện chất lượng, thời gian huấn luyện mô hình.  Kiểm tra, đánh giá các dữ liệu đã gán nhãn: Đây là bước quan trọng để đảm bảo lỗi dữ liệu gán nhãn ở mức thấp nhất, tránh ảnh hưởng đến tỉ lệ lỗi của mô hình. Các phương pháp lựa chọn dữ liệu gán nhãn Luận văn tập trung vào việc lựa chọn dữ liệu gán nhãn (cụ thể cho bài toán nhận dạng tiếng nói). Bước lựa chọn dữ liệu gán nhãn là bước quan trọng đối với hầu hết các hệ thống gán nhãn.

Trong doanh nghiệp, việc lựa chọn dữ liệu gán nhãn tốt giúp giảm số lượng thời gian, ngân quỹ đáng kể cho việc làm dữ liệu mà vẫn đảm bảo độ chính xác của hệ thống. Hiện nay, có hai phương pháp chính trong việc lựa chọn dữ liệu:  Phương pháp học chủ động (Active Learning) 16  Phương pháp lựa chọn tập lõi (Core-Set Selection) Phương pháp học chủ động lựa chọn mẫu dữ liệu để gán nhãn từ một hồ dữ liệu chưa được gán nhãn, và lặp đi lặp lại quá trình lựa chọn dữ liệu và huấn luyện mô hình để được tập dữ liệu cho việc gán nhãn. Khác với phương pháp học chủ động, phương pháp lựa chọn tập lõi có thể thực hiện cho cả tập dữ liệu đã gán nhãn và chưa gán nhãn. Mục đích của phương pháp chọn tập lõi là tìm tập con nhỏ nhất có độ chính xác xấp xỉ toàn bộ tập dữ liệu.

Thuật toán thường sử dụng cho phương pháp lựa chọn tập lõi là phương pháp phân cụm k-means hoặc k-median. Sau khi lựa chọn được các tập Core-Set, ta có thể lựa chọn các mẫu theo tỉ lệ nhất định từ mỗi tập Core-Set này. Phương pháp Core-Set là phương pháp đơn giản, chủ yếu dựa vào phân cụm và khó kết hợp đối với tập dữ liệu đã gán nhãn sẵn hoặc mẫu có đặc trưng phức tạp. Ví dụ trong trường hợp nhận dạng tiếng nói, ta có thể phân cụm các mẫu trong tập dữ liệu chưa gán nhãn bằng đặc trưng âm học (MFCC), tuy nhiên sẽ không hiệu quả vì đây là đặc trưng theo thời gian.

Ta có thể thay bằng tìm tập Core-Set cho nhãn các câu được giải mã bằng máy, nhưng phụ thuộc vào độ chính xác của mô hình học và không thể kiểm tra đối với các mẫu đã gán nhãn. Phương pháp học chủ động là phương pháp tốt nhất để lựa chọn các dữ liệu quan trọng cho một hệ thống gán nhãn (hay mô hình học máy), có thể hoạt động trên nhiều bài toán và kiểu dữ liệu. Do đó, trong luận văn này, luận văn sẽ tập trung vào bài toán nhận dạng tiếng nói và việc áp dụng phương pháp học chủ động cho bài toán nhận dạng tiếng nói. Đánh giá chất lượng gán nhãn Để đánh giá chất lượng gán nhãn, ta có thể sử dụng 2 phương pháp tự động hoặc thủ công.

 Phương pháp thủ công: Cần có các nhóm người với vai trò người đánh giá. Nhóm sẽ xem xét các mẫu dữ liệu nhân viên gán nhãn và thực hiện và thực hiện đánh giá, chỉnh sửa lại. 17  Phương pháp tự động: Có nhiều phương pháp đánh giá tự động, tuy nhiên việc đánh giá tự động không đảm bảo được tính chính xác tuyệt đối. o Phương pháp 1 - Sử dụng tập dữ liệu đã gán nhãn: Đưa các dữ liệu này vào tập dữ liệu cần gán nhãn.

Kiểm tra tính chính xác của nhân viên gán nhãn bằng cách đối chiếu với nhãn thực tế. o Phương pháp 2 – So sánh chéo: So sánh nhiều mẫu được thực hiện bởi các nhân viên gán nhãn. So sánh và đối chiếu độ chính xác dựa trên các mẫu dữ liệu này. Mô hình nhận dạng tiếng nói.

Giới thiệu Bài toán nhận dạng tiếng nói là bài toán khó và gần đây rất được chú ý và nghiên cứu bởi cộng đồng. Nhưng thực tế bài toán nhận dạng tiếng nói được các nhà khoa học nghiên cứu từ rất sớm, từ đầu những năm 1950. Bài toán nhận dạng tiếng nói đi từ các bài toán đơn giản như nhận dạng từng chữ số, phát triển đến nhận dạng 26 ký tự trong bảng từ điển Tiếng Anh, và hiện nay là có thể nhận dạng được theo cả từ và câu. Quá trình phát triển của các mô hình nhận dạng tiếng nói [1].

Ảnh 4 Lịch sử phát triển của hệ thống nhận dạng tiếng nói Các mô hình nhận dạng tiếng nói cũng đi từ phương pháp thô sơ đến các phương pháp phức tạp như phương pháp học sâu đầu cuối. Các phương pháp ban đầu của nhận dạng tiếng nói chủ yếu dựa vào phương pháp phân loại đặc trưng âm thanh của các ký tự chữ hoặc số tương ứng. Đến những năm 1980, với sự phát triển của mô hình Markov ẩn (Hidden Markov Model, viết tắt HMM) là mô hình học máy dựa vào thống kê có thể xử lý dữ liệu theo chuỗi thời gian, các hệ thống nhận dạng tiếng nói trở nên phổ biến, được nghiên cứu nhiều hơn và độ chính xác được cải tiến đáng kể. Sau này, với sự phát triển 19 của mạng học sâu và phần cứng GPU, mô hình nhận dạng tiếng nói chuyển dịch dần sang mô hình lai (kết hợp HMM và mạng học sâu) từ đầu những năm 2010.

Từ năm 2013 đến nay, các mô hình học sâu đầu cuối đã bước đầu thay thế các phương pháp lai vì sự tiện lợi và dễ dàng trong việc chuẩn bị dữ liệu, huấn luyện mô hình cũng như khi triển khai thực tế. Ảnh 5 Độ chính xác của Google Voice qua các thời kỳ [2] Độ chính xác của mô hình nhận dạng học máy tăng nhanh từ khoảng từ năm 2013 trở lại đây. Hình trên cho thấy từ năm 2013, google chỉ đạt độ chính xác gần 78%, nhưng đến nay đã đạt độ chính xác tương tự con người với mức 95%. Công nghệ nhận dạng tiếng nói cũng được tìm hiểu và nghiên cứu từ đầu những năm 2014, 2015 bởi các tập đoàn lớn như Viettel, FPT, Zalo, Vingroup, … Việc triển khai hệ thống nhận dạng tiếng nói cho Tiếng Việt gặp nhiều khó khăn hơn tiếng Anh do một số nguyên nhân sau: ● Tiếng Việt có ngữ pháp đa dạng phong phú ● Tiếng Việt là ngôn ngữ từ ghép.

● Tiếng Việt có nhiều phát âm vùng miền… 20 Để phát triển một hệ thống nhận dạng tiếng nói tốt thì yêu cầu từ vài trăm giờ đến vài chục nghìn giờ dữ liệu huấn luyện.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Sử dụng Active Learning để Lựa Chọn Dữ Liệu Gán Nhãn cho Nhận Dạng Giọng Nói trình bày một phương pháp hiệu quả trong việc tối ưu hóa quá trình gán nhãn dữ liệu cho các mô hình nhận dạng giọng nói. Bằng cách áp dụng kỹ thuật học chủ động (Active Learning), tài liệu này giúp giảm thiểu khối lượng dữ liệu cần gán nhãn, đồng thời nâng cao độ chính xác của mô hình. Điều này không chỉ tiết kiệm thời gian và chi phí mà còn cải thiện hiệu suất của các hệ thống nhận dạng giọng nói.

Để mở rộng thêm kiến thức về các ứng dụng của học máy và các mô hình học tăng cường, bạn có thể tham khảo tài liệu Khóa luận tốt nghiệp kỹ thuật máy tính nghiên cứu và thiết kế mô hình học tăng cường trên fpga với môi trường cartpole. Tài liệu này sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về cách thức áp dụng các mô hình học máy trong các môi trường thực tế, từ đó giúp bạn hiểu rõ hơn về tiềm năng của công nghệ trong lĩnh vực này.

#Công nghệ thông tin và AI

#phương pháp học chủ động

#Active Learning trong nhận dạng giọng nói

#Đánh giá chất lượng gán nhãn

#Lựa chọn dữ liệu gán nhãn

#Mô hình nhận dạng tiếng nói

Chủ đề

Ứng dụng Active Learning trong AI

Phát triển mô hình nhận dạng tiếng nói

Chiến lược gán nhãn dữ liệu hiệu quả

Tương lai của công nghệ nhận dạng giọng nói

Luận văn thạc sĩ sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỤC LỤC

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN

1.1. Tổng quan

1.2. Quy trình gán nhãn dữ liệu

1.3. Vấn đề chính trong một hệ thống gán nhãn dữ liệu

1.4. Các phương pháp lựa chọn dữ liệu gán nhãn

1.5. Đánh giá chất lượng gán nhãn

2. CHƯƠNG 2: MÔ HÌNH NHẬN DẠNG TIẾNG NÓI

2.1. Giới thiệu

2.2. Kiến trúc mô hình nhận dạng tiếng nói

3. CHƯƠNG 3: PHƯƠNG PHÁP HỌC CHỦ ĐỘNG CHO BÀI TOÁN NHẬN DẠNG TIẾNG NÓI

4. CHƯƠNG 4: THÍ NGHIỆM

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO

I. Tổng quan về Sử dụng Active Learning trong Nhận Dạng Giọng Nói

1.1. Khái niệm về Active Learning và Nhận Dạng Giọng Nói

1.2. Tầm quan trọng của Dữ Liệu Gán Nhãn trong Nhận Dạng Giọng Nói

II. Vấn đề trong Quy Trình Gán Nhãn Dữ Liệu cho Nhận Dạng Giọng Nói

2.1. Thách Thức trong Lựa Chọn Dữ Liệu Gán Nhãn

2.2. Chi Phí và Thời Gian Gán Nhãn Dữ Liệu

III. Phương Pháp Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn

3.1. Cách Thức Hoạt Động của Active Learning

3.2. Lợi Ích của Active Learning trong Nhận Dạng Giọng Nói

IV. Ứng Dụng Thực Tiễn của Active Learning trong Nhận Dạng Giọng Nói

4.1. Các Nghiên Cứu Điển Hình về Active Learning

4.2. Kết Quả Thực Nghiệm và Đánh Giá

V. Kết Luận và Tương Lai của Active Learning trong Nhận Dạng Giọng Nói

5.1. Tương Lai của Active Learning trong Công Nghệ Nhận Dạng Giọng Nói

5.2. Những Thách Thức Cần Đối Mặt

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Minh Sơn

Người hướng dẫn: PGS.TS Nguyễn Xuân Hoài

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Sử dụng Active Learning để Lựa Chọn Dữ Liệu Gán Nhãn cho Nhận Dạng Giọng Nói

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2021

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm