Sử Dụng Active Learning Trong Việc Lựa Chọn Dữ Liệu Gán Nhãn Cho Bài Toán Nhận Dạng Tiếng Nói

Tài liệu nghiên cứu Sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Tóm tắt

I. Giới Thiệu Tổng Quan Về Học Chủ Động và Nhận Dạng Thoại

Công nghệ thông tin, đặc biệt là trí tuệ nhân tạo, đang là lĩnh vực được đầu tư mạnh mẽ trên toàn cầu. Ứng dụng CNTT ngày càng phổ biến, thay thế sức lao động thủ công. Sự phát triển của máy móc có khả năng tư duy đặt ra yêu cầu lớn về nguồn nhân lực Trí tuệ Nhân Tạo. Các hệ thống như nhận dạng hình ảnh, xe tự lái, và đặc biệt là nhận dạng tiếng nói, đang dần đạt đến độ chính xác tương đương con người. Để xây dựng các tác tử thông minh này, cần đến việc huấn luyện bằng dữ liệu gán nhãn, thúc đẩy sự phát triển của ngành công nghiệp gán nhãn dữ liệu, trị giá hàng tỷ đô la. Các bài toán khó đòi hỏi hàng chục, hàng trăm nghìn mẫu dữ liệu. Do đó, việc tối ưu lựa chọn dữ liệu gán nhãn, như sử dụng Active Learning, trở nên quan trọng để giảm chi phí và hỗ trợ người dùng gán nhãn hiệu quả.

1.1. Vai Trò Của Gán Nhãn Dữ Liệu Trong Học Máy Hiện Đại

Gán nhãn dữ liệu là quá trình gắn các nhãn hoặc thông tin mô tả vào dữ liệu thô, chẳng hạn như văn bản, hình ảnh hoặc âm thanh. Dữ liệu được gán nhãn này sau đó được sử dụng để huấn luyện các mô hình học máy, giúp chúng học cách nhận biết các mẫu và đưa ra dự đoán. Thị trường gán nhãn dữ liệu đang phát triển mạnh mẽ, phản ánh sự quan trọng ngày càng tăng của học máy trong nhiều ngành công nghiệp. Việc gán nhãn dữ liệu chính xác và hiệu quả là rất quan trọng để đảm bảo hiệu suất cao của các mô hình học máy. Các mô hình học máy cần một lượng lớn dữ liệu gán nhãn để đạt được độ chính xác cao.

1.2. Tổng Quan Về Bài Toán Nhận Dạng Tiếng Nói ASR

Bài toán nhận dạng tiếng nói (ASR) là một lĩnh vực quan trọng của xử lý ngôn ngữ tự nhiên (NLP), liên quan đến việc chuyển đổi âm thanh tiếng nói thành văn bản. Ứng dụng của ASR rất đa dạng, bao gồm trợ lý ảo, nhập liệu bằng giọng nói, và phiên dịch tự động. Việc phát triển các hệ thống ASR hiệu quả đòi hỏi một lượng lớn dữ liệu tiếng nói được gán nhãn chính xác. ASR là một trong những bài toán được đầu tư bởi rất nhiều tập đoàn công nghệ lớn tại Việt Nam trong thời gian gần đây.

II. Thách Thức Vấn Đề Trong Gán Nhãn Dữ Liệu Cho ASR

Bài toán nhận dạng tiếng nói, dù có nhiều tiến bộ, vẫn đối mặt với nhiều thách thức. Việc gán nhãn dữ liệu cho ASR, yêu cầu từ vài trăm đến vài chục nghìn giờ dữ liệu, tiêu tốn một lượng lớn ngân quỹ. Việc lựa chọn dữ liệu "quan trọng" để gán nhãn trở thành yếu tố then chốt. Điều này giúp thu được dữ liệu chất lượng nhất để huấn luyện mô hình, ngay cả với ngân sách hạn chế. Luận văn này đề xuất sử dụng phương pháp học chủ động để giải quyết vấn đề này. Việc lựa chọn dữ liệu gán nhãn tốt giúp giảm số lượng thời gian, ngân quỹ đáng kể cho việc làm dữ liệu mà vẫn đảm bảo độ chính xác của hệ thống.

2.1. Chi Phí Thời Gian Cho Gán Nhãn Dữ Liệu Tiếng Nói

Việc gán nhãn dữ liệu tiếng nói thường tốn kém và mất thời gian do yêu cầu chuyên môn và độ chính xác cao. Nhân viên gán nhãn cần có kiến thức về ngôn ngữ học và khả năng nghe tốt để phiên âm chính xác các đoạn ghi âm. Chi phí gán nhãn tăng lên đáng kể khi xử lý dữ liệu tiếng nói có nhiễu, giọng địa phương, hoặc các đặc điểm âm thanh phức tạp khác. Do đó, việc tối ưu hóa quá trình gán nhãn là rất quan trọng để giảm chi phí và thời gian phát triển các hệ thống ASR. Để phát triển một hệ thống nhận dạng tiếng nói tốt thì yêu cầu từ vài trăm giờ đến vài chục nghìn giờ dữ liệu huấn luyện.

2.2. Ảnh Hưởng Của Chất Lượng Dữ Liệu Đến Hiệu Năng ASR

Chất lượng của dữ liệu gán nhãn có ảnh hưởng trực tiếp đến hiệu năng của các hệ thống ASR. Dữ liệu gán nhãn không chính xác hoặc không đầy đủ có thể dẫn đến giảm độ chính xác của mô hình và tăng tỷ lệ lỗi. Việc đảm bảo chất lượng dữ liệu gán nhãn là rất quan trọng để xây dựng các hệ thống ASR đáng tin cậy. Để đánh giá chất lượng gán nhãn, ta có thể sử dụng 2 phương pháp tự động hoặc thủ công. Phương pháp thủ công: Cần có các nhóm người với vai trò người đánh giá. Nhóm sẽ xem xét các mẫu dữ liệu nhân viên gán nhãn và thực hiện và thực hiện đánh giá, chỉnh sửa lại.

III. Cách Sử Dụng Học Chủ Động Để Chọn Lọc Dữ Liệu ASR

Học chủ động là một phương pháp học máy cho phép mô hình tự động lựa chọn các mẫu dữ liệu quan trọng nhất để gán nhãn. Thay vì gán nhãn ngẫu nhiên, mô hình sẽ ưu tiên các mẫu mà nó chưa chắc chắn về dự đoán, giúp tối ưu hóa việc sử dụng nguồn lực gán nhãn. Phương pháp này dựa trên cơ chế bằng cách hỏi một chuyên gia tự động về việc có hay không nên gán nhãn một mẫu dữ liệu. Active Learning giúp giảm số lượng mẫu cần gán nhãn, giảm chi phí ngân quỹ gán nhãn mà còn giúp cải thiện chất lượng, thời gian huấn luyện mô hình. Trong luận văn này, sẽ trình bày việc áp dụng phương pháp học chủ động trong việc lựa chọn dữ liệu gán nhãn cho bài toán nhận dạng tiếng nói.

3.1. Nguyên Lý Hoạt Động Của Phương Pháp Học Chủ Động

Phương pháp học chủ động (Active Learning) lựa chọn mẫu dữ liệu để gán nhãn từ một hồ dữ liệu chưa được gán nhãn, và lặp đi lặp lại quá trình lựa chọn dữ liệu và huấn luyện mô hình để được tập dữ liệu cho việc gán nhãn. Mô hình Active Learning sẽ chọn ra các mẫu dữ liệu mà nó dự đoán ít chắc chắn nhất (ví dụ, bằng cách đo độ bất định của dự đoán), và yêu cầu người gán nhãn cung cấp nhãn chính xác cho các mẫu này. Sau khi được gán nhãn, các mẫu này sẽ được thêm vào tập huấn luyện, và mô hình sẽ được huấn luyện lại. Quá trình này được lặp lại cho đến khi đạt được hiệu năng mong muốn.

3.2. Các Chiến Lược Truy Vấn Dữ Liệu Trong Active Learning

Có nhiều chiến lược truy vấn dữ liệu khác nhau trong Active Learning, bao gồm: * Uncertainty Sampling: Chọn các mẫu mà mô hình ít chắc chắn nhất về dự đoán của mình. * Query by Committee: Sử dụng một tập hợp các mô hình (committee) và chọn các mẫu mà các mô hình trong committee có sự bất đồng lớn nhất. * Expected Model Change: Chọn các mẫu mà việc gán nhãn có khả năng thay đổi mô hình nhiều nhất. Lựa chọn chiến lược truy vấn phù hợp phụ thuộc vào đặc điểm của bài toán và dữ liệu. Các chiến lược truy vấn khác nhau có thể mang lại hiệu quả khác nhau đối với các loại dữ liệu khác nhau.

IV. Ứng Dụng Thực Tiễn Kết Quả Nghiên Cứu Học Chủ Động ASR

Học chủ động đã được áp dụng thành công trong nhiều bài toán ASR, giúp giảm đáng kể chi phí gán nhãn trong khi vẫn duy trì hoặc cải thiện hiệu năng của mô hình. Các nghiên cứu đã chỉ ra rằng Active Learning có thể hiệu quả hơn so với việc gán nhãn ngẫu nhiên, đặc biệt khi nguồn lực gán nhãn hạn chế. Phương pháp học chủ động là phương pháp tốt nhất để lựa chọn các dữ liệu quan trọng cho một hệ thống gán nhãn (hay mô hình học máy), có thể hoạt động trên nhiều bài toán và kiểu dữ liệu.

4.1. Tổng Quan Các Nghiên Cứu Về Active Learning và ASR

Nhiều nghiên cứu đã khám phá việc áp dụng Active Learning trong các bài toán nhận dạng tiếng nói. Một số nghiên cứu tập trung vào việc phát triển các chiến lược truy vấn hiệu quả hơn, trong khi các nghiên cứu khác tập trung vào việc kết hợp Active Learning với các kỹ thuật học bán giám sát (semi-supervised learning) để tận dụng dữ liệu chưa được gán nhãn. Các nghiên cứu về việc tối ưu lựa chọn những dữ liệu gán nhãn cũng ra đời nhằm đáp ứng việc giảm thiểu chi phí gán nhãn, cũng như hỗ trợ người dùng gán nhãn nhanh nhất, kiểm soát quá trình gán nhãn để đạt được tập dữ liệu tốt nhất cho việc huấn luyện mô hình.

4.2. Ví Dụ Về Triển Khai Active Learning Trong Các Hệ Thống ASR

Active Learning có thể được triển khai trong các hệ thống ASR bằng cách tích hợp một mô đun lựa chọn mẫu vào quy trình huấn luyện. Mô đun này sẽ sử dụng một chiến lược truy vấn cụ thể để chọn các mẫu dữ liệu từ một hồ dữ liệu chưa được gán nhãn, và yêu cầu người gán nhãn cung cấp nhãn chính xác cho các mẫu này. Các mẫu này sau đó được thêm vào tập huấn luyện, và mô hình ASR được huấn luyện lại. Quá trình này được lặp lại cho đến khi đạt được hiệu năng mong muốn. Do đó, trong luận văn này, luận văn sẽ tập trung vào bài toán nhận dạng tiếng nói và việc áp dụng phương pháp học chủ động cho bài toán nhận dạng tiếng nói.

V. Kết Luận Hướng Phát Triển Của Học Chủ Động Cho ASR

Luận văn này trình bày tổng quan về việc sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán nhận dạng tiếng nói. Active Learning là một phương pháp hiệu quả để giảm chi phí gán nhãn và cải thiện hiệu năng của các hệ thống ASR. Với số ngân quỹ cố định cho việc gán nhãn, bài toán đặt ra là lựa chọn những dữ liệu tốt nhất cho mô hình học. Đây là vấn đề gặp phải với hầu hết các doanh nghiệp khi làm bài toán nhận dạng tiếng nói. Trong luận văn này, tôi sẽ trình bày về các nội dung nhằm giải quyết vấn đề lựa chọn dữ liệu quan trọng cho quá trình gán nhãn để huấn luyện mô hình nhận dạng tiếng nói như phân tích độ dư thừa dữ liệu và sử dụng phương pháp học chủ động (Active Learning) để lựa chọn dữ liệu quan trọng cho quá trình gán nhãn dữ liệu.

5.1. Tóm Tắt Các Ưu Điểm Của Phương Pháp Học Chủ Động

Active Learning mang lại nhiều lợi ích cho bài toán ASR, bao gồm: * Giảm chi phí gán nhãn: Bằng cách chọn các mẫu dữ liệu quan trọng nhất để gán nhãn, Active Learning giúp giảm số lượng mẫu cần gán nhãn, từ đó giảm chi phí. * Cải thiện hiệu năng: Bằng cách tập trung vào các mẫu dữ liệu mà mô hình chưa chắc chắn về dự đoán của mình, Active Learning giúp mô hình học nhanh hơn và đạt được hiệu năng tốt hơn. * Tăng tính linh hoạt: Active Learning có thể được áp dụng cho nhiều bài toán ASR khác nhau, và có thể được kết hợp với các kỹ thuật học máy khác để đạt được hiệu quả tốt nhất.

5.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Các hướng nghiên cứu tiềm năng trong tương lai bao gồm: * Phát triển các chiến lược truy vấn hiệu quả hơn, đặc biệt cho các dữ liệu tiếng nói phức tạp. * Kết hợp Active Learning với các kỹ thuật học sâu mới nhất để tạo ra các hệ thống ASR mạnh mẽ hơn. * Nghiên cứu ứng dụng Active Learning trong các bài toán ASR đa ngôn ngữ. Việc triển khai hệ thống nhận dạng tiếng nói cho Tiếng Việt gặp nhiều khó khăn hơn tiếng Anh do một số nguyên nhân sau: ● Tiếng Việt có ngữ pháp đa dạng phong phú ● Tiếng Việt là ngôn ngữ từ ghép. ● Tiếng Việt có nhiều phát âm vùng miền…

23/05/2025

Bạn đang xem trước tài liệu:

Sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. Giới thiệu bài toán 1. Tổng quan Sự phát triển của các mô hình học máy và trí tuệ nhân tạo ngày cảng trở nên rộng rãi, máy móc ngày càng thay thế cho sức lao động của con người nhiều hơn. Đặc biệt trong những năm gần đây, với sự phát triển của mô hình học sâu đã chứng minh tính hiệu quả trong nhiều bài toán thực tế như: Nhận dạng khuôn mặt, Xử lý tiếng nói, Dịch máy… Đây đều là những bài toán phổ biến, được nhiều tập đoàn công nghệ lớn đầu tư và phát triển.

Ảnh 1 Thị trường gán nhãn dữ liệu Để phát triển những công cụ học máy với độ chính xác cao, hầu hết các mô hình đều yêu cầu từ hàng trăm ngàn đến hàng triệu mẫu dữ liệu học. Ngành công nghiệp gán nhãn chưa bao giờ phổ biến như hiện nay, điều này phản ánh sự dịch chuyển về cơ cấu lao động. Thay vì làm công việc máy móc đang làm, công việc gán nhãn đã và đang tạo việc làm cho rất nhiều lao động. Hiện nay, rất nhiều công ty đã được mở ra để kinh doanh dịch vụ gán nhãn dữ liệu.

Theo như thống kê, thị trường gán nhãn dữ liệu thủ công năm 2019 là 547 triệu USD, và sẽ tăng gấp hơn 4 lần vào năm 2026. Tương tự với việc gán nhãn tự động, tuy nhiên thị trường gán nhãn tự động thấp hơn thủ công do yêu cầu chủ yếu của việc gán nhãn là độ chính xác, điều này phụ thuộc vào con người. 13 Chuyển đổi số được thực hiện cho tất cả các ngành nghê, do đó việc gán nhãn dữ liệu có thể đến từ tất cả lĩnh vực như: Tài chính, Kinh tế, Nông nghiệp, Y tế, Viễn thông, Tự động hóa… Các dữ liệu gán nhãn cũng rất đa dạng, phong phú và có thể được lấy từ nhiều nguồn:  Dữ liệu văn bản  Dữ liệu hình ảnh  Dữ liệu âm thanh  Dữ liệu video  Dữ liệu có cấu trúc (HTML, XML, Excel) Đối với dữ liệu văn bản, ta có nhiều bài toán cần gán nhãn như: Tóm tắt, trích rút thực thể, phân loại văn bản. Đối với dữ liệu về ảnh, ta có các lớp bài toán như phân loại đối tượng, phát hiện đối tượng, phân vùng ảnh.

Đối với dữ liệu tiếng nói, ta có bài toán về nhận dạng tiếng nói, tổng hợp tiếng nói. Ngoài việc cung cấp hệ thống gán nhãn dữ liệu, một số doanh nghiệp còn có thể cung cấp về nhân lực con người. Ảnh 2 Một số loại dữ liệu và các bài toán gán nhãn (Lionbridge AI) Một số nhà cung cấp các công cụ, dịch vụ gán nhãn phổ biến như:  Lionbridge AI 14  Amazon Mechanical Turk  Computer Vision Annotation Tool (CVAT)  SuperAnnotate  Dataturks 1. Quy trình gán nhãn dữ liệu Ảnh 3 Quy trình gán nhãn dữ liệu Để có một hệ thống gán nhãn dữ liệu hoàn chỉnh, ta cần các thành phần sau:  Tài liệu đặc tả sử dụng phần mềm  Tài liệu hướng dẫn nhân viên gán nhãn và đánh giá dữ liệu.

Đối với các loại dữ liệu yêu cầu chuyển môn, cần có tài liệu hướng dẫn cụ thể và chi tiết.  Bộ ngữ liệu: Tập dữ liệu cần để gán nhãn.  Người gán nhãn: Nhân viên thực hiện gán nhãn dữ liệu 15  Đánh giá kết quả gán nhãn dữ liệu: Bước tự động đánh giá kết quả sử dụng mô hình đã huấn luyện sẵn.  Người kiểm tra kết quả: Nhân viên đánh giá, xem xét lại kết quả gán nhãn cuối cùng  Đóng gói và chuyển giao dữ liệu: Đóng gói dữ liệu gán nhãn và chuyển cho khách hàng.

Đây là thành phần thiết yếu cần cho một hệ thống gán nhãn dữ liệu. Tuy nhiên, tùy vào mỗi hệ thống gán nhãn và yêu cầu của bài toán gán nhãn mà ta có thể mở rộng kiến trúc hệ thống gán nhãn này để phù hợp và chi tiết hơn với việc gán nhãn và kiểm soát chất lượng gán nhãn của bài toán. Vấn đề chính trong một hệ thống gán nhãn dữ liệu. Một hệ thống gán nhãn dữ liệu thường gặp 2 vấn đề chính sau đây:  Lựa chọn dữ liệu gán nhãn: bước quan trọng nhất trong hệ thống gán nhãn.

Lựa chọn dữ liệu không những giúp giảm thiểu số lượng mẫu cần gán nhãn, giảm chi phí ngân quỹ gán nhãn mà còn giúp cải thiện chất lượng, thời gian huấn luyện mô hình.  Kiểm tra, đánh giá các dữ liệu đã gán nhãn: Đây là bước quan trọng để đảm bảo lỗi dữ liệu gán nhãn ở mức thấp nhất, tránh ảnh hưởng đến tỉ lệ lỗi của mô hình. Các phương pháp lựa chọn dữ liệu gán nhãn Luận văn tập trung vào việc lựa chọn dữ liệu gán nhãn (cụ thể cho bài toán nhận dạng tiếng nói). Bước lựa chọn dữ liệu gán nhãn là bước quan trọng đối với hầu hết các hệ thống gán nhãn.

Trong doanh nghiệp, việc lựa chọn dữ liệu gán nhãn tốt giúp giảm số lượng thời gian, ngân quỹ đáng kể cho việc làm dữ liệu mà vẫn đảm bảo độ chính xác của hệ thống. Hiện nay, có hai phương pháp chính trong việc lựa chọn dữ liệu:  Phương pháp học chủ động (Active Learning) 16  Phương pháp lựa chọn tập lõi (Core-Set Selection) Phương pháp học chủ động lựa chọn mẫu dữ liệu để gán nhãn từ một hồ dữ liệu chưa được gán nhãn, và lặp đi lặp lại quá trình lựa chọn dữ liệu và huấn luyện mô hình để được tập dữ liệu cho việc gán nhãn. Khác với phương pháp học chủ động, phương pháp lựa chọn tập lõi có thể thực hiện cho cả tập dữ liệu đã gán nhãn và chưa gán nhãn. Mục đích của phương pháp chọn tập lõi là tìm tập con nhỏ nhất có độ chính xác xấp xỉ toàn bộ tập dữ liệu.

Thuật toán thường sử dụng cho phương pháp lựa chọn tập lõi là phương pháp phân cụm k-means hoặc k-median. Sau khi lựa chọn được các tập Core-Set, ta có thể lựa chọn các mẫu theo tỉ lệ nhất định từ mỗi tập Core-Set này. Phương pháp Core-Set là phương pháp đơn giản, chủ yếu dựa vào phân cụm và khó kết hợp đối với tập dữ liệu đã gán nhãn sẵn hoặc mẫu có đặc trưng phức tạp. Ví dụ trong trường hợp nhận dạng tiếng nói, ta có thể phân cụm các mẫu trong tập dữ liệu chưa gán nhãn bằng đặc trưng âm học (MFCC), tuy nhiên sẽ không hiệu quả vì đây là đặc trưng theo thời gian.

Ta có thể thay bằng tìm tập Core-Set cho nhãn các câu được giải mã bằng máy, nhưng phụ thuộc vào độ chính xác của mô hình học và không thể kiểm tra đối với các mẫu đã gán nhãn. Phương pháp học chủ động là phương pháp tốt nhất để lựa chọn các dữ liệu quan trọng cho một hệ thống gán nhãn (hay mô hình học máy), có thể hoạt động trên nhiều bài toán và kiểu dữ liệu. Do đó, trong luận văn này, luận văn sẽ tập trung vào bài toán nhận dạng tiếng nói và việc áp dụng phương pháp học chủ động cho bài toán nhận dạng tiếng nói. Đánh giá chất lượng gán nhãn Để đánh giá chất lượng gán nhãn, ta có thể sử dụng 2 phương pháp tự động hoặc thủ công.

 Phương pháp thủ công: Cần có các nhóm người với vai trò người đánh giá. Nhóm sẽ xem xét các mẫu dữ liệu nhân viên gán nhãn và thực hiện và thực hiện đánh giá, chỉnh sửa lại. 17  Phương pháp tự động: Có nhiều phương pháp đánh giá tự động, tuy nhiên việc đánh giá tự động không đảm bảo được tính chính xác tuyệt đối. o Phương pháp 1 - Sử dụng tập dữ liệu đã gán nhãn: Đưa các dữ liệu này vào tập dữ liệu cần gán nhãn.

Kiểm tra tính chính xác của nhân viên gán nhãn bằng cách đối chiếu với nhãn thực tế. o Phương pháp 2 – So sánh chéo: So sánh nhiều mẫu được thực hiện bởi các nhân viên gán nhãn. So sánh và đối chiếu độ chính xác dựa trên các mẫu dữ liệu này. Mô hình nhận dạng tiếng nói.

Giới thiệu Bài toán nhận dạng tiếng nói là bài toán khó và gần đây rất được chú ý và nghiên cứu bởi cộng đồng. Nhưng thực tế bài toán nhận dạng tiếng nói được các nhà khoa học nghiên cứu từ rất sớm, từ đầu những năm 1950. Bài toán nhận dạng tiếng nói đi từ các bài toán đơn giản như nhận dạng từng chữ số, phát triển đến nhận dạng 26 ký tự trong bảng từ điển Tiếng Anh, và hiện nay là có thể nhận dạng được theo cả từ và câu. Quá trình phát triển của các mô hình nhận dạng tiếng nói [1].

Ảnh 4 Lịch sử phát triển của hệ thống nhận dạng tiếng nói Các mô hình nhận dạng tiếng nói cũng đi từ phương pháp thô sơ đến các phương pháp phức tạp như phương pháp học sâu đầu cuối. Các phương pháp ban đầu của nhận dạng tiếng nói chủ yếu dựa vào phương pháp phân loại đặc trưng âm thanh của các ký tự chữ hoặc số tương ứng. Đến những năm 1980, với sự phát triển của mô hình Markov ẩn (Hidden Markov Model, viết tắt HMM) là mô hình học máy dựa vào thống kê có thể xử lý dữ liệu theo chuỗi thời gian, các hệ thống nhận dạng tiếng nói trở nên phổ biến, được nghiên cứu nhiều hơn và độ chính xác được cải tiến đáng kể. Sau này, với sự phát triển 19 của mạng học sâu và phần cứng GPU, mô hình nhận dạng tiếng nói chuyển dịch dần sang mô hình lai (kết hợp HMM và mạng học sâu) từ đầu những năm 2010.

Từ năm 2013 đến nay, các mô hình học sâu đầu cuối đã bước đầu thay thế các phương pháp lai vì sự tiện lợi và dễ dàng trong việc chuẩn bị dữ liệu, huấn luyện mô hình cũng như khi triển khai thực tế. Ảnh 5 Độ chính xác của Google Voice qua các thời kỳ [2] Độ chính xác của mô hình nhận dạng học máy tăng nhanh từ khoảng từ năm 2013 trở lại đây. Hình trên cho thấy từ năm 2013, google chỉ đạt độ chính xác gần 78%, nhưng đến nay đã đạt độ chính xác tương tự con người với mức 95%. Công nghệ nhận dạng tiếng nói cũng được tìm hiểu và nghiên cứu từ đầu những năm 2014, 2015 bởi các tập đoàn lớn như Viettel, FPT, Zalo, Vingroup, … Việc triển khai hệ thống nhận dạng tiếng nói cho Tiếng Việt gặp nhiều khó khăn hơn tiếng Anh do một số nguyên nhân sau: ● Tiếng Việt có ngữ pháp đa dạng phong phú ● Tiếng Việt là ngôn ngữ từ ghép.

● Tiếng Việt có nhiều phát âm vùng miền… 20 Để phát triển một hệ thống nhận dạng tiếng nói tốt thì yêu cầu từ vài trăm giờ đến vài chục nghìn giờ dữ liệu huấn luyện.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Sử Dụng Active Learning Trong Lựa Chọn Dữ Liệu Gán Nhãn Cho Nhận Dạng Tiếng Nói khám phá cách thức áp dụng phương pháp học chủ động (active learning) để tối ưu hóa quá trình lựa chọn dữ liệu gán nhãn cho các hệ thống nhận dạng tiếng nói. Bài viết nhấn mạnh tầm quan trọng của việc giảm thiểu khối lượng dữ liệu cần gán nhãn mà vẫn đảm bảo độ chính xác cao trong mô hình. Qua đó, người đọc sẽ nhận thấy lợi ích của việc sử dụng active learning trong việc tiết kiệm thời gian và chi phí, đồng thời nâng cao hiệu suất của các hệ thống nhận diện.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ cải tiến quá trình học của một số mạng nơron ghi nhớ, nơi trình bày các phương pháp cải tiến trong học máy, hoặc tìm hiểu về Mạng neural rbf và bài toán xấp xỉ hàm nhiều biến số, tài liệu này sẽ giúp bạn hiểu rõ hơn về các mạng nơron và ứng dụng của chúng trong các bài toán phức tạp. Những tài liệu này sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các khía cạnh khác nhau của học máy và nhận dạng tiếng nói.

#Dữ Liệu Gán Nhãn

#Tối Ưu Hóa Dữ Liệu

#nhận dạng tiếng nói

#mô hình học sâu

#phân loại âm thanh

#Active Learning trong AI

Chủ đề

Công nghệ học máy hiện đại

Ứng dụng của Active Learning

Phương pháp gán nhãn dữ liệu

Tương lai của nhận dạng tiếng nói

Sử Dụng Active Learning Trong Việc Lựa Chọn Dữ Liệu Gán Nhãn Cho Bài Toán Nhận Dạng Tiếng Nói

I. Giới Thiệu Tổng Quan Về Học Chủ Động và Nhận Dạng Thoại

1.1. Vai Trò Của Gán Nhãn Dữ Liệu Trong Học Máy Hiện Đại

1.2. Tổng Quan Về Bài Toán Nhận Dạng Tiếng Nói ASR

II. Thách Thức Vấn Đề Trong Gán Nhãn Dữ Liệu Cho ASR

2.1. Chi Phí Thời Gian Cho Gán Nhãn Dữ Liệu Tiếng Nói

2.2. Ảnh Hưởng Của Chất Lượng Dữ Liệu Đến Hiệu Năng ASR

III. Cách Sử Dụng Học Chủ Động Để Chọn Lọc Dữ Liệu ASR

3.1. Nguyên Lý Hoạt Động Của Phương Pháp Học Chủ Động

3.2. Các Chiến Lược Truy Vấn Dữ Liệu Trong Active Learning

IV. Ứng Dụng Thực Tiễn Kết Quả Nghiên Cứu Học Chủ Động ASR

4.1. Tổng Quan Các Nghiên Cứu Về Active Learning và ASR

4.2. Ví Dụ Về Triển Khai Active Learning Trong Các Hệ Thống ASR

V. Kết Luận Hướng Phát Triển Của Học Chủ Động Cho ASR

5.1. Tóm Tắt Các Ưu Điểm Của Phương Pháp Học Chủ Động

5.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Minh Sơn

Người hướng dẫn: PGS.TS Nguyễn Xuân Hoài

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Sử Dụng Active Learning Trong Lựa Chọn Dữ Liệu Gán Nhãn Cho Nhận Dạng Tiếng Nói

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2021

Địa điểm: Hà Nội

Sử Dụng Active Learning Trong Việc Lựa Chọn Dữ Liệu Gán Nhãn Cho Bài Toán Nhận Dạng Tiếng Nói

I. Giới Thiệu Tổng Quan Về Học Chủ Động và Nhận Dạng Thoại

1.1. Vai Trò Của Gán Nhãn Dữ Liệu Trong Học Máy Hiện Đại

1.2. Tổng Quan Về Bài Toán Nhận Dạng Tiếng Nói ASR

II. Thách Thức Vấn Đề Trong Gán Nhãn Dữ Liệu Cho ASR

2.1. Chi Phí Thời Gian Cho Gán Nhãn Dữ Liệu Tiếng Nói

2.2. Ảnh Hưởng Của Chất Lượng Dữ Liệu Đến Hiệu Năng ASR

III. Cách Sử Dụng Học Chủ Động Để Chọn Lọc Dữ Liệu ASR

3.1. Nguyên Lý Hoạt Động Của Phương Pháp Học Chủ Động

3.2. Các Chiến Lược Truy Vấn Dữ Liệu Trong Active Learning

IV. Ứng Dụng Thực Tiễn Kết Quả Nghiên Cứu Học Chủ Động ASR

4.1. Tổng Quan Các Nghiên Cứu Về Active Learning và ASR

4.2. Ví Dụ Về Triển Khai Active Learning Trong Các Hệ Thống ASR

V. Kết Luận Hướng Phát Triển Của Học Chủ Động Cho ASR

5.1. Tóm Tắt Các Ưu Điểm Của Phương Pháp Học Chủ Động

5.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Minh Sơn

Người hướng dẫn: PGS.TS Nguyễn Xuân Hoài

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Sử Dụng Active Learning Trong Lựa Chọn Dữ Liệu Gán Nhãn Cho Nhận Dạng Tiếng Nói

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2021

Địa điểm: Hà Nội

Có thể bạn quan tâm