Xây Dựng Ứng Dụng Chuyển Giọng Nói Thành Văn Bản Sử Dụng WAV2VEC

Đồ án kỹ thuật nghiên cứu tốt nghiệp xây dựng ứng dụng chuyển giọng nói thành văn bản xử dụng wav2vec, thiết kế chi tiết, tính toán kỹ thuật theo tiêu chuẩn, đánh giá tính khả thi

Trường đại học

Trường Đại Học Công Nghiệp Hà Nội

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Đồ Án Tốt Nghiệp

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BÀI TOÁN

1.1. Giới thiệu về giọng nói

1.2. Tổng quan về nhận dạng giọng nói

1.2.1. Lịch sử phát triển của nhận dạng giọng nói

1.2.2. Các thuật toán và mô hình nhận dạng giọng nói hiện nay

1.2.3. Ứng dụng trong thực tế

1.2.4. Khó khăn và thách thức

1.3. Phân tích bài toán nhận dạng giọng nói

1.4. Lý do chọn đề tài

2. CÁC KĨ THUẬT XỬ LÝ BÀI TOÁN

2.1. Thuật toán giảm nhiễu Noise reduction

2.1.1. Cổng Nhiễu – Noise Gate

2.1.2. Giảm nhiễu tĩnh

2.1.3. Giảm nhiễu động

2.2. Kĩ thuật phát hiện giọng nói (Voice activity detection)

2.2.1. Hàm mất mát phân loại theo khoảng thời gian CTC

2.2.2. Word error rate (WER)

2.2.3. Character error rate (CER)

3. MÔ HÌNH CHUYỂN GIỌNG NÓI THÀNH VĂN BẢN WAV2VEC

3.1. Giới thiệu mô hình

3.2. Kiến trúc mô hình. Học tập đối lập

3.3. Mặt nạ che dấu dữ liệu

3.4. Hàm mục tiêu

3.5. Tinh chỉnh mô hình

3.6. Mô hình ngôn ngữ N-gram

3.7. Tìm kiếm đầu ra của mô hình – Beam search

3.7.1. Tìm kiếm tham lam – Ý tưởng ngây thơ

3.7.2. Beam search – sử dụng xác suất có điều kiện

4. XÂY DỰNG ỨNG DỤNG PHẦN MỀM CHUYỂN GIỌNG NÓI THÀNH VĂN BẢN XỬ DỤNG WAV2VEC

4.1. Bộ dữ liệu sử dụng cho thực nghiệm

4.2. Mô hình sử dụng cho thực nghiệm và ứng dụng

4.3. Quy trình thực hiện thực nghiệm

4.3.1. Tiền xử lý dữ liệu

4.4. Môi trường và công nghệ sử dụng

4.4.1. Môi trường

4.5. Xây dựng phần mềm

4.5.1. Tổng quan về hệ thống

4.5.2. Phân tích thiết kế phần mềm

4.5.3. Xây dựng giao diện người dùng

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về ứng dụng chuyển giọng nói thành văn bản sử dụng WAV2VEC

Ứng dụng chuyển giọng nói thành văn bản đang trở thành một xu hướng quan trọng trong lĩnh vực công nghệ thông tin. Công nghệ này không chỉ giúp cải thiện khả năng giao tiếp giữa con người và máy tính mà còn mở ra nhiều cơ hội mới trong việc xử lý ngôn ngữ tự nhiên. WAV2VEC là một trong những mô hình tiên tiến nhất hiện nay, cho phép chuyển đổi giọng nói thành văn bản với độ chính xác cao. Việc áp dụng mô hình này vào ngôn ngữ Tiếng Việt đang là một thách thức lớn, nhưng cũng là cơ hội để phát triển các ứng dụng AI trong đời sống hàng ngày.

1.1. Giới thiệu về công nghệ chuyển giọng nói thành văn bản

Công nghệ chuyển giọng nói thành văn bản (ASR) cho phép máy tính nhận diện và chuyển đổi âm thanh thành văn bản. Công nghệ này đã phát triển mạnh mẽ nhờ vào sự tiến bộ của học sâu và các mô hình như WAV2VEC. Việc áp dụng công nghệ này vào Tiếng Việt gặp nhiều khó khăn do sự đa dạng về âm điệu và phương ngữ.

1.2. Lợi ích của ứng dụng chuyển giọng nói thành văn bản

Ứng dụng chuyển giọng nói thành văn bản mang lại nhiều lợi ích, bao gồm tăng cường khả năng giao tiếp, tiết kiệm thời gian và nâng cao hiệu quả công việc. Nó cũng giúp người dùng dễ dàng tương tác với các thiết bị thông minh mà không cần sử dụng bàn phím.

II. Thách thức trong việc phát triển ứng dụng chuyển giọng nói thành văn bản

Mặc dù công nghệ chuyển giọng nói thành văn bản đã có những bước tiến đáng kể, nhưng vẫn còn nhiều thách thức cần phải vượt qua. Đặc biệt, việc nhận diện giọng nói trong môi trường ồn ào hoặc với các giọng nói khác nhau là một vấn đề lớn. Ngoài ra, sự đa dạng về ngữ điệu và phương ngữ trong Tiếng Việt cũng gây khó khăn cho các hệ thống nhận diện giọng nói.

2.1. Khó khăn trong việc nhận diện giọng nói Tiếng Việt

Tiếng Việt có nhiều âm điệu và phương ngữ khác nhau, điều này làm cho việc nhận diện giọng nói trở nên phức tạp. Các hệ thống hiện tại thường gặp khó khăn trong việc phân biệt giữa các âm thanh tương tự, dẫn đến tỷ lệ lỗi cao trong quá trình chuyển đổi.

2.2. Ảnh hưởng của môi trường đến chất lượng nhận diện

Môi trường xung quanh có thể ảnh hưởng lớn đến chất lượng của việc nhận diện giọng nói. Tiếng ồn từ các nguồn khác nhau có thể làm giảm độ chính xác của hệ thống, khiến cho việc phát triển ứng dụng trở nên khó khăn hơn.

III. Phương pháp sử dụng WAV2VEC trong chuyển giọng nói thành văn bản

WAV2VEC là một mô hình học sâu được phát triển để cải thiện khả năng nhận diện giọng nói. Mô hình này sử dụng các kỹ thuật học không giám sát để trích xuất đặc trưng âm thanh từ tín hiệu sóng âm, từ đó giúp cải thiện độ chính xác trong việc chuyển đổi giọng nói thành văn bản. Việc áp dụng WAV2VEC vào các ứng dụng thực tế đang được nghiên cứu và phát triển.

3.1. Cấu trúc và hoạt động của mô hình WAV2VEC

Mô hình WAV2VEC sử dụng mạng nơ-ron tích chập (CNN) để trích xuất các đặc trưng âm thanh, sau đó áp dụng mạng Transformer để mã hóa các đặc trưng này thành biểu diễn ngữ nghĩa. Cấu trúc này giúp mô hình học được các đặc trưng âm thanh phức tạp và cải thiện khả năng nhận diện.

3.2. Tinh chỉnh mô hình để nâng cao hiệu suất

Việc tinh chỉnh mô hình WAV2VEC là rất quan trọng để đạt được hiệu suất cao trong việc nhận diện giọng nói. Các kỹ thuật như điều chỉnh siêu tham số và sử dụng dữ liệu huấn luyện phong phú có thể giúp cải thiện độ chính xác của mô hình.

IV. Ứng dụng thực tiễn của công nghệ chuyển giọng nói thành văn bản

Công nghệ chuyển giọng nói thành văn bản đang được áp dụng rộng rãi trong nhiều lĩnh vực, từ trợ lý ảo đến các hệ thống dịch thuật tự động. Việc sử dụng WAV2VEC trong các ứng dụng này không chỉ giúp nâng cao hiệu quả mà còn mở ra nhiều cơ hội mới trong việc phát triển các sản phẩm công nghệ thông minh.

4.1. Ứng dụng trong trợ lý ảo

Trợ lý ảo như Siri và Google Assistant sử dụng công nghệ chuyển giọng nói thành văn bản để tương tác với người dùng. Việc áp dụng WAV2VEC giúp cải thiện khả năng hiểu ngôn ngữ tự nhiên và nâng cao trải nghiệm người dùng.

4.2. Ứng dụng trong dịch thuật tự động

Công nghệ chuyển giọng nói thành văn bản cũng được sử dụng trong các hệ thống dịch thuật tự động. Việc nhận diện chính xác giọng nói giúp cải thiện chất lượng dịch thuật và giảm thiểu sai sót trong quá trình chuyển đổi ngôn ngữ.

V. Kết luận và tương lai của ứng dụng chuyển giọng nói thành văn bản

Công nghệ chuyển giọng nói thành văn bản đang trên đà phát triển mạnh mẽ, đặc biệt là với sự xuất hiện của các mô hình học sâu như WAV2VEC. Tương lai của công nghệ này hứa hẹn sẽ mang lại nhiều cải tiến trong việc nhận diện giọng nói, giúp nâng cao khả năng giao tiếp giữa con người và máy tính. Việc tiếp tục nghiên cứu và phát triển sẽ giúp giải quyết các thách thức hiện tại và mở ra nhiều cơ hội mới.

5.1. Triển vọng phát triển công nghệ trong tương lai

Với sự phát triển không ngừng của công nghệ AI, ứng dụng chuyển giọng nói thành văn bản sẽ ngày càng trở nên phổ biến. Các nghiên cứu mới sẽ giúp cải thiện độ chính xác và khả năng nhận diện trong các ngữ cảnh khác nhau.

5.2. Tác động của công nghệ đến đời sống hàng ngày

Công nghệ chuyển giọng nói thành văn bản sẽ có tác động lớn đến cách con người tương tác với công nghệ. Nó không chỉ giúp tiết kiệm thời gian mà còn nâng cao hiệu quả công việc, tạo ra một môi trường làm việc thông minh hơn.

10/07/2025

Bạn đang xem trước tài liệu:

Đồ án tốt nghiệp xây dựng ứng dụng chuyển giọng nói thành văn bản xử dụng wav2vec

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN VỀ BÀI TOÁN 1. Giới thiệu về giọng nói Nhận dạng giọng nói hay còn gọi là hệ thống nhận dạng giọng nói tự động (ASR) đã được ứng dụng rộng rãi trong cuộc sống và từ lâu đã trở thành một chủ đề lớn trong nghiên cứu về trí tuệ nhân tạo, ngôn ngữ tự nhiên và xử lý giọng nói. Khi có sự có mặt của học sâu, hệ thống nhận dạng giọng nói xây dựng dựa trên mạng nơ-ron đã phát triển mạnh.

Một lượng lớn công trình nghiên cứu tập trung vào các khía cạnh khác nhau của hệ thống dựa trên mạng nơ-ron như Tổng hợp giọng nói theo tham số thống kê được phát triển bởi Google, WaveNet, FastSpeech, … Do đó chất lượng của hệ thống nhận dạng giọng nói đã được nâng cao trong vài năm gần đây. Trước khi nói về bài toán, cần phân tích cách con người tạo ra âm thanh như thế nào. Âm thanh và tiếng nói của con người được tạo ra bởi sự tương tác phức tạp của các thành phần có trong cơ thể con người. Hầu hết các âm thanh lời nói bắt đầu từ hệ hô hấp, hệ thống này đẩy không khí ra khỏi phổi theo mô tả trong Hình 1.

Cấu tạo bộ lọc nguồn tạo ra âm thanh và lời nói của con người. Nguồn [1] 2 Theo bài báo [1], không khí đi qua khí quản và đi vào thanh quản, nơi có hai nếp cơ nhỏ, được gọi là “nếp thanh quản”. Khi các nếp thanh quản được tập trung lại với nhau để tạo ra một đường dẫn khi hẹp, luồng khí khiến chúng rung theo chu kì. Các rung động của dây thanh quản điều chỉnh áp suất không khí và tạo ra âm thanh tuần hoàn.

Các âm thanh được tạo ra, khi dây thanh quản rung, được gọi là “âm hữu thanh”. Trong khi các âm mà dây thanh quản không rung là “âm vô thanh”. Các đường dẫn khí phía trên thanh quản được gọi là “dây thanh quản”. Các luồng không khí hỗn loạn được tạo ra tại các phần co thắt của của thanh môn và thanh quản cũng góp phần tạo ra âm thanh nguồn không theo chu kì được phân phối trên một dải tần số rộng.

Hình dạng của đường âm thanh và vị trí của các khớp nối (hàm, lưỡi, màng thanh quản, môi, miệng, răng, vòm miệng cứng). là yếu tố quan trọng để xác định đặc trưng âm học của tiếng nói. Trạng thái của các nếp gấp thanh âm cũng như vị trí, hình dạng và kích thước của các khớp nối thay đổi theo thời gian để tạo ra âm thành khác nhau một cách tuần tự. Tổng quan về nhận dạng giọng nói 1.1 Lịch sử phát triển của nhận dạng giọng nói Nhận dạng giọng nói là công nghệ cho phép máy tính nhận dạng và chuyển đổi ngôn ngữ nói thành văn bản.

Công nghệ này sử dụng một số mô hình học sâu để xác định chính xác văn bản trong lời nói. Công nghệ nhận dạng được phát triển từ rất sớm, Giai đoạn đầu (1970 – 1980): • Mô hình Markov ẩn, trong những năm 1970, các phương pháp dựa trên mô hình này bắt đầu xuất hiện và trở thành nền tảng của hầu hết các hệ thống ASR, mô hình này là một mô hình thông kê mạnh mẽ được sử dụng để phân tích các chuỗi thời gian hoặc dữ liệu có thứ tự, cho phép mô hình hóa sự thay đổi âm thanh theo thời gian. 3 • Dynamic Time Warping (DTW), là một kĩ thuật đo lường sự giống nhau giữa hai chuỗi tín hiệu có thể khác nhau về thời gian, tốc độ. Kĩ thuật này đặc biệt hữu ích khi phân tích các chuỗi tín hiêu không đồng bộ hoặc khi cần so sánh các mẫu có thể bị nén hoặc bị giãn theo thời gian, như trong xử lý dữ liệu âm thanh.

Kĩ thuật này được giới thiệu lần đầu tiên vào năm 1970, DTW thực hiện điều này thông qua một ma trận khoảng cách, trong đó mỗi phần tử biểu thị khoảng cách giữa hai điểm tương ứng từ hai chuỗi tín hiệu, sau đó tìm đường đi tối ưu qua ma trận này để tối thiểu hóa tổng khoảng cách. • Dự án DAPRA, dự án này ở Mỹ đóng vai trò quan trọng trong việc phát triển công nghệ nhận dạng giọng nói tự động. HARPY là một trong những dự án nổi bật, hệ thống này được phát triển vào cuối năm 1970 ở đại học Carnegie Mellon bởi nhóm nghiên cứu do Raj Reddy dẫn dắt. HARPY đã đánh dấu một bước tiến lớn trong lĩnh vực nhận dạng giọng nói khi có khả năng nhận dạng khoảng 1.000 từ, một thành tựu rất đáng kể vào thời điểm đó.

HARPY cho phép hệ thống này không chỉ nhận dạng từ mà còn phân tích cú pháp để hiểu cấu trúc ngữ pháp của câu nói. Nhờ vào khả năng này, HARPY có thể không chỉ nhận diện âm thanh mà còn có thể hiểu và phản hồi các câu nói phức tạp. Chương trình HARPY và các dự án liên quan của DARPA đã đóng vai trò nền tảng cho sự phát triển của các hệ thống nhận dạng giọng nói hiện đại. Những nghiên cứu và tiến bộ từ các dự án này đã giúp định hình hướng đi cho nhiều công nghệ AI hiện nay, từ các trợ lý ảo như Siri và Alexa cho đến các hệ thống dịch thuật tự động.

DARPA đã tạo ra môi trường thúc đẩy đổi mới trong lĩnh vực AI, dẫn đến sự ra đời của các công nghệ có khả năng hiểu và tương tác với con người thông qua ngôn ngữ tự nhiên. 4 Thập niên 1990s • Gaussian Mixture Models, là một phương pháp thống kê dùng để mô hình hóa phân phối xác suất của các đặc trưng âm thanh trong giọng nói. GMM sử dụng nhiều phân phối Gaussian để biểu diễn sự phân bố của dữ liệu trong không gian âm thanh, cho phép hệ thống nhận dạng các âm vị khác nhau. Sự kết hợp giữa GMM và HMM (GMM-HMM) tạo ra một hệ thống mạnh mẽ cho nhận dạng giọng nói.

GMM xử lý việc mô hình hóa các đặc trưng âm thanh tại một thời điểm cụ thể, trong khi HMM xử lý sự thay đổi của các đặc trưng này theo thời gian. Hệ thống GMM- HMM đã trở thành tiêu chuẩn trong nhiều năm và được sử dụng rộng rãi trong các hệ thống ASR. • Mô hình ngôn ngữ n-gram, được sử dụng để mô hình hóa xác suất của một chuỗi từ trong ngữ cảnh của những từ trước đó. Ví dụ, trong một mô hình 3-gram (trigram), xác suất của một từ sẽ phụ thuộc vào hai từ liền trước.

Điều này giúp hệ thống ASR không chỉ nhận diện chính xác các âm thanh mà còn có thể hiểu và dự đoán từ tiếp theo dựa trên ngữ cảnh, cải thiện độ chính xác trong việc nhận dạng từ và câu. Thập niên 2000s • EARS, (Effective – hiệu quả, Affordable – chi phí thấp, Reusable – có thể tái sử dụng, Speech-to-Speech Translation - chuyển giọng nói thành giọng nói khác). Dự án này nhằm phát triển các công nghệ nhận dạng giọng nói và dịch ngôn ngữ hiệu quả, chính xác và có thể tái sử dụng. Cải thiện độ chính xác của các hệ thống nhận diện giọng nói trong các tình huống thực tế, bao gồm việc xử lý giọng nói trong môi trường có nhiều tiếng ồn và các biến thể của ngôn ngữ.

Dự án EARS đã đóng góp vào sự phát triển của các công nghệ nhận diện giọng nói và dịch ngôn ngữ tự động, giúp nâng cao khả năng giao tiếp trong các môi trường đa ngôn ngữ và đa văn hóa. Dự án GALE tập trung vào việc phát triển các công nghệ xử lý ngôn ngữ tự nhiên để khai thác thông tin từ các nguồn ngôn ngữ toàn cầu. Mục tiêu chính là cải thiện khả năng thu thập, phân tích và sử dụng thông tin từ các ngôn ngữ khác nhau. Dự án GALE đã góp phần vào sự phát triển của các công nghệ xử lý ngôn ngữ tự nhiên, giúp cải thiện khả năng khai thác thông tin từ các nguồn ngôn ngữ khác nhau và hỗ trợ các hoạt động quân sự và tình báo.

• Vào đầu những năm 2000, người ta đã sử dụng mô hình Long short-term memory(LSTM), để có thể xử lý được những tác vụ có yêu cầu về bộ nhớ cao. LSTM được huấn luyện bởi Connectionist Temporal Classification (CTC) đã có một số ứng dụng vượt trôi trong thực tế. Thập niên 2010s đến nay • Sự bùng nổ của Deep Learning và mạng nơ-ron tích chập (CNN): Với sự gia tăng sức mạnh tính toán và dữ liệu lớn, các mô hình deep learning, đặc biệt là CNN và RNN (Recurrent Neural Networks), đã trở thành lựa chọn chính trong ASR. Mô hình như HMM-GMM dần bị thay thế bởi các mô hình hoàn toàn dựa trên deep learning.

• Xuất hiện các trợ lý ảo: Các trợ lý ảo như Siri (Apple), Google Assistant, Amazon Alexa sử dụng công nghệ ASR tiên tiến để tương tác với người dùng. • Transformer và các mô hình như BERT: Các mô hình này giúp cải thiện khả năng hiểu ngôn ngữ tự nhiên, đóng góp vào sự phát triển mạnh mẽ của ASR. Như Wav2Vec là một mô hình được phát triển bởi Facebook AI Research (FAIR) cho nhiệm vụ nhận diện giọng nói.0 sử dụng một mạng nơ-ron tích chập (CNN) để trích xuất các đặc trưng âm thanh từ tín hiệu sóng âm, sau đó sử dụng một mạng Transformer để mã hóa các đặc trưng này thành biểu diễn ngữ nghĩa. 6 Bằng cách áp dụng các mô hình học sâu vào trong hệ thống ASR, thì đã giảm được tỉ lệ lỗi hơn 50% so với các mô hình không có học sâu.

Với sự vượt trội như vậy, nhiều hệ thống ASR có sử dụng mô hình học sâu được ra đời. Các mô hình này được gọi là mô hình End-to-End (E2E) tức là một cách tiếp cận trong học máy và trí tuệ nhân tạo, nơi mà một hệ thống học để thực hiện toàn bộ quy trình của một nhiệm vụ cụ thể, từ đầu vào đến đầu ra cuối cùng, mà không cần các bước xử lý trung gian khác.2 Các thuật toán và mô hình nhận dạng giọng nói hiện nay a) Hidden Markov Models Mô hình Markov [2] ẩn dựa trên việc tăng cường các chuỗi Markov. Một chuỗi Markov là mô hình cho chùng ta biết rằng một điều gì đó về xác suất của chuỗi các biến ngẫu nhiên, trạng thái ngẫu nhiên, mỗi chuỗi có thể nhận giá trị từ một tập hợp nào đó. Các tập hợp này có thể là từ ngữ, kí hiệu đại diện cho bất kì thứ gì hoặc có thể là thời tiết, v.v… Chuỗi Markov đưa ra một giả định rất chắc chắn rằng nếu muốn dự đoán tương lai của chuỗi thì điều quan trọng nhất là trạng thái hiện tại.

Các trạng thái trước trạng thái hiện tại không có tác động gì đến tương lai ngoại trừ thông qua trạng thái hiện tại.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ nhận dạng giọng nói hiện đại

Ứng dụng của WAV2VEC trong ASR

Kỹ thuật và mô hình trong xử lý giọng nói

Thách thức trong nhận dạng giọng nói tiếng Việt