Đồ Án Tốt Nghiệp: Ứng Dụng Tạo Phụ Đề Tự Động Sử Dụng Deep Learning

Đồ án tốt nghiệp xây dựng ứng dụng tạo phụ đề tự động bằng Deep Learning, ứng dụng công nghệ AI hiện đại, hỗ trợ chuyển đổi âm thanh thành văn bản chính xác.

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Dữ Liệu

Người đăng

Ẩn danh

Thể loại

đồ án tốt nghiệp

2024

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. GIỚI THIỆU

1.2. GIỚI HẠN

1.3. BỐ CỤC CỦA BÁO CÁO

2. CHƯƠNG 2: TÍN HIỆU ÂM THANH

2.1. NGUYÊN LÝ HÌNH THÀNH TIẾNG NÓI

2.2. ÂM, ÂM TIẾT, ÂM VỊ

2.3. CƠ CHẾ HOẠT ĐỘNG CỦA TAI

2.4. SƠ LƯỢC VỀ TÍN HIỆU ÂM THANH

2.5. XỬ LÝ DỮ LIỆU ÂM THANH

3. CHƯƠNG 3: MÔ HÌNH GMM-HMM

3.1. TỔNG QUAN

3.2. MÔ HÌNH ÂM THANH - ACOUSTIC MODEL

3.3. MÔ HÌNH NGÔN NGỮ - LANGUAGE MODEL

4. CHƯƠNG 4: MÔ HÌNH DEEP SPEECH 2

4.1. CHUẨN BỊ DỮ LIỆU

4.2. XÁC ĐỊNH MÔ HÌNH

4.3. CHỌN OPTIMIZER VÀ SCHEDULER – ADAMW VỚI SIÊU HỘI TỤ

4.4. CONNECTIONIST TEMPORAL CLASSIFICATION – CTC

4.5. PHƯƠNG THỨC ĐÁNH GIÁ MÔ HÌNH

4.6. HUẤN LUYỆN VÀ ĐÁNH GIÁ MÔ HÌNH

5. CHƯƠNG 5: MÔ HÌNH WAV2VEC2

5.1. CHUẨN BỊ DỮ LIỆU, TOKENIZER, FEATURE EXTRACTOR

5.2. HUẤN LUYỆN VÀ ĐÁNH GIÁ MÔ HÌNH

6. CHƯƠNG 6: ỨNG DỤNG TẠO PHỤ ĐỀ TỰ ĐỘNG

6.1. XÂY DỰNG CHỨC NĂNG

7. CHƯƠNG 7: KẾT LUẬN

7.1. ĐÓNG GÓP CỦA LUẬN VĂN

7.2. GIỚI HẠN CỦA LUẬN VĂN

7.3. PHƯƠNG HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Đồ án tốt nghiệp

Đồ án tốt nghiệp là một phần quan trọng trong chương trình đào tạo kỹ sư kỹ thuật dữ liệu tại Trường Đại học Sư phạm Kỹ thuật TP.HCM. Đề tài 'Xây dựng ứng dụng tạo phụ đề tự động sử dụng Deep Learning' được thực hiện bởi sinh viên Đỗ Lê Tiến Đạt dưới sự hướng dẫn của TS. Trần Nhật Quang. Đồ án này tập trung vào việc ứng dụng công nghệ AI và học sâu để giải quyết bài toán tạo phụ đề tự động, một lĩnh vực đang phát triển mạnh trong công nghệ thông tin.

1.1. Mục tiêu đồ án

Mục tiêu chính của đồ án là xây dựng ứng dụng có khả năng tạo phụ đề tự động từ âm thanh bằng cách sử dụng các mô hình Deep Learning. Đồ án hướng đến việc cải thiện độ chính xác và hiệu quả của quá trình xử lý ngôn ngữ tự nhiên, đồng thời ứng dụng các kỹ thuật machine learning để tối ưu hóa hệ thống.

1.2. Phạm vi nghiên cứu

Đồ án tập trung vào việc nghiên cứu và so sánh hai mô hình Deep Speech 2 và Wav2Vec2 trên tập dữ liệu TIMIT. Các kỹ thuật xử lý ngôn ngữ tự nhiên và trích xuất đặc trưng âm thanh được áp dụng để huấn luyện và đánh giá mô hình. Kết quả cuối cùng là một ứng dụng có khả năng tạo phụ đề tự động với độ chính xác cao.

II. Ứng dụng tạo phụ đề tự động

Ứng dụng tạo phụ đề tự động là một sản phẩm công nghệ nhằm tự động hóa quá trình chuyển đổi âm thanh thành văn bản. Đồ án này tập trung vào việc phát triển phần mềm sử dụng các mô hình Deep Learning để cải thiện độ chính xác và tốc độ của quá trình tạo phụ đề. Ứng dụng này có tiềm năng lớn trong các lĩnh vực như giáo dục, truyền thông và hỗ trợ người khuyết tật.

2.1. Công nghệ sử dụng

Ứng dụng được xây dựng dựa trên hai mô hình Deep Speech 2 và Wav2Vec2, cả hai đều là các mô hình học sâu tiên tiến trong lĩnh vực xử lý ngôn ngữ tự nhiên. Các kỹ thuật trích xuất đặc trưng âm thanh như Mel Spectrogram và MFCC được sử dụng để chuẩn bị dữ liệu đầu vào cho mô hình.

2.2. Thử nghiệm và đánh giá

Quá trình thử nghiệm được thực hiện trên tập dữ liệu TIMIT, một tập dữ liệu chuẩn trong lĩnh vực nhận diện giọng nói. Kết quả cho thấy mô hình Wav2Vec2 đạt độ chính xác cao hơn so với Deep Speech 2, đặc biệt trong việc dự đoán ngôn ngữ và tự động hóa quá trình tạo phụ đề.

III. Deep Learning và xử lý ngôn ngữ tự nhiên

Deep Learning là công nghệ nền tảng trong đồ án này, được sử dụng để giải quyết các bài toán phức tạp trong xử lý ngôn ngữ tự nhiên. Các mô hình học sâu như Deep Speech 2 và Wav2Vec2 được huấn luyện để nhận diện và chuyển đổi âm thanh thành văn bản một cách chính xác. Đồ án cũng đề cập đến các kỹ thuật machine learning và tự động hóa để tối ưu hóa hiệu suất của hệ thống.

3.1. Mô hình Deep Speech 2

Deep Speech 2 là một mô hình học giám sát với kiến trúc bao gồm các lớp ResCNN và BiRNN. Mô hình này được huấn luyện trên dữ liệu Mel Spectrogram để dự đoán các ký tự từ âm thanh. Kết quả thử nghiệm cho thấy mô hình này có độ chính xác cao trong việc nhận diện giọng nói.

3.2. Mô hình Wav2Vec2

Wav2Vec2 là một mô hình học tự giám sát được phát triển bởi Meta. Mô hình này sử dụng Transformer để học các biểu diễn âm thanh từ dữ liệu thô. Kết quả thử nghiệm cho thấy Wav2Vec2 vượt trội hơn Deep Speech 2 trong việc dự đoán ngôn ngữ và tạo phụ đề tự động.

IV. Kết luận và hướng phát triển

Đồ án 'Xây dựng ứng dụng tạo phụ đề tự động sử dụng Deep Learning' đã đạt được những kết quả đáng kể trong việc ứng dụng công nghệ AI và học sâu để giải quyết bài toán tạo phụ đề tự động. Ứng dụng được xây dựng có tiềm năng lớn trong các lĩnh vực như giáo dục, truyền thông và hỗ trợ người khuyết tật.

4.1. Đóng góp của đồ án

Đồ án đã thành công trong việc xây dựng ứng dụng tạo phụ đề tự động với độ chính xác cao, sử dụng các mô hình Deep Learning tiên tiến. Kết quả thử nghiệm trên tập dữ liệu TIMIT cho thấy sự hiệu quả của các kỹ thuật xử lý ngôn ngữ tự nhiên và trích xuất đặc trưng âm thanh.

4.2. Hướng phát triển

Trong tương lai, đồ án có thể được mở rộng bằng cách tích hợp thêm các ngôn ngữ khác nhau, cải thiện độ chính xác trong môi trường nhiều tiếng ồn và ứng dụng các kỹ thuật machine learning mới để tối ưu hóa hệ thống.

21/02/2025

Bạn đang xem trước tài liệu:

Đồ án tốt nghiệp kỹ thuật dữ liệu xây dựng ứng dụng tạo phụ đề tự động sử dụng deep learning

Tải đầy đủ

Trích đoạn nội dung tài liệu

Mở đầu Chương 2. Tín hiệu âm thanh Chương 3. Mô Hình GMM-HMM truyền thống Chương 4. Mô hình Deep Speech Chương 5.

Mô Hình Wav2vec2 Chương 6. Ứng dụng tạo phụ đề tự động Chương 7. Kết luận 4 CHƯƠNG 2: TÍN HIỆU ÂM THANH 2. NGUYÊN LÝ HÌNH THÀNH TIẾNG NÓI Hình 2 Cấu tạo cơ quan phát âm [4] Để hình thành tiếng nói, một luồng hơi được đẩy lên từ phổi tạo áp lực lên thanh quản (Vocal folds).

Thanh quản dưới áp lực được mở ra, làm cho luồng không khí thoát qua, và ngược lại, khi áp lực giảm xuống, thanh quản tự động đóng lại. Việc đóng lại lại khiến áp lực tăng lên và quá trình lại tiếp tục tái diễn. Các chu kì đóng/mở thanh quản này liên tục lặp lại, tạo ra các tần số sóng âm với tần số cơ bản khoảng 125Hz với nam, 210Hz với nữ. Đó là lí do giọng của nữ giới thường có xu hướng cao hơn giọng nam.

Tần số này gọi là tần số cơ bản F0. Như vậy, thanh quản đã tạo ra các tần số sóng âm cơ bản. Tuy nhiên, để hình thành lên tiếng nói còn cần đến các cơ quan khác như: vòm họng, khoang miệng, lưỡi, răng, môi, mũi. Các cơ quan này hoạt động như một bộ "cộng hưởng" giống hộp đàn guitar, nhưng có khả năng thay đổi hình dạng linh hoạt.

Bộ cộng hưởng này có tác dụng khuếch đại một vài tần số, triệt tiêu một vài tần số khác để tạo ra âm thanh. Khả năng thay đổi hình dạng linh hoạt của nó giúp tạo ra các âm thanh khác nhau để hình thành lên tiếng nói. 5 Hình 3 Quá trình hình thành âm thanh của giọng nói [4] Hình ảnh trên đây mô tả rất chi tiết về cơ chế này: Nguồn (Source) + Bộ lọc (Filter) ⟶ Âm thanh đầu ra (Output sound). Tại phổ âm của âm thanh đầu ra, ta thấy có ba đỉnh, các đỉnh này lần lượt gọi là đỉnh F1, F2, F3 .hay còn gọi là các tần số cộng hưởng (formant).

Giá trị, vị trí, sự thay đổi theo thời gian của các đỉnh này đặc trưng cho các âm vị. Trong các phương pháp nhận dạng giọng nói truyền thống, người ta sẽ cố gắng tách thông tin về các formant này ra khỏi F0 rồi mới sử dụng thông tin này để nhận dạng, bởi vì F0 chỉ thể hiện cao độ của giọng nói, không mang lại nhiều giá trị khi xác định âm vị, và cũng để cho mô hình không phụ thuộc vào cao độ khi nhận diện. ÂM, ÂM TIẾT, ÂM VỊ 2. Âm tiết Trong tiếng Anh và nhiều ngôn ngữ khác, một từ có thể được ghép bởi một hoặc nhiều âm tiết.

Ví dụ từ "want" có một âm tiết, "pencil" có hai âm tiết, "computer" có ba âm tiết. Trong khi đó trong tiếng Việt, gần như mọi âm tiết đều mang ngữ nghĩa nên ta có thể coi âm tiết là 1 từ. Một âm tiết thường là một nguyên âm, có hoặc không có các phụ âm đi kèm. Nguyên âm: Tiếng anh là vowel, là những âm thanh được phát ra mà không có sự cản trở trong đường hô hấp, không bị ngắt quãng.

Trong bảng chữ cái La Tinh có các nguyên âm: a, o, e, i, u. Phụ âm: Tiếng Anh là consonants, khác với nguyên âm, phụ âm được tạo ra với sự đóng hoàn toàn hoặc một phần của thanh quản, làm phá vỡ, ngắt quãng dòng nguyên âm, tạo ra những khoảng ngắt quãng rõ ràng. Âm vị (phoneme) và âm (phone) Hình 4 Bảng phiên âm âm vị một số nguyên âm trong tiếng Anh Âm vị: Tiếng anh là phoneme, trong nhiều loại ngôn ngữ, một kí tự/cụm kí tự (letter) trong các từ khác nhau có thể có nhiều cách phát âm khác nhau. Bảng chữ cái tiếng Anh có 26 chữ cái nhưng có tới 44 âm vị.

Ví dụ chữ "ough" trong câu sau có tới 6 kiểu phát âm. 7 Though I coughed roughly and hiccoughed throughout the lecture, I still thought I could plough through the rest of it. Âm: Tiếng anh là phone là sự hiện thực hoá âm vị. Cùng một âm vị nhưng mỗi người lại có một giọng đọc khác nhau, ví dụ cùng từ "ba" nhưng giọng nam khác giọng nữ, giọng người A khác giọng người B.

Để dễ phân biệt giữa "phoneme" và "phone" thì chúng ta có thể quan sát hình dưới đây. Hình ảnh mô tả câu "she just had a baby" được tách thành các âm vị ở hàng dưới và được hiện thực hoá thành các âm (hình ảnh các sóng âm thanh). Hình 5 Bảng âm vị và âm của câu "she just had a baby" Trong lĩnh vực nhận dạng giọng nói, chúng ta có tập dữ liệu TIMIT – một tập các đoạn phát âm được phiên âm và căn chỉnh thời gian của 630 người Mỹ. Tập dữ liệu được thu thập và ghi chú bởi các chuyên gia về ngữ âm học, từng âm được nghe và đánh dấu vị trí mở đầu và kết thúc một cách rõ ràng [1].

Hình 6 Một đoạn âm thanh trong tập dữ liệu TIMIT 8 Đoạn âm thanh sẽ được chia thành các khung. Một âm sẽ chiếm nhiều khung hình. Với kho ngữ liệu như vậy, chúng ta có thể học cách thực hiện: - Phân loại các khung (frame): gán nhãn âm (phone) cho một khung âm thanh. - Phân loại các âm (phone): gán nhãn âm (phone) cho đoạn âm thanh (nhiều frame) - Nhận diện âm (phone): nhận biết chuỗi các âm (phone) tương ứng với lời nói được ghi âm 2.

CƠ CHẾ HOẠT ĐỘNG CỦA TAI Trong bài toán nhận dạng giọng nói, việc hiểu được cơ chế "nghe" của con người quan trọng hơn hiểu được cách "nói". Âm thanh, tiếng nói mà chúng ta vẫn nghe hằng ngày là một sự pha trộn của rất nhiều sóng với các tần số khác nhau. Các tần số này thường nằm trong khoảng từ 20Hz -> 20000Hz. Tuy nhiên tai người (và các loài động vật) hoạt động phi tuyến tính, tức không phải rằng độ cảm nhận âm thanh ở tần số 20000Hz sẽ gấp 1000 lần âm thanh ở tần số 20Hz.

Thường thì tai người rất nhạy cảm ở âm thanh tần số thấp, kém nhạy cảm ở tần số cao. Hình 7 Cấu tạo ốc tai [4] 9 Khi âm thanh truyền tới tai va đập vào màng nhĩ, màng nhĩ rung lên, truyền rung động lên 3 ba xương nhỏ: malleus, incus, stapes tới ốc tai. Ốc tai là một bộ phận dạng xoắn, rỗng như một con ốc. Ốc tai chứa các dịch nhầy bên trong giúp truyền âm thanh, dọc theo ốc tai là các tế bào lông cảm nhận âm thanh.

Các tế bào lông này rung lên khi có sóng truyền qua và gửi tín hiệu tới não bộ. Các tế bào ở đoạn đầu cứng hơn, rung động với các tần số cao. Càng sâu vào trong, các tế bào càng bớt cứng, đáp ứng các tần số thấp. Do cấu tạo ốc tai cùng số lượng các tế bào đáp ứng tần số thấp chiếm phần lớn, khiến cho việc cảm nhận của tai người (và động vật) là phi tuyến tính, nhạy cảm ở tần số thấp, kém nhạy cảm ở tần số cao.

SƠ LƯỢC VỀ TÍN HIỆU ÂM THANH Âm thanh là một dạng tín hiệu được sinh ra từ sự thay đổi áp suất không khí, bắt nguồn từ các dao động cơ học của các phân tử, nguyên tử hay các hạt làm nên vật chất và lan truyền trong vật chất như các sóng. Cường độ của sự thay đổi áp suất này có thể đo được, và nó chính là biên độ (Amplitude) của tín hiệu âm thanh. Tín hiệu âm thanh thường lặp đi lặp lại theo một chu kỳ T, và đồ thị của nó sẽ có dạng sóng. x Hình 8 Đồ thị dạng sóng của tín hiệu âm thanh Giá trị nghịch đảo của chu kỳ T, ký hiệu là f, gọi là tần số của tín hiệu âm thanh.

Nó thể hiện mức độ dao động mà nguồn âm thanh có thể thực hiện được trong thời gian một giây (bằng số đỉnh của tín hiệu trong một giây). Đơn vị của f là Hertz. Tuy nhiên thực tế đồ thị của tín hiệu âm thanh thường không chỉ là một dạng hình sin đơn giản như trên lý thuyết, mà chúng hình thành phức tạp hơn rất nhiều nhưng về cơ 10 bản vẫn cấu thành dạng sóng và có chu kỳ. Ví dụ, ta xem xét đồ thị của một dụng cụ âm nhạc như hình dưới đây.

Hình 9 Đồ thị của một dạng sóng phức tạp Nhiều tín hiệu âm thanh có thể được tổng hợp thành một tín hiệu âm thanh duy nhất. Về mặt cảm thụ sinh học, mỗi tín hiệu âm thanh có một đặc trưng riêng, gọi là âm sắc (timbre). Dựa vào sự khác biệt âm sắc của các âm thanh, tai người có thể phân biệt được các âm thanh khác nhau. XỬ LÝ DỮ LIỆU ÂM THANH Để máy tính có thể đọc và phân tích dữ liệu âm thanh, âm thanh đưa vào cần được xử lý số hóa, và sau đó là trích xuất các đặc trưng để đưa vào các mô hình học máy.

Tín hiệu âm thanh Nguyên bản, tín hiệu âm thanh là một dạng tín hiệu liên tục (Analog Signal) theo thời gian. Tuy nhiên, để thuận lợi trong việc lưu trữ, xử lý và truyền tải, tín hiệu âm thanh được chuyển sang tín hiệu dạng số (Digital Signal). Việc chuyển đổi này phải đảm bảo không làm mất mát quá nhiều thông tin so với tín hiệu gốc, và từ tín hiệu đã chuyển đổi có thể dễ dàng khôi phục lại gần như nguyên vẹn tín hiệu ban đầu. Số hóa tín hiệu âm thanh được thực hiện bằng cách lấy giá trị biên độ của nó tại các vị trí cách đều nhau trong mỗi chu kỳ.

11 Hình 10 Lấy mẫu âm thanh Mỗi vị trí như vậy được gọi là một mẫu (Sample). Ta có khái niệm mẫu tần số (Sample Rate) là số lượng mẫu trong 1s. Ví dụ: sample_rate = 8000 -> trong 1s ta lấy 8000 giá trị biên độ tại các thời điểm cách đều nhau. Tai người nghe được âm thanh trong khoảng 20Hz -> 20.

Theo định lý lấy mẫu Nyquist-Shannon: với 1 tín hiệu có các tần số thành phần <= fm, để đảm bảo việc lấy mẫu không làm mất mát thông tin, tần số lấy mẫu fs phải đảm bảo fs >= 2 fm. Vậy để đảm bảo việc lấy mẫu không làm mất mát thông tin, tần số lấy mẫu fs = 44100Hz. Tuy nhiên trong đa số trường hợp phổ biến, chúng ta chỉ cần fs = 8000 Hz hoặc fs = 16000 Hz. Biến đổi Fourier Một mảng kiến thức không thể thiếu khi làm việc với tín hiệu âm thanh là xử lí tín hiệu số, trọng tâm là Fourier transform (hay còn gọi là biến đổi Fourier).

Âm thanh là một chuỗi tín hiệu rất dài, nhưng hàm lượng thông tin trong đó không nhiều.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ Deep Learning trong ứng dụng

Phát triển ứng dụng AI cho video

Xử lý ngôn ngữ tự nhiên và phụ đề

Đồ án tốt nghiệp trong lĩnh vực công nghệ