I. Đồ án tốt nghiệp
Đồ án tốt nghiệp là một phần quan trọng trong chương trình đào tạo kỹ sư kỹ thuật dữ liệu tại Trường Đại học Sư phạm Kỹ thuật TP.HCM. Đề tài 'Xây dựng ứng dụng tạo phụ đề tự động sử dụng Deep Learning' được thực hiện bởi sinh viên Đỗ Lê Tiến Đạt dưới sự hướng dẫn của TS. Trần Nhật Quang. Đồ án này tập trung vào việc ứng dụng công nghệ AI và học sâu để giải quyết bài toán tạo phụ đề tự động, một lĩnh vực đang phát triển mạnh trong công nghệ thông tin.
1.1. Mục tiêu đồ án
Mục tiêu chính của đồ án là xây dựng ứng dụng có khả năng tạo phụ đề tự động từ âm thanh bằng cách sử dụng các mô hình Deep Learning. Đồ án hướng đến việc cải thiện độ chính xác và hiệu quả của quá trình xử lý ngôn ngữ tự nhiên, đồng thời ứng dụng các kỹ thuật machine learning để tối ưu hóa hệ thống.
1.2. Phạm vi nghiên cứu
Đồ án tập trung vào việc nghiên cứu và so sánh hai mô hình Deep Speech 2 và Wav2Vec2 trên tập dữ liệu TIMIT. Các kỹ thuật xử lý ngôn ngữ tự nhiên và trích xuất đặc trưng âm thanh được áp dụng để huấn luyện và đánh giá mô hình. Kết quả cuối cùng là một ứng dụng có khả năng tạo phụ đề tự động với độ chính xác cao.
II. Ứng dụng tạo phụ đề tự động
Ứng dụng tạo phụ đề tự động là một sản phẩm công nghệ nhằm tự động hóa quá trình chuyển đổi âm thanh thành văn bản. Đồ án này tập trung vào việc phát triển phần mềm sử dụng các mô hình Deep Learning để cải thiện độ chính xác và tốc độ của quá trình tạo phụ đề. Ứng dụng này có tiềm năng lớn trong các lĩnh vực như giáo dục, truyền thông và hỗ trợ người khuyết tật.
2.1. Công nghệ sử dụng
Ứng dụng được xây dựng dựa trên hai mô hình Deep Speech 2 và Wav2Vec2, cả hai đều là các mô hình học sâu tiên tiến trong lĩnh vực xử lý ngôn ngữ tự nhiên. Các kỹ thuật trích xuất đặc trưng âm thanh như Mel Spectrogram và MFCC được sử dụng để chuẩn bị dữ liệu đầu vào cho mô hình.
2.2. Thử nghiệm và đánh giá
Quá trình thử nghiệm được thực hiện trên tập dữ liệu TIMIT, một tập dữ liệu chuẩn trong lĩnh vực nhận diện giọng nói. Kết quả cho thấy mô hình Wav2Vec2 đạt độ chính xác cao hơn so với Deep Speech 2, đặc biệt trong việc dự đoán ngôn ngữ và tự động hóa quá trình tạo phụ đề.
III. Deep Learning và xử lý ngôn ngữ tự nhiên
Deep Learning là công nghệ nền tảng trong đồ án này, được sử dụng để giải quyết các bài toán phức tạp trong xử lý ngôn ngữ tự nhiên. Các mô hình học sâu như Deep Speech 2 và Wav2Vec2 được huấn luyện để nhận diện và chuyển đổi âm thanh thành văn bản một cách chính xác. Đồ án cũng đề cập đến các kỹ thuật machine learning và tự động hóa để tối ưu hóa hiệu suất của hệ thống.
3.1. Mô hình Deep Speech 2
Deep Speech 2 là một mô hình học giám sát với kiến trúc bao gồm các lớp ResCNN và BiRNN. Mô hình này được huấn luyện trên dữ liệu Mel Spectrogram để dự đoán các ký tự từ âm thanh. Kết quả thử nghiệm cho thấy mô hình này có độ chính xác cao trong việc nhận diện giọng nói.
3.2. Mô hình Wav2Vec2
Wav2Vec2 là một mô hình học tự giám sát được phát triển bởi Meta. Mô hình này sử dụng Transformer để học các biểu diễn âm thanh từ dữ liệu thô. Kết quả thử nghiệm cho thấy Wav2Vec2 vượt trội hơn Deep Speech 2 trong việc dự đoán ngôn ngữ và tạo phụ đề tự động.
IV. Kết luận và hướng phát triển
Đồ án 'Xây dựng ứng dụng tạo phụ đề tự động sử dụng Deep Learning' đã đạt được những kết quả đáng kể trong việc ứng dụng công nghệ AI và học sâu để giải quyết bài toán tạo phụ đề tự động. Ứng dụng được xây dựng có tiềm năng lớn trong các lĩnh vực như giáo dục, truyền thông và hỗ trợ người khuyết tật.
4.1. Đóng góp của đồ án
Đồ án đã thành công trong việc xây dựng ứng dụng tạo phụ đề tự động với độ chính xác cao, sử dụng các mô hình Deep Learning tiên tiến. Kết quả thử nghiệm trên tập dữ liệu TIMIT cho thấy sự hiệu quả của các kỹ thuật xử lý ngôn ngữ tự nhiên và trích xuất đặc trưng âm thanh.
4.2. Hướng phát triển
Trong tương lai, đồ án có thể được mở rộng bằng cách tích hợp thêm các ngôn ngữ khác nhau, cải thiện độ chính xác trong môi trường nhiều tiếng ồn và ứng dụng các kỹ thuật machine learning mới để tối ưu hóa hệ thống.