Luận văn thạc sĩ khoa học máy tính nghiên cứu công nghệ nhận dạng giọng nói tiếng việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại android

Luận văn thạc sĩ nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt qua học máy, ứng dụng điều khiển thiết bị trong nhà bằng Android.

Trường đại học

Đại học Bách Khoa - ĐHQG - HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

1.1. TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG GIỌNG NÓI

1.2. TÌNH HÌNH NGHIÊN CỨU

1.2.1. Tình hình nghiên cứu trên thế giới

1.2.2. Tình hình nghiên cứu trong nước

1.3. CÁC CÔNG TRÌNH LIÊN QUAN VÀ GIẢI PHÁP ĐỀ XUẤT

1.3.1. PHƯƠNG PHÁP TRÍCH RÚT ĐẶC TRƯNG GIỌNG NÓI

1.3.1.1. Phương pháp trích đặc trưng LPC (Linear Predictive Coding)

1.3.1.2. Phương pháp trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient)

1.3.2. PHƯƠNG PHÁP NHẬN DẠNG GIỌNG NÓI

1.3.2.1. Phương pháp âm – ngữ học

1.3.2.2. Phương pháp nhận dạng mẫu

1.3.2.3. Phương pháp ứng dụng trí tuệ nhân tạo

1.3.3. GIẢI PHÁP ĐỀ XUẤT

1.4. MỤC TIÊU CỦA ĐỀ TÀI

1.5. GIỚI HẠN VÀ ĐỐI TƯỢNG NGHIÊN CỨU

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. PHƯƠNG PHÁP TRÍCH RÚT ĐẶC TRƯNG MFCC

2.2. Biến đổi FFT (Fast Fourier Transform)

TÀI LIỆU THAM KHẢO

BẢNG THUẬT NGỮ ANH - VIỆT VÀ TỪ VIẾT TẮT

Tóm tắt

I. Giới thiệu tổng quan

Trong bối cảnh công nghệ phát triển nhanh chóng, công nghệ nhận dạng giọng nói đang trở thành một lĩnh vực nghiên cứu quan trọng. Nghiên cứu này tập trung vào việc phát triển một hệ thống nhận dạng giọng nói tiếng Việt sử dụng học máy, với mục tiêu tối ưu hóa khả năng điều khiển thiết bị thông minh qua nền tảng Android. Hệ thống sẽ giúp người dùng tương tác với thiết bị thông minh một cách tự nhiên hơn thông qua giao tiếp qua giọng nói. Theo đó, nghiên cứu sẽ sử dụng phương pháp Connectionist Temporal Classification (CTC), một kỹ thuật mới trong lĩnh vực học máy, nhằm cải thiện độ chính xác trong việc nhận diện giọng nói tiếng Việt. Mục tiêu cuối cùng là xây dựng một ứng dụng có khả năng nhận diện giọng nói chính xác trên 80% cho các lệnh điều khiển thiết bị trong nhà.

1.1. Tình hình nghiên cứu

Nghiên cứu về nhận dạng giọng nói trên thế giới đã có lịch sử lâu dài, từ những năm 1920 cho đến nay. Trên thế giới, các công nghệ như trí tuệ nhân tạo và robot thông minh đã được áp dụng rộng rãi. Tuy nhiên, tại Việt Nam, nhận dạng giọng nói tiếng Việt vẫn còn nhiều hạn chế. Các nghiên cứu trong nước chủ yếu tập trung vào việc phát triển các mô hình nhận dạng cơ bản mà chưa khai thác hết tiềm năng của công nghệ. Đặc biệt, việc áp dụng các phương pháp học sâu như mạng nơ-ron hồi quy (RNN) và LSTM trong nhận dạng tiếng Việt vẫn còn mới mẻ và cần được nghiên cứu sâu hơn.

II. Công nghệ và phương pháp nghiên cứu

Nghiên cứu này sẽ áp dụng phương pháp trích rút đặc trưng giọng nói MFCC (Mel-frequency cepstral coefficients) để cải thiện khả năng nhận dạng giọng nói. MFCC là một phương pháp phổ biến trong lĩnh vực nhận dạng giọng nói nhờ vào khả năng phản ánh tốt các đặc trưng âm thanh của giọng nói con người. Quá trình nhận dạng sẽ trải qua các bước như trích rút đặc trưng, nhận dạng và xử lý kết quả. Việc sử dụng giải thuật CTC sẽ giúp tối ưu hóa quá trình huấn luyện mô hình, từ đó nâng cao độ chính xác của hệ thống. Hệ thống sẽ được phát triển trên nền tảng Android, cho phép người dùng dễ dàng điều khiển các thiết bị thông minh trong nhà thông qua các lệnh giọng nói đơn giản.

2.1. Xây dựng hệ thống điều khiển

Hệ thống điều khiển thiết bị thông minh sẽ được xây dựng với các khối chức năng rõ ràng. Đầu tiên, tín hiệu giọng nói sẽ được thu nhận và xử lý qua các bước tiền xử lý để loại bỏ nhiễu và nâng cao chất lượng âm thanh. Sau đó, các đặc trưng giọng nói sẽ được trích rút bằng phương pháp MFCC. Kết quả sẽ được đưa vào mô hình học máy để nhận diện và xử lý lệnh điều khiển. Hệ thống sẽ cho phép người dùng thực hiện các lệnh như tắt/mở đèn, đóng/mở cửa một cách nhanh chóng và chính xác, từ đó nâng cao trải nghiệm người dùng trong việc tương tác với các thiết bị thông minh.

III. Kết quả và ứng dụng thực tiễn

Kết quả nghiên cứu cho thấy rằng việc áp dụng công nghệ nhận dạng giọng nói tiếng Việt sử dụng học máy có thể mang lại nhiều lợi ích cho người dùng. Hệ thống đã đạt được độ chính xác trên 80% trong việc nhận diện các lệnh giọng nói cơ bản. Điều này mở ra hướng đi mới cho việc phát triển các ứng dụng thông minh, giúp người dùng có thể tương tác với thiết bị một cách tự nhiên hơn. Các ứng dụng tiềm năng bao gồm việc điều khiển các thiết bị gia dụng, hệ thống an ninh thông minh, và các trợ lý ảo. Nghiên cứu cũng chỉ ra rằng, việc phát triển và tối ưu hóa các mô hình nhận dạng giọng nói sẽ là chìa khóa để nâng cao trải nghiệm người dùng trong thời đại công nghệ 4.0.

3.1. Hướng phát triển tiếp theo

Trong tương lai, nghiên cứu có thể mở rộng ra nhiều lĩnh vực khác như giao tiếp qua giọng nói trong các ứng dụng y tế, giáo dục và giải trí. Việc cải tiến mô hình nhận dạng giọng nói để xử lý các ngữ điệu và giọng nói địa phương sẽ là một thách thức lớn nhưng cũng là cơ hội để phát triển. Hệ thống cũng có thể được tích hợp với các công nghệ AI tiên tiến hơn để cải thiện khả năng nhận diện và phản hồi, tạo ra một trải nghiệm tương tác hoàn hảo hơn cho người dùng.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính nghiên cứu công nghệ nhận dạng giọng nói tiếng việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại android

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0 đang bùng nổ mạnh mẽ tại Việt Nam, công nghệ nhận dạng giọng nói ngày càng trở nên quan trọng và thiết yếu trong việc phát triển các ứng dụng trí tuệ nhân tạo (AI) và Internet vạn vật (IoT). Theo ước tính, việc ứng dụng nhận dạng giọng nói giúp nâng cao trải nghiệm người dùng và tối ưu hóa tương tác giữa con người và máy móc. Tuy nhiên, các nền tảng nhận dạng giọng nói tiếng Việt hiện nay vẫn còn hạn chế, đặc biệt trong việc áp dụng các phương pháp học máy tiên tiến như Connectionist Temporal Classification (CTC).

Luận văn tập trung nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt sử dụng học máy, cụ thể là mạng nơ-ron hồi quy LSTM kết hợp giải thuật CTC, nhằm xây dựng hệ thống nhận dạng với độ chính xác trên 80%. Hệ thống được ứng dụng trong việc điều khiển thiết bị trong nhà qua điện thoại Android, với các lệnh điều khiển như mở/tắt đèn, đóng/mở cửa. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2019 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. HCM, với dữ liệu thu thập từ giọng đọc của hai người trong môi trường sống bình thường.

Việc phát triển công nghệ nhận dạng giọng nói tiếng Việt không chỉ góp phần thúc đẩy ngành AI trong nước mà còn mở ra nhiều cơ hội ứng dụng thực tiễn trong các hệ thống nhà thông minh, nâng cao chất lượng cuộc sống và hiệu quả quản lý thiết bị điện tử.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Phương pháp trích rút đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficients):
MFCC mô phỏng cách tai người cảm nhận âm thanh, sử dụng dãy bộ lọc tam giác trên thang tần số Mel để trích xuất các đặc trưng âm thanh quan trọng. Quá trình bao gồm biến đổi Fourier nhanh (FFT), lọc qua bộ lọc Mel-scale, lấy logarit năng lượng và biến đổi cosin rời rạc (DCT) để tạo ra các hệ số cepstral đặc trưng cho giọng nói. MFCC được lựa chọn do tốc độ tính toán nhanh, độ tin cậy cao và phổ biến trong các hệ thống nhận dạng giọng nói.
Mạng nơ-ron hồi quy LSTM (Long Short-Term Memory):
LSTM là một dạng mạng nơ-ron hồi quy (RNN) được thiết kế để giải quyết vấn đề phụ thuộc xa trong dữ liệu tuần tự, khắc phục nhược điểm vanishing gradient của RNN truyền thống. LSTM sử dụng các cổng (gate) để kiểm soát thông tin được lưu giữ hoặc loại bỏ trong trạng thái tế bào, giúp mạng ghi nhớ thông tin dài hạn hiệu quả. Mạng LSTM được áp dụng để mô hình hóa chuỗi đặc trưng MFCC trong bài toán nhận dạng giọng nói.
Giải thuật Connectionist Temporal Classification (CTC):
CTC là thuật toán huấn luyện mạng nơ-ron cho các bài toán nhận dạng chuỗi khi không có sự căn chỉnh chính xác giữa đầu vào và đầu ra. CTC cho phép mô hình học cách ánh xạ chuỗi đầu vào (tín hiệu âm thanh) sang chuỗi đầu ra (ký tự) mà không cần gán nhãn từng khung thời gian. Thuật toán sử dụng ký hiệu blank để xử lý các khoảng lặng và áp dụng quy hoạch động để tính toán hàm mất mát hiệu quả.
Giải thuật Edit Distance:
Được sử dụng để đo độ tương đồng giữa chuỗi ký tự nhận dạng và chuỗi ký tự gốc, giúp cải thiện độ chính xác của hệ thống bằng cách chấp nhận các kết quả gần đúng trong ngưỡng sai số cho phép (dưới 50%). Đây là phương pháp dựa trên khoảng cách Levenshtein, tính số phép thêm, xóa, thay thế ký tự nhỏ nhất để biến đổi một chuỗi thành chuỗi khác.

Phương pháp nghiên cứu

Nguồn dữ liệu:
Tập dữ liệu gồm 2192 tệp âm thanh định dạng .wav, thu âm bốn câu lệnh điều khiển (mở cửa, đóng cửa, mở đèn, tắt đèn) từ hai người (một nam, một nữ) trong môi trường sống bình thường, sử dụng điện thoại Android để ghi âm. Dữ liệu được gán nhãn bằng chuỗi ký tự Unicode tương ứng.
Phương pháp phân tích:
Dữ liệu được trích xuất đặc trưng MFCC bằng thư viện python-speech-features phiên bản 0.6. Mô hình nhận dạng sử dụng mạng LSTM với một tầng ẩn, đầu ra gồm 28 ký tự, huấn luyện bằng thuật toán CTC với hàm mất mát được tính toán qua quy hoạch động. Giải thuật Edit Distance được áp dụng sau khối nhận dạng để lọc và tối ưu kết quả.
Timeline nghiên cứu:
- Giao nhiệm vụ: 11/02/2019
- Thu thập và chuẩn bị dữ liệu: tháng 2 - tháng 3/2019
- Xây dựng và huấn luyện mô hình: tháng 3 - tháng 5/2019
- Đánh giá và điều chỉnh mô hình: tháng 5 - tháng 6/2019
- Hoàn thiện luận văn và bảo vệ: tháng 6 - tháng 7/2019

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả trích rút đặc trưng MFCC:
Việc sử dụng MFCC cho phép trích xuất các đặc trưng âm thanh phù hợp với đặc điểm cảm thụ của tai người, giúp mô hình nhận dạng đạt hiệu suất cao với tốc độ xử lý nhanh. Kết quả huấn luyện cho thấy MFCC là phương pháp tối ưu trong bối cảnh dữ liệu tiếng Việt.
Mạng LSTM kết hợp CTC đạt độ chính xác trên 80%:
Mô hình LSTM với thuật toán CTC đã được huấn luyện trên toàn bộ 2192 tệp âm thanh, đạt độ chính xác nhận dạng trên 80% trong việc phân biệt các câu lệnh điều khiển. So với các phương pháp truyền thống, mô hình này giảm thiểu lỗi do không cần căn chỉnh nhãn từng khung thời gian.
Ứng dụng giải thuật Edit Distance nâng cao hiệu suất điều khiển:
Khi áp dụng ngưỡng sai số dưới 50% cho phép nhận dạng các lệnh gần đúng, hệ thống điều khiển thiết bị trong nhà qua điện thoại Android có hiệu suất tăng đáng kể, giảm tỷ lệ từ chối lệnh do lỗi nhận dạng nhỏ.
Khả năng vận hành thực tế của hệ thống:
Hệ thống điều khiển thiết bị trong nhà (mở/tắt đèn, đóng/mở cửa) hoạt động ổn định trong môi trường thực tế với độ chính xác và phản hồi nhanh, chứng minh tính khả thi của giải pháp trong ứng dụng thực tiễn.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình đạt hiệu quả là sự kết hợp giữa phương pháp trích rút đặc trưng MFCC phù hợp với đặc điểm âm thanh tiếng Việt và mạng LSTM có khả năng ghi nhớ thông tin dài hạn, xử lý tốt dữ liệu tuần tự. Giải thuật CTC giải quyết triệt để vấn đề không căn chỉnh nhãn, giúp mô hình học hiệu quả hơn so với các phương pháp nhận dạng mẫu truyền thống như HMM hay DTW.

So sánh với các nghiên cứu quốc tế, kết quả đạt được tương đương với các hệ thống nhận dạng giọng nói cho ngôn ngữ khác trong điều kiện dữ liệu hạn chế. Việc áp dụng giải thuật Edit Distance là điểm mới giúp tăng tính linh hoạt và độ chính xác trong điều khiển thiết bị, phù hợp với đặc thù tiếng Việt và môi trường sử dụng thực tế.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác nhận dạng trước và sau khi áp dụng Edit Distance, cũng như bảng thống kê tỷ lệ nhận dạng thành công từng câu lệnh điều khiển.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu huấn luyện:
Thu thập thêm dữ liệu từ nhiều người với các giọng đọc, môi trường khác nhau để tăng tính đa dạng và độ chính xác của mô hình. Mục tiêu đạt trên 90% độ chính xác trong vòng 12 tháng. Chủ thể thực hiện: nhóm nghiên cứu và các đối tác công nghệ.
Phát triển giao diện người dùng thân thiện:
Thiết kế ứng dụng Android với giao diện trực quan, hỗ trợ phản hồi giọng nói và cảnh báo lỗi nhận dạng để nâng cao trải nghiệm người dùng. Thời gian thực hiện: 6 tháng. Chủ thể: nhóm phát triển phần mềm.
Tích hợp thêm các lệnh điều khiển và thiết bị IoT:
Mở rộng phạm vi điều khiển sang các thiết bị khác trong nhà như quạt, máy lạnh, hệ thống an ninh. Mục tiêu tăng số lượng lệnh lên ít nhất 20 lệnh trong 1 năm. Chủ thể: nhóm nghiên cứu và đối tác IoT.
Nâng cao thuật toán nhận dạng:
Nghiên cứu áp dụng các mô hình mạng sâu hơn như Transformer hoặc kết hợp đa mô-đun để cải thiện độ chính xác và khả năng xử lý ngôn ngữ tự nhiên. Thời gian nghiên cứu: 18 tháng. Chủ thể: nhóm nghiên cứu AI.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo:
Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học máy trong nhận dạng giọng nói tiếng Việt, phù hợp cho nghiên cứu và phát triển đề tài liên quan.
Các công ty phát triển phần mềm và ứng dụng di động:
Tham khảo để xây dựng các ứng dụng điều khiển thiết bị thông minh bằng giọng nói, đặc biệt trên nền tảng Android.
Chuyên gia và kỹ sư IoT, nhà thông minh:
Áp dụng công nghệ nhận dạng giọng nói để tích hợp vào hệ thống điều khiển thiết bị trong nhà, nâng cao tính tiện ích và tự động hóa.
Cơ quan quản lý và phát triển công nghệ tại Việt Nam:
Sử dụng làm tài liệu tham khảo để định hướng phát triển công nghệ AI và nhận dạng giọng nói phù hợp với đặc thù ngôn ngữ và thị trường trong nước.

Câu hỏi thường gặp

Tại sao chọn MFCC làm phương pháp trích rút đặc trưng?
MFCC mô phỏng cách tai người cảm nhận âm thanh, có tốc độ tính toán nhanh và độ tin cậy cao, phù hợp với đặc điểm âm thanh tiếng Việt, giúp mô hình nhận dạng hiệu quả.
Giải thuật CTC có ưu điểm gì so với các phương pháp khác?
CTC cho phép huấn luyện mạng nơ-ron mà không cần căn chỉnh nhãn từng khung thời gian, xử lý tốt các chuỗi đầu vào và đầu ra có độ dài khác nhau, giảm thiểu công sức gán nhãn thủ công.
Làm thế nào để cải thiện độ chính xác nhận dạng?
Có thể mở rộng bộ dữ liệu huấn luyện đa dạng hơn, áp dụng các mô hình mạng sâu hơn, và sử dụng giải thuật lọc như Edit Distance để chấp nhận các kết quả gần đúng.
Hệ thống có thể áp dụng cho các ngôn ngữ khác không?
Về nguyên tắc, phương pháp và mô hình có thể áp dụng cho các ngôn ngữ khác, tuy nhiên cần điều chỉnh bộ dữ liệu và từ điển phù hợp với đặc điểm ngôn ngữ đó.
Ứng dụng thực tế của hệ thống điều khiển bằng giọng nói là gì?
Hệ thống giúp người dùng điều khiển các thiết bị trong nhà như đèn, cửa bằng giọng nói tiếng Việt qua điện thoại Android, nâng cao tiện ích và trải nghiệm người dùng trong nhà thông minh.

Kết luận

Luận văn đã xây dựng thành công hệ thống nhận dạng giọng nói tiếng Việt sử dụng mạng LSTM kết hợp giải thuật CTC, đạt độ chính xác trên 80%.
Phương pháp trích rút đặc trưng MFCC được chứng minh hiệu quả trong việc mô phỏng đặc điểm âm thanh tiếng Việt.
Giải thuật Edit Distance giúp nâng cao hiệu suất điều khiển thiết bị bằng cách chấp nhận các kết quả nhận dạng gần đúng.
Hệ thống điều khiển thiết bị trong nhà qua điện thoại Android hoạt động ổn định, có tiềm năng ứng dụng rộng rãi trong thực tế.
Đề xuất mở rộng dữ liệu, phát triển giao diện và nâng cao thuật toán để cải thiện hiệu quả và mở rộng phạm vi ứng dụng trong tương lai.

Khuyến khích các nhà nghiên cứu và doanh nghiệp trong lĩnh vực AI và IoT tiếp tục phát triển và ứng dụng công nghệ nhận dạng giọng nói tiếng Việt để thúc đẩy chuyển đổi số và nâng cao chất lượng cuộc sống.

Trích đoạn nội dung tài liệu

CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN. TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG GIỌNG NÓI. TÌNH HÌNH NGHIÊN CỨU.

Tình hình nghiên cứu trên thế giới. Tình hình nghiên cứu trong nước. CÁC CÔNG TRÌNH LIÊN QUAN VÀ GIẢI PHÁP ĐỀ XUẤT. PHƯƠNG PHÁP TRÍCH RÚT ĐẶC TRƯNG GIỌNG NÓI.

PHƯƠNG PHÁP NHẬN DẠNG GIỌNG NÓI. GIẢI PHÁP ĐỀ XUẤT. MỤC TIÊU CỦA ĐỀ TÀI. GIỚI HẠN VÀ ĐỐI TƯỢNG NGHIÊN CỨU.

PHƯƠNG PHÁP TRÍCH RÚT ĐẶC TRƯNG MFCC. Biến đổi FFT (Fast Fourier Transform). Lọc qua bộ lọc Mel-scale. Logarit giá trị năng lượng (Logarit Of Filter Energies).

Biến đổi cosin rời rạc. MẠNG NƠ-RON HỒI QUY RNN. Giới thiệu mạng RNN. GIẢI THUẬT CONNECTIONIST TEMPORAL CLASSIFICATION (CTC) 16 2.

Giới thiệu bài toán:. Mô tả giải thuật:. GIẢI THUẬT EDIT DISTANCE. XÂY DỰNG HỆ THỐNG ĐIỀU KHIỂN THIẾT BỊ TRONG NHÀ BẰNG ĐIỆN THOẠI ANDROID.

MÔ HÌNH HỆ THỐNG ĐIỀU KHIỂN. Trích rút đặc trưng:. Khối nhận dạng:. Khối điều khiển:.

XÂY DỰNG PHẦN MỀM TRÊN ANDROID. HUẤN LUYỆN HỆ THỐNG VÀ THỬ NGHIỆM. CÁC THAM SỐ CƠ BẢN. DỮ LIỆU HUẤN LUYỆN.

HUẤN LUYỆN MÔ HÌNH. ĐÁNH GIÁ MÔ HÌNH. KẾT QUẢ CHẠY THỰC NGHIỆM. TỔNG KẾT NỘI DUNG CỦA LUẬN VĂN.

NHỮNG ĐÓNG GÓP CỦA ĐỀ TÀI. HƯỚNG PHÁT TRIỂN. 48 TÀI LIỆU THAM KHẢO .50 BẢNG THUẬT NGỮ ANH - VIỆT VÀ TỪ VIẾT TẮT .53 DANH MỤC HÌNH Hình 1.1 Mô hình hoạt động của một hệ thống nhận dạng giọng nói.1 Đồ thì biểu diễn mối quan hệ giữa Mel và Hz (nguồn [1]). Bộ lọc trên thang Mel (nguồn [4]).

Bộ lọc trên tần số thật (nguồn [4]). Minh họa các bước biến đổi MFCC (nguồn [4]). Biểu đồ thang tần số Mel theo tần số thực (nguồn [1]). Băng lọc tần số Mel (nguồn [4]).

Đưa tín hiệu vào băng lọc tần số Mel (nguồn [4]). Kiến trúc một đoạn mạng RNN (nguồn [13]). Phân giải mạng RNN (nguồn [13]). Cấu trúc mạng RNN chuẩn (nguồn [13]).

Cấu trúc mạng LSTM (nguồn [13]). Sơ đồ đường trạng thái (nguồn [13]). Cập nhật trạng thái tế bào (nguồn [13]). Tính toán đầu ra (nguồn [13]).

Một số bài toán nhận dạng (nguồn [9]). Một cách sắp xếp (nguồn [9]). Các bước thực hiện việc sắp xếp (nguồn [9]). Một số trường hợp sắp xếp hợp lệ và không hợp lệ (nguồn [9]).

Các bước của quá trình tính toán với CTC (nguồn [9]). Xác suất của các đường đi hợp lệ (nguồn [10]). Tập hợp các đường đi hợp lệ (nguồn [10]). Cơ chế tính toán quy hoạch động (nguồn [9]).

Mô tả viêc tính toán CTCLoss – 1 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 2 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 3 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 4 (nguồn [10]).

Mô tả viêc tính toán CTCLoss – 5 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 6 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 7 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 8 (nguồn [10]).

Mô tả viêc tính toán CTCLoss – 9 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 10 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 11 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 12 (nguồn [10]).

Mô tả viêc tính toán CTCLoss – 13 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 14 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 15 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 16 (nguồn [10]).

Mô tả viêc tính toán CTCLoss – 17 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 18 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 19 (nguồn [10]). Mô tả viêc tính toán CTCLoss – 20 (nguồn [10]).

Mô tả viêc tính toán CTCLoss – 21 (nguồn [10]). Sơ đồ khối hệ thống. Khối xử lý điều khiển. Giao diện ứng dụng.

40 DANH MỤC BẢNG BIỂU Bảng 4. Thống kê dữ liệu huấn luyện. Kết quả huấn luyện. Kết quả thực nghiệm - 1.

Kết quả thực nghiệm - 2. Kết quả thực nghiệm - 3. Kết quả thực nghiệm - 4. Kết quả thực nghiệm - 5.

GIỚI THIỆU TỔNG QUAN Trong chương này chúng tôi tập trung giới thiệu tổng quan về hệ thống nhận dạng giọng nói, sơ lược về tình hình nghiên cứu nhận dạng giọng nói trên thế giới và trong nước. Chương này cũng nêu ra mục tiêu của đề tài, xác định giới hạn và đối tượng nghiên của đề tài. Phần cuối trình bày các công trình nghiên cứu và giải pháp đề xuất. TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG GIỌNG NÓI Hệ thống nhận dạng giọng nói là một hệ thống có khả năng chuyển đổi tín hiệu tiếng nói của con người thành chuỗi kí tự có nghĩa.

Trong đề tài này chúng tôi sẽ nghiên cứu xây dựng một hệ thống điều khiển thiết bị bằng giọng nói Tiếng Việt thông qua thiết bị di động cầm tay.1 Mô hình hoạt động của một hệ thống nhận dạng giọng nói Quá trình nhận dạng giọng nói bằng học máy cơ bản đi qua các bước sau:  Trích rút đặc trưng giọng nói.  Nhận dạng: Vector đặc trưng được đưa vào nhận dạng thông qua mô hình đã được huấn luyện trước đó.  Xử lý kết quả nhận dạng (nếu có): Đối với hệ thống nhận dạng từ liên tục hay đoạn âm thanh có thời lượng lớn thì chuỗi kí tự này thường sẽ được đi qua mô hình ngôn ngữ để cho kết quả tối ưu. Một số lĩnh vực ứng dụng về công nghệ nhận dạng giọng nói nỗi bật như trợ lý ảo (Google Assistant, Siri) hay công nghiệp robot (Sophia, Asimo).

TÌNH HÌNH NGHIÊN CỨU 1. Tình hình nghiên cứu trên thế giới Trên thế giới nhận dạng máy ra đời từ những năm 1920, trong đó những nghiên cứu về nhận dạng giọng nói trải qua nhiều giai đoạn. Giai đoạn 1920-1960 nghiên cứu về nhận dạng giọng nói dựa trên âm học, thành tựu đạt được trong giai đoạn này như là hệ thống nhận dạng những con số rời rạc được xây dựng tại phòng thí nghiệm Bell. Giai đoạn 1960-1970 nhận dạng dựa trên phần cứng, có nhiều phòng thí nghiệm ở Nhật tham gia vào nghiên cứu.

Thành qủa đạt được như là việc phát triển phần cứng để nhận dạng các nguyên âm tại phòng thí nghiệm Radio Research Lab ở Tokyo, phần cứng nhận dạng âm vị được Sakai và Doshita của Đại Học Kyoto phát triển dựa trên việc phân tích sự cắt qua điểm không của tín hiệu tiếng nói, giải thuật quy hoạch động cũng được Vintsyuk đề xuất năm 1968 và sau này được gọi là giải thuật Dynamic Time Warping (DTW). Từ 1970-1980 có những nghiên cứu nhận dạng dựa trên mẫu. Hai nhà nghiên cứu người Nga là Velichko và Zagoruyko cho ra đời ý tưởng nhận dạng giọng nói bằng mẫu, phương pháp mã hóa dự đoán tuyến tính (Linear Predictive Coding - LPC) được áp dụng thành công. Trong những năm từ 1980-1990 nghiên cứu tập trung vào nhận dạng từ liên tục, trong giai đoạn này lý thuyết về Hidden Markov Model (HMM) được mở rộng để đảm bảo độ chính xác và hệ thống nhận dạng với bộ từ vựng lớn là nhiệm vụ mới.

Giai đoạn 1990-2000 có những nghiên cứu về mô hình lai giữa HMM và mô hình Artificial Neural Network (ANN). Việc nghiên cứu mô hình này đã rút ngắn đáng kể thời gian phân lớp các thuộc tính. Những năm 2000-2010 nghiên cứu nhận dạng dựa trên mô hình Variational Bayesian (VB) estimation. Thành quả nổi bật là một hệ thống nhận dạng cho ngôn ngữ Hindi được thiết kế bởi Gupta năm 2006 [15][16][17].

Tình hình nghiên cứu trong nước Về tình hình nghiên cứu ở Việt Nam, thì có thể nói GS. TSKH Bạch Hưng Khang là người đi tiên phong trong việc nghiên cứu nhận dạng tiếng Việt. Công trình đầu tiên của ông liên quan đến nhận dạng được đăng trong tạp chí khoa học “Thông báo khoa học” của Viện hàn lâm khoa học Belorus năm 1966. Thời kì 1981-2000 các vấn đề về nhận dạng chữ (một sản phẩm phần mềm là VnDOC), 3 nhận dạng hình ảnh và dịch tự động có nhiều nghiên cứu trong khi đó nhận dạng tiếng nói thì chưa được quan tâm nhiều [2].

Cho đến nay theo chúng tôi tìm hiểu thì trong nước có số lượng các nhóm nghiên cứu về nhận dạng giọng nói là khá ít, như là:  Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin.  Nhóm nghiên cứu MICA - ĐHBK Hà Nội.  Nhóm nghiên cứu phòng thí nghiệm Trí tuệ nhân tạo (AILab), trường ĐH Khoa học Tự nhiên, ĐHQG-HCM do PGS.TS Vũ Hải Quân đứng đầu.  Nhóm "Tương tác Người-Máy" trường ĐH Công Nghệ Thông Tin, ĐHQG- HCM do PGS.TS Vũ Đức Lung đứng đầu.

CÁC CÔNG TRÌNH LIÊN QUAN VÀ GIẢI PHÁP ĐỀ XUẤT 1. PHƯƠNG PHÁP TRÍCH RÚT ĐẶC TRƯNG GIỌNG NÓI Dưới đây là một số phương pháp trích chọn đặc trưng phổ biến và hiệu quả quả cho bài toán nhận dạng giọng nói. Phương pháp trích đặc trưng LPC (Linear Predictive Coding) Ý tưởng cơ bản của mô hình LPC là một mẫu tiếng nói cho trước tại thời điểm n s(n) có thể được xấp xỉ bởi một tổ hợp tuyến tính của p mẫu tín hiệu quá khứ. Mô hình LPC được sử dụng khá rông rãi trong các hệ thống nhận dạng tiếng nói là bởi các lý do sau:  LPC cung cấp một mô hình tốt của tín hiệu tiếng nói, đặc biệt đối với các trạng thái gần ổn định của âm thanh, tuy nhiên trong các vùng ngắn và không âm, mô hình LPC hoạt động kém hiệu quả.

 Phương pháp tính toán của LPC chính xác về mặt toán học và đơn giản, trực tiếp trong việc cài đặt lên cả phần cứng hoặc phần mềm. Phương pháp trích đặc trưng MFCC (Mel-scale Frequency Cepstral Còeficient) Ngoài LPC ra thì MFCC cũng là một phương pháp trích chọn đặc trưng phổ biến. Phương pháp MFCC dựa trên những nghiên cứu về những dải thông quan 4 trọng (critical) của tai người đối với tần số. Và để thu được những đặc trưng ngữ âm quan trọng người ta sử dụng các bộ lọc tuyến tính với dải tần thấp và các bộ lọc có đặc tính loga với dải tần số cao.

Nói chính xác đó là đặc điểm cảm thụ âm của tai người: tuyến tính với các tần số dưới 1KHz và phi tuyến với các tần số trên 1KHz [1]. PHƯƠNG PHÁP NHẬN DẠNG GIỌNG NÓI 1. Phương pháp âm – ngữ học Phương pháp này dựa trên lý thuyết về âm – ngữ học. Trong lời nói tồn tại các đơn vị ngữ âm xác định, có tính phân biệt.

Các bước nhận dạng của phương pháp này bao gồm: Bước 1: Phân đoạn và gán nhãn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ: Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng điều khiển thiết bị thông minh qua điện thoại Android là một công trình nghiên cứu về công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong điều khiển thiết bị thông minh qua điện thoại Android. Công trình này được thực hiện bởi Bùi Thanh Phong dưới sự hướng dẫn của PGS. Quản Thành Thơ tại Đại học Bách Khoa - ĐHQG - HCM vào năm 2019. Mục tiêu của công trình là nghiên cứu và phát triển công nghệ nhận dạng giọng nói tiếng Việt để điều khiển thiết bị thông minh qua điện thoại Android.

Công trình này có thể mang lại lợi ích cho người đọc trong việc hiểu rõ hơn về công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế. Ngoài ra, công trình này cũng có thể là một nguồn tham khảo hữu ích cho những người muốn nghiên cứu và phát triển công nghệ nhận dạng giọng nói tiếng Việt.

Nếu bạn muốn tìm hiểu thêm về công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó, bạn có thể tham khảo các công trình nghiên cứu sau:

Luận văn thạc sĩ: Nghiên cứu kỹ thuật học sâu để biểu diễn đô thị không đồng nhất là một công trình nghiên cứu về kỹ thuật học sâu để biểu diễn đô thị không đồng nhất, được thực hiện bởi Nguyễn Thanh Toàn dưới sự hướng dẫn của PGS. Quản Thành Thơ tại Đại học Bách Khoa - ĐHQG-HCM vào năm 2019. Công trình này có liên quan đến công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế.

Luận văn thạc sĩ: Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính là một công trình nghiên cứu về phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính, được thực hiện bởi Từ Lãng Phiêu dưới sự hướng dẫn của PGS. Quản Thành Thơ tại Đại học Quốc gia TP.HCM vào năm 2021. Công trình này có liên quan đến công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế.

Luận văn thạc sĩ: Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính là một công trình nghiên cứu về trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính, được thực hiện tại Trường Đại Học Khoa Học Công Nghệ vào năm 2021. Công trình này có liên quan đến công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế.

#Luận văn Thạc sĩ

#công nghệ AI

#ứng dụng di động

#nhận dạng giọng nói

#điều khiển thiết bị thông minh

Chủ đề

Công nghệ nhận dạng giọng nói

Học máy và ứng dụng

Điều khiển thiết bị thông minh

Phát triển ứng dụng Android

Luận văn thạc sĩ khoa học máy tính nghiên cứu công nghệ nhận dạng giọng nói tiếng việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại android

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

1.1. TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG GIỌNG NÓI

1.2. TÌNH HÌNH NGHIÊN CỨU

1.2.1. Tình hình nghiên cứu trên thế giới

1.2.2. Tình hình nghiên cứu trong nước

1.3. CÁC CÔNG TRÌNH LIÊN QUAN VÀ GIẢI PHÁP ĐỀ XUẤT

1.3.1. PHƯƠNG PHÁP TRÍCH RÚT ĐẶC TRƯNG GIỌNG NÓI

1.3.1.1. Phương pháp trích đặc trưng LPC (Linear Predictive Coding)

1.3.1.2. Phương pháp trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient)

1.3.2. PHƯƠNG PHÁP NHẬN DẠNG GIỌNG NÓI

1.3.2.1. Phương pháp âm – ngữ học

1.3.2.2. Phương pháp nhận dạng mẫu

1.3.2.3. Phương pháp ứng dụng trí tuệ nhân tạo

1.3.3. GIẢI PHÁP ĐỀ XUẤT

1.4. MỤC TIÊU CỦA ĐỀ TÀI

1.5. GIỚI HẠN VÀ ĐỐI TƯỢNG NGHIÊN CỨU

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. PHƯƠNG PHÁP TRÍCH RÚT ĐẶC TRƯNG MFCC

2.2. Biến đổi FFT (Fast Fourier Transform)

TÀI LIỆU THAM KHẢO

BẢNG THUẬT NGỮ ANH - VIỆT VÀ TỪ VIẾT TẮT

I. Giới thiệu tổng quan

1.1. Tình hình nghiên cứu

II. Công nghệ và phương pháp nghiên cứu

2.1. Xây dựng hệ thống điều khiển

III. Kết quả và ứng dụng thực tiễn

3.1. Hướng phát triển tiếp theo

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Bùi Thanh Phong

Người hướng dẫn: PGS. Quản Thành Thơ

Trường học: Đại học Bách Khoa - ĐHQG - HCM

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Nghiên Cứu Công Nghệ Nhận Dạng Giọng Nói Tiếng Việt Sử Dụng Học Máy Cho Điều Khiển Thiết Bị Thông Minh Qua Android

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: TP. Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm