Nhận dạng tiếng nói tiếng Việt bằng mạng nơron trên Kit ARM

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

MỤC LỤC

DANH SÁCH CÁC CHỮ VIẾT TẮT

DANH SÁCH CÁC HÌNH

DANH SÁCH CÁC BẢNG

LỜI MỞ ĐẦU

1. CHƯƠNG 1: ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT

1.1. Tổng quan về tiếng nói

1.2. Các đặc điểm cơ bản của Tiếng Việt

1.3. Ngữ âm Tiếng Việt

1.4. Thanh điệu Tiếng Việt

1.5. Cấu trúc âm tiết Tiếng Việt

1.6. Hệ thống nhận dạng tiếng nói Tiếng Việt

1.6.1. Tổng quan về hệ thống nhận dạng tiếng nói

1.6.2. Các yếu tố ảnh hưởng đến hệ thống nhận dạng tiếng nói

1.6.3. Nhận dạng độc lập và phụ thuộc người nói

1.7. Lưu đồ giải thuật nhận dạng tiếng nói dừng mạng nơron

1.8. Lấy mẫu tín hiệu

1.8.1. Lọc thông thấp chống chồng phổ

1.8.2. Lấy mẫu tín hiệu tiếng nói

1.8.3. Chia khung (frame) tín hiệu

1.8.4. Tách tín hiệu ra khỏi nền

2. Phương pháp xác định điểm đầu, điểm cuối dùng năng lượng thời gian ngắn

2.1. Phương pháp xác định điểm đầu, điểm cuối dùng tỉ lệ biên độ tín hiệu qua điểm Zero

2.2. Phương pháp trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient)

2.2.1. Lọc cửa sổ

2.2.2. Biến đổi Fourier rời rạc (DFT)

2.2.3. Lọc tần số theo thang tần số Mel

2.2.4. Lấy logarit tín hiệu thang Mel

2.2.5. Biến đổi Fourier ngược (IFFT)

3. CHƯƠNG 3: MẠNG NƠRON NHÂN TẠO

3.1. Khái niệm về mạng nơron nhân tạo

3.2. Cấu trúc mạng nơron nhân tạo

3.2.1. Mạng nơron kết nối đầy đủ

3.2.2. Mạng nơron phân lớp

3.2.3. Mạng nơron truyền thẳng

3.3. Huấn luyện mạng nơron theo giải thuật lan truyền ngược

3.3.1. Tính toán ngõ ra nút mạng nơron theo hướng tới

3.3.2. Cập nhật trọng số mạng nơron theo luật delta

3.3.3. Giải thuật huấn luyện mạng nơron theo giải thuật lan truyền ngược

4. CHƯƠNG 4: BỘ KIT LM3S2965

4.1. Đặc tả bộ Kit LM3S2965

4.2. Cấu trúc Kit LM3S2965

4.3. Bộ chuyển đổi tương tự - số (ADC)

4.4. Khối hiển thị OLED

4.5. Một số hàm thư viện của Kit LM3S2965

4.5.1. Hàm cho bộ ADC

4.5.2. Hàm cho màn hình OLED

4.5.3. Hàm cho điều khiển hệ thống

4.5.4. Hàm cho bộ nhớ Flash

4.6. Thiết kế hệ thống nhận dạng tiếng nói Tiếng Việt

4.6.1. Thiết kế mạch thu âm

4.6.1.1. Khối mạch tiền khuếch đại micro tự điều chỉnh độ lợi

4.6.1.2. Khối mạch lọc thông dãy

4.6.1.3. Khối mạch giao tiếp ADC

4.6.2. Thiết kế chương trình lấy mẫu tín hiệu

4.6.2.1. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy trên PC

4.6.2.2. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy trên Kit LM3S2965

4.6.3. Thiết kế chương trình trích đặc trưng tín hiệu tiếng nói Tiếng Việt

4.6.4. Thiết kế cấu trúc mạng nơron

4.6.5. Thiết kế giao diện chương trình chạy trên Kit LM3S2965

4.7. Kết quả đạt được và hướng phát triển

4.7.1. Kết quả đạt được của chương trình chạy trên PC

4.7.2. Kết quả đạt được của chương trình chạy trên Kit LM3S2965

4.7.3. Hạn chế của đề tài và hướng phát triển

4.7.3.1. Đối với chương trình nhận dạng trên máy tính cá nhân

4.7.3.2. Đối với chương trình nhận dạng chạy trên Kit LM3S2965

Tài liệu tham khảo

I. Tổng quan về nhận dạng tiếng nói tiếng Việt bằng mạng nơron

Nhận dạng tiếng nói tiếng Việt là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ, đặc biệt với sự hỗ trợ của công nghệ mạng nơron. Mạng nơron nhân tạo có khả năng học và nhận diện các đặc trưng của tiếng nói, giúp cải thiện độ chính xác trong việc nhận dạng. Đề tài này tập trung vào việc ứng dụng mạng nơron trên Kit ARM để phát triển hệ thống nhận dạng tiếng nói tiếng Việt.

1.1. Đặc điểm của tiếng nói tiếng Việt trong nhận dạng

Tiếng nói tiếng Việt có nhiều đặc điểm riêng biệt như ngữ âm, thanh điệu và cấu trúc âm tiết. Những yếu tố này ảnh hưởng lớn đến quá trình nhận dạng tiếng nói, đòi hỏi các phương pháp xử lý tín hiệu phải được tối ưu hóa.

1.2. Vai trò của mạng nơron trong nhận dạng tiếng nói

Mạng nơron nhân tạo giúp mô phỏng quá trình học của con người, cho phép hệ thống nhận diện các mẫu tiếng nói phức tạp. Việc sử dụng mạng nơron trong nhận dạng tiếng nói tiếng Việt mở ra nhiều cơ hội mới cho các ứng dụng thực tiễn.

II. Thách thức trong nhận dạng tiếng nói tiếng Việt

Mặc dù có nhiều tiến bộ, nhưng việc nhận dạng tiếng nói tiếng Việt vẫn gặp phải nhiều thách thức. Các yếu tố như ngữ điệu, tốc độ nói và môi trường âm thanh có thể làm giảm độ chính xác của hệ thống. Việc phát triển một hệ thống nhận dạng tiếng nói hiệu quả đòi hỏi phải giải quyết những vấn đề này.

2.1. Ảnh hưởng của ngữ điệu và tốc độ nói

Ngữ điệu và tốc độ nói của người phát âm có thể thay đổi đáng kể, gây khó khăn cho hệ thống nhận dạng. Việc thu thập dữ liệu đa dạng từ nhiều người nói là cần thiết để cải thiện độ chính xác.

2.2. Tác động của môi trường âm thanh

Môi trường xung quanh có thể tạo ra tiếng ồn, làm ảnh hưởng đến chất lượng tín hiệu tiếng nói. Cần có các phương pháp lọc tiếng ồn hiệu quả để nâng cao khả năng nhận dạng.

III. Phương pháp nhận dạng tiếng nói tiếng Việt bằng mạng nơron

Để nhận dạng tiếng nói tiếng Việt, phương pháp sử dụng mạng nơron đã được áp dụng. Các bước chính bao gồm thu thập dữ liệu, trích xuất đặc trưng và huấn luyện mạng nơron. Những bước này đóng vai trò quan trọng trong việc cải thiện độ chính xác của hệ thống.

3.1. Quy trình thu thập và xử lý dữ liệu

Quy trình này bao gồm việc thu âm các mẫu tiếng nói và xử lý tín hiệu để trích xuất các đặc trưng cần thiết. Việc này giúp tạo ra một tập dữ liệu phong phú cho việc huấn luyện mạng nơron.

3.2. Trích xuất đặc trưng tín hiệu tiếng nói

Phương pháp trích xuất đặc trưng như MFCC (Mel-frequency cepstral coefficients) được sử dụng để chuyển đổi tín hiệu tiếng nói thành các thông số có thể xử lý được. Điều này giúp mạng nơron học được các đặc trưng quan trọng của tiếng nói.

3.3. Huấn luyện mạng nơron để nhận dạng

Mạng nơron được huấn luyện bằng cách sử dụng các mẫu đã được trích xuất. Quá trình này giúp mạng nơron học cách phân loại các mẫu tiếng nói khác nhau, từ đó nâng cao độ chính xác trong nhận dạng.

IV. Ứng dụng thực tiễn của nhận dạng tiếng nói tiếng Việt

Hệ thống nhận dạng tiếng nói tiếng Việt có nhiều ứng dụng thực tiễn, từ điều khiển robot đến các ứng dụng trong lĩnh vực giáo dục và y tế. Việc phát triển các ứng dụng này không chỉ giúp nâng cao hiệu quả công việc mà còn tạo ra những trải nghiệm mới cho người dùng.

4.1. Điều khiển robot bằng tiếng nói

Hệ thống nhận dạng tiếng nói có thể được sử dụng để điều khiển các cánh tay robot, giúp thực hiện các nhiệm vụ tự động hóa. Điều này mở ra nhiều cơ hội trong lĩnh vực công nghiệp và sản xuất.

4.2. Ứng dụng trong giáo dục và y tế

Nhận dạng tiếng nói có thể hỗ trợ trong việc giảng dạy và học tập, cũng như trong các ứng dụng y tế như ghi chú tự động. Những ứng dụng này giúp tiết kiệm thời gian và nâng cao hiệu quả công việc.

V. Kết luận và tương lai của nhận dạng tiếng nói tiếng Việt

Nhận dạng tiếng nói tiếng Việt bằng mạng nơron đang trên đà phát triển mạnh mẽ. Mặc dù còn nhiều thách thức, nhưng với sự tiến bộ của công nghệ, tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều kết quả tích cực. Việc nghiên cứu và phát triển các phương pháp mới sẽ giúp nâng cao độ chính xác và khả năng ứng dụng của hệ thống.

5.1. Định hướng nghiên cứu trong tương lai

Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện độ chính xác của hệ thống nhận dạng, cũng như mở rộng từ vựng và khả năng nhận diện trong các điều kiện khác nhau.

5.2. Tác động của công nghệ AI đến nhận dạng tiếng nói

Công nghệ AI đang ngày càng phát triển, mở ra nhiều cơ hội mới cho nhận dạng tiếng nói. Việc tích hợp các công nghệ mới sẽ giúp nâng cao hiệu quả và khả năng ứng dụng của hệ thống.

Luận văn thạc sĩ về nhận dạng tiếng nói tiếng Việt sử dụng mạng nơron trên Kit ARM