Luận văn thạc sĩ HCMUTE: Ứng dụng mạng nơ-ron vào nhận dạng tiếng nói trên kit ARM Cortex M3

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2013

Phí lưu trữ

30 Point

Mục lục chi tiết

LÝ LỊCH KHOA HỌC

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

MỤC LỤC

DANH SÁCH CÁC HÌNH

DANH SÁCH CÁC BẢNG

DANH SÁCH CÁC CHỮ VIẾT TẮT

1. CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI, TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC

1.1. Nhận dạng tiếng nói

1.2. Tổng quan tình hình nghiên cứu

2. CHƯƠNG 2: GIẢI PHÁP TOÁN HỌC CHO BA BÀI TOÁN CƠ BẢN CỦA MÔ HÌNH MARKOV ẨN

3. CHƯƠNG 3: THIẾT KẾ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRÊN KIT ARM CORTEX-M3

3.1. Tổng quan về KIT STM32F103ZET6

3.2. Giới thiệu bộ xử lý ARM Cortex-M3

3.3. Kế hoạch thiết kế phần mềm

3.4. Cấu hình bộ KIT STM32F103ZET6

3.5. Thiết kế hệ thống nhận dạng tiếng nói trên KIT STM32F103ZET6

3.6. Trích đặc trưng. Lượng tử hóa vector. Huấn luyện ANN

3.7. Nhận dạng bằng mô hình ANN kết hợp với HMM

3.8. Kết quả thử nghiệm trên phần cứng

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Hạn chế của đề tài

4.2. Hướng phát triển của đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nhận dạng tiếng nói

Nhận dạng tiếng nói là một lĩnh vực quan trọng trong công nghệ thông tin, bao gồm việc nhận diện âm tiết, ngôn ngữ nói và trạng thái tâm lý của người nói. Nhận dạng tiếng nói có nhiều ứng dụng trong đời sống như xác nhận thông tin, dịch tự động và các hệ thống ngân hàng qua điện thoại. Tuy nhiên, việc phát triển hệ thống nhận dạng tiếng nói cho tiếng Việt gặp nhiều khó khăn do đặc tính ngôn ngữ và thanh điệu. Các hệ thống hiện tại chủ yếu tập trung vào tiếng Anh và các ngôn ngữ khác, trong khi tiếng Việt vẫn còn thiếu sót. Việc nghiên cứu và phát triển công nghệ nhận dạng tiếng nói cho tiếng Việt là cần thiết để đáp ứng nhu cầu giao tiếp tự nhiên giữa con người và máy tính.

1.1. Tình hình nghiên cứu trong và ngoài nước

Trên thế giới, nhiều hệ thống nhận dạng tiếng nói đã được phát triển và ứng dụng hiệu quả, như Via Voice của IBM và Spoken Toolkit của CSLU. Tuy nhiên, ở Việt Nam, lĩnh vực này vẫn còn mới mẻ. Các công ty lớn như Mobifone và Viettel đã thử nghiệm nhưng vẫn gặp nhiều hạn chế. Việc nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng Việt vẫn chưa được chú trọng, dẫn đến việc ứng dụng còn hạn chế và không đáp ứng được nhu cầu thực tế. Đề tài nghiên cứu này nhằm phát triển một hệ thống nhận dạng tiếng nói cho tiếng Việt, sử dụng mạng nơ-ron để cải thiện độ chính xác và khả năng nhận diện.

II. Ứng dụng mạng nơ ron trong nhận dạng tiếng nói

Mạng nơ-ron nhân tạo (ANN) đã trở thành một công cụ mạnh mẽ trong lĩnh vực nhận dạng tiếng nói. Việc áp dụng học sâu (Deep Learning) giúp cải thiện đáng kể độ chính xác của các hệ thống nhận dạng. Mô hình mạng nơ-ron có khả năng học từ dữ liệu lớn và nhận diện các đặc trưng phức tạp của tín hiệu âm thanh. Trong nghiên cứu này, mô hình ANN được kết hợp với mô hình Markov ẩn (HMM) để tối ưu hóa quá trình nhận dạng. Kết quả thử nghiệm cho thấy độ chính xác đạt khoảng 80% trong điều kiện bình thường, cho thấy tiềm năng của việc ứng dụng mạng nơ-ron trong nhận dạng tiếng nói tiếng Việt.

2.1. Thiết kế hệ thống nhận dạng tiếng nói trên kit ARM Cortex M3

Hệ thống nhận dạng tiếng nói được triển khai trên kit ARM Cortex-M3, sử dụng bộ xử lý STM32F103ZET6. Việc thiết kế phần mềm và cấu hình hệ thống được thực hiện để tối ưu hóa hiệu suất. Các bước như trích đặc trưng tín hiệu âm thanh, huấn luyện ANN và nhận dạng từ đơn được thực hiện một cách tuần tự. Kết quả thử nghiệm cho thấy hệ thống có khả năng nhận diện từ đơn với độ chính xác cao, mở ra hướng phát triển cho các ứng dụng thực tiễn trong tương lai.

III. Kết luận và hướng phát triển

Nghiên cứu này đã chỉ ra rằng việc ứng dụng mạng nơ-ron trong nhận dạng tiếng nói trên kit ARM Cortex-M3 có thể mang lại những kết quả khả quan. Độ chính xác đạt được trong các thử nghiệm cho thấy tiềm năng của công nghệ này trong việc phát triển các ứng dụng thực tiễn. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua, như cải thiện độ chính xác trong môi trường ồn ào và mở rộng bộ từ vựng. Hướng phát triển tiếp theo có thể bao gồm việc tích hợp thêm các công nghệ mới và mở rộng khả năng nhận diện cho nhiều ngữ điệu và giọng nói khác nhau.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute ứng dụng neural network vào nhận dạng tiếng nói trên kit arm cortex m3

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng trong ngành kỹ thuật điện tử và xử lý ngôn ngữ tự nhiên, với mục tiêu giúp máy tính có thể hiểu và phản hồi ngôn ngữ nói của con người. Theo báo cáo của ngành, các hệ thống nhận dạng tiếng Anh hiện nay đạt độ chính xác khoảng 90-95%, tuy nhiên đối với tiếng Việt, lĩnh vực này còn khá mới mẻ và chưa có phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trường. Tiếng Việt là ngôn ngữ có đặc điểm thanh điệu và cấu trúc âm tiết phức tạp, gây khó khăn lớn cho việc nhận dạng tự động.

Luận văn tập trung nghiên cứu ứng dụng mạng nơ-ron nhân tạo (Neural Network) vào nhận dạng tiếng nói tiếng Việt trên nền tảng phần cứng KIT ARM Cortex-M3, với bộ từ vựng gồm 5 từ đơn: tiến, lùi, trái, phải, dừng. Mục tiêu chính là xây dựng một hệ thống nhận dạng tiếng nói cỡ nhỏ, có thể hoạt động hiệu quả trên vi điều khiển ARM Cortex-M3, một nền tảng phổ biến trong các thiết bị di động và robot dịch vụ hiện nay. Thời gian nghiên cứu tập trung vào năm 2013 tại thành phố Hồ Chí Minh, với ý nghĩa mở rộng ứng dụng công nghệ nhận dạng tiếng nói trong các thiết bị di động và hệ thống điều khiển bằng giọng nói tại Việt Nam.

Kết quả thử nghiệm cho thấy hệ thống đạt độ chính xác nhận dạng khoảng hơn 80% trong điều kiện môi trường bình thường, mở ra hướng phát triển mới cho các ứng dụng điều khiển robot và thiết bị thông minh bằng tiếng Việt.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và Mô hình Markov ẩn (Hidden Markov Model - HMM).

Mạng nơ-ron nhân tạo (ANN): Mạng perceptron đa lớp (Multi Layer Perceptron - MLP) được sử dụng để phân loại các đặc trưng tiếng nói. MLP gồm lớp đầu vào, lớp ẩn và lớp đầu ra, sử dụng hàm kích hoạt sigmoid để mô hình hóa các hàm phi tuyến. Mạng được huấn luyện bằng thuật toán lan truyền ngược lỗi (back-propagation) nhằm tối ưu hóa trọng số mạng để giảm sai số nhận dạng.
Mô hình Markov ẩn (HMM): HMM mô hình hóa quá trình phát sinh tín hiệu tiếng nói như một chuỗi các trạng thái ẩn, mỗi trạng thái tương ứng với một đơn vị âm thanh. HMM được đặc trưng bởi ma trận xác suất chuyển trạng thái, xác suất phát xạ quan sát và xác suất trạng thái khởi đầu. Ba bài toán cơ bản của HMM gồm tính xác suất chuỗi quan sát, tìm dãy trạng thái tối ưu và huấn luyện mô hình.

Ngoài ra, các khái niệm chuyên ngành quan trọng bao gồm:

MFCC (Mel-Frequency Cepstral Coefficients): Phương pháp trích đặc trưng phổ âm thanh theo thang tần số Mel, mô phỏng cách tai người cảm nhận âm thanh, giúp giảm chiều dữ liệu và tăng độ tin cậy.
FFT (Fast Fourier Transform): Thuật toán biến đổi Fourier nhanh, chuyển tín hiệu từ miền thời gian sang miền tần số để phân tích phổ.
Voice Activity Detection (VAD): Kỹ thuật tách tiếng nói khỏi khoảng lặng và nhiễu nền dựa trên năng lượng và tỷ lệ qua điểm zero.
Lượng tử hóa vector (Vector Quantization): Phương pháp giảm số lượng vector đặc trưng để tiết kiệm bộ nhớ và tăng tốc xử lý.

Phương pháp nghiên cứu

Nguồn dữ liệu thu thập gồm các mẫu tiếng nói tiếng Việt với bộ từ vựng 5 từ đơn, được ghi âm trong điều kiện môi trường bình thường. Cỡ mẫu cụ thể không được nêu rõ, tuy nhiên quá trình thu thập và phân loại mẫu được thực hiện kỹ lưỡng nhằm đảm bảo tính đại diện và đặc trưng cho từng lớp từ.

Phương pháp phân tích dữ liệu bao gồm:

Tiền xử lý tín hiệu: lọc nhiễu, nhấn mạnh tín hiệu, tách tiếng nói khỏi khoảng lặng bằng kỹ thuật VAD.
Chia tín hiệu thành các khung (frame) 20 ms với vùng gối 5 ms, áp dụng cửa sổ Hamming để giảm gián đoạn.
Trích đặc trưng MFCC gồm 39 thành phần (12 hệ số cepstral, năng lượng, hệ số delta và double-delta).
Huấn luyện mạng MLP với thuật toán back-propagation để phân loại các vector đặc trưng.
Kết hợp mô hình HMM để cải thiện khả năng nhận dạng chuỗi âm tiết.

Quá trình nghiên cứu được thực hiện trong năm 2013, với việc lập trình mô phỏng trên Matlab và thực thi trên KIT STM32F103ZET6 sử dụng vi điều khiển ARM Cortex-M3. Phương pháp chọn mẫu là chọn mẫu ngẫu nhiên từ bộ dữ liệu thu thập, đảm bảo tính đa dạng về giọng nói và ngữ cảnh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng: Hệ thống nhận dạng tiếng nói trên KIT ARM Cortex-M3 đạt độ chính xác khoảng 80% trong điều kiện môi trường bình thường và có thể lên đến 90% trong môi trường không có nhiễu. Đây là kết quả khả quan đối với một hệ thống cỡ nhỏ với bộ từ vựng giới hạn 5 từ.
Ảnh hưởng của nhiễu môi trường: Kết quả thử nghiệm cho thấy độ chính xác giảm khoảng 10% khi môi trường có nhiễu, phản ánh tính nhạy cảm của hệ thống với điều kiện thực tế. Điều này phù hợp với các nghiên cứu khác về nhận dạng tiếng nói trong môi trường nhiễu.
Hiệu quả của phương pháp MFCC và ANN: Việc sử dụng MFCC để trích đặc trưng kết hợp với mạng MLP cho phép nhận dạng chính xác các từ đơn trong bộ từ vựng. Số lượng đặc trưng 39 chiều được cân nhắc hợp lý để đảm bảo độ chính xác và tốc độ xử lý trên vi điều khiển.
Khả năng thực thi trên phần cứng ARM Cortex-M3: Việc triển khai thành công hệ thống nhận dạng trên KIT STM32F103ZET6 chứng minh vi điều khiển ARM Cortex-M3 đủ mạnh để xử lý các thuật toán nhận dạng tiếng nói cơ bản, mở rộng ứng dụng cho các thiết bị di động và robot.

Thảo luận kết quả

Nguyên nhân chính của độ chính xác chưa đạt 100% là do đặc điểm biến thiên của tiếng nói tiếng Việt, bao gồm sự khác biệt về giọng nói giữa các vùng miền, tốc độ nói và môi trường nhiễu. So với các hệ thống nhận dạng tiếng Anh có độ chính xác 90-95%, kết quả này là bước đầu khả quan cho tiếng Việt, một ngôn ngữ tonal phức tạp hơn.

Việc áp dụng mạng nơ-ron nhân tạo giúp hệ thống có khả năng học và tổng quát hóa tốt, tuy nhiên chi phí huấn luyện và bộ nhớ hạn chế của vi điều khiển là thách thức lớn. So sánh với các nghiên cứu sử dụng FPGA, ARM Cortex-M3 có ưu điểm về tính phổ biến và dễ tiếp cận nhưng hạn chế về tài nguyên phần cứng.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác nhận dạng trong các môi trường khác nhau, bảng thống kê kết quả thử nghiệm với từng từ trong bộ từ vựng, và biểu đồ cấu trúc mạng MLP cùng quá trình huấn luyện.

Đề xuất và khuyến nghị

Mở rộng bộ từ vựng và cải tiến mô hình: Tăng số lượng từ nhận dạng từ 5 lên khoảng 20-30 từ để nâng cao tính ứng dụng, đồng thời áp dụng mô hình lai ANN-HMM để cải thiện độ chính xác nhận dạng.
Tối ưu hóa thuật toán xử lý tín hiệu: Áp dụng các kỹ thuật lọc nhiễu thích nghi và cải tiến thuật toán VAD nhằm giảm ảnh hưởng của môi trường nhiễu, nâng cao độ chính xác trong điều kiện thực tế.
Nâng cấp phần cứng: Sử dụng các vi điều khiển ARM Cortex-M4 hoặc M7 có hiệu năng cao hơn để xử lý nhanh hơn và hỗ trợ bộ nhớ lớn hơn, giúp mở rộng khả năng nhận dạng và tăng tốc độ phản hồi.
Phát triển ứng dụng thực tế: Triển khai hệ thống nhận dạng tiếng nói trong các thiết bị điều khiển robot, thiết bị di động và trợ giúp người khuyết tật, với lộ trình 1-2 năm để thử nghiệm và hoàn thiện.

Các giải pháp trên cần sự phối hợp giữa các nhà nghiên cứu, kỹ sư phần mềm và phần cứng, đồng thời có sự hỗ trợ từ các doanh nghiệp công nghệ để đưa sản phẩm vào ứng dụng thực tế.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành kỹ thuật điện tử, xử lý tín hiệu: Luận văn cung cấp kiến thức nền tảng về nhận dạng tiếng nói, mạng nơ-ron nhân tạo và mô hình Markov ẩn, phù hợp để tham khảo cho các đề tài nghiên cứu liên quan.
Kỹ sư phát triển phần mềm nhúng và vi điều khiển: Nội dung chi tiết về triển khai thuật toán nhận dạng tiếng nói trên KIT ARM Cortex-M3 giúp kỹ sư hiểu rõ cách tích hợp và tối ưu phần mềm trên phần cứng thực tế.
Doanh nghiệp công nghệ phát triển thiết bị điều khiển giọng nói: Các công ty muốn phát triển sản phẩm điều khiển bằng giọng nói tiếng Việt có thể áp dụng phương pháp và kết quả nghiên cứu để xây dựng hệ thống nhận dạng phù hợp.
Nhà nghiên cứu ngôn ngữ học và xử lý ngôn ngữ tự nhiên: Luận văn trình bày đặc trưng âm vị, âm tiết và thanh điệu tiếng Việt, hỗ trợ nghiên cứu sâu về ngôn ngữ tiếng Việt trong lĩnh vực xử lý tiếng nói.

Câu hỏi thường gặp

Hệ thống nhận dạng tiếng nói trên ARM Cortex-M3 có thể mở rộng bộ từ vựng không?
Có thể mở rộng nhưng bị giới hạn bởi bộ nhớ và tốc độ xử lý của vi điều khiển. Việc mở rộng cần tối ưu thuật toán và có thể kết hợp mô hình lai ANN-HMM để duy trì độ chính xác.
Phương pháp MFCC có ưu điểm gì trong nhận dạng tiếng nói?
MFCC mô phỏng cách tai người cảm nhận âm thanh theo thang tần số Mel, giúp trích xuất đặc trưng hiệu quả, giảm chiều dữ liệu và tăng độ tin cậy trong nhận dạng.
Tại sao cần kết hợp mạng nơ-ron nhân tạo với mô hình Markov ẩn?
Mạng nơ-ron mạnh trong phân loại mẫu tĩnh, còn HMM xử lý tốt chuỗi thời gian và biến thiên tín hiệu, kết hợp giúp cải thiện độ chính xác nhận dạng tiếng nói liên tục.
Độ chính xác 80% có đủ để ứng dụng thực tế không?
Độ chính xác này phù hợp với các ứng dụng điều khiển đơn giản và thử nghiệm, nhưng với các ứng dụng phức tạp hơn cần nâng cao độ chính xác qua cải tiến mô hình và dữ liệu huấn luyện.
Vi điều khiển ARM Cortex-M3 có ưu điểm gì trong nhận dạng tiếng nói?
ARM Cortex-M3 có hiệu năng xử lý đủ cho các thuật toán nhận dạng cơ bản, tiêu thụ điện năng thấp, chi phí hợp lý và phổ biến trong các thiết bị di động, thuận tiện cho phát triển ứng dụng nhúng.

Kết luận

Luận văn đã nghiên cứu và triển khai thành công hệ thống nhận dạng tiếng nói tiếng Việt trên KIT ARM Cortex-M3 với bộ từ vựng 5 từ, đạt độ chính xác khoảng 80-90%.
Ứng dụng phương pháp trích đặc trưng MFCC kết hợp mạng nơ-ron nhân tạo MLP và mô hình Markov ẩn giúp cải thiện hiệu quả nhận dạng.
Vi điều khiển ARM Cortex-M3 được chứng minh là nền tảng phù hợp cho các hệ thống nhận dạng tiếng nói cỡ nhỏ, mở rộng ứng dụng trong điều khiển robot và thiết bị di động.
Hạn chế về bộ nhớ và tốc độ xử lý đặt ra thách thức cho việc mở rộng bộ từ vựng và nâng cao độ chính xác, cần nghiên cứu thêm các mô hình lai và tối ưu thuật toán.
Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng bộ từ vựng, cải tiến thuật toán lọc nhiễu, nâng cấp phần cứng và phát triển ứng dụng thực tế trong 1-2 năm tới.

Để tiếp tục phát triển công nghệ nhận dạng tiếng nói tiếng Việt, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng kết quả này làm nền tảng, đồng thời phối hợp đa ngành để nâng cao hiệu quả và tính ứng dụng của hệ thống.

Bài viết "Luận văn thạc sĩ HCMUTE: Ứng dụng mạng nơ-ron vào nhận dạng tiếng nói trên kit ARM Cortex M3" của tác giả Lê Hoàng Hân, dưới sự hướng dẫn của PGS. Lê Tiến Thường, trình bày về việc áp dụng mạng nơ-ron trong lĩnh vực nhận dạng tiếng nói, đặc biệt là trên nền tảng kit ARM Cortex M3. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về công nghệ nhận dạng tiếng nói mà còn mở ra hướng đi mới cho việc phát triển các ứng dụng thông minh trong tương lai. Độc giả sẽ tìm thấy những thông tin hữu ích về cách thức hoạt động của mạng nơ-ron và ứng dụng của nó trong thực tiễn.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến nhận dạng tiếng nói và công nghệ học sâu, hãy tham khảo thêm bài viết Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi khám phá cách sử dụng Active Learning trong nhận diện giọng nói. Bài viết Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ cũng sẽ cung cấp cho bạn cái nhìn về việc kết hợp học sâu và mô hình ngôn ngữ trong nhận dạng tiếng nói tiếng Việt. Cuối cùng, bài viết Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ sẽ giúp bạn hiểu rõ hơn về ứng dụng của học sâu trong các lĩnh vực khác nhau. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực công nghệ thông tin và nhận dạng tiếng nói.

#hệ thống nhúng

#Nhận Diện Giọng Nói

#nhận dạng tiếng nói

#xử lý tín hiệu

#ứng dụng AI

#ARM Cortex M3

Chủ đề

Mạng nơ-ron và ứng dụng

Học máy trong xử lý tín hiệu

Công nghệ nhận dạng tiếng nói

Hệ thống nhúng và vi điều khiển