I. Tính Cấp Thiết Của Đề Tài
Trong bối cảnh xã hội thông tin hiện đại, nhu cầu giao tiếp không chỉ giữa con người mà còn giữa con người với máy móc ngày càng gia tăng. Nhận thức tiếng nói trở thành một lĩnh vực quan trọng, giúp máy tính hiểu và tương tác với con người. Việc phát triển các hệ thống có khả năng xử lý tín hiệu âm thanh và nhận thức tiếng nói đã được nghiên cứu từ những năm 1950. Tuy nhiên, các nghiên cứu ban đầu chỉ tập trung vào một số bài toán cụ thể như tách nguồn tiếng nói hay nhận dạng tiếng nói. Gần đây, nhiều thành tựu đã đạt được, nhưng vẫn còn thiếu các nghiên cứu liên kết giữa nhận thức tiếng nói với các giác quan khác. Điều này cho thấy sự cần thiết phải phát triển các mô hình mới, giúp máy tính có thể nhận thức tiếng nói một cách tự nhiên hơn, tương tự như con người.
II. Mục Tiêu và Phạm Vi Nghiên Cứu
Mục tiêu chính của đề tài là xây dựng mô hình nhận thức tiếng nói dựa trên liên kết giữa tín hiệu thính giác và các thông tin khác. Phạm vi nghiên cứu bao gồm việc xử lý đoạn tín hiệu tiếng nói, biểu diễn tín hiệu và trích chọn đặc trưng tiếng nói. Đề tài cũng sẽ thực hiện các thí nghiệm để hiểu tiếng nói ở khía cạnh liên kết với từ và các tín hiệu khác. Nhiệm vụ của đề tài bao gồm cải thiện phương pháp học liên kết giữa tín hiệu tiếng nói với các từ đã định nghĩa, xây dựng mô hình học mối quan hệ giữa tín hiệu tiếng nói và các tín hiệu khác, và cải thiện tốc độ xử lý thông qua rút gọn dữ liệu đặc trưng.
III. Phương Pháp Nghiên Cứu
Phương pháp nghiên cứu kết hợp giữa lý thuyết và thực nghiệm. Về lý thuyết, nghiên cứu các lý thuyết và mô hình nhận thức tiếng nói. Về thực nghiệm, xây dựng mô hình học máy mô phỏng bài toán nhận thức tiếng nói và thực hiện thí nghiệm trên các bộ dữ liệu tiếng nói. Phương pháp tổng hợp tài liệu và lựa chọn các cách tiếp cận đã thành công trong các lĩnh vực khác cũng được áp dụng. Kết quả nghiên cứu sẽ giúp cải tiến phương pháp và nâng cao chất lượng mô hình, đáp ứng các bài toán thực tiễn trong lĩnh vực nhận thức tiếng nói.
IV. Kết Quả Nghiên Cứu
Đề xuất sử dụng đặc trưng SIFT-SPEECH từ phổ tần số của tín hiệu tiếng nói, dựa trên cơ chế thu nhận của hệ thính giác con người. Phương pháp phân lớp LNBNN-SIFT-SPEECH được áp dụng cho bài toán nhận thức tiếng nói, cho kết quả khả quan trên các bộ dữ liệu thực nghiệm. Mô hình mạng tích chập cũng được đề xuất để cải thiện khả năng nhận thức tiếng nói trong mối liên hệ với khái niệm đã định nghĩa. Các kết quả nghiên cứu sẽ đóng góp mới cho lĩnh vực nhận thức tiếng nói, đồng thời có thể ứng dụng trong giao tiếp người-máy.
V. Cấu Trúc Luận Án
Cấu trúc luận án bao gồm phần mở đầu, 5 chương nội dung, kết luận, danh mục tài liệu tham khảo và phụ lục. Chương 1 giới thiệu các khái niệm cơ bản về hệ thính giác và bài toán nhận thức tiếng nói. Chương 2 trình bày các kiến thức cơ sở về nhận thức tiếng nói và các phương pháp học máy. Chương 3 đề xuất các hướng tiếp cận mới cho bài toán nhận thức tiếng nói. Chương 4 mô tả mô hình học mối quan hệ giữa tín hiệu tiếng nói và hình ảnh. Chương 5 trình bày phương pháp rút gọn đặc trưng và cài đặt phương pháp phân lớp trên nền tảng Hadoop.