I. Tổng quan tình hình nghiên cứu trong và ngoài nước
Nghiên cứu về nhận dạng và xử lý ngôn ngữ tiếng Việt đã được thực hiện từ sớm, với nhiều chương trình trọng điểm quốc gia. Ba lĩnh vực chính bao gồm nhận dạng tiếng nói, nhận dạng chữ, và xử lý ngôn ngữ tự nhiên. Các nghiên cứu này không chỉ giúp phát triển công nghệ thông tin mà còn đáp ứng nhu cầu giao tiếp bằng tiếng Việt. Mặc dù có nhiều thành tựu trong lĩnh vực này, nhưng việc phát triển các sản phẩm thương mại cho tiếng Việt vẫn còn hạn chế. Các phần mềm thương mại cho tiếng Anh đã đạt được chất lượng cao, trong khi tiếng Việt vẫn cần nhiều nghiên cứu hơn để đạt được kết quả tương tự. Đặc biệt, việc xử lý ngôn ngữ tự nhiên và dịch tự động vẫn là những thách thức lớn, với nhu cầu cấp thiết trong việc phát triển các công cụ hỗ trợ cho người dùng. Những nghiên cứu này không chỉ mang lại giá trị lý thuyết mà còn có ứng dụng thực tiễn trong đời sống hàng ngày.
II. Những nội dung đã thực hiện
Đề tài đã thực hiện ba nội dung chính: nhận dạng và tổng hợp tiếng Việt, nhận dạng chữ Việt in và viết tay, và xử lý ngôn ngữ tự nhiên tiếng Việt. Mỗi nội dung đều có những sản phẩm phần mềm cụ thể như VnVoice 2.0 cho tổng hợp tiếng nói, VnCommand cho nhận dạng lệnh, và VnDOCR 3.0 cho nhận dạng chữ in. Các sản phẩm này không chỉ phục vụ cho nghiên cứu mà còn có thể ứng dụng trong thực tiễn. Đặc biệt, việc phát triển phần mềm dịch tự động EVTRAN 2.0 đã góp phần quan trọng trong việc hỗ trợ người dùng trong việc dịch văn bản. Tuy nhiên, việc nhận dạng chữ viết tay vẫn còn nhiều hạn chế và cần được nghiên cứu thêm. Các kết quả nghiên cứu đã được công bố trên nhiều tạp chí và hội nghị, làm phong phú thêm lý thuyết về tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh điệu.
III. Kết quả nghiên cứu về Tổng hợp và Nhận dạng tiếng Việt
Đề tài đã tiến hành khảo sát về ngữ âm tiếng Việt, một yếu tố quan trọng trong việc phát triển công nghệ nhận dạng và tổng hợp tiếng nói. Tiếng Việt có cấu trúc âm tiết đặc trưng với các thanh điệu khác nhau, điều này đòi hỏi các phương pháp nghiên cứu phù hợp. Đã có ba phương pháp tổng hợp tiếng Việt được nghiên cứu, trong đó phương pháp kết nối các đơn vị âm cơ bản (PSOLA) được lựa chọn là giải pháp tối ưu. Phương pháp này cho phép tạo ra âm thanh cho bất kỳ âm tiết nào, mở ra khả năng ứng dụng rộng rãi trong các sản phẩm công nghệ. Việc phân tích âm tiết và thanh điệu đã giúp xây dựng cơ sở dữ liệu âm cho tiếng Việt, từ đó nâng cao chất lượng nhận dạng và tổng hợp tiếng nói.
IV. Nghiên cứu phát triển kỹ thuật nhận dạng chữ in và viết tay tiếng Việt
Nghiên cứu về nhận dạng chữ đã đạt được những thành tựu nhất định, đặc biệt là trong lĩnh vực nhận dạng chữ in. Phần mềm VnDOCR 2.0 đã được phát triển và thương mại hóa, tuy nhiên vẫn cần cải thiện để đáp ứng yêu cầu cao hơn về chất lượng nhận dạng. Nhận dạng chữ viết tay vẫn là một thách thức lớn, với nhiều phương pháp hiện tại chỉ có thể nhận dạng chữ viết tay có hạn chế. Việc phát triển các công nghệ mới và cải tiến các phương pháp hiện có là cần thiết để nâng cao khả năng nhận dạng chữ viết tay tiếng Việt. Các nghiên cứu này không chỉ có giá trị lý thuyết mà còn có ứng dụng thực tiễn trong việc số hóa tài liệu và hỗ trợ người dùng trong việc tương tác với máy tính.
V. Nghiên cứu phát triển các kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt
Xử lý ngôn ngữ tự nhiên là một lĩnh vực quan trọng trong nghiên cứu công nghệ thông tin. Đề tài đã tập trung vào việc phát triển các phương pháp dịch tự động và xây dựng từ điển điện tử cho tiếng Việt. Sản phẩm EVTRAN 2.0 đã được phát triển để hỗ trợ dịch văn bản từ tiếng Anh sang tiếng Việt, tuy nhiên, việc dịch ngược lại vẫn chưa được thực hiện. Các nghiên cứu về xử lý ngôn ngữ tự nhiên cần được mở rộng để bao quát nhiều khía cạnh hơn, từ phân tích ngữ nghĩa đến xây dựng các công cụ hỗ trợ cho người dùng. Việc phát triển các công nghệ này không chỉ giúp nâng cao khả năng giao tiếp giữa người và máy mà còn góp phần vào việc bảo tồn và phát triển ngôn ngữ Việt Nam trong thời đại số.