I. Tổng Quan Nghiên Cứu Hệ Thống Thông Tin ĐHQGHN Hiện Nay
Hiện nay, với những thế mạnh vượt trội của công nghệ nhận dạng tiếng nói, việc sử dụng ngôn ngữ tự nhiên để giao tiếp và tương tác với các thiết bị thông minh ngày càng trở nên phổ biến. Các ứng dụng phần mềm trợ lý ảo cho người dùng đã xuất hiện trên các thiết bị thông minh gồm điện thoại thông minh và máy tính bảng như: Siri của Apple, Cortana của Microsoft hay Google Now của Google. Các ứng dụng này phục vụ các mục đích khác nhau nhưng tất cả chúng đều có hai giai đoạn chính: nhận dạng tiếng nói tự động (Automatic Speech Recognition – ASR) và hiểu văn bản ngôn ngữ nói. Nhận dạng thực thể tên (Named Entity Recognition) cho văn bản ngôn ngữ nói chính là một trong những vấn đề cơ bản và cần thiết để giúp cho việc hiểu được ngôn ngữ tự nhiên một cách dễ dàng hơn.
1.1. Phát triển và Ứng dụng Công nghệ Nhận dạng Tiếng nói
Công nghệ nhận dạng tiếng nói tự động (ASR) đang phát triển mạnh mẽ, mở ra khả năng tương tác tự nhiên giữa người và máy. Các công cụ dịch tự động từ ngôn ngữ nói sang ngôn ngữ nói của Microsoft và AT&T là Microsoft Skype Translator hay AT&T Speech – to – Speech Translator. Các ứng dụng trong các trung tâm cuộc gọi tự động (call center) và trong ngành công nghiệp ô tô hiện đại như: điều khiển ô tô tự hành… Bên cạnh đó, gần đây sự xuất hiện của các phần mềm trợ lý ảo cho người dùng trên các thiết bị thông minh (ĐTTM), máy tính bảng như: Siri của Apple, Cortana của Microsoft hay Google Now của Google là 3 hãng công nghệ lớn nhất và nổi tiếng trên thế giới đã tiên phong hiện thực hóa việc giao tiếp và tương tác bằng giọng nói giữa con người với các THTM.
1.2. Bài toán Nhận dạng Thực thể Tên cho Ngôn ngữ Nói
Nhận dạng thực thể tên (Named Entity Recognition - NER) cho văn bản ngôn ngữ nói là một trong những vấn đề cơ bản và cần thiết để giúp cho việc hiểu được ngôn ngữ tự nhiên. Bài toán này tập trung vào việc xác định và phân loại các thực thể có tên trong văn bản, như tên người, tổ chức, địa điểm, thời gian, và các loại số liệu. Việc giải quyết bài toán NER giúp máy tính hiểu rõ hơn về ngữ cảnh và ý nghĩa của văn bản, từ đó hỗ trợ các ứng dụng như tìm kiếm thông tin, phân tích văn bản, và tương tác người-máy.
II. Thách Thức Nghiên Cứu Hệ Thống Thông Tin Tại ĐHQGHN
Có một số khó khăn và thách thức trong vấn đề nhận dạng thực thể tên cho văn bản ngôn ngữ nói như: các câu trong văn bản ngôn ngữ nói thường ngắn hơn các câu văn trong văn bản viết thông thường. Ngữ pháp trong câu văn nói chưa được chặt chẽ, thêm nữa tất cả các từ trong văn bản ngôn ngữ nói đều ở dạng chữ thường, không có chữ hoa và thậm chí nó không có cả các dấu câu trong văn bản. Các cụm từ như: địa chỉ hòm thư điện tử (email) hay các siêu liên kết (hyperlinks) bị nhận dạng thành các từ rời rạc, không liền mạch và đôi khi các kiểu chữ số trong văn bản còn bị nhận dạng thành kiểu chữ cái. Những đặc điểm này thực sự là những khó khăn trở ngại để hiểu được văn bản ngôn ngữ nói.
2.1. Khó khăn trong Xử lý Ngôn ngữ Nói Tiếng Việt
Việc xử lý ngôn ngữ nói tiếng Việt đặt ra nhiều thách thức do đặc thù về ngữ âm, ngữ pháp và từ vựng. Tiếng Việt là ngôn ngữ đơn lập, có thanh điệu, và có cấu trúc câu linh hoạt, điều này gây khó khăn cho việc phân tích và hiểu ý nghĩa của câu nói. Bên cạnh đó, sự đa dạng về phương ngữ và cách phát âm cũng làm tăng độ phức tạp của bài toán nhận dạng tiếng nói và xử lý ngôn ngữ tự nhiên.
2.2. Vấn đề Dữ liệu và Độ chính xác trong Nhận dạng
Một trong những thách thức lớn nhất trong nghiên cứu hệ thống thông tin là vấn đề dữ liệu. Để xây dựng các mô hình hiệu quả, cần có lượng lớn dữ liệu huấn luyện chất lượng cao. Tuy nhiên, việc thu thập và gán nhãn dữ liệu cho ngôn ngữ nói tiếng Việt đòi hỏi nhiều công sức và nguồn lực. Ngoài ra, việc đảm bảo độ chính xác của các hệ thống nhận dạng và xử lý ngôn ngữ tự nhiên cũng là một thách thức quan trọng, đặc biệt trong môi trường thực tế với nhiều yếu tố gây nhiễu.
III. Phương Pháp Nhận Dạng Thực Thể Tên Cho Ngôn Ngữ Nói
Trong luận văn của mình, tôi trình bày một cách tiếp cận đơn giản sử dụng mô hình học máy để nhận dạng thực thể tên cho văn bản ngôn ngữ nói vượt qua được các khó khăn và thách thức như đã nêu ở trên. Tôi đã đưa vào mô hình nhiều thuộc tính phong phú sử dụng biểu thức chính quy, tìm kiếm trong từ điển để huấn luyện ra mô hình có hiệu suất tốt. Không giống như các nghiên cứu trước đây, mô hình của tôi không cần sử dụng tách từ và dựa vào các thông tin ranh giới từ, thông tin từ loại vì nó rất tốn thời gian để xử lý.
3.1. Sử dụng Mô hình Học Máy Maximum Entropy
Mô hình Maximum Entropy (MaxEnt) là một phương pháp học máy mạnh mẽ, được sử dụng rộng rãi trong các bài toán xử lý ngôn ngữ tự nhiên. MaxEnt cho phép kết hợp nhiều đặc trưng khác nhau của dữ liệu để xây dựng mô hình dự đoán. Trong bài toán nhận dạng thực thể tên, MaxEnt có thể sử dụng các đặc trưng như từ, từ loại, ngữ cảnh xung quanh từ, và các thông tin từ điển để xác định và phân loại các thực thể có tên.
3.2. Kết hợp Biểu thức Chính quy và Từ điển
Việc kết hợp biểu thức chính quy và từ điển là một phương pháp hiệu quả để cải thiện độ chính xác của hệ thống nhận dạng thực thể tên. Biểu thức chính quy có thể được sử dụng để nhận dạng các mẫu cụ thể, như ngày tháng, số điện thoại, và địa chỉ email. Từ điển có thể cung cấp thông tin về các thực thể đã biết, như tên người, tên tổ chức, và địa điểm. Kết hợp hai phương pháp này giúp hệ thống nhận dạng thực thể tên hoạt động hiệu quả hơn trong nhiều tình huống khác nhau.
3.3. Huấn luyện Mô hình trên Dữ liệu Tương tác Người Máy
Để xây dựng một hệ thống nhận dạng thực thể tên hiệu quả, cần huấn luyện mô hình trên dữ liệu tương tác giữa người dùng và máy tính. Dữ liệu này bao gồm các câu hỏi và câu trả lời trong các cuộc hội thoại, các lệnh điều khiển bằng giọng nói, và các tương tác khác. Bằng cách huấn luyện trên dữ liệu thực tế, mô hình có thể học được các mẫu ngôn ngữ và ngữ cảnh đặc trưng, từ đó cải thiện khả năng nhận dạng thực thể tên trong các tình huống thực tế.
IV. Ứng Dụng Thực Tế Nghiên Cứu Hệ Thống Thông Tin ĐHQGHN
Mô hình của tôi được đánh giá cẩn thận trên một tập dữ liệu có kích thước trung bình gồm 4409 câu về nội dung tương tác giữa người sử dụng và điện thoại thông minh đạt được kết quả độ đo trung bình F1 94. Đây là kết quả rất ý nghĩa mà không dễ đạt được trong nhiệm vụ nhận dạng thực thể tên cho văn bản ngôn ngữ nói với nhiều khó khăn như đã nói ở trên. Do vậy trong luận văn của mình tôi mạnh dạn trình bày về bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt với tên “Nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt và ứng dụng trong tương tác với điện thoại thông minh”.
4.1. Tích hợp vào Hệ thống Trợ lý Ảo cho Người Việt
Nghiên cứu này có thể được tích hợp vào các hệ thống trợ lý ảo cho người Việt, giúp cải thiện khả năng hiểu và phản hồi các yêu cầu của người dùng. Bằng cách nhận dạng chính xác các thực thể có tên trong câu nói của người dùng, trợ lý ảo có thể thực hiện các tác vụ như đặt lịch hẹn, tìm kiếm thông tin, và điều khiển các thiết bị thông minh một cách hiệu quả hơn.
4.2. Ứng dụng trong Tìm kiếm Thông tin và Phân tích Văn bản
Hệ thống nhận dạng thực thể tên có thể được sử dụng để cải thiện khả năng tìm kiếm thông tin và phân tích văn bản. Bằng cách xác định và phân loại các thực thể có tên trong văn bản, hệ thống có thể cung cấp kết quả tìm kiếm chính xác hơn và hỗ trợ các ứng dụng phân tích văn bản như phân tích tình cảm, trích xuất thông tin, và tóm tắt văn bản.
4.3. Triển khai trên Điện thoại Thông minh và Thiết bị Di động
Hệ thống nhận dạng thực thể tên có thể được triển khai trên điện thoại thông minh và các thiết bị di động khác, mang lại trải nghiệm tương tác tự nhiên và tiện lợi cho người dùng. Người dùng có thể sử dụng giọng nói để điều khiển thiết bị, tìm kiếm thông tin, và thực hiện các tác vụ khác một cách dễ dàng và nhanh chóng.
V. Đánh Giá Ngành Hệ Thống Thông Tin Tại ĐHQGHN
Luận văn được tổ chức thành 5 chương như sau: chương 1 trình bày tổng quan về sự phát triển vượt trội của công nghệ nhận dạng tiếng nói trong một vài năm trở lại đây và những ứng dụng của nó trong thế giới công nghệ hiện nay. Ở chương này cũng trình bày về nhận dạng thực thể tên trong văn bản viết thông thường và trong văn bản ngôn ngữ nói cũng như định nghĩa thế nào là nhận dạng thực thể tên, nêu một số khó khăn thách thức đặc thù của dữ liệu và bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt. Chương này cũng đề cập tới việc tại sao cần nhận dạng thực thể tên, nêu bật được ý nghĩa của bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt.
5.1. Tổng quan về Chương trình Đào tạo Hệ thống Thông tin
Chương trình đào tạo ngành Hệ thống Thông tin tại ĐHQGHN cung cấp cho sinh viên kiến thức và kỹ năng cần thiết để thiết kế, phát triển, và quản lý các hệ thống thông tin trong các tổ chức và doanh nghiệp. Chương trình bao gồm các môn học về cơ sở dữ liệu, mạng máy tính, phân tích thiết kế hệ thống, quản lý dự án, và các công nghệ mới nổi như trí tuệ nhân tạo và học máy.
5.2. Cơ hội Việc làm cho Sinh viên Hệ thống Thông tin
Sinh viên tốt nghiệp ngành Hệ thống Thông tin có nhiều cơ hội việc làm trong các lĩnh vực khác nhau, như phát triển phần mềm, quản lý dự án, phân tích dữ liệu, tư vấn công nghệ, và quản lý hệ thống thông tin. Các vị trí phổ biến bao gồm chuyên viên phân tích nghiệp vụ, chuyên viên quản lý dự án, chuyên viên phát triển phần mềm, và chuyên viên tư vấn công nghệ.
VI. Tương Lai Nghiên Cứu Hệ Thống Thông Tin Tại ĐHQGHN
Chương 2 trình bày khái quát một số phương pháp điển hình đã được áp dụng trong bài toán nhận dạng thực thể tên và một số kiến thức cơ bản trong việc đánh giá kết quả của hệ thống nhận dạng thực thể tên, một số hướng tiếp cận, kỹ thuật tối ưu trong việc ước lượng tham số mô hình học máy, từ đó tìm hiểu chi tiết cơ sở lý thuyết mô hình học máy cực đại hóa Entropy (Maximum Entropy) và Trường điều kiện ngẫu nhiên (Conditional Random Fields). Trên cơ sở bài toán và lý thuyết đi tìm hiểu những nghiên cứu có liên quan cả trong văn bản viết thông thường và ngôn ngữ nói đối với bài toán nhận dạng thực thể tên cho ngôn ngữ nói tiếng Việt.
6.1. Hướng Nghiên cứu Mới trong Hệ thống Thông tin
Các hướng nghiên cứu mới trong lĩnh vực Hệ thống Thông tin bao gồm ứng dụng trí tuệ nhân tạo và học máy trong quản lý và phân tích dữ liệu, phát triển các hệ thống thông tin thông minh và tự động hóa, và nghiên cứu về bảo mật và quyền riêng tư trong các hệ thống thông tin. Ngoài ra, các nghiên cứu về ứng dụng blockchain và các công nghệ phân tán khác cũng đang thu hút sự quan tâm của nhiều nhà nghiên cứu.
6.2. Đề xuất Đề tài Nghiên cứu Hệ thống Thông tin Tiềm năng
Một số đề tài nghiên cứu tiềm năng trong lĩnh vực Hệ thống Thông tin bao gồm: phát triển hệ thống khuyến nghị dựa trên trí tuệ nhân tạo, xây dựng hệ thống phân tích dữ liệu lớn cho doanh nghiệp, nghiên cứu về bảo mật dữ liệu trong môi trường đám mây, và phát triển các ứng dụng blockchain cho quản lý chuỗi cung ứng. Các đề tài này có thể mang lại những đóng góp quan trọng cho sự phát triển của ngành Hệ thống Thông tin và ứng dụng thực tế trong nhiều lĩnh vực khác nhau.