I. Tổng Quan Về Nhận Dạng Ngôn Ngữ Khái Niệm và Vai Trò
Cuộc cách mạng thông tin kỹ thuật số đã thay đổi sâu sắc xã hội. Internet trở thành môi trường trao đổi thông tin đa lĩnh vực. Tuy nhiên, xuất hiện nhiều vấn nạn như xuyên tạc thông tin, đòi hỏi giải pháp an toàn thông tin. Nhận dạng ngôn ngữ tự nhiên, dựa trên phân hoạch không gian, là một hướng tiếp cận. Nghiên cứu này tập trung vào nhận dạng ngôn ngữ tiếng Việt, sử dụng phương pháp thống kê toán học. Các quy luật ngôn ngữ được xem như quá trình ngẫu nhiên dừng, không hậu quả. Nghiên cứu này sử dụng tài liệu kỹ thuật thống kê toán học các quá trình Markov, tính tần số bộ đôi móc xích của ngôn ngữ Tiếng Anh, nghiên cứu cơ sở lý thuyết xác suất – thống kê toán học, xây dựng tiêu chuẩn nhận dạng và lập trình thuật toán trên Matlab.
1.1. Định Nghĩa và Mục Tiêu của Nhận Dạng Ngôn Ngữ
Nhận dạng ngôn ngữ (pattern recognition) là một ngành thuộc lĩnh vực học máy (machine learning). Mục đích là phân loại dữ liệu (mẫu) dựa trên kiến thức tiên nghiệm hoặc thông tin thống kê từ các mẫu có sẵn. Mẫu được biểu diễn thành nhóm dữ liệu đo đạc, mỗi nhóm là một điểm trong không gian đa chiều. Quá trình nhận dạng dựa vào mẫu học trước gọi là học có thầy (supervised learning); ngược lại là học không có thầy (unsupervised learning).
1.2. Các Phương Pháp Tiếp Cận Nhận Dạng Ngôn Ngữ Phổ Biến
Trong lý thuyết nhận dạng, có ba cách tiếp cận khác nhau: Nhận dạng dựa vào phân hoạch không gian, nhận dạng cấu trúc và nhận dạng dựa vào kỹ thuật mạng nơ-ron. Hai cách tiếp cận đầu là kỹ thuật kinh điển. Cách tiếp cận thứ ba dựa vào cơ chế đoán nhân, lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người. Các ứng dụng phổ biến là nhận dạng tiếng nói tự động, phân loại văn bản, nhận dạng mã bưu điện viết tay, hay hệ thống nhận dạng danh tính dựa vào mặt người.
II. Không Gian Biểu Diễn Đối Tượng và Không Gian Diễn Dịch
Các đối tượng khi quan sát hay thu thập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính. Trong xử lý ảnh, ảnh sau khi được tăng cường, phân vùng và trích chọn đặc tính được biểu diễn bởi các đặc trưng như biên, miền đồng nhất. Các đặc trưng này được phân loại theo loại như đặc trưng tôpô, đặc trưng hình học và đặc trưng chức năng. Việc biểu diễn ảnh theo đặc trưng nào phụ thuộc vào ứng dụng tiếp theo. Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay,v.); được biểu diễn bởi n thành phần (n đặc trưng): X={x 1,x2,.,xn}; mỗi xi biểu diễn một đặc tính.
2.1. Khái Niệm Không Gian Biểu Diễn Đối Tượng Trong NLP
Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X và được ký hiệu là: X ={X1,X2,.,Xn} trong đó mỗi Xi biểu diễn một đối tượng. Không gian này có thể là vô hạn. Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn. Ví dụ, trong xử lý ngôn ngữ tự nhiên (NLP), một văn bản có thể được biểu diễn bằng vector các từ hoặc các đặc trưng ngữ nghĩa.
2.2. Vai Trò của Không Gian Diễn Dịch Trong Nhận Dạng Ngôn Ngữ
Không gian diễn dịch là tập các tên gọi của đối tượng. Kết thúc quá trình nhận dạng, ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng. Một cách hình thức gọi là tập tên đối tượng: ={w1,w2,.,wk} với wi, i =1,2,.,k là tên các đối tượng: Quá trình nhận dạng đối tượng là một ánh xạ f: X với f là tập các quy luật để định một phần tử trong X ứng với một phần tử .
III. Mô Hình và Bản Chất Của Quá Trình Nhận Dạng Ngôn Ngữ
Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà người ta sử dụng để đặc tả đối tượng. Trong nhận dạng, người ta phân chia làm hai họ lớn: Họ mô tả theo tham số và họ mô tả theo cấu trúc. Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng. Như vậy, chúng ta sẽ có hai loại mô hình: mô hình theo tham số và mô hình cấu trúc. Mô hình tham số sử dụng một vectơ để đặc tả đối tượng, mỗi phần tử của vectơ mô tả một đặc tính của đối tượng.
3.1. Mô Hình Tham Số và Ứng Dụng Trong Nhận Dạng Ngôn Ngữ
Mô hình tham số sử dụng một vectơ để đặc tả đối tượng, mỗi phần tử của vectơ mô tả một đặc tính của đối tượng. Thí dụ như trong các đặc trưng chức năng, người ta sử dụng các hàm cơ sở trực giao để biểu diễn. Và như vậy ảnh sẽ được biểu diễn bởi một chuỗi các hàm trực giao. Giả sử C là đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2, ., N (đường bao gồm N điểm).
3.2. Mô Hình Cấu Trúc và Cách Tiếp Cận Trong Nhận Dạng Ngôn Ngữ
Cách tiếp cận của mô hình này dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên. Để mô tả đối tượng, người ta dùng một số dạng nguyên thủy như đoạn thẳng, cung,. Chẳng hạn, một hình chữ nhật được định nghĩa gồm 4 đoạn thẳng vuông góc với nhau từng đôi một. Trong mô hình này người ta sử dụng một bộ kí hiệu kết thúc Vt, một bộ kí hiệu không kết thúc gọi là Vn.
3.3. Các Giai Đoạn Chính Của Quá Trình Nhận Dạng Ngôn Ngữ
Quá trình nhận dạng gồm 3 giai đoạn chính: Lựa chọn mô hình biểu diễn đối tượng, lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học, học nhận dạng. Khi mô hình biểu diễn đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học. Học là giai đoạn rất quan trọng. Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp.
IV. Học Có Thầy và Học Không Có Thầy Trong Nhận Dạng Ngôn Ngữ
Khi mô hình biểu diễn đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học. Học là giai đoạn rất quan trọng. Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp. Việc nhận dạng là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên.
4.1. Kỹ Thuật Học Có Thầy và Ứng Dụng Trong Nhận Dạng Ngôn Ngữ
Kỹ thuật phân loại nhờ kiến thức biết trước gọi là học có thầy. Đặc điểm cơ bản của kỹ thuật này là người ta có một thư viện các mẫu chuẩn. Mẫu cần nhận dạng sẽ được đem đối sánh với mẫu chuẩn để xem nó thuộc loại nào. Thí dụ như trong một ảnh viễn thám, người ta muốn phân biệt một cánh đồng lúa, một cánh rừng hay một vùng đất hoang mà đã có các miêu tả về các đối tượng đó.
4.2. Kỹ Thuật Học Không Có Thầy và Ứng Dụng Trong Nhận Dạng Ngôn Ngữ
Kỹ thuật học này tự định ra các lớp khác nhau và xác định các tham số đặc trưng cho từng lớp. Học không có thày đương nhiên là khó khăn hơn. Một mặt, do số lớp không được biết trước, mặt khác những đặc trưng của các lớp cũng không biết trước. Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và chọn lựa cách tốt nhất. Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm phân lớp và nâng cấp dần để được một phương án phân loại.
V. Nhận Dạng Ngôn Ngữ Dựa Trên Phân Hoạch Không Gian
Trong kỹ thuật này, các đối tượng nhận dạng là các đối tượng định lượng, mỗi đối tượng được biểu diễn bởi một vectơ nhiều chiều. Trước tiên, ta xem xét một số khái niệm như: phân hoạch không gian, hàm phân biệt sau đó sẽ đi vào một số kỹ thuật cụ thể. Giả sử không gian đối tượng X được định nghĩa: X={Xi,i=1,2,.,m}, Xi là một vectơ. Người ta nói P là một phân hoạch của không gian X thành các lớp Ci, Ci X nếu: Ci Cj = với i j và Ci = X
5.1. Phân Hoạch Không Gian và Ứng Dụng Trong Nhận Dạng Ngôn Ngữ
Giả sử không gian đối tượng X được định nghĩa: X={Xi,i=1,2,.,m}, Xi là một vectơ. Người ta nói P là một phân hoạch của không gian X thành các lớp Ci, Ci X nếu: Ci Cj = với i j và Ci = X Nói chung, đây là trường hợp lý tưởng: tập X tách được hoàn toàn. Trong thực tế, thường gặp không gian biểu diễn tách được từng phần. Như vậy phân loại là dựa vào việc xây dựng một ánh xạ f: X P.
5.2. Hàm Phân Lớp và Hàm Ra Quyết Định Trong Nhận Dạng Ngôn Ngữ
Để phân đối tượng vào các lớp, ta phải xác định số lớp và ranh giới giữa các lớp đó. Hàm phân lớp hay hàm phân biệt là một công cụ rất quan trọng. Gọi {g} là lớp các hàm phân lớp. Lớp hàm này được định nghĩa như sau: Nếu i ≠ k, gk(X)>gi(X) thì ta quyết định X lớp k. Như vậy để phân biệt k lớp, ta cần k-1 hàm phân biệt.
VI. Ứng Dụng Thực Tế Của Nhận Dạng Ngôn Ngữ Trong NLP
Các thuật toán nhận dạng thống kê được sử dụng rộng rãi trong nhiều ứng dụng thực tế của NLP. Ví dụ, trong phân loại ngôn ngữ, các thuật toán này có thể được sử dụng để xác định ngôn ngữ của một văn bản dựa trên các đặc trưng thống kê của văn bản đó. Trong dịch máy, các thuật toán này có thể được sử dụng để cải thiện độ chính xác của quá trình dịch bằng cách xác định ngôn ngữ nguồn và ngôn ngữ đích.
6.1. Nhận Dạng Ngôn Ngữ Trong Dịch Máy và Chatbot
Nhận dạng ngôn ngữ đóng vai trò quan trọng trong dịch máy, giúp xác định ngôn ngữ nguồn để chọn mô hình dịch phù hợp. Trong chatbot, nó giúp hiểu ý định của người dùng bằng cách xác định ngôn ngữ và ngữ cảnh, từ đó đưa ra phản hồi chính xác.
6.2. Nhận Dạng Ngôn Ngữ Trong Phân Tích Cảm Xúc và Giám Sát Truyền Thông
Trong phân tích cảm xúc, nhận dạng ngôn ngữ giúp xác định ngôn ngữ của văn bản để sử dụng các mô hình phân tích phù hợp với ngôn ngữ đó. Trong giám sát truyền thông, nó giúp phân loại tin tức và bài viết theo ngôn ngữ, hỗ trợ việc theo dõi thông tin đa ngôn ngữ.