Nghiên cứu mạng nơ ron đồ thị cho rút trích quan hệ thực thể trong dữ liệu tiếng Việt

I. Giới thiệu đề tài

Bài toán rút trích quan hệ giữa các thực thể trong dữ liệu tiếng Việt là một thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên. Việc ứng dụng mạng nơ ron đồ thị (GNN) cho phép khai thác các mối quan hệ giữa các thực thể hiệu quả hơn. Rút trích quan hệ là công việc xác định mối liên hệ giữa các thực thể, có thể là danh từ hoặc cụm danh từ, trong các văn bản tiếng Việt. Thông tin thực thể được xác định từ bài toán nhận diện thực thể (NER), giúp xây dựng các mối quan hệ có thể xảy ra giữa các thực thể. Kết quả của bài toán này có thể được ứng dụng trong nhiều lĩnh vực như hệ thống hỏi đáp và xây dựng cơ sở tri thức. Việc ứng dụng GNN cho bài toán này chưa được nghiên cứu nhiều trong ngữ cảnh tiếng Việt, mở ra cơ hội cho các nghiên cứu sâu hơn trong tương lai.

II. Cơ sở kiến thức

Mô hình Artificial Neural Network (ANN) và các biến thể của nó như Recurrent Neural Network (RNN) và Long Short-Term Memory (LSTM) đã được áp dụng rộng rãi trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, Graph Neural Network (GNN) là một hướng nghiên cứu mới, cho phép xử lý thông tin theo dạng đồ thị, giúp khai thác mối quan hệ phức tạp giữa các thực thể. GNN có thể được áp dụng để xác định các mối quan hệ trong văn bản tiếng Việt, từ đó cải thiện độ chính xác trong việc rút trích quan hệ. Việc sử dụng GNN cho phép mô hình hóa các mối quan hệ giữa các thực thể một cách trực quan và hiệu quả hơn, điều này rất quan trọng trong bối cảnh dữ liệu tiếng Việt đang ngày càng phong phú.

III. Mô hình đề xuất

Mô hình đề xuất sử dụng GNN để rút trích quan hệ giữa các thực thể trong dữ liệu tiếng Việt. Quá trình xử lý dữ liệu bao gồm việc tiền xử lý văn bản, chuyển đổi dữ liệu đầu vào sang định dạng phù hợp và sử dụng BERT cho embedding vector đầu vào. Việc áp dụng BERT giúp cải thiện chất lượng embedding, từ đó nâng cao hiệu quả của mô hình. Đặc biệt, việc điều chỉnh số lượng cạnh trong mô hình GNN cũng đóng vai trò quan trọng trong việc tối ưu hóa hiệu suất. Kết quả thực nghiệm cho thấy mô hình GNN có thể đạt được độ chính xác cao trong việc rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt.

IV. Kết quả thực nghiệm và thảo luận

Kết quả từ các thí nghiệm cho thấy mô hình GNN có thể đạt được độ chính xác cao trong việc rút trích quan hệ. Việc điều chỉnh các tham số như số lượng cạnh và sử dụng BERT đã giúp cải thiện đáng kể kết quả đầu ra. Các chỉ số đánh giá như precision, recall, và F1-score cho thấy mô hình không chỉ hoạt động hiệu quả trên tập dữ liệu huấn luyện mà còn cho kết quả khả quan trên tập kiểm tra. Điều này chứng tỏ rằng việc áp dụng GNN trong bài toán rút trích quan hệ giữa các thực thể tiếng Việt là một hướng đi tiềm năng, mở ra cơ hội cho các nghiên cứu và ứng dụng trong tương lai.

V. Đóng góp và hướng phát triển

Luận văn này không chỉ đóng góp vào việc phát triển các phương pháp rút trích quan hệ trong ngữ cảnh tiếng Việt mà còn mở ra hướng nghiên cứu mới cho việc ứng dụng GNN trong các bài toán tương tự. Các đề xuất cải thiện mô hình như tối ưu hóa cấu trúc đồ thị và áp dụng các kỹ thuật học sâu khác có thể giúp nâng cao hiệu suất của mô hình. Hướng phát triển trong tương lai có thể bao gồm việc mở rộng mô hình để xử lý các ngữ cảnh phức tạp hơn và tích hợp thêm các kỹ thuật học máy hiện đại nhằm tăng cường khả năng hiểu ngôn ngữ tự nhiên.

Luận văn thạc sĩ: Ứng dụng mạng nơ ron đồ thị trong rút trích quan hệ thực thể từ dữ liệu tiếng Việt

I. Giới thiệu đề tài

II. Cơ sở kiến thức

III. Mô hình đề xuất

IV. Kết quả thực nghiệm và thảo luận

V. Đóng góp và hướng phát triển

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Phạm Đăng Khoa

Người hướng dẫn: PGS.TS Quản Thành Thơ

Trường học: Đại học Bách Khoa - ĐHQG-HCM

Chuyên ngành: Khoa học Máy tính

Đề tài: Ứng Dụng Mạng Nơ Ron Đồ Thị Cho Bài Toán Rút Trích Quan Hệ Giữa Các Thực Thể Trên Tập Dữ Liệu Tiếng Việt

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: TP. Hồ Chí Minh