Luận văn thạc sĩ: Ứng dụng mạng nơ ron đồ thị trong rút trích quan hệ thực thể từ dữ liệu tiếng Việt

Trường đại học

Đại học Bách Khoa - ĐHQG-HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

71
9
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu đề tài

Bài toán rút trích quan hệ giữa các thực thể trong dữ liệu tiếng Việt là một thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên. Việc ứng dụng mạng nơ ron đồ thị (GNN) cho phép khai thác các mối quan hệ giữa các thực thể hiệu quả hơn. Rút trích quan hệ là công việc xác định mối liên hệ giữa các thực thể, có thể là danh từ hoặc cụm danh từ, trong các văn bản tiếng Việt. Thông tin thực thể được xác định từ bài toán nhận diện thực thể (NER), giúp xây dựng các mối quan hệ có thể xảy ra giữa các thực thể. Kết quả của bài toán này có thể được ứng dụng trong nhiều lĩnh vực như hệ thống hỏi đáp và xây dựng cơ sở tri thức. Việc ứng dụng GNN cho bài toán này chưa được nghiên cứu nhiều trong ngữ cảnh tiếng Việt, mở ra cơ hội cho các nghiên cứu sâu hơn trong tương lai.

II. Cơ sở kiến thức

Mô hình Artificial Neural Network (ANN) và các biến thể của nó như Recurrent Neural Network (RNN) và Long Short-Term Memory (LSTM) đã được áp dụng rộng rãi trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, Graph Neural Network (GNN) là một hướng nghiên cứu mới, cho phép xử lý thông tin theo dạng đồ thị, giúp khai thác mối quan hệ phức tạp giữa các thực thể. GNN có thể được áp dụng để xác định các mối quan hệ trong văn bản tiếng Việt, từ đó cải thiện độ chính xác trong việc rút trích quan hệ. Việc sử dụng GNN cho phép mô hình hóa các mối quan hệ giữa các thực thể một cách trực quan và hiệu quả hơn, điều này rất quan trọng trong bối cảnh dữ liệu tiếng Việt đang ngày càng phong phú.

III. Mô hình đề xuất

Mô hình đề xuất sử dụng GNN để rút trích quan hệ giữa các thực thể trong dữ liệu tiếng Việt. Quá trình xử lý dữ liệu bao gồm việc tiền xử lý văn bản, chuyển đổi dữ liệu đầu vào sang định dạng phù hợp và sử dụng BERT cho embedding vector đầu vào. Việc áp dụng BERT giúp cải thiện chất lượng embedding, từ đó nâng cao hiệu quả của mô hình. Đặc biệt, việc điều chỉnh số lượng cạnh trong mô hình GNN cũng đóng vai trò quan trọng trong việc tối ưu hóa hiệu suất. Kết quả thực nghiệm cho thấy mô hình GNN có thể đạt được độ chính xác cao trong việc rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt.

IV. Kết quả thực nghiệm và thảo luận

Kết quả từ các thí nghiệm cho thấy mô hình GNN có thể đạt được độ chính xác cao trong việc rút trích quan hệ. Việc điều chỉnh các tham số như số lượng cạnh và sử dụng BERT đã giúp cải thiện đáng kể kết quả đầu ra. Các chỉ số đánh giá như precision, recall, và F1-score cho thấy mô hình không chỉ hoạt động hiệu quả trên tập dữ liệu huấn luyện mà còn cho kết quả khả quan trên tập kiểm tra. Điều này chứng tỏ rằng việc áp dụng GNN trong bài toán rút trích quan hệ giữa các thực thể tiếng Việt là một hướng đi tiềm năng, mở ra cơ hội cho các nghiên cứu và ứng dụng trong tương lai.

V. Đóng góp và hướng phát triển

Luận văn này không chỉ đóng góp vào việc phát triển các phương pháp rút trích quan hệ trong ngữ cảnh tiếng Việt mà còn mở ra hướng nghiên cứu mới cho việc ứng dụng GNN trong các bài toán tương tự. Các đề xuất cải thiện mô hình như tối ưu hóa cấu trúc đồ thị và áp dụng các kỹ thuật học sâu khác có thể giúp nâng cao hiệu suất của mô hình. Hướng phát triển trong tương lai có thể bao gồm việc mở rộng mô hình để xử lý các ngữ cảnh phức tạp hơn và tích hợp thêm các kỹ thuật học máy hiện đại nhằm tăng cường khả năng hiểu ngôn ngữ tự nhiên.

10/01/2025
Luận văn thạc sĩ khoa học máy tính ứng dụng mạng nơ ron đồ thị cho bài toán rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng việt
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính ứng dụng mạng nơ ron đồ thị cho bài toán rút trích quan hệ giữa các thực thể trên tập dữ liệu tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tiêu đề "Ứng dụng mạng nơ ron đồ thị trong rút trích quan hệ thực thể từ dữ liệu tiếng Việt" của tác giả Phạm Đăng Khoa, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ tại Đại học Bách Khoa - ĐHQG-HCM, tập trung vào việc áp dụng công nghệ mạng nơ ron đồ thị để rút trích các quan hệ thực thể từ dữ liệu tiếng Việt. Nghiên cứu này không chỉ mang lại những hiểu biết sâu sắc về cách thức hoạt động của mạng nơ ron trong lĩnh vực xử lý ngôn ngữ tự nhiên mà còn cung cấp những giải pháp thiết thực cho việc cải thiện chất lượng dữ liệu và tối ưu hóa quy trình rút trích thông tin.

Để mở rộng thêm kiến thức về những ứng dụng công nghệ thông tin trong giáo dục, bạn có thể tham khảo bài viết Quản lý ứng dụng công nghệ thông tin trong dạy học ở trường trung học cơ sở Hoằng Hóa, Thanh Hóa, nơi nghiên cứu về việc áp dụng công nghệ thông tin trong giáo dục theo hướng chuyển đổi số.

Ngoài ra, bài viết Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói cũng sẽ cung cấp cho bạn cái nhìn sâu sắc về cách thức áp dụng các phương pháp học máy để cải thiện hiệu quả trong các bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là trong nhận diện giọng nói.

Cuối cùng, bạn có thể tìm hiểu thêm về Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép, một nghiên cứu liên quan đến việc sử dụng mạng nơ ron trong lĩnh vực an ninh mạng, qua đó có thể thấy được sự liên kết giữa các công nghệ tiên tiến và ứng dụng thực tiễn trong nhiều lĩnh vực khác nhau.

Những tài liệu này không chỉ giúp bạn hiểu rõ hơn về các ứng dụng của mạng nơ ron mà còn mở rộng kiến thức về các công nghệ thông tin hiện đại trong nhiều lĩnh vực khác nhau.

Tải xuống (71 Trang - 1.14 MB)