Luận Văn Thạc Sĩ Về Liên Kết Thực Thể Cho Tiếng Việt

Luận văn thạc sĩ nghiên cứu vnu uet liên kết thực thể cho tiếng việt entity linking for vietnamese, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: KHÁI QUÁT VỀ BÀI TOÁN LIÊN KẾT THỰC THỂ

1.1. Hệ tri thức

1.2. Nhận dạng thực thể

1.3. Liên kết thực thể

2. CHƯƠNG 2: PHÂN TÍCH VÀ XỬ LÝ BỘ DỮ LIỆU

2.1. Chuẩn bị bộ dữ liệu

2.2. Định nghĩa thực thể

2.3. Các kiểu thực thể

2.3.1. Con người (PER)

2.3.2. Tổ chức (ORG)

2.3.3. Địa điểm (LOC)

2.3.4. Miscellaneous (Misc - Đặc tính khác)

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Nhận dạng thực thể

3.1.1. Giới thiệu về CRFs

3.1.2. Ứng dụng CRFs trong Stanford NER

3.2. Liên kết thực thể

3.2.1. Mô hình đồ thị

3.2.2. Thuật toán đồ thị

4. CHƯƠNG 4: TÙY CHỈNH CÔNG CỤ VÀ THỰC NGHIỆM

4.1. Kiến trúc hệ thống AIDA-light (system architecture)

4.2. Tùy chỉnh công cụ AIDA-light cho tiếng Việt

4.3. Thực nghiệm và kết quả

KẾT LUẬN

Tóm tắt

I. Tổng Quan Về Liên Kết Thực Thể Cho Tiếng Việt

Liên kết thực thể (Entity Linking) là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Bài toán này liên quan đến việc liên kết các thực thể có tên trong văn bản với các thực thể trong hệ tri thức. Đặc biệt, trong tiếng Việt, việc phát triển các phương pháp liên kết thực thể đang trở thành một nhu cầu cấp thiết. Nghiên cứu này sẽ cung cấp cái nhìn tổng quan về các khái niệm cơ bản và tầm quan trọng của liên kết thực thể cho tiếng Việt.

1.1. Khái Niệm Liên Kết Thực Thể Trong Tiếng Việt

Liên kết thực thể là quá trình gán nhãn các thực thể có tên trong văn bản với các thực thể trong hệ tri thức. Điều này giúp cải thiện khả năng hiểu và phân tích văn bản của các hệ thống AI.

1.2. Tầm Quan Trọng Của Liên Kết Thực Thể

Liên kết thực thể giúp nâng cao độ chính xác trong các ứng dụng như tìm kiếm thông tin, hỏi đáp tự động và phân tích ngữ nghĩa. Việc này đặc biệt quan trọng trong bối cảnh phát triển công nghệ AI tại Việt Nam.

II. Vấn Đề và Thách Thức Trong Liên Kết Thực Thể Tiếng Việt

Mặc dù có nhiều nghiên cứu về liên kết thực thể, nhưng vẫn tồn tại nhiều thách thức trong việc áp dụng cho tiếng Việt. Các vấn đề như thiếu dữ liệu chuẩn, sự nhập nhằng trong nhận dạng thực thể và sự đa nghĩa của từ ngữ là những khó khăn lớn. Những thách thức này cần được giải quyết để cải thiện hiệu quả của các hệ thống liên kết thực thể.

2.1. Thiếu Dữ Liệu Chuẩn

Một trong những thách thức lớn nhất là thiếu bộ dữ liệu chuẩn cho tiếng Việt. Điều này làm khó khăn trong việc huấn luyện các mô hình AI cho bài toán liên kết thực thể.

2.2. Sự Nhập Nhằng Trong Nhận Dạng Thực Thể

Nhiều thực thể có thể mang nhiều nghĩa khác nhau, ví dụ như 'Việt Nam' có thể chỉ đất nước hoặc một đội bóng. Sự nhập nhằng này gây khó khăn trong việc xác định thực thể chính xác.

III. Phương Pháp Giải Quyết Vấn Đề Liên Kết Thực Thể

Để giải quyết các vấn đề trong liên kết thực thể cho tiếng Việt, nhiều phương pháp đã được đề xuất. Các phương pháp này bao gồm việc sử dụng các mô hình học sâu, cải tiến thuật toán và xây dựng bộ dữ liệu lớn hơn. Việc áp dụng các công nghệ mới sẽ giúp nâng cao hiệu quả của liên kết thực thể.

3.1. Sử Dụng Mô Hình Học Sâu

Mô hình học sâu như BERT và các biến thể của nó đã được áp dụng để cải thiện độ chính xác trong việc nhận dạng và liên kết thực thể.

3.2. Cải Tiến Thuật Toán Liên Kết

Các thuật toán liên kết thực thể cần được cải tiến để xử lý tốt hơn các trường hợp nhập nhằng và đa nghĩa trong tiếng Việt.

IV. Ứng Dụng Thực Tiễn Của Liên Kết Thực Thể

Liên kết thực thể có nhiều ứng dụng thực tiễn trong các lĩnh vực như tìm kiếm thông tin, phân tích dữ liệu và phát triển các hệ thống hỏi đáp tự động. Những ứng dụng này không chỉ giúp cải thiện trải nghiệm người dùng mà còn nâng cao hiệu quả của các hệ thống thông tin.

4.1. Tìm Kiếm Thông Tin Hiệu Quả Hơn

Việc áp dụng liên kết thực thể giúp cải thiện khả năng tìm kiếm thông tin chính xác hơn, từ đó nâng cao trải nghiệm người dùng.

4.2. Phát Triển Hệ Thống Hỏi Đáp Tự Động

Liên kết thực thể là một phần quan trọng trong việc phát triển các hệ thống hỏi đáp tự động, giúp người dùng nhận được thông tin nhanh chóng và chính xác.

V. Kết Luận và Tương Lai Của Liên Kết Thực Thể Cho Tiếng Việt

Liên kết thực thể cho tiếng Việt đang trong giai đoạn phát triển mạnh mẽ. Nghiên cứu và ứng dụng các phương pháp mới sẽ giúp cải thiện đáng kể hiệu quả của bài toán này. Tương lai của liên kết thực thể hứa hẹn sẽ mang lại nhiều giá trị cho các ứng dụng AI tại Việt Nam.

5.1. Hướng Phát Triển Nghiên Cứu

Cần tiếp tục nghiên cứu và phát triển các phương pháp mới để giải quyết các thách thức hiện tại trong liên kết thực thể cho tiếng Việt.

5.2. Tích Hợp Công Nghệ Mới

Việc tích hợp các công nghệ mới như học sâu và mạng nơ-ron sẽ giúp nâng cao hiệu quả của các hệ thống liên kết thực thể trong tương lai.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet liên kết thực thể cho tiếng việt entity linking for vietnamese

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Bài toán liên kết thực thể (Entity Linking - EL) là một lĩnh vực trọng yếu trong xử lý ngôn ngữ tự nhiên, trích xuất thông tin và trí tuệ nhân tạo. Theo ước tính, việc liên kết chính xác các thực thể có tên trong văn bản với các cơ sở tri thức như Wikipedia giúp nâng cao khả năng hiểu và phân tích ngữ cảnh của máy tính. Trong tiếng Việt, mặc dù đã có một số nghiên cứu về nhận dạng thực thể, nhưng bài toán liên kết thực thể vẫn còn hạn chế do thiếu bộ dữ liệu chuẩn và công cụ phù hợp. Luận văn này tập trung xây dựng bộ dữ liệu tiếng Việt từ hơn 400 bài báo điện tử, đồng thời tùy chỉnh công cụ AIDA-light, vốn được phát triển cho tiếng Anh, để áp dụng cho tiếng Việt. Mục tiêu cụ thể là phát triển một hệ thống liên kết thực thể hiệu quả, hỗ trợ các ứng dụng như tìm kiếm ngữ nghĩa, chú thích ngữ nghĩa và trích xuất mối quan hệ. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ các trang báo điện tử phổ biến tại Việt Nam trong giai đoạn gần đây, với trọng tâm là các thực thể thuộc 4 nhóm chính: con người, tổ chức, địa điểm và đặc tính khác. Việc hoàn thiện bài toán liên kết thực thể cho tiếng Việt không chỉ góp phần nâng cao chất lượng xử lý ngôn ngữ tự nhiên mà còn mở rộng khả năng ứng dụng trí tuệ nhân tạo trong các lĩnh vực như báo chí, giáo dục và thương mại điện tử.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai mô hình lý thuyết chính: mô hình học máy Conditional Random Fields (CRFs) và mô hình đồ thị (Graph Model). CRFs là mô hình trường ngẫu nhiên có điều kiện, được sử dụng để nhận dạng thực thể có tên trong văn bản. CRFs cho phép gán nhãn chuỗi dữ liệu dựa trên xác suất điều kiện, tận dụng các đặc trưng trạng thái và chuyển tiếp, giúp nhận dạng chính xác các thực thể như con người, tổ chức, địa điểm. Mô hình CRFs được huấn luyện bằng phương pháp tối ưu số bậc hai L-BFGS, đảm bảo hội tụ nhanh và hiệu quả. Thuật toán suy diễn Viterbi được áp dụng để tìm chuỗi nhãn tối ưu cho chuỗi quan sát đầu vào.

Mô hình đồ thị được sử dụng trong công cụ AIDA-light để giải quyết bài toán liên kết thực thể. Đồ thị Mention-Entity được xây dựng với các đỉnh là thực thể có tên trong văn bản (mentions) và các thực thể ứng viên trên Wikipedia (candidate entities). Các cạnh nối giữa mentions và candidate entities được đánh trọng số dựa trên độ tương đồng ngữ cảnh và độ ưu tiên. Thuật toán greedy được áp dụng để tìm đồ thị con dày đặc lý tưởng (dense subgraph) nhằm liên kết chính xác các thực thể. Tuy nhiên, bài toán này có độ phức tạp cao do tính NP-hard của bài toán Steiner tree, nên thuật toán greedy là giải pháp thực tiễn.

Các khái niệm chính bao gồm: thực thể có tên (named entity), nhận dạng thực thể (NER), liên kết thực thể (EL), mô hình CRFs, mô hình đồ thị, và thuật toán greedy.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu tiếng Việt được xây dựng từ hơn 400 bài báo điện tử trên các trang như Dân Trí, VnExpress, Ngoisao. Các thực thể trong dữ liệu được gán nhãn thủ công và liên kết tới Wikipedia, bao gồm 4 nhóm chính: Person, Organization, Location, Miscellaneous. Phương pháp chọn mẫu là chọn lọc dữ liệu đại diện cho các loại thực thể phổ biến trong ngôn ngữ báo chí và văn bản tiếng Việt.

Phương pháp phân tích bao gồm: sử dụng mô hình CRFs để nhận dạng thực thể, tùy chỉnh công cụ AIDA-light để thực hiện liên kết thực thể cho tiếng Việt, và đánh giá kết quả dựa trên độ chính xác và độ bao phủ. Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2017 đến 2019 tại Đại học Công nghệ, Đại học Quốc gia Hà Nội.

Timeline nghiên cứu gồm: (1) xây dựng và xử lý bộ dữ liệu tiếng Việt, (2) huấn luyện mô hình CRFs cho nhận dạng thực thể, (3) tùy chỉnh và áp dụng AIDA-light cho liên kết thực thể, (4) thực nghiệm và đánh giá kết quả, (5) tổng kết và đề xuất hướng phát triển.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Xây dựng bộ dữ liệu tiếng Việt chuẩn cho liên kết thực thể: Bộ dữ liệu được thu thập từ hơn 400 bài báo điện tử, với hàng nghìn thực thể được gán nhãn và liên kết tới Wikipedia. Tỷ lệ thực thể thuộc nhóm Person chiếm khoảng 35%, Organization 25%, Location 30%, Miscellaneous 10%.
Hiệu quả của mô hình CRFs trong nhận dạng thực thể: Mô hình CRFs được huấn luyện trên bộ dữ liệu tiếng Việt đạt độ chính xác khoảng 85% trong việc nhận dạng các thực thể có tên, vượt trội hơn so với các mô hình truyền thống như HMM và MEMM.
Tùy chỉnh công cụ AIDA-light cho tiếng Việt: Việc điều chỉnh thuật toán và tham số giúp AIDA-light đạt độ chính xác liên kết thực thể khoảng 78% trên bộ dữ liệu tiếng Việt, thấp hơn so với mức 80% trên tiếng Anh nhưng là bước tiến đáng kể trong lĩnh vực này.
Phân tích nhập nhằng thực thể: Các trường hợp nhập nhằng như “Việt Nam” có thể là địa điểm hoặc tổ chức, “Mercedes” có thể là hãng sản xuất hoặc dòng xe, được xử lý hiệu quả nhờ khai thác ngữ cảnh và mô hình đồ thị. Tỷ lệ nhập nhằng chiếm khoảng 15% trong bộ dữ liệu, ảnh hưởng đáng kể đến độ chính xác liên kết.

Thảo luận kết quả

Nguyên nhân chính của các hạn chế trong độ chính xác liên kết thực thể là do tính nhập nhằng cao và thiếu hụt tài nguyên dữ liệu chuẩn cho tiếng Việt. So với các nghiên cứu trên tiếng Anh và các ngôn ngữ phổ biến khác, tiếng Việt còn thiếu các bộ dữ liệu lớn và công cụ tối ưu. Kết quả thực nghiệm cho thấy mô hình CRFs và thuật toán đồ thị là phù hợp để áp dụng cho tiếng Việt, tuy nhiên cần cải tiến thêm về khai thác ngữ cảnh và xử lý nhập nhằng.

Biểu đồ so sánh kết quả thực nghiệm giữa các mô hình nhận dạng thực thể và liên kết thực thể minh họa rõ sự vượt trội của CRFs và hiệu quả của AIDA-light sau tùy chỉnh. Bảng thống kê chi tiết các loại thực thể và tỷ lệ nhập nhằng cũng giúp làm rõ các thách thức trong bài toán.

Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên cho tiếng Việt, mở rộng khả năng tìm kiếm ngữ nghĩa, trích xuất thông tin và hỗ trợ các hệ thống trí tuệ nhân tạo.

Đề xuất và khuyến nghị

Phát triển bộ dữ liệu chuẩn mở rộng: Tăng cường thu thập và gán nhãn dữ liệu thực thể tiếng Việt từ nhiều nguồn đa dạng, nhằm nâng cao độ bao phủ và giảm nhập nhằng. Thời gian thực hiện dự kiến 1-2 năm, do các tổ chức nghiên cứu và cộng đồng phát triển.
Cải tiến mô hình nhận dạng thực thể: Áp dụng các kỹ thuật học sâu (deep learning) kết hợp với CRFs để nâng cao độ chính xác nhận dạng, đặc biệt trong xử lý ngữ cảnh phức tạp. Thời gian triển khai 1 năm, do các nhóm nghiên cứu chuyên sâu về NLP.
Tối ưu thuật toán liên kết thực thể: Nghiên cứu và áp dụng các thuật toán tối ưu hơn thay thế thuật toán greedy, nhằm giải quyết bài toán dense subgraph hiệu quả hơn, giảm độ phức tạp tính toán. Thời gian thực hiện 1-1.5 năm, do các nhà phát triển phần mềm và chuyên gia thuật toán.
Xây dựng hệ sinh thái công cụ mở: Phát triển và công bố các công cụ nhận dạng và liên kết thực thể tiếng Việt dưới dạng mã nguồn mở, tạo điều kiện cho cộng đồng nghiên cứu và ứng dụng phát triển. Thời gian thực hiện 6-12 tháng, do các tổ chức giáo dục và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, xử lý ngôn ngữ tự nhiên: Luận văn cung cấp cơ sở lý thuyết, phương pháp và dữ liệu thực nghiệm quý giá để phát triển các đề tài nghiên cứu liên quan.
Các công ty công nghệ phát triển ứng dụng trí tuệ nhân tạo và xử lý ngôn ngữ tiếng Việt: Tham khảo để áp dụng mô hình nhận dạng và liên kết thực thể vào các sản phẩm như chatbot, tìm kiếm thông tin, phân tích dữ liệu.
Cơ quan báo chí và truyền thông: Hỗ trợ trong việc tự động trích xuất thông tin, phân loại và liên kết thực thể trong các bài viết, giúp nâng cao chất lượng nội dung và tìm kiếm.
Các tổ chức giáo dục và đào tạo: Sử dụng làm tài liệu giảng dạy, nghiên cứu và phát triển kỹ năng về xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo cho tiếng Việt.

Câu hỏi thường gặp

Liên kết thực thể là gì và tại sao quan trọng?
Liên kết thực thể là quá trình gán các thực thể có tên trong văn bản với các đối tượng tương ứng trong cơ sở tri thức như Wikipedia. Điều này giúp máy tính hiểu rõ hơn về ngữ cảnh và ý nghĩa của văn bản, hỗ trợ các ứng dụng như tìm kiếm ngữ nghĩa và trích xuất thông tin.
Tại sao tiếng Việt gặp khó khăn trong bài toán liên kết thực thể?
Tiếng Việt thiếu các bộ dữ liệu chuẩn và công cụ tối ưu, đồng thời có nhiều trường hợp nhập nhằng do cách viết tắt và đa nghĩa của từ ngữ, gây khó khăn trong việc nhận dạng và liên kết chính xác.
Mô hình CRFs có ưu điểm gì trong nhận dạng thực thể?
CRFs tận dụng được mối quan hệ giữa các nhãn trong chuỗi dữ liệu, cho phép gán nhãn chính xác hơn so với các mô hình Markov ẩn hay Maximum Entropy, đặc biệt hiệu quả trong xử lý chuỗi ngôn ngữ tự nhiên.
AIDA-light được tùy chỉnh như thế nào cho tiếng Việt?
AIDA-light được điều chỉnh về tham số và thuật toán để phù hợp với đặc điểm ngôn ngữ tiếng Việt, bao gồm xử lý ngữ cảnh và nhập nhằng thực thể, giúp nâng cao độ chính xác liên kết thực thể.
Làm thế nào để cải thiện độ chính xác liên kết thực thể trong tương lai?
Cần mở rộng bộ dữ liệu chuẩn, áp dụng các kỹ thuật học sâu, tối ưu thuật toán liên kết và xây dựng hệ sinh thái công cụ mở để cộng đồng cùng phát triển và hoàn thiện.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu tiếng Việt chuẩn cho bài toán liên kết thực thể, với hơn 400 bài báo điện tử và hàng nghìn thực thể được gán nhãn.
Mô hình CRFs được áp dụng hiệu quả trong nhận dạng thực thể, đạt độ chính xác khoảng 85%.
Công cụ AIDA-light được tùy chỉnh thành công cho tiếng Việt, đạt độ chính xác liên kết khoảng 78%.
Nghiên cứu đã phân tích chi tiết các trường hợp nhập nhằng thực thể và đề xuất giải pháp dựa trên ngữ cảnh và mô hình đồ thị.
Hướng phát triển tiếp theo bao gồm mở rộng dữ liệu, cải tiến mô hình và thuật toán, cũng như xây dựng hệ sinh thái công cụ mở cho cộng đồng.

Để tiếp tục phát triển lĩnh vực này, các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng kết quả luận văn, đồng thời tham gia đóng góp vào bộ dữ liệu và công cụ mở nhằm nâng cao chất lượng xử lý ngôn ngữ tự nhiên cho tiếng Việt.

Trích đoạn nội dung tài liệu

MỞ ĐẦU Bài toán liên kết thực thể là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, trích xuất thông tin, hỏi đáp, v. Nó có nhiệm vụ liên kết một thực thể có tên (named entity) vào một hệ cơ sở tri thức (knowledge base). Qua đó các chương trình trí tuệ nhân tạo có khả năng hiểu và phân tích văn bản một cách tốt hơn. Ví dụ trong câu “Tổng thống Obama đến thăm Việt Nam”.

Cụm từ “Tổng thống Obama” được nhận dạng là một thực thể có tên thuộc lớp người (Person) và được liên kết tới trang Wikipedia có liên kết là: Barack_Obama – tổng thống thứ 44 của Hoa Kỳ. Trong luận văn này, trước tiên chúng tôi xây dựng một bộ dữ liệu Tiếng Việt cho bài toán liên kết thực thể. Sau đó, chúng tôi tùy chỉnh công cụ AIDA-light, được phát triển tại viện Max-Planck cho ngôn ngữ tiếng Anh, để tương thích với ngôn ngữ tiếng Việt. Toàn bộ tập dữ liệu và những tài liệu liên quan sẽ được mở cho cộng đồng sử dụng và phát triển.

Nội dung của luận văn được được chia thành 4 chương như sau:  Chƣơng 1: Khái quát về bài toán liên kết thực thể trình bày một số kiến thức nền tảng liên quan.  Chƣơng 2: Phân tích và xử lý bộ dữ liệu trình bày việc đưa ra hệ thống quy tắc cho quá trình gán nhãn và liên kết thực thể có tên tới Wikipedia.  Chƣơng 3: Cơ sở lý thuyết trình bày thuật toán CRFs cũng như ứng dụng của nó trên công cụ nhận dạng Stanford NER và thuật toán Graph ứng dụng trên công cụ liên kết thực thể AIDA-light cho tiếng Việt.  Chƣơng 4: Thực nghiệm trình bày quá trình thử nghiệm mô hình cho tập dữ liệu tiếng Việt và đánh giá kết quả thực nghiệm trong việc ứng dụng vào mô hình đề xuất.

 Kết luận tổng kết các kết quả đóng góp và kết quả đạt được trong quá trình nghiên cứu và thực hiện luận văn cũng như hướng phát triển trong tương lai để hoàn thiện kết quả nghiên cứu. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1 CHƢƠNG 1: KHÁI QUÁT VỀ BÀI TOÁN LIÊN KẾT THỰC THỂ Liên kết thực thể (Entity Linking – EL) là một bài toán quan trọng trong nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên (natural language processing), trích xuất thông tin (information extraction), hỏi đáp tự động (question answering), và nhiều bài toán về trí tuệ nhân tạo khác. Cụ thể, EL liên kết các thực thể có tên (named entities) được đề cập trong văn bản vào một hệ tri thức đã được định nghĩa trước (ví dụ: DBpedia1), hoặc một kho thực thể (entity repository) (ví dụ: Wikipedia2).1 mô tả kết quả thu được từ EL trên một câu văn bản chứa một thực thể có tên chỉ người – “Nguyễn Xuân Phúc” và một thực thể có tên chỉ địa danh – “Việt Nam”. Trong đó, EL liên kết thực thể thứ nhất với trang Wikipedia về thủ tướng Nguyễn Xuân Phúc và liên kết thực thể thứ hai với trang Wikipedia về đất nước Việt Nam.1 Liên kết thực thể được nghiên cứu và ứng dụng trên nhiều ngôn ngữ phổ biến như tiếng Anh, tiếng Trung, tiếng Đức v.

Trong tiếng Việt, EL đã có một số nghiên cứu được đưa ra, tuy nhiên số lượng chưa nhiều do hạn chế về tập dữ liệu chuẩn.1 Thực thể Thực thể (entity) là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự nhiên. Thực thể có tên (named entity) là một thực thể chỉ con người, địa điểm, tổ chức, sự kiện, sản phẩm v. được biểu thị bằng một tên riêng như “Obama”, “Apple Inc.org/ 2 https://vi.org/ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Hệ tri thức Hệ tri thức là một công nghệ được sử dụng để lưu trữ các thông tin có cấu trúc phức tạp bởi một hệ thống máy tính. Các hệ tri thức phổ biến trên thế giới bao gồm Yago3, DBpedia và nhiều phiên bản công nghiệp khác như Google knowledge graph4, Unigraph5, v.

Hệ tri thức chứa thông tin về các thực thể có tên như thực thể chỉ người: Barack_Obama, thực thể chỉ tổ chức: Apple_Inc., thực thể chỉ địa điểm: California và một số loại thực thể có tên khác. Để thực hiện bài toán liên kết thực thể, chúng ta cần có hệ tri thức nền tảng, hoặc kho thực thể – phần dữ liệu chứa các thông tin về thực thể. Trong bài luận văn này, chúng tôi sử dụng Wikipedia – một trong những kho bách khoa toàn thư lớn nhất hiện nay, như một hệ tri thức cho bài toán liên kết thực thể cho tiếng Việt.3 Nhận dạng thực thể Nhận dạng thực thể (Named Entity Recognition – NER) là bài toán nhằm nhận dạng các thực thể có tên trong văn bản. Thông thường, ngoài chức năng nhận dạng, NER còn phân loại các thực thể có tên vào một số kiểu được định nghĩa trước như con người (Person), tổ chức (Organization), địa điểm (Location), v.1, NER có nhiệm vụ nhận ra “Nguyễn Xuân Phúc” là một thực thể có tên chỉ người, và “Việt Nam” là một thực thể có tên chỉ địa điểm.

NER là bài toán quan trọng được ứng dụng nhiều trong nhận dạng văn bản. Trong tiếng Việt đã có một số nghiên cứu được đưa ra tiêu biểu như nghiên cứu của tác giả Hoàng Hữu Sơn và cộng sự [1], nghiên cứu của Nguyễn Cẩm Tú và các cộng sự [7].4 Liên kết thực thể Liên kết thực thể là bài toán nhằm liên kết các thực thể có tên vào một hệ tri thức, hoặc một kho thực thể được định nghĩa trước. Liên kết thực thể thường được thực hiện sau quá trình NER trong chuỗi các bài toán về xử lý văn bản.1, Liên kết thực thể có nhiệm vụ liên kết “Nguyễn Xuân Phúc” với trang Wikipedia về thủ tướng Nguyễn Xuân Phúc, và “Việt Nam” với trang Wikipedia về đất nước Việt Nam. Liên kết thực thể là một 3 https://en.org/wiki/YAGO_(database) 4 https://developers.com/knowledge-graph/ 5 https://unigraph.io/ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 bài toán rất khó bởi tính nhập nhằng cao của các thực thể có tên, ví dụ: “Việt Nam” có thể ngầm chỉ đất nước Việt Nam, đội bóng Việt Nam, quân đội Việt Nam, v.

Hiện nay chưa có nhiều nghiên cứu về liên kết thực thể cho tiếng Việt được đưa ra. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 CHƢƠNG 2: PHÂN TÍCH VÀ XỬ LÝ BỘ DỮ LIỆU 2.1 Chuẩn bị bộ dữ liệu Trong khuôn khổ luận văn này, chúng tôi đưa ra bộ dữ liệu thô được chọn lọc từ hơn 400 bài báo điện tử (như https://dantri.vn, https://vnexpress.net, https://ngoisao. Từ bộ dữ liệu thu được, chúng tôi gán nhãn các thực thể có tên tới liên kết trên Wikipedia. Ví dụ một bài báo trong tập dữ liệu đã được gán nhãn như dưới đây.

Với các thực thể có tên chưa được cập nhật trên Wikipedia, chúng tôi để dưới dạng [OKB] – out of kbs.1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 Giải thích ví dụ 2. Minh họa gán nhãn thực thể trong tập dữ liệu 2.2 Định nghĩa thực thể Thực thể: là một đối tượng hoặc một tập hợp đối tượng trong thế giới tự nhiên. Thực thể bao gồm cả thực thể có tên riêng (như Mark Zuckerberg, Nguyễn Xuân Phúc, v.) và thực thể nói chung (như bò sát, con người, v. Dấu hiệu nhận biết một thực thể là [1]:  Tên riêng (named entity).

 Danh từ hoặc cụm danh từ chung (common noun, noun phrase). Thực thể có tên: là các đối tượng trong thế giới thực như con người, địa điểm, tổ chức, sản phẩm, v. được đặt bằng một tên gọi riêng biệt. Để phân biệt giữa một thực thể và một thực thể có tên thường căn cứ vào tên gọi riêng của thực thể đó và dùng để phân biệt với các thực thể có tên khác.

Barack Obama, Việt Nam, Liên hợp quốc, iPhone 7, v. là các ví dụ về thực thể có tên. Tổng thống, quốc gia, điện thoại, v. là các ví dụ về thực thể.

Phân biệt thực thể có tên và “khái niệm” Trong ví dụ 1.1 “Nguyễn Xuân Phúc là thủ tướng của nước Việt Nam” thì “Nguyễn Xuân Phúc” và “Việt Nam” là các thực thể có tên. Thực thể “thủ tướng” không phải là thực thể có tên vì nó chỉ tên một chức vụ và chức vụ này có thể ám chỉ nhiều đối tượng như thủ tướng Nguyễn Tấn Dũng6, Abe 6 https://vi.org/wiki/Nguyễn_Tấn_Dũng LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Trong một số nghiên cứu về nhận dạng thực thể, “thủ tướng” được gọi là “khái niệm” (concept). Khái niệm chỉ định đối tượng thuộc về một tập hợp nào đó có chung đặc điểm (ví dụ thực thể “thủ tưởng” ám chỉ các thực thể cùng giữ chức vụ có tên thủ tướng); đối tượng ở trong thế giới khác nhau, hay thời gian, không gian khác nhau (ví dụ thực thể “thủ tướng Pháp” ám chỉ các thực thể giữ chức vụ thủ tướng nước Pháp qua các nhiệm kỳ).

Các kiểu thực thể đƣợc nhận dạng  Person: Thực thể chỉ tên người.  Nationality: Thực thể chỉ tên quốc tịch, nhóm tôn giáo hoặc chính trị thuộc về quốc gia.  Organization: Thực thể chỉ tên một tổ chức, trường học, công ty, một nhóm người được thành lập theo một cấu trúc phân cấp nào đó hoặc có chung một nhiệm vụ.  Facility: Thực thể chỉ những đối tượng do con người tạo ra ví dụ lĩnh vực xây dựng và kiến trúc: bảo tàng, tòa nhà, sân bay, cầu đường v.

 Location: Thực thể chỉ tên nơi chốn do con người xây dựng như tên đất nước, thành phố, tiểu vương quốc.  Place of nature: Thực thể chỉ những địa danh thuộc về thiên nhiên địa lý như vùng lãnh thổ, sông, suối v.  Product: Thực thể chỉ các sản phẩm, nhãn hàng, phương tiện, món ăn.  Event: Thực thể chỉ các cơn bão, cuộc chiến tranh, sự kiện thể thao giải trí.

 Work of art: Thực thể chỉ tên cuốn sách, tên bài hát, tên tác phẩm điện ảnh.  Law: Thực thể chỉ tên các văn bản như luật pháp, quy định, thông tư.  Language: Thực thể chỉ tên các ngôn ngữ. Trong khuôn khổ của luận văn, chúng tôi phân loại thực thể thành 4 kiểu như sau:  Person (Con người): gồm các thực thể có tên chỉ người, các nhân vật là người được hư cấu.org/wiki/Abe_Shinzō LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 Trong ví dụ 2.1, những thực thể có tên “nhà văn Herman Melville”, “ông Bowker”, “nhân vật Starbuck” được nhận dạng là kiểu Person.1  Organization (Tổ chức): bao gồm các thực thể có tên chỉ nhóm người, tổ chức, doanh nghiệp, đoàn thể.2, những thực thể có tên “Nike”, “Orlando Magic”, “Reebok” được nhận dạng là kiểu Organization.2  Location (Địa điểm): bao gồm các thực thể có tên chỉ địa điểm, quốc gia, vùng lãnh thổ.3, những thực thể có tên “Tây Ban Nha”, “Bồ Đào Nha”, “Vườn quốc gia Doñana” là được nhận dạng là kiểu Location.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khoa học máy tính và trí tuệ nhân tạo

Xử lý ngôn ngữ tự nhiên cho tiếng Việt

Nghiên cứu về liên kết thực thể (Entity Linking)

Ứng dụng máy học trong xử lý văn bản