Phân Giải Nhập Nhằng Thực Thể Trong Mạng Xã Hội Twitter

Khám phá luận văn thạc sĩ về phân giải nhập nhằng thực thể trong mạng xã hội Twitter, ứng dụng và thách thức trong khoa học máy tính.

Trường đại học

Đại học Bách Khoa - ĐHQG-HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Bài toán và phạm vi

1.2. Các công trình liên quan

1.3. Kết quả cần đạt được

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Nhận diện nhãn tham chiếu

3.2. Truy hồi ứng viên

3.3. Phân giải nhập nhằng thực thể

3.4. Phương pháp nền

3.5. Phương pháp khác

4. CHƯƠNG 4: ĐÁNH GIÁ PHƯƠNG PHÁP

4.1. Tập huấn

4.2. Đánh giá hiệu suất và kết quả thí nghiệm

4.3. Các lỗi ảnh hưởng đến hiệu suất của hệ thống

5. CHƯƠNG 5: TỔNG KẾT

5.1. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phân Giải Nhập Nhằng Thực Thể Trên Twitter

Mạng xã hội Twitter đã trở thành một nguồn thông tin phong phú, nhưng cũng đầy thách thức trong việc phân tích dữ liệu. Việc phân giải nhập nhằng thực thể là một trong những vấn đề quan trọng nhất trong lĩnh vực này. Các tweet thường chứa nhiều thông tin không rõ ràng, gây khó khăn cho việc nhận diện và phân loại thực thể. Do đó, việc hiểu rõ về phân giải nhập nhằng thực thể trên Twitter là cần thiết để khai thác hiệu quả nguồn dữ liệu này.

1.1. Định Nghĩa Phân Giải Nhập Nhằng Thực Thể

Phân giải nhập nhằng thực thể là quá trình xác định đúng thực thể được đề cập trong văn bản. Trong bối cảnh Twitter, điều này trở nên phức tạp do độ dài ngắn và ngữ cảnh không rõ ràng của các tweet.

1.2. Tầm Quan Trọng Của Phân Giải Nhập Nhằng

Việc phân giải nhập nhằng thực thể giúp cải thiện độ chính xác của các hệ thống phân tích dữ liệu. Điều này đặc biệt quan trọng trong việc phát hiện thông tin sai lệch và phân tích hành vi người dùng.

II. Vấn Đề Nhập Nhằng Trong Mạng Xã Hội Twitter

Nhập nhằng trong các tweet thường xuất phát từ việc sử dụng ngôn ngữ không chuẩn và các ký hiệu đặc biệt. Điều này làm cho việc nhận diện thực thể trở nên khó khăn. Các nghiên cứu đã chỉ ra rằng, nhiều thực thể có thể bị hiểu sai nếu không có ngữ cảnh rõ ràng.

2.1. Các Yếu Tố Gây Nhập Nhằng

Các yếu tố như ngữ cảnh, cách viết tắt và sự không đồng nhất trong cách sử dụng từ ngữ là những nguyên nhân chính gây ra nhập nhằng trong các tweet.

2.2. Tác Động Của Nhập Nhằng Đến Phân Tích Dữ Liệu

Nhập nhằng có thể dẫn đến việc phân tích sai lệch thông tin, ảnh hưởng đến quyết định của các nhà nghiên cứu và doanh nghiệp trong việc khai thác dữ liệu từ Twitter.

III. Phương Pháp Phân Giải Nhập Nhằng Thực Thể Trên Twitter

Để giải quyết vấn đề nhập nhằng, nhiều phương pháp đã được đề xuất. Các phương pháp này thường dựa trên việc sử dụng ngữ cảnh và các thuật toán học máy để cải thiện độ chính xác trong việc nhận diện thực thể.

3.1. Sử Dụng Ngữ Cảnh Để Cải Thiện Độ Chính Xác

Việc làm giàu ngữ cảnh cho các tweet có thể giúp cải thiện khả năng nhận diện thực thể. Các nghiên cứu đã chỉ ra rằng, việc gom nhóm các tweet theo chủ đề có thể tạo ra ngữ cảnh rõ ràng hơn.

3.2. Ứng Dụng Thuật Toán Học Máy

Các thuật toán học máy như Random Forest và C4.5 đã được áp dụng để phân giải nhập nhằng thực thể. Những phương pháp này cho phép hệ thống học hỏi từ dữ liệu và cải thiện độ chính xác theo thời gian.

IV. Ứng Dụng Thực Tiễn Của Phân Giải Nhập Nhằng Thực Thể

Phân giải nhập nhằng thực thể có nhiều ứng dụng thực tiễn trong các lĩnh vực như marketing, phân tích dữ liệu và nghiên cứu xã hội. Việc hiểu rõ về thực thể trong các tweet có thể giúp các doanh nghiệp tối ưu hóa chiến lược quảng cáo và tiếp cận khách hàng hiệu quả hơn.

4.1. Tối Ưu Hóa Chiến Lược Quảng Cáo

Các doanh nghiệp có thể sử dụng thông tin từ Twitter để tối ưu hóa chiến lược quảng cáo của mình. Việc phân tích hành vi người dùng giúp xác định các xu hướng và sở thích của khách hàng.

4.2. Nghiên Cứu Xã Hội

Phân giải nhập nhằng thực thể cũng có thể được áp dụng trong nghiên cứu xã hội để hiểu rõ hơn về các vấn đề xã hội và hành vi của người dùng trên mạng xã hội.

V. Kết Luận Về Phân Giải Nhập Nhằng Thực Thể Trên Twitter

Phân giải nhập nhằng thực thể là một lĩnh vực nghiên cứu quan trọng trong việc khai thác dữ liệu từ mạng xã hội. Với sự phát triển của công nghệ và các phương pháp mới, khả năng phân giải nhập nhằng thực thể trên Twitter sẽ ngày càng được cải thiện.

5.1. Tương Lai Của Phân Giải Nhập Nhằng

Trong tương lai, việc áp dụng các công nghệ mới như trí tuệ nhân tạo và học sâu sẽ giúp cải thiện đáng kể khả năng phân giải nhập nhằng thực thể trên Twitter.

5.2. Thách Thức Cần Đối Mặt

Mặc dù có nhiều tiến bộ, nhưng vẫn còn nhiều thách thức trong việc phân giải nhập nhằng thực thể, đặc biệt là trong việc xử lý ngữ nghĩa và ngữ cảnh của các tweet.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phân giải nhập nhằng thực thể trong mạng xã hội twitter

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh mạng xã hội trực tuyến như Twitter ngày càng phổ biến với hàng triệu người dùng và hàng trăm triệu tweet mỗi ngày, việc khai thác thông tin từ các tweet trở thành một thách thức lớn do nội dung ngắn gọn, nhiễu và bất quy tắc. Một vấn đề nổi bật là phân giải nhập nhằng thực thể (Entity Disambiguation) trong các tweet, nhằm xác định chính xác các thực thể được đề cập, ví dụ như phân biệt giữa "Ronaldo" là cầu thủ người Brazil hay cầu thủ người Bồ Đào Nha. Mục tiêu của luận văn là xây dựng hệ thống phân giải nhập nhằng thực thể cho tweet trên mạng xã hội Twitter, áp dụng cho cả tiếng Anh và tiếng Việt, với tập dữ liệu gồm 562 tweet tiếng Anh và 524 tweet tiếng Việt. Nghiên cứu tập trung vào việc áp dụng và cải tiến các phương pháp học máy dựa trên cơ sở tri thức Wikipedia, nhằm nâng cao độ chính xác trong việc nhận diện và phân giải thực thể trong môi trường dữ liệu ngắn, nhiễu và đa dạng ngôn ngữ. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ các hệ thống phân tích ngôn ngữ tự nhiên, khai thác thông tin, quảng cáo trực tuyến và phân tích hành vi người dùng trên mạng xã hội.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính sau:

Phân giải nhập nhằng thực thể (Entity Disambiguation): Quá trình xác định thực thể chính xác trong các văn bản chứa nhiều thực thể có tên giống nhau hoặc tương tự, đặc biệt trong môi trường dữ liệu ngắn như tweet.
Học máy (Machine Learning): Sử dụng các thuật toán như C4.5, Random Forest và Bagging C4.5 để xây dựng mô hình phân loại và phân giải nhập nhằng dựa trên các đặc trưng được trích xuất.
Các đặc trưng chính:
- Commonness (CM): Tỉ lệ xuất hiện của nhãn tham chiếu liên kết đến thực thể trong Wikipedia.
- Semantic Relatedness (SR): Mức độ liên quan ngữ nghĩa giữa các thực thể trong cùng một tweet.
- Context Quality (CQ): Đánh giá sự đồng nhất và liên kết giữa các thực thể trong tweet.
- Entity Quantity (EQ): Số lượng ứng viên thực thể cho một nhãn tham chiếu.
- Entity Title Contains Mention (ECM): Kiểm tra xem tiêu đề trang thực thể có chứa nhãn tham chiếu hay không.

Ngoài ra, nghiên cứu còn tham khảo các công trình nổi bật về phân giải nhập nhằng thực thể trên văn bản dài và tweet như của Meij, Cassidy, Liu và Huỳnh Minh Huy, đồng thời sử dụng Wikipedia làm nguồn tri thức chính với hơn 3,8 triệu trang thực thể tiếng Anh và gần 600 nghìn trang thực thể tiếng Việt.

Phương pháp nghiên cứu

Nguồn dữ liệu:
- Tập dữ liệu tiếng Anh gồm 562 tweet do Meij cung cấp, được chú thích thủ công 760 nhãn tham chiếu.
- Tập dữ liệu tiếng Việt gồm 1,120 tweet thu thập ngẫu nhiên, trong đó 524 tweet có chứa nhãn tham chiếu với tổng số 1,061 nhãn, được chú thích bởi 6 người độc lập.
Phương pháp phân tích:
- Tiền xử lý dữ liệu nhằm chuẩn hóa và nhận diện nhãn tham chiếu bằng phương pháp n-gram, xử lý đặc thù ngôn ngữ và bảng mã tiếng Việt.
- Truy hồi ứng viên thực thể dựa trên so sánh nhãn tham chiếu với các liên kết trong Wikipedia.
- Áp dụng các thuật toán học máy (C4.5, Random Forest, Bagging C4.5) để phân giải nhập nhằng dựa trên các đặc trưng đã nêu.
- Thử nghiệm phương pháp lặp cải thiện dần nhằm bổ sung ngữ cảnh cho quá trình phân giải.
- Đánh giá hiệu suất bằng phương pháp đánh giá chéo 5-fold cross-validation, sử dụng các chỉ số Precision, Recall và F1-score.
Timeline nghiên cứu: Nghiên cứu được thực hiện trong khoảng 6 tháng từ tháng 1 đến tháng 6 năm 2014 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả tiền xử lý nhãn tham chiếu: Việc áp dụng tiền xử lý dữ liệu giúp tăng số lượng nhãn tham chiếu nhận diện đúng lên 35% đối với tiếng Anh (từ 301 lên 407 nhãn) và gần gấp đôi đối với tiếng Việt, cho thấy tầm quan trọng của bước này trong môi trường dữ liệu nhiễu và không chuẩn.
Hiệu suất phân giải nhập nhằng thực thể:
- Với tập đặc trưng đầy đủ (CM + SR + CQ + EQ + ECM), thuật toán Random Forest đạt độ chính xác (Precision) cao nhất: 85.9% cho tiếng Anh và 86.5% cho tiếng Việt.
- Các thuật toán C4.5 và Bagging C4.5 cũng cho kết quả tương tự, nhưng thấp hơn một chút.
- Phương pháp lặp cải thiện dần không làm thay đổi đáng kể hiệu suất phân giải nhập nhằng, do số lượng thực thể trong tweet thường ít.
Ảnh hưởng của làm giàu ngữ cảnh: Việc bổ sung ngữ cảnh từ các liên kết trong tweet không cải thiện đáng kể hiệu suất, đồng thời làm tăng thời gian xử lý, do phần lớn các tweet dạng tin tức đã rõ ràng và ít nhập nhằng.
Hiệu suất toàn hệ thống: Khi đánh giá toàn bộ hệ thống từ nhận diện nhãn tham chiếu đến phân giải nhập nhằng, cụm đặc trưng (CM + SR + CQ) cho tiếng Anh đạt F1 khoảng 54.5%, trong khi cụm đầy đủ (CM + SR + CQ + EQ + ECM) cho tiếng Việt đạt khoảng 60%, cho thấy hệ thống hoạt động tốt hơn với tiếng Việt trong điều kiện nghiên cứu.
So sánh với các hệ thống khác: Hệ thống đề xuất cải thiện độ chính xác phân giải nhập nhằng thực thể lên 5.7% so với công trình của Meij và 2.5% so với Liu trên tập dữ liệu tiếng Anh, đồng thời nâng cao hiệu suất toàn hệ thống hơn 8.4% so với Meij và 3.4% so với SSRegu.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất là do việc kết hợp các đặc trưng đa dạng, đặc biệt là ECM giúp nhận diện chính xác hơn các thực thể có tên tương tự. Việc áp dụng thuật toán Random Forest tận dụng tốt các đặc trưng phi tuyến và tương tác giữa chúng. Mặc dù phương pháp lặp cải thiện dần không làm tăng đáng kể hiệu suất phân giải nhập nhằng, nhưng lại giúp tăng hiệu quả toàn hệ thống nhờ bổ sung ngữ cảnh cho các thực thể mới phát hiện. Kết quả phù hợp với các nghiên cứu trước, đồng thời cho thấy thách thức lớn trong việc xử lý dữ liệu ngắn, nhiễu và đa dạng ngôn ngữ như tweet. Việc làm giàu ngữ cảnh từ liên kết không mang lại lợi ích rõ rệt do đặc thù tweet đã có ngữ cảnh rõ ràng hoặc ít nhập nhằng. Các biểu đồ so sánh Precision, Recall và F1 giữa các thuật toán và bộ đặc trưng minh họa rõ sự vượt trội của cụm đặc trưng đầy đủ và thuật toán Random Forest.

Đề xuất và khuyến nghị

Tăng cường tiền xử lý dữ liệu: Áp dụng các kỹ thuật chuẩn hóa ngôn ngữ, xử lý bảng mã và nhận diện nhãn tham chiếu nâng cao nhằm cải thiện độ chính xác nhận diện, đặc biệt với tiếng Việt có nhiều biến thể viết không chuẩn. Thời gian thực hiện: 3-6 tháng; chủ thể: nhóm phát triển hệ thống.
Phát triển bộ đặc trưng mở rộng: Nghiên cứu thêm các đặc trưng ngữ nghĩa sâu hơn như embedding từ, ngữ cảnh rộng hơn từ các tweet liên quan để tăng khả năng phân giải nhập nhằng. Thời gian: 6-9 tháng; chủ thể: nhóm nghiên cứu học máy.
Tối ưu thuật toán học máy: Thử nghiệm các mô hình học sâu (deep learning) hoặc mô hình tập thể (ensemble) kết hợp với Random Forest để nâng cao hiệu suất phân giải. Thời gian: 6-12 tháng; chủ thể: nhóm nghiên cứu AI.
Xây dựng công cụ nhận diện thực thể tiếng Việt chuyên biệt: Phát triển công cụ nhận diện thực thể riêng cho tiếng Việt trên dữ liệu mạng xã hội, xử lý đặc thù ngôn ngữ và văn phong không chuẩn. Thời gian: 9-12 tháng; chủ thể: nhóm phát triển NLP.
Triển khai hệ thống thực tế và đánh giá liên tục: Áp dụng hệ thống vào các ứng dụng khai thác thông tin, quảng cáo trực tuyến, phân tích hành vi người dùng trên Twitter, đồng thời thu thập phản hồi để cải tiến. Thời gian: liên tục; chủ thể: doanh nghiệp, tổ chức nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, NLP: Nghiên cứu về phân giải nhập nhằng thực thể, học máy và xử lý ngôn ngữ tự nhiên trên dữ liệu mạng xã hội, đặc biệt với tiếng Việt và tiếng Anh.
Phát triển hệ thống khai thác thông tin và phân tích dữ liệu mạng xã hội: Áp dụng các phương pháp và mô hình trong luận văn để xây dựng hệ thống phân tích ý kiến, hành vi người dùng, phát hiện sự kiện và tin đồn trên Twitter.
Doanh nghiệp quảng cáo trực tuyến và marketing số: Khai thác thông tin chính xác từ tweet để phân tích sở thích, xu hướng người dùng, từ đó tối ưu hóa chiến dịch quảng cáo và tiếp thị.
Cơ quan quản lý và nghiên cứu xã hội học, truyền thông: Sử dụng kết quả nghiên cứu để phân tích xu hướng xã hội, phát hiện tin giả, theo dõi tình hình sức khỏe cộng đồng qua mạng xã hội.

Câu hỏi thường gặp

Phân giải nhập nhằng thực thể là gì và tại sao quan trọng trên Twitter?
Phân giải nhập nhằng thực thể là quá trình xác định chính xác thực thể mà một từ hoặc cụm từ đề cập đến trong văn bản. Trên Twitter, do nội dung ngắn, nhiều từ viết tắt và đa nghĩa, việc này giúp hệ thống hiểu đúng ý nghĩa, phục vụ cho phân tích dữ liệu chính xác.
Tại sao cần xây dựng tập dữ liệu riêng cho tiếng Việt?
Tiếng Việt có đặc thù ngôn ngữ riêng, nhiều biến thể viết không chuẩn trên mạng xã hội, chưa có công cụ nhận diện thực thể mạnh. Tập dữ liệu riêng giúp huấn luyện và đánh giá mô hình phù hợp với ngôn ngữ này.
Các đặc trưng nào quan trọng nhất trong phân giải nhập nhằng thực thể?
Các đặc trưng như Commonness (tần suất liên kết), Semantic Relatedness (liên quan ngữ nghĩa), Context Quality (chất lượng ngữ cảnh), Entity Quantity (số lượng ứng viên) và Entity Title Contains Mention (tiêu đề chứa nhãn) đóng vai trò then chốt trong việc nâng cao độ chính xác.
Phương pháp lặp cải thiện dần có tác dụng gì?
Phương pháp này bổ sung ngữ cảnh liên tục bằng cách sử dụng kết quả phân giải thực thể trước đó để hỗ trợ phân giải các thực thể còn lại, giúp tăng hiệu quả toàn hệ thống, đặc biệt khi nhiều thực thể liên quan xuất hiện trong cùng một tweet.
Hệ thống có thể áp dụng cho các mạng xã hội khác ngoài Twitter không?
Có thể, nhưng cần điều chỉnh phù hợp với đặc thù dữ liệu của từng mạng xã hội, ví dụ như độ dài nội dung, cách viết, ngôn ngữ sử dụng. Twitter có giới hạn 140 ký tự, trong khi Facebook hay Instagram có thể dài hơn và phong cách khác biệt.

Kết luận

Luận văn đã xây dựng thành công hệ thống phân giải nhập nhằng thực thể cho tweet tiếng Anh và tiếng Việt dựa trên học máy và cơ sở tri thức Wikipedia.
Kết quả đánh giá cho thấy hệ thống đạt độ chính xác cao, cải thiện đáng kể so với các công trình trước, đặc biệt với thuật toán Random Forest và bộ đặc trưng đầy đủ.
Tiền xử lý dữ liệu và nhận diện nhãn tham chiếu đóng vai trò quan trọng trong việc nâng cao hiệu suất hệ thống.
Phương pháp lặp cải thiện dần giúp tăng hiệu quả toàn hệ thống bằng cách bổ sung ngữ cảnh liên tục.
Nghiên cứu mở ra hướng phát triển các công cụ xử lý ngôn ngữ tự nhiên cho dữ liệu mạng xã hội tiếng Việt, đồng thời có tiềm năng ứng dụng rộng rãi trong khai thác thông tin và phân tích hành vi người dùng.

Next steps: Mở rộng tập dữ liệu, phát triển công cụ nhận diện thực thể tiếng Việt chuyên biệt, thử nghiệm các mô hình học sâu và triển khai hệ thống thực tế.

Call to action: Các nhà nghiên cứu và doanh nghiệp quan tâm có thể áp dụng và phát triển tiếp các phương pháp trong luận văn để nâng cao hiệu quả khai thác thông tin từ mạng xã hội.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TONG QUAN 1. Giới thiệu Ngày nay, mang xã hội ngày càng trở nên phố biến và dang ảnh hưởng đến mọi mặt của đời sống xã hội. Sự phát trién mạnh mẽ của mạng xã hội cùng với một lượng lớn các thông tin truyén tải trên đó dẫn đến một số van dé được quan tâm như: phát hiện những tin tức đồn nhảm nhăm ngăn chặn kịp thời; kiếm duyệt thông tin; phân tích hành vi, thói quen, sở thích, quan điểm của người dùng nhằm tăng hiệu quả quảng cáo trực tuyên, và nhiêu van đê khác. Một trong những mạng xã hội phố biến hiện nay là Twitter.

Twitter là dịch vụ mạng xã hội miễn phí cho phép người sử dụng đọc, nhăn và cập nhật các mẫu tin nhỏ gọi la tweet. Gidi hạn về độ dài của tweet là 140 ký tự, có tính tương thích với tin SMS (Short Message Service), mang đến cho cộng đồng mạng một hình thức tốc ký đáng chú ý, đã được sử dụng rộng rãi đối với SMS’. Với hơn hàng triệu người dùng và hàng trăm triệu tweet mỗi ngày [1] thì việc khai thác những thông tin hữu ích trên đó có thê giúp con người sử dụng vào nhiêu mục đích khác nhau. Có rất nhiều công trình nghiên cứu liên quan đến khai thác thông tin trên Twitter như: phân tích thông tin, ý kiến người dùng, sản phẩm ưa chuộng hay thông tin của nhà sản xuất được người tiêu dùng ưa chuộng: rút trích thông tin, tìm hiểu và khám phá chủ dé dé phát hiện sở thích của người dùng [2]; tìm những sự kiện mà người dùng quan tâm; hay theo dõi tình trang sức khỏe của người dùng dé phát hiện và thong kê tình hình sức khỏe xã hội [3]; phát hiện thông tin đồn nhảm.org/wiki/Twitter Ví dụ 1: Một người dung A chia sẽ trên Twitter và các bạn bè của A cũng chia sẽ ngược trở lại, nội dung như sau: A: “Nào là Clear, Head and Shoulder, Pantene cái nào cũng ko hết gau ® hichic ” B: “Dove xài tot lam! @A ơi.

` ° “X-Men number 1, tui thứ rùi nè ;-) ” 9m “Ở,. X-Men cũng ok” “ok, to sẽ mua X-Men xài. Hi vọng hit gàu và lep trai ^^” B: “n.mai tui di mua X-Men xài luôn! ” Phân tích ví dụ trên, ta thấy: người ding A dang có xu hướng chuyền sang sử dụng dầu gội đầu X-Men và không thích dầu gội Clear, Head and Shoulder và Pantene. Hai người bạn B và C cũng sử dụng dau gội X-Men.

Với ví dụ 1, chúng ta có thé khai thác thông tin trên phục vụ cho nhu cau phát hiện và phân tích hành vi, sở thích dùng cho việc quảng cáo, thu thập thông tin ý kiến người dùng. Nhưng vẫn dé đặt ra là làm sao cho máy tính có thé hiểu được “X-Men” là một nhãn hiệu dầu sội đầu “X-Men” hay là tên của bộ phim “X-Men”. Tương tự, “Head and Shoulder” cũng là tên của một nhãn hiệu dầu gội hay là hai đối tượng là “Head” và “Shoulder”. Đối với một tweet thì văn phong hoàn toàn không theo một chuẩn hay quy luật nào cả.

Nó chỉ phụ thuộc vào sở thích hay theo văn phong của người viết. Cho nên, việc phân tích ngữ nghĩa, cú pháp, nhận diện được thực thể trở nên khó khăn. Ví dụ 2: Một tweet có nội dung như sau: A: “Ronaldo, than tượng cua tui ^—^, huyền thoại cua Brazil, anh hung cua Real-Madrid.!’ “Ronaldo” là một nhãn tham chiếu có thé nói đến “Ronaldo Luis Nazario de” và “Cristiano Ronaldo”. Nhưng với ví dụ 2, thì “Ronaldo” đang đề cập trong tweet là “Ronaldo Luis Nazário de Lima” của đội tuyên Brazil, đã từng thi dau ở câu lạc bộ Real Madrid.

Không phải dé cập đến “Cristiano Ronaldo” của đội tuyên Bồ Đào Nha, cũng là một cau thủ dang thi đấu tại Real Madrid. Vấn đề đặt ra là làm sao để máy có thể tự động nhận diện được các thực thể được dé cập trong các tweet góp phan cho máy hiểu ngữ nghĩa của tweet. Mục tiêu đặt ra là để máy tính hay các hệ thống tự động có thể phân tích và hiểu được nội dung của tweet. Chăng hạn như ở ví dụ trên, việc hiểu đúng nội dung của các tweet giúp cho hệ thống phân tích đúng rang người dùng A đang nói về “Ronaldo Luis Nazário đe Lima” và xu thé là người này rất quan tâm về những tin tức có liên quan đến “Ronaldo Luis Nazário de Lima” (Hình 1.1 minh họa cho ví dụ 2).

Cristiano Ronaldo Ronaldo Luis Nazario de Lima (Kết quả mong muốn) Hình 1.1 Ví dụ phân giải nhập nhăng thực thé Ví dụ 3: Một tweet có nội dung sau: A: “Đường lythuongkiet và 3-2 dang kẹt xe” (Lúc 16h40, tại TP. Hỗ Chi Minh) Với ví dụ 3 này, nội dung của tweet đang dé cập đến 3 cụm từ chính là “Iythuongkief°, “3-2” và “TP. Hỗ Chi Minh”. Như vậy, “lythuongkiet” đang nói về hai đối tượng là “Lý Thường Kiệt” và một con đường có tên là “Ly Thuong Kiet’.

Đối với “3-2” thì đang nói về 2 đối tượng là con đường “3 thdng 2” và ngày “3 tháng 2”. Việc hiểu rõ được 2 đối tượng “lythuongkiet” và “3-2” được căn cứ vào ngữ nghĩa xung quanh 2 đối tượng này là “ket xe” và “TP. Hồ Chí Minh”. Dựa trên các yếu tố này, ta hiểu được là “/ythuongkier” là đang nói về con đường “Lý Thirong Kiệt” và “3-2” thì đang nói vé con đường “3 thang 2” (Hình].2 minh họa cho ví dụ 3).

Nhưng trong ví du này, dé máy tính có thé hiểu được 2 đối tượng “lythuongkiet” và “3-2” là một van dé gây ra không ít khó khăn. Nguyên nhân là do cụm từ “lythuongkiet” hay “3-2” bị ảnh hưởng bởi văn phong của người viết và ngữ cảnh của tweet đó. Chính vì vậy, văn phong của người viết có ảnh hưởng rất lớn đến việc nhận diện và hiệu đúng của máy tinh. Bài toán và phạm vi Chúng tôi tập trung và thực hiện việc phân giải nhập nhang thực thé trong các tweet tải trên mang xã hội Twitter, bao gdm cả tweet tiếng Anh và tweet tiếng Việt.

Tuy nhiên, giữa tiếng Anh và tiếng Việt lại có những đặc trưng khác nhau, vì vậy tùy vào ngôn ngữ mà chúng tôi thực hiện việc chọn lựa các đặc trưng, phương pháp và thuật toán phù hợp để đạt được kết quả tốt nhất. Chúng tôi chỉ quan tâm đến các thực thể tôn tại trong Wikipedia. Các công trình liên quan Bài toán phân giải nhập nhang thực thé chú trọng đến việc phân giải các thực thé và đa số được áp dụng cho các văn bản chính quy (có nội dung dai và tương đối day đủ về mặt ngữ nghĩa). Đối với các văn bản tiếng Anh thường được viết tuân theo các luật như tên riêng phải viết hoa, tên phải được đặt trước họ, đầu câu phải viết hoa, không có các ký hiệu đặc biệt (như: ^^, ;-),.

Còn đối với tiếng Việt thì phải viết đúng chính tả, bỏ dau đúng quy định, tên riêng phải viết hoa,. Cho nên, việc phân giải nhập nhang thực thé cho một văn bản chính quy thì khác với việc phải phân giải nhập nhăng thực thể cho mạng xã hội. Vẫn đề khác biệt mà chúng tôi dé cap ở day đó là quá trình nhận diện các thực thể xuất hiện trong nội dung tweet và quá trình phân giải nhập nhằng cho các thực thể đó. Các công trình nghiên cứu liên kết thực thể hay phân giải nhập nhăng thực thể cho tweet thực hiện theo nhiều hướng và phương pháp khác nhau.

Một số công trình nghiên cứu gan đây và nỗi bật như công trình của Meij, Cassidy, Liu,. [ “lythuongkiet” Lý Thường Kiệt Nha Thi Đầu Đa Š Nang Phu Thọ =. ye » San Van ong Duong Ly Thuong Kiét va Duong 3 thang 2 Tại Thanh phô Hồ Chí Minh | “Tp. Hỗ Chí Minh”.

Kết quả cần đạt được Hình 1.2 Ví dụ về phân giải nhập nhang thực thé Công trình nghiên cứu của Meij Công trình của Meij [4] chủ yếu là tìm các khái niệm có liên quan đến nội dung của tweet tiếng Anh (Hình 1.3 mô tả về hệ thống của Meij). Các khái niệm được tác giả đề cập ở đây là các trang thực thể trong Wikipedia. High Precision N-gram -— sl : Lesicd Danh sách KN ứng viên “- L€XIC Danh sách KN ứngẹ viên ai 1e bse tal Danh sach | “ching, ”: Mae 1 ik? | - RF Š My-> ->T,(t. ty) Ty tise † tye «+ E1 Nhãn tham chiếu M={m;.

ren my Taitays tạ oo tỷ mmmin> T;ftyy ays vs tý Mey =i sf na NA S. m ~> Ta{t v Pent 2 1ì -> li t.3 Mô ta tong quan hệ thống của Meij Hệ thống này sử dụng phương pháp n-gram dé tìm các nhãn tham chiếu có thé trong nội dung của tweet. Một n-gram được xem là nhãn tham chiếu nếu n-gram đó so khớp với một nhãn liên kết trong Wikipedia. Sau đó, tiến hành tìm các thực thể ứng viên cho các nhãn tham chiêu vừa tìm được.

Giai đoạn cuôi cùng là dùng học máy dé cho điêm và xêp hạng cho các thực thê ứng viên. Cho nên, mục tiêu chính của hệ thong này chủ yêu là tìm và cho điêm các thực thê ứng viên đê thu được khái niệm gân nhât cho các nhãn tham chiêu trong tweet. Công trình nghiên cứu của Cassidy Khác với nghiên cứu của Meij, nghiên cứu của Cassidy [1] dùng một hệ thống phân giải nhập nhang dành cho văn bản tiếng Anh gọi là GLOW [5] dé áp dụng cho quá trình phân giải nhập nhang thực thé cho tweet (Hình 1.4 mô tả về hệ thống của Cassidy). GLOW dựa trên việc sử dụng các đặc trưng cục bộ và toàn cục như: mỗi quan hệ giữa nhãn tham chiếu và thực thể, mối quan hệ giữa các thực thể với nhau và mỗi quan hệ giữa các nhãn tham chiếu với nhau.

Điểm khác biệt là nội dung của tweet thì quá ngắn và quá ít thực thé, thiếu ngữ cảnh; trong khi đó hệ thống GLOW lại dùng cho văn bản dài và giàu ngữ cảnh; cho nên nghiên cứu này lẫy ý tưởng chính là làm giàu ngữ cảnh cho tweet. Việc làm giàu ngữ cảnh cho tweet được tác giả thực hiện theo hai phương pháp chính là: gom nhóm các tweet theo tác giả và gom nhóm các tweet theo chủ đê. Thê nhưng, với việc làm giàu ngữ cảnh như vậy cho tweet thì gặp phải một số van dé cần quan tâm. Đó là: - Néu gom nhóm theo tác giả thì không thé xác định là các tweet này có liên quan nội dung với nhau hay không.

Cho nên, ngữ cảnh được tạo ra khi gom nhóm theo phương pháp này sẽ rời rạc và mức độ liên quan về ngữ nghĩa sẽ không cao. - Néu gom nhóm theo chủ dé thì các tweet có thé cùng một chủ đề nhưng về mức độ ý nghĩa cua từng tweet thì không rõ ràng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Phân giải thực thể trong mạng xã hội

tác động của nhập nhằng thực thể

phân tích ngữ nghĩa trên Twitter

Công nghệ và thuật toán trong mạng xã hội