Luận văn thạc sĩ về dự báo tin tức giả sử dụng hệ thống thông tin và đồ thị tri thức

Luận văn thạc sĩ nghiên cứu hệ thống thông tin dự báo tin tức giả thông qua phương pháp đồ thị tri thức, ứng dụng công nghệ hiện đại.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Đặt vấn đề

1.2. Mục tiêu của luận văn

1.3. Phương pháp nghiên cứu

1.4. Các chương mục của luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Đồ thị và đồ thị tri thức

2.1.1. Định nghĩa đồ thị

2.1.2. Một số khái niệm trên đồ thị

2.1.3. Định nghĩa về đồ thị tương tự

2.1.4. Định nghĩa về đồ thị tri thức (Knowledge Graph - KG)

2.1.5. Cách thức hoạt động của đồ thị tri thức

2.1.6. Các trường hợp sử dụng đồ thị tri thức

2.2. Các phương pháp học máy để phân loại tin tức giả mạo

2.2.1. Học có giám sát

2.2.2. Học không giám sát

2.3. Áp dụng các phương pháp học máy trong phân loại tin tức giả mạo

3. CHƯƠNG 3: GIẢI PHÁP PHÂN LOẠI TIN TỨC GIẢ MẠO

3.1. Áp dụng mô hình GCN để phân loại tin tức giả mạo

3.2. Các phương pháp ngăn chặn mô hình overfitting

3.3. Kịch bản thử nghiệm

3.4. Kết quả thực nghiệm mô hình

3.5. Kết quả phân loại tin tức thật và giả mạo

4. CHƯƠNG 4: THỰC NGHIỆM, ĐÁNH GIÁ VÀ NHẬN XÉT KẾT QUẢ BÀI TOÁN

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC BÀI BÁO ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

LỜI CẢM ƠN

Tóm tắt

I. Dự báo tin tức giả

Dự báo tin tức giả là một vấn đề nghiên cứu quan trọng trong bối cảnh thông tin tràn lan trên internet. Luận văn này tập trung vào việc sử dụng hệ thống thông tin và đồ thị tri thức để dự đoán và phân loại tin tức giả mạo. Phương pháp tiếp cận dựa trên đồ thị tri thức cho phép xây dựng cấu trúc dữ liệu phức tạp, giúp tăng khả năng tính toán và phân tích so với các phương pháp truyền thống. Phát hiện tin giả đòi hỏi sự kết hợp giữa công nghệ thông tin và trí tuệ nhân tạo để xử lý thông tin hiệu quả.

1.1. Phương pháp tiếp cận

Luận văn đề xuất sử dụng đồ thị tri thức để phân loại tin tức giả mạo. Phương pháp này dựa trên việc xây dựng cấu trúc đồ thị từ dữ liệu văn bản, giúp tăng khả năng phân tích và dự đoán. Hệ thống thông tin được tích hợp để xử lý dữ liệu lớn, trong khi trí tuệ nhân tạo hỗ trợ phân tích ngữ nghĩa và kiểm chứng thông tin. Cách tiếp cận này giải quyết được hạn chế của các phương pháp truyền thống, đặc biệt trong việc xử lý dữ liệu tiếng Việt.

1.2. Thách thức hiện tại

Một trong những thách thức lớn trong dự báo tin tức giả là sự thiếu hụt dữ liệu được gán nhãn. Các phương pháp học có giám sát thường yêu cầu lượng dữ liệu lớn, trong khi số lượng tin tức được gán nhãn thật hoặc giả mạo chỉ chiếm tỉ lệ nhỏ. Luận văn đề xuất sử dụng phương pháp học bán giám sát để giải quyết vấn đề này, giúp tăng độ chính xác của mô hình dự đoán.

II. Hệ thống thông tin và đồ thị tri thức

Hệ thống thông tin đóng vai trò quan trọng trong việc xử lý và phân tích dữ liệu lớn. Luận văn sử dụng đồ thị tri thức để biểu diễn mối quan hệ giữa các thực thể trong dữ liệu tin tức. Đồ thị tri thức không chỉ giúp phân tích dữ liệu hiệu quả mà còn hỗ trợ kiểm chứng thông tin thông qua việc xây dựng mạng lưới tri thức. Phương pháp này kết hợp phân tích đồ thị và xử lý thông tin để tăng cường khả năng dự đoán tin tức giả.

2.1. Xây dựng đồ thị tri thức

Quá trình xây dựng đồ thị tri thức bắt đầu từ việc trích xuất dữ liệu từ các nguồn tin tức tiếng Việt. Dữ liệu được biểu diễn dưới dạng đồ thị, trong đó các đỉnh đại diện cho thực thể và các cạnh biểu diễn mối quan hệ giữa chúng. Phân tích ngữ nghĩa được áp dụng để xác định mức độ tương đồng giữa các thực thể, giúp xây dựng đồ thị tri thức chính xác và hiệu quả.

2.2. Ứng dụng trong dự đoán tin tức giả

Đồ thị tri thức được sử dụng để phân loại tin tức giả mạo thông qua việc phân tích mối quan hệ giữa các thực thể. Phương pháp này cho phép xác định các mẫu tin tức giả mạo dựa trên sự tương đồng và khác biệt trong cấu trúc đồ thị. Hệ thống dự đoán được xây dựng dựa trên mạng lưới tri thức, giúp tăng cường khả năng kiểm chứng thông tin và dự đoán tin tức giả.

III. Phân tích dữ liệu và trí tuệ nhân tạo

Phân tích dữ liệu và trí tuệ nhân tạo là hai yếu tố then chốt trong việc dự đoán tin tức giả. Luận văn sử dụng các thuật toán học máy để phân loại tin tức giả mạo, bao gồm học có giám sát và học không giám sát. Phân tích đồ thị được kết hợp với xử lý thông tin để tăng cường khả năng phân tích dữ liệu. Trí tuệ nhân tạo hỗ trợ việc kiểm chứng thông tin và dự đoán tin tức giả thông qua việc phân tích ngữ nghĩa và cấu trúc dữ liệu.

3.1. Phương pháp học máy

Luận văn áp dụng các phương pháp học máy như Graph Convolutional Networks (GCN) để phân loại tin tức giả mạo. Phương pháp này cho phép xử lý dữ liệu có cấu trúc đồ thị, giúp tăng độ chính xác của mô hình dự đoán. Phân tích dữ liệu được thực hiện thông qua việc trích xuất các đặc điểm từ dữ liệu văn bản và hình ảnh, giúp xác định các mẫu tin tức giả mạo.

3.2. Ứng dụng thực tế

Các phương pháp trí tuệ nhân tạo và phân tích dữ liệu được áp dụng trong việc dự đoán tin tức giả trên các nền tảng mạng xã hội. Hệ thống thông tin được tích hợp để xử lý dữ liệu lớn, trong khi đồ thị tri thức hỗ trợ kiểm chứng thông tin. Phương pháp này có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ y tế đến kinh tế, giúp giảm thiểu tác động tiêu cực của tin tức giả mạo.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hệ thống thông tin dự báo tin tức giả bằng cách tiếp cận đồ thị tri thức

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet, lượng tin tức trực tuyến ngày càng tăng nhanh, kéo theo sự gia tăng đáng kể của tin tức giả mạo với nhiều hậu quả tiêu cực cho xã hội. Theo ước tính, trong bộ dữ liệu nghiên cứu gồm 1200 bài báo tiếng Việt thu thập từ năm 2018 đến 2023, có khoảng 25% tin tức được xác định là giả mạo. Tin tức giả mạo là những thông tin sai lệch, được tạo ra với mục đích lừa dối hoặc gây ảnh hưởng tiêu cực đến các lĩnh vực như chính trị, kinh tế, văn hóa, y tế và xã hội. Việc phát hiện và phân loại tin tức giả mạo trở thành một thách thức lớn do số lượng tin tức khổng lồ và sự đa dạng về chủ đề.

Mục tiêu của luận văn là nghiên cứu và phát triển phương pháp phân loại tin tức giả mạo tiếng Việt dựa trên tiếp cận đồ thị tri thức (Knowledge Graph) kết hợp với mô hình học bán giám sát Graph Convolutional Network (GCN). Phạm vi nghiên cứu bao gồm thu thập dữ liệu từ các trang báo điện tử phổ biến như VnExpress, Tuổi Trẻ, Báo Mới, kết hợp với bộ dữ liệu VFND tiếng Việt, nhằm xây dựng bộ dữ liệu đa dạng về chủ đề và phong phú về nội dung. Nghiên cứu hướng tới nâng cao độ chính xác phân loại tin tức giả mạo, đồng thời giảm thiểu yêu cầu về dữ liệu gán nhãn, góp phần hỗ trợ các hệ thống kiểm duyệt và xác thực thông tin trên môi trường mạng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Đồ thị và đồ thị tri thức (Knowledge Graph - KG): Đồ thị được định nghĩa là tập hợp các đỉnh (đại diện cho thực thể, sự kiện) và các cạnh (mối quan hệ giữa các đỉnh). Đồ thị tri thức là mô hình biểu diễn tri thức thực tiễn dưới dạng đồ thị có gán nhãn, cho phép biểu diễn các thực thể và mối quan hệ một cách rõ ràng, hỗ trợ truy vấn và suy luận hiệu quả.
Phương pháp học máy phân loại tin tức giả mạo: Bao gồm học có giám sát, học không giám sát và học bán giám sát. Trong đó, học bán giám sát kết hợp dữ liệu có nhãn và không có nhãn, phù hợp với thực tế khi dữ liệu gán nhãn còn hạn chế.
Mạng nơ-ron đồ thị (Graph Neural Networks - GNN), đặc biệt là Graph Convolutional Network (GCN): GCN là mô hình học sâu trên dữ liệu đồ thị, cho phép học biểu diễn các nút dựa trên thông tin của các nút láng giềng, giúp khai thác cấu trúc phức tạp của đồ thị tri thức để phân loại tin tức giả mạo hiệu quả.

Các khái niệm chính bao gồm: đồ thị vô hướng, đồ thị có hướng, đồ thị tương tự (similarity graph), triple sets (bộ ba thực thể - quan hệ - thực thể), Word Mover's Distance (WMD) để đo độ tương tự ngữ nghĩa giữa các văn bản.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm 1200 bài báo tiếng Việt thu thập từ các trang báo điện tử uy tín và bộ dữ liệu VFND, trong đó có 300 bài báo giả mạo, 300 bài báo thật và 600 bài báo chưa gán nhãn. Dữ liệu trải dài nhiều lĩnh vực như thể thao, văn hóa, xã hội, kinh tế, pháp luật, y tế và sức khỏe, được thu thập trong giai đoạn 2018-2023.

Phương pháp nghiên cứu gồm các bước:

Tiền xử lý dữ liệu: Làm sạch dữ liệu, tách câu, chuẩn hóa từ, loại bỏ stopwords, mã hóa nhãn.
Nhúng từ (Word Embedding): Sử dụng thuật toán GloVe để chuyển đổi văn bản thành vector biểu diễn trong không gian Euclide.
Xây dựng đồ thị tương tự: Tính toán độ tương tự giữa các bài báo bằng Word Mover's Distance (WMD), áp dụng thuật toán K-Nearest Neighbors (KNN) với K=5 để kết nối các nút tương tự, tạo thành đồ thị tương tự.
Xây dựng đồ thị tri thức: Trích xuất thực thể và quan hệ từ văn bản bằng mô hình REBEL, biểu diễn dưới dạng triple sets, từ đó xây dựng đồ thị tri thức với các đỉnh là thực thể và các cạnh là quan hệ.
Phân loại tin tức giả mạo: Áp dụng mô hình học bán giám sát GCN trên đồ thị tri thức để phân loại các bài báo chưa gán nhãn thành thật hoặc giả mạo.
Đánh giá mô hình: Sử dụng các chỉ số accuracy, precision, recall và F1-score trên tập kiểm thử chiếm 30% dữ liệu.

Quá trình huấn luyện mô hình GCN được thực hiện với 1000 epochs, dropout=0.005, hidden layer size=16, weight decay=5e-4, sử dụng kỹ thuật early stopping và cross-validation để tránh overfitting.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình GCN với K=5 tốt hơn K=3: Khi xây dựng đồ thị tương tự với K=5, các chỉ số đánh giá mô hình đều cao hơn so với K=3, cho thấy việc kết nối nhiều nút láng giềng hơn giúp mô hình học được biểu diễn phong phú hơn.
Tăng tỷ lệ dữ liệu gán nhãn cải thiện độ chính xác: Khi tỷ lệ dữ liệu gán nhãn tăng từ 20% lên 50%, độ chính xác phân loại tin tức giả mạo tăng từ khoảng 63.9% lên đến 85.1%, minh chứng cho tầm quan trọng của dữ liệu gán nhãn trong học bán giám sát.
Mô hình GCN vượt trội so với các phương pháp học có giám sát truyền thống: So với các thuật toán như SVM, Naive Bayes, mô hình GCN tận dụng cấu trúc đồ thị tri thức giúp cải thiện đáng kể độ chính xác phân loại, đặc biệt trong điều kiện dữ liệu gán nhãn hạn chế.
Khả năng chống overfitting hiệu quả: Việc áp dụng dropout 0.5, early stopping và cross-validation giúp mô hình tránh được hiện tượng overfitting, đảm bảo tính tổng quát khi áp dụng trên dữ liệu mới.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình GCN đạt hiệu quả cao là do khả năng khai thác thông tin cấu trúc đồ thị tri thức, tận dụng mối quan hệ giữa các thực thể và bài báo để nâng cao biểu diễn đặc trưng. So với các mô hình học sâu truyền thống như LSTM hay GRU chỉ xử lý dữ liệu tuần tự, GCN xử lý dữ liệu phi Euclide, phù hợp với cấu trúc phức tạp của dữ liệu tin tức.

Kết quả cũng phù hợp với các nghiên cứu gần đây cho thấy học bán giám sát trên đồ thị tri thức giúp cải thiện độ chính xác trong các bài toán phân loại với dữ liệu gán nhãn hạn chế. Việc lựa chọn K=5 trong KNN giúp cân bằng giữa độ phủ và độ chính xác của đồ thị tương tự, tránh kết nối quá thưa hoặc quá dày gây ảnh hưởng đến hiệu suất mô hình.

Dữ liệu được trình bày qua biểu đồ precision và loss qua từng epoch cho thấy mô hình hội tụ ổn định sau khoảng 800 epochs, với độ chính xác validation đạt trên 85%. Bảng so sánh kết quả với các phương pháp khác cũng minh chứng ưu thế của phương pháp đề xuất.

Đề xuất và khuyến nghị

Mở rộng và đa dạng hóa bộ dữ liệu gán nhãn: Tăng tỷ lệ dữ liệu gán nhãn lên trên 50% trong vòng 1-2 năm tới sẽ giúp nâng cao độ chính xác phân loại, đặc biệt với các chủ đề mới và đa dạng hơn. Chủ thể thực hiện: các tổ chức nghiên cứu, báo chí và cộng đồng kiểm duyệt thông tin.
Phát triển hệ thống phân loại tin tức giả mạo tích hợp GCN: Triển khai mô hình GCN vào các nền tảng truyền thông xã hội và báo điện tử để tự động phát hiện và cảnh báo tin giả, giảm thiểu tác động tiêu cực. Thời gian thực hiện: 1 năm. Chủ thể: các công ty công nghệ, nhà phát triển phần mềm.
Nâng cao khả năng xử lý ngôn ngữ tự nhiên tiếng Việt: Cải tiến các mô hình trích xuất thực thể và quan hệ (NER, RE) phù hợp với đặc thù tiếng Việt nhằm tăng chất lượng đồ thị tri thức. Chủ thể: các nhóm nghiên cứu NLP, trường đại học.
Tích hợp thêm các nguồn dữ liệu xã hội và hành vi người dùng: Kết hợp dữ liệu mạng xã hội, hồ sơ người dùng để tăng cường phân loại tin tức giả mạo theo bối cảnh xã hội, nâng cao độ tin cậy. Thời gian: 2 năm. Chủ thể: các tổ chức nghiên cứu xã hội học và công nghệ thông tin.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Hệ thống thông tin, Khoa học máy tính: Nghiên cứu phương pháp học máy trên dữ liệu đồ thị, ứng dụng GCN trong xử lý ngôn ngữ tự nhiên và phân loại tin tức.
Chuyên gia phát triển hệ thống kiểm duyệt nội dung và chống tin giả: Áp dụng mô hình học bán giám sát và đồ thị tri thức để xây dựng hệ thống phát hiện tin giả hiệu quả.
Các tổ chức báo chí và truyền thông: Hiểu rõ về công nghệ phát hiện tin giả, áp dụng để nâng cao chất lượng thông tin và bảo vệ uy tín.
Cơ quan quản lý nhà nước và chính phủ: Sử dụng kết quả nghiên cứu để xây dựng chính sách, công cụ hỗ trợ kiểm soát tin tức giả mạo trên môi trường mạng.

Câu hỏi thường gặp

Phương pháp học bán giám sát có ưu điểm gì so với học có giám sát?
Học bán giám sát tận dụng cả dữ liệu có nhãn và không có nhãn, giúp cải thiện hiệu quả khi dữ liệu gán nhãn hạn chế, giảm chi phí và thời gian gán nhãn thủ công.
Tại sao chọn Graph Convolutional Network (GCN) cho bài toán này?
GCN có khả năng học biểu diễn từ dữ liệu đồ thị, khai thác mối quan hệ phức tạp giữa các thực thể trong tin tức, giúp nâng cao độ chính xác phân loại so với các mô hình tuần tự truyền thống.
Word Mover's Distance (WMD) đóng vai trò gì trong nghiên cứu?
WMD đo khoảng cách ngữ nghĩa giữa các bài báo, giúp xây dựng đồ thị tương tự chính xác, từ đó cải thiện chất lượng đồ thị tri thức và hiệu quả mô hình phân loại.
Làm thế nào để tránh hiện tượng overfitting trong mô hình?
Luận văn áp dụng kỹ thuật dropout, early stopping, cross-validation và điều chỉnh siêu tham số để ngăn chặn overfitting, đảm bảo mô hình tổng quát tốt trên dữ liệu mới.
Mô hình có thể áp dụng cho các ngôn ngữ khác ngoài tiếng Việt không?
Về nguyên tắc, phương pháp có thể áp dụng cho các ngôn ngữ khác nếu có bộ dữ liệu phù hợp và mô hình trích xuất thực thể, quan hệ được điều chỉnh tương thích với đặc thù ngôn ngữ đó.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu tin tức giả mạo tiếng Việt đa dạng với 1200 bài báo, trong đó 50% được gán nhãn chính xác.
Phương pháp tiếp cận đồ thị tri thức kết hợp mô hình học bán giám sát GCN cho kết quả phân loại tin tức giả mạo với độ chính xác lên đến 85.1%.
Mô hình GCN vượt trội so với các phương pháp học có giám sát truyền thống nhờ khai thác hiệu quả cấu trúc dữ liệu đồ thị.
Kỹ thuật tiền xử lý dữ liệu, nhúng từ, xây dựng đồ thị tương tự và tri thức đóng vai trò quan trọng trong việc nâng cao hiệu quả mô hình.
Hướng phát triển tiếp theo là mở rộng dữ liệu gán nhãn, tích hợp thêm dữ liệu xã hội và cải tiến mô hình trích xuất thực thể, quan hệ để nâng cao độ chính xác và khả năng ứng dụng thực tế.

Để tiếp tục phát triển nghiên cứu, các nhà nghiên cứu và chuyên gia công nghệ được khuyến khích áp dụng và mở rộng phương pháp này trong các hệ thống kiểm duyệt tin tức trực tuyến, góp phần xây dựng môi trường thông tin lành mạnh và đáng tin cậy.

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu đề tài. Chương 2: Trình bày cơ sở lý thuyết về bài toán phân loại tin tức giả mạo. Chương 3: Trình bày phương pháp giải quyết bài toán theo các phương pháp trên. Chương 4: Thực nghiệm, đánh giá nhận xét kết quả bài toán, so sánh kết quả với các nghiên cứu tương đương.

Chương 5: Kết luận và hướng phát triển. 13 CHƯƠNG 2: CƠ SỞ LÝ THUYET 1. Đồ thị và đồ thị tri thức: 1. Dinh nghĩa đồ thị: Một đồ thị được định nghĩa là một cấu trúc rời rạc gồm tập hợp các đỉnh và các cạnh nối giữa các đỉnh đó.

Ta có thé mô tả đồ thị theo công thức (1.1) Khi đó, đồ thị G có tập các đỉnh là V, tập các cạnh là E, ta có thé hiểu E là tập hợp các cặp (u,v) với u và v là hai đỉnh thuộc V. Một đồ thị G bất kỳ có thê được phân loại theo tính chất của tập cạnh như sau: e G được định nghĩa là đồ thị đơn nêu như giữa hai đỉnh (u,v) của V có nhiều nhất một cạnh trong E nối từ đỉnh u tới đỉnh v. e G được định nghĩa là đồ thị đa nếu như giữa hai đỉnh (u,v) của V có thé có nhiều hơn một cạnh nối trong E nối từ đỉnh u tới đỉnh v. e G được định nghĩa là đồ thị vô hướng (undirected graph) nếu như các cạnh trong E là không có hướng, nghĩa là cạnh (u,v) là cạnh hai chiều.

e G được gọi là đồ thị có hướng (directed graph) nếu như các cạnh trong E là có định hướng, nghĩa là có tồn tại một cạnh bất kỳ nối từ đỉnh u tới đỉnh v nhưng chưa chắc tồn tại cạnh nối từ đỉnh v tới đỉnh u. Trên đồ thị có hướng, các cạnh sẽ được gọi là các cung. Đồ thị vô hướng cũng có thé coi là đồ thị có hướng trong trường hợp ta coi cạnh (u,v) bat kỳ tương ứng với hai cung (u > v) và (v > 1ì. Đơn đồ thị Đa đồ thị Hình 2.

Mô tả các loại đồ thị 14 1. Một số khái niệm trên đồ thị: 1. Cạnh liên thuộc, đỉnh kề, bậc và khuyên: Đối với đồ thị vô hướng G = (W, E), ta xét cạnh e = (u,v) € E. Ta nói rang hai đỉnh u và đỉnh v kề nhau (adjacent), và cạnh e này liên thuộc (incident) với hai đỉnh u và đỉnh v.

Với một đỉnh u thuộc đồ thị, định nghĩa bậc (degree), ký hiệu deg(u) là số cạnh liên thuộc với u. Trên đơn đồ thị, số cạnh liên thuộc với u cũng chính là số đỉnh kề VỚI U. Ta có các định lý về đồ thị như sau: “ Dinh lý 1 Giả sử G = (V,E) là đồ thị vô hướng với M cạnh khi đó tổng tat cả các bậc đỉnh trong V sẽ bằng 2M.2) Chứng minh: Khi lấy tổng tat cả các bậc đỉnh, tức là mỗi cạnh e = (u, 0) bất kỳ sẽ được tính một lần trong deg(u) và một lần trong deg(v). Từ đó suy ra điều phải chứng minh.

Hệ quả: Trên đồ thị vô hướng, số đỉnh bậc lẻ là một số chẵn. Đối với đồ thị có hướng G = (V,E), xét một cung e = (u 0) € E. Khi đó ta nói đỉnh u nối tới đỉnh v và đỉnh v nối từ đỉnh u. Đỉnh u được gọi là đỉnh đầu, đỉnh v được gọi là đỉnh cuối của cung e.

Với mỗi đỉnh u trong đồ thị có hướng, định nghĩa: Bán bậc ra (out-degree) của đỉnh u, ký hiệu deg +( +) là số cung đi ra khỏi nó. Ban bậc vao (in-degree) của đỉnh u, ký hiệu deg —( +) là số cung đi vào nó. ®% Định lý 2 Gia sử G = (V,E) là đồ thị có hướng với M cung, khi đó tong tat cả các bán bậc ra băng tông tât cả các bán bậc vào và băng M: 3»ey deg*(v) = Xvey deg" (v) = M (13) 15 Chứng minh: Khi lay tổng tat cả các bán bậc ra hoặc bán bậc vào, mỗi cung u > v bất kỳ sẽ được tính đúng một lần trong đeg?() và cũng được tính đúng một lần trong đeg” (ø). Từ đó ta suy ra điều phải chứng minh.

Ngoài ra, trên đồ thị có hướng hoặc vô hướng, trong một số trường hợp có thê có những cạnh nối một đỉnh với chính nó. Cạnh này được gọi là khuyên của đồ thị, và trong trường hợp này, thì các cạnh nối hai đỉnh phân biệt sẽ được gọi là các liên kết dé tránh nhằm lẫn. Đường đi và chu trình: Một đường đi P độ dài k từ đỉnh vp tới đỉnh v, là tập đỉnh {v9, V4, 0, ., 2} sao cho (;_¡,1¿) € E,Vi: 1 <i < k. Khi đó ta nói đường đi này bao gồm các đỉnh {Uạ,1,9ạ,.,(0y—+,0„)}; và Vo đến được 1„ thông qua đường di P.

Đường đi được gọi là đường đi đơn giản (simple path) nếu tat cả các đỉnh trên đường đi đó đều phân biệt. Đường đi được gọi là đường đi đơn nếu như không có cạnh nào trên đường đi đó đi qua hơn một lần. Một đường di con (subpath) P“ của P là một đoạn liên tục các đỉnh và cạnh dọc theo đường di P. Một đường đi P được gọi là chu trình (circuit) nếu như vp = œ„.

Chu trình P gọi là chu trình đơn giản (simple circuit) nếu như {14, v2, ., Vg} đôi một khác nhau. Chu trình mà trong đó không có cạnh nào đi qua hơn một lần được gọi là chu trình đơn. Tính liên thông của đồ thị: Đối với đồ thị vô hướng G = (W,E) thì G được gọi là liên thông nếu như với mọi cặp đỉnh phân biệt (u,v), ta đều có đỉnh u đến được đỉnh v và ngược lại. Đối với đồ thị có hướng G = (V,E) thi: e G được gọi là liên thông mạnh (strongly connected) nếu với mọi cặp đỉnh phân biệt (u, 0), ta có đỉnh u đến được đỉnh v và đỉnh v cũng đến được đỉnh u.

16 e G được gọi là liên thông yêu (weakly connected) nếu như đồ thị vô hướng nền của nó là liên thông. e G được gọi là liên thông một phan (unilaterally connected) nếu như với mọi cặp đỉnh phân biệt (u, v), có ít nhất một đỉnh đến được đỉnh còn lại. Dinh nghĩa về đồ thị tương tự: Đồ thị tương tự (similarity graph) là đồ thị vô hướng biểu diễn mối quan hệ tương đồng giữa các phần tử trong một tập hợp. Trong ngữ cảnh của xử lý ngôn ngữ tự nhiên, đồ thị tương tự thường được sử dụng dé mô tả mối quan hệ ngữ nghĩa hoặc tương tự giữa các từ hoặc văn bản.

Đặc điểm chính của đồ thị tương tự: e Đinh: Mỗi đỉnh trong đồ thị đại diện cho một phần tử trong tập hợp, thường là một từ, cụm từ hoặc một đối tượng. e _ Cạnh: Các cạnh giữa các đỉnh thể hiện mức độ tương đồng hoặc mối quan hệ giữa chúng. Càng gần nhau, mức độ tương tự cảng cao. e Trọng số cạnh: Mỗi cạnh có thé được gán một trọng số dé biểu thị độ mạnh của mỗi quan hệ tương tự giữa các đỉnh.

Dinh nghĩa về đồ thị tri thức (Knowledge Graph - KG): Đồ thị tri thức là cách biểu diễn tri thức thực tiễn dưới dạng đồ thị. Một đồ thị tri thức được tạo thành từ ba thành phần chính: đỉnh, cạnh và nhãn. Bat kỳ đối tượng, địa điểm hoặc người nào cũng có thể là một đỉnh. Một cạnh xác định mối quan hệ giữa các đỉnh.

17 Thuộc loại hình ® Có giám đốc '— Thanh lập vào oe Thành viên của Be Thuộc tổ chức Có địa chỉ Có đội ngũ nhân sự = cm Hình 2. Minh họa đồ thị tri thức Trung tâm của đồ thị tri thức là một mô hình tri thức, là một tập hợp các mô tả liên kết với nhau về các khái niệm, thực thé, mối quan hệ và sự kiện trong đó: e Các mô tả có ngữ nghĩa chính thức cho phép cả người và máy tính xử lý chúng một cách hiệu quả và rõ ràng. e Các mô tả đóng góp cho nhau, tạo thành một mạng lưới, trong đó mỗi thực thê đại diện cho một phần mô tả của các thực thê liên quan đến nó. e Di liệu đa dạng được kết nối và mô tả bằng siêu dữ liệu ngữ nghĩa theo mô hình tri thức.

Đồ thị tri thức kết hợp các đặc điểm của một số mô hình quản lý đữ liệu: e Cơ sở dữ liệu tri thức vi dit liệu có thé được trích xuất thông qua các truy van có cấu trúc đồ thị, chúng có thể được phân tích như bat ky cau trúc dữ liệu mang nao khac. ¢ Cơ sở tri thức vì chúng mang ngữ nghĩa chính thức, có thé được sử dụng dé giải thích dữ liệu và suy ra các sự kiện mới. Cách thức hoạt động của đồ thị tri thức: Đồ thị tri thức hoạt động bằng cách hiền thị các mối quan hệ giữa mỗi câu lệnh trong đó, các câu lệnh được gọi là “thực thể”. Khi ta đặt các thực thể trong mối quan hệ với nhau, ta có thé cung cấp thông tin này cho tat cả các loại máy sẽ ngay lập tức tạo ra ý nghĩa.

Đây là một ưu điểm lớn của đồ thị tri thức trong việc biểu diễn mối quan hệ giữa các “thực thể” trong một câu. Đồ thị tri thức thường được tạo thành từ các tập dữ liệu từ nhiều nguồn khác nhau, thường khác nhau về cấu trúc. Các lược đồ, danh tính và ngữ cảnh phối hợp với nhau dé cung cấp cấu trúc cho dit liệu da dang. Các lược đồ cung cấp khung cho đồ thị tri thức, các danh tính phân loại các nút bên dưới một cách thích hợp và ngữ cảnh xác định cài đặt mà tri thức đó tồn tại.

Các thành phan này giúp phân biệt các từ nhiều nghĩa. Điều này cho phép các sản phẩm, có thé kể đến như thuật toán công cụ tìm kiếm của Google, xác định sự khác biệt giữa Apple, Android. Đồ thị tri thức được hỗ trợ bởi các thuật toán học máy, sử dụng quá trình xử lý ngôn ngữ tự nhiên để xây dựng một đồ thị trực quan hóa toàn diện về các nút, cạnh và nhãn, quá trình này được gọi là làm giàu ngữ nghĩa. Khi dữ liệu được nhập vào, cho phép đồ thị tri thức xác định các đối tượng riêng lẻ và hiểu được mối quan hệ giữa các đối tượng khác nhau.

Sau khi đồ thị tri thức hoàn thành, nó cho phép các hệ thong tim kiếm và trả lời câu hỏi truy xuất và sử dụng lại các câu trả lời toàn diện cho các truy vấn đã biết trước.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Dự báo tin tức giả bằng hệ thống thông tin và đồ thị tri thức cung cấp cái nhìn sâu sắc về cách mà công nghệ thông tin và đồ thị tri thức có thể được sử dụng để phát hiện và dự báo tin tức giả. Bài viết nhấn mạnh tầm quan trọng của việc áp dụng các phương pháp phân tích dữ liệu và trí tuệ nhân tạo trong việc nhận diện thông tin sai lệch, từ đó giúp người đọc nâng cao khả năng phân tích và đánh giá thông tin trong thời đại số.

Để mở rộng kiến thức của bạn về các ứng dụng của trí tuệ nhân tạo, bạn có thể tham khảo tài liệu Đề tài nghiên cứu thiết kế và chế tạo máy chơi game caro tự động dựa trên nền tảng trí tuệ nhân tạo. Tài liệu này không chỉ cung cấp thông tin về thiết kế máy chơi game mà còn cho thấy cách mà trí tuệ nhân tạo có thể được áp dụng trong các lĩnh vực khác nhau, mở ra nhiều cơ hội nghiên cứu và phát triển.

Hãy khám phá thêm để nâng cao hiểu biết của bạn về các công nghệ tiên tiến và ứng dụng của chúng trong cuộc sống hàng ngày!

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#trí tuệ nhân tạo

#hệ thống thông tin

Chủ đề

Ứng dụng công nghệ trong dự báo

Phân tích tin tức giả mạo

Hệ thống thông tin và đồ thị tri thức

Nghiên cứu về trí tuệ nhân tạo