Luận văn: Một số mô hình ngôn ngữ và bài toán xác thực thông tin

Luận văn nghiên cứu các mô hình ngôn ngữ và mạng nơ-ron đồ thị ứng dụng cho bài toán xác thực thông tin, phát hiện tin giả và kết quả thực nghiệm.

Trường đại học

Đại học Bách Khoa Hà Nội

Chuyên ngành

Toán Tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Tóm tắt

I. Cách hiểu mô hình ngôn ngữ trong phát hiện tin giả chính xác nhất

Trong lĩnh vực xác thực thông tin, mô hình ngôn ngữ đóng vai trò quan trọng trong việc phân tích và phát hiện các nội dung giả mạo. Các semantic LSI keywords, như Mô hình transformer hay BERT, giúp tối ưu khả năng hiểu ý nghĩa ngữ cảnh của văn bản. Bài toán phát hiện tin giả ngày càng phức tạp do các nội dung ngày càng tinh vi, đòi hỏi các mô hình ngôn ngữ phải có khả năng học sâu và phân tích ngữ nghĩa chính xác. Việc hiểu rõ các loại mô hình như mô hình transformer hay mô hình BERT giúp xác định các đặc điểm liên quan đến tin giả, như sự thay đổi nhỏ trong ngữ cảnh hay cấu trúc câu bất thường.

1.1. 1. Hiểu rõ các mô hình ngôn ngữ như BERT và transformer

Các mô hình transformer và BERT đã cách mạng hóa việc xử lý ngôn ngữ tự nhiên, cung cấp khả năng biểu diễn ngữ nghĩa hai chiều. BERT đặc biệt nhấn mạnh vào khả năng hiểu toàn bộ ngữ cảnh của từ, giúp xác định dấu hiệu của tin giả từ cách diễn đạt bất thường hoặc ngữ nghĩa không tự nhiên trong nội dung.

1.2. 2. Mô hình ngôn ngữ giúp phân loại và nhận diện nội dung giả mạo

Thông qua các semantic LSI keywords, các mô hình ngôn ngữ có thể phân tích cấu trúc câu, từ khóa, và mối liên hệ nội dung để nhận dạng các đặc điểm của tin giả. Các kỹ thuật này cung cấp nền tảng mạnh mẽ cho việc dự đoán độ xác thực của thông tin dựa trên ngữ cảnh và các đặc trưng ngôn ngữ học.

II. Phương pháp phát hiện tin giả bằng mô hình ngôn ngữ và AI hiệu quả nhất

Việc kết hợp Xử lý ngôn ngữ tự nhiên (NLP) với deep learning đã tạo ra các phương pháp phát hiện tin giả chính xác hơn. Các question keywords thường được tìm kiếm liên quan đến cách xác định nội dung giả qua các mô hình như GNN, GraphSAGE, hoặc transformer. Đặc biệt, mô hình BERT đã giúp các hệ thống tự động nâng cao độ nhạy trong phân tích ngữ nghĩa nội dung, từ đó phân biệt chính xác các dấu hiệu của tin giả như cấu trúc câu bất thường, dữ liệu nội dung không hợp lý hoặc ngữ cảnh thiếu logic. Các phương pháp kết hợp này còn sử dụng long-tail keywords như 'phân tích ngữ cảnh' hay 'nhận biết nội dung bất thường' để tối ưu hiệu quả.

2.1. 1. Ứng dụng mô hình transformer và BERT trong phát hiện tin giả

Các mô hình transformer như BERT cho phép hệ thống hiểu rõ ngữ nghĩa toàn diện của nội dung, từ đó dễ dàng nhận biết các thông tin không hợp lý, mâu thuẫn hoặc mang dấu hiệu của tin giả. Việc huấn luyện mô hình trên các tập dữ liệu lớn giúp phát hiện các mô hình ngôn ngữ đặc trưng của tin giả, góp phần nâng cao độ chính xác của hệ thống tự động.

2.3. 3. Tối ưu hóa mô hình ngôn ngữ qua phần mềm mô phỏng và datasets chuẩn

Sử dụng các long-tail keywords như ‘mô hình transformer nâng cao’, ‘đánh giá độ chính xác bằng dữ liệu thực’, giúp tối ưu mô hình và nâng cao khả năng tổng quát từ các tập dữ liệu thực tế.

III. Bí quyết xây dựng mô hình ngôn ngữ cho bài toán phát hiện tin giả hiệu quả

Phương pháp xây dựng mô hình ngôn ngữ tối ưu bắt đầu từ việc lựa chọn đúng kiến trúc như transformer, BERT hoặc GPT để đáp ứng đặc thù của bài toán. Các subtopics cần đề cập gồm: tối ưu hóa tham số, thiết lập tập dữ liệu huấn luyện, và kỹ thuật trích xuất đặc trưng ngôn ngữ phù hợp. Đặc biệt, mặt khác, sự kết hợp giữa các long-tail keywords giúp nâng cao khả năng tùy biến và độ chính xác của mô hình, như tối ưu hóa hàm mất mát, finetune mô hình trên tập dữ liệu tiếng Việt, hoặc áp dụng kỹ thuật attention để giảm thiểu sai lệch.

3.1. 1. Các bước tối ưu mô hình ngôn ngữ để phát hiện tin giả

Xây dựng mô hình dựa trên nền tảng các deep learning models như transformer, BERT nhằm nâng cao khả năng học biểu diễn ngữ nghĩa. Thực hiện tinh chỉnh (fine-tuning) trên tập dữ liệu đặc thù giúp mô hình phù hợp hơn với ngôn ngữ phong phú của nội dung tin giả.

3.2. 2. Ứng dụng các kỹ thuật trích xuất đặc trưng bằng semantic keywords và question keywords

Sử dụng các semantic LSI keywords và question keywords trong quá trình huấn luyện để mô hình dễ phân biệt nội dung xác thực và giả mạo, qua đó giảm thiểu tỷ lệ lỗi và nâng cao độ chính xác.

IV. Ứng dụng thực tiễn của mô hình ngôn ngữ trong phát hiện tin giả hiện nay

Các mô hình ngôn ngữ như BERT, Transformer, cùng graph neural networks đã và đang được ứng dụng thực tế trong các hệ thống kiểm chứng và ngăn chặn tin giả trên các nền tảng mạng xã hội như Facebook, Twitter hay YouTube. Các long-tail keywords như 'phân loại nội dung tự động', 'hệ thống phát hiện lan truyền' giúp các tổ chức nâng cao khả năng kiểm soát thông tin, ngăn chặn sự lan truyền của thông tin sai lệch, qua đó nâng cao độ tin cậy của nguồn tin. Ngoài ra, sự kết hợp giữa công nghệ AI và phân tích dữ liệu lớn còn giúp dự đoán các xu hướng mới của tin giả để tư duy phòng ngừa hiệu quả hơn trong tương lai.

4.1. 1. Các hệ thống kiểm chứng tự động dựa trên mô hình ngôn ngữ

Hệ thống tự động dựa trên BERT và Graph Neural Network giúp phát hiện các nội dung bất thường, ngăn chặn kịp thời việc lan truyền tin giả trên nền tảng mạng xã hội qua các kỹ thuật phân loại, so sánh và phân tích lan truyền dữ liệu.

4.2. 2. Phát triển mô hình dự đoán xu hướng và ngăn chặn tin giả trong tương lai

Kết hợp question keywords, semantic keywords và phân tích mô hình lan truyền mạng xã hội, các hệ thống dự đoán giúp phát hiện các hành vi giả mạo mới, từ đó chủ động phòng ngừa hiệu quả hơn.

18/12/2025

Bạn đang xem trước tài liệu:

Một số mô hình ngôn ngữ và bài toán xác thực thông tin

Tải đầy đủ

Trích đoạn nội dung tài liệu

MỞ ĐẦU Bài toán xác thực thông tin Sự phát triển của các mạng xã hội trong thời đại công nghiệp 4.0 đã góp phần vào sự bùng nổ thông tin trên Internet, và chúng cũng trở thành nguồn tin tức chính cho chúng ta cập nhật hàng ngày. Tuy nhiên, sử dụng mạng xã hội là một con dao hai lưỡi khi mà thông tin trên mạng rất khó kiểm chứng về độ xác thực, trong đó việc lan truyền tin giả (fake news) có thể gây ra sự nhận thức sai của người dân về tình hình trong nước và thế giới, đe dọa trật tự, an toàn xã hội và an ninh quốc gia. Tin giả có thể được hiểu là tin tức sai sự thật được tạo ra và lan truyền nhằm mục đích lừa đảo hoặc xuyên tạc tình hình thực tế. Ta có thể thấy rất nhiều trường hợp tin giả trong cuộc sống như tin tức về dịch bệnh Covid- 19, đời sống thường nhật, chính trị trong và ngoài nước, v.

từ các nguồn thông tin không chính thống. Tuy nhiên, các nền tảng mạng xã hội hiện nay (facebook, twitters, youtube, v. ) chưa tích hợp công nghệ phát hiện và chặn tin giả sớm, dẫn tới việc những quảng cáo sản phẩm không đúng công dụng thực tế (đặc biệt là thuốc và thực phẩm chức năng) hay tin tức bịa đặt về cuộc sống, xuyên tạc lịch sử được phát tán tràn lan trên các nền tảng này. Do đó, việc phát hiện và ngăn chặn kịp thời tin giả trước khi chúng lan truyền rộng là một nhiệm vụ hết sức cấp thiết.

Các phương pháp hiện có để giải quyết bài toán xác thực thông tin Các phương pháp xác thực thông tin hay nói cách khác là phương pháp phát hiện tin giả có thể được phân thành bốn nhóm [1]: phương pháp dựa trên nội dung (content-based), phương pháp dựa trên ngữ cảnh (context-based), phương pháp dựa trên lan truyền (propagation-based) và phương pháp dựa trên học đa nhãn (multilabel learning-based). Phương pháp dựa trên nội dung bao gồm phương pháp hai phương pháp con: dựa trên tri thức (knowledge-based) và dựa trên văn phong (style-based). Phương pháp dựa trên tri thức sẽ sử dụng từ một tập tri thức thật (true knowl- edge) để xác định một tin tức là thật hay giả [2]. Trong khi đó, phương pháp dựa trên văn phong xác định tin giả từ văn phong khác biệt của chúng nhằm thu hút sự quan tâm của độc giả và trở nên nổi bật hơn tin thông thường [3].

1 Phương pháp dựa trên ngữ cảnh xác định độ uy tín của nguồn phát tán thông tin, trong đó độ uy tín được xác định từ sự phản hồi của người dùng và độ tin cậy của bản thân tin tức [4]. Phương pháp dựa trên lan truyền phát hiện tin giả bằng cách trích xuất thông tin liên quan đến sự phát tán tin tức và người chia sẻ chúng [5]. Phương pháp dựa trên học đa nhãn cũng tương tự phương pháp dựa trên nội dung, nhưng một tin tức sẽ có nhiều nhãn {thật, giả} được gán cho các đặc trưng của tin tức thay vì chỉ một nhãn thật hoặc giả [6]. Điều này phù hợp với trên thực tế do tin giả có thể không hoàn toàn sai sự thật mà trong đó bao gồm cả thông tin thật và thông tin giả.

Ngoài ra, khi ta kết hợp hai phương pháp đã nêu, ví dụ như nội dung- ngữ cảnh hoặc lan truyền-nội dung, ta sẽ có phương pháp kết hợp (hybrid). Phương pháp này hiện nay được sử dụng nhiều do chúng có thể bắt được nhiều thông tin có ý nghĩa hơn liên quan tới tin giả, từ đó nâng cao hiệu quả của mô hình phát hiện tin giả. Trong các phương pháp trên, mô hình lõi được sử dụng phổ biến nhất là Mạng nơ-ron đồ thị (Graph Neural Network - GNN). GNN là một kĩ thuật áp dụng các thuật toán học sâu trên kiến trúc đồ thị [7] và là mô hình được sử dụng phổ biết nhất hiện nay trong phát hiện tin giả nhờ một số ưu điểm.

Thứ nhất, GNN có thể kết hợp các phương pháp dựa trên thông tin nội dung, lan truyền và ngữ cảnh tin tức [8]. Thứ hai, GNN có thể đạt được hiệu quả tương đương hoặc tốt hơn các mô hình truyền thống mà không cần đến thông tin về văn bản [9]. Thứ ba, GNN có tính linh hoạt trong việc định nghĩa propagation pattern nhờ các bước nhảy ngẫu nhiên (random walks) và bộ tổng hợp lặp (iterative aggregators) [10]. Bên cạnh phát hiện tin giả, GNN còn được áp dụng thành công trong nhiều bài toán khác nhau như phát hiện vật thể (object detection) [11], [12], phân tích cảm xúc (sentiment analysis) [13], [14] và dịch máy (machine transla- tion) [15], [16].

Sự phát triển nhanh chóng của các mô hình GNN cho phát hiện tin giả nhờ sự phổ biển rộng rãi của các mạng xã hội, cụ thể là sự tăng lên về số lượng người dùng, tin tức được đăng tải và tương tác giữa các người dùng. Kết quả là, các mạng xã hội đã trở thành các kiến trúc đồ thị phức tạp và gây khó khăn cho các thuật toán phát hiện tin giả. Phát hiện và ngăn chặn 2 tin giả trên mạng xã hội vẫn là một thách thức lớn cần được giải quyết. Các nguyên nhân trên đã thúc đẩy em nghiên cứu Một số mô hình ngôn ngữ và bài toán xác thực thông tin.

CƠ SỞ LÍ THUYẾT Phần này trình bày cơ sở lí thuyết liên quan tới đồ thị, GNN, các mô hình GNN cơ bản, các kĩ thuật và mô hình liên quan tới xử lí ngôn ngữ tự nhiên trong bài toán xác thực thông tin. Các kiến thức này là nền tảng để xây dựng các mô hình GNN sẽ được trình bày trong Chương 2.1 Đồ thị Trong bài toán xác thực thông tin hay phát hiện tin giả trên mạng xã hội, ta cần một công cụ để biểu diễn sự tương tác giữa các người dùng với nhau cũng như với các bài đăng. Những sự tương tác lẫn nhau này có thể được biểu diễn hiệu quả bằng kiến trúc đồ thị, trong đó các người dùng / bài đăng được biểu diễn bằng nút đồ thị và các tương tác qua lại được biểu diễn bằng cạnh đồ thị.1 sẽ trình bày các khái niệm liên quan tới đồ thị và giới thiệu một số dữ liệu dạng đồ thị cùng với các tác vụ liên quan tới đồ thị.1 Định nghĩa Một đồ thị (graph) G = {V, E} bao gồm tập các nút (node/vertex) V = {v1 ,. , vn } và tập các cạnh (edge) E = {e11 ,.

, enm }, trong đó eij = (vi , vj ) là cạnh nối hai nút liền kề vi và vj. Đồ thị được biểu diễn bằng một ma trận kề A ∈ {0, 1}n×n với: ⎧ ⎨1, eij ∈ E, Aij = (1. Đồ thị có thể được phân loại dựa theo các cạnh, bao gồm đồ thị vô hướng và đồ thị có hướng. Đồ thị vô hướng không phân biệt giữa nút nguồn và nút đích của một cạnh, do đó A là ma trận đối xứng.

Trong khi đó, các cạnh trong đồ thị có hướng xác định một nút nguồn và một nút đích, và ma trận A là không đối xứng.2 Các dữ liệu dạng đồ thị a, Phân tử Các phân tử là thứ tạo nên vật chất, và chúng được tạo nên từ các nguyên tử và electrons. Đồ thị là một công cụ hiệu quả để biểu diễn các phân tử, trong đó các nút là các nguyên tử và các cạnh là các liên kết giữa chúng [17].1 thể hiện hai ví dụ phân tử Citronellal và Caffeine được biểu diễn bằng đồ thị. (a) Phân tử Citronellal (b) Đồ thị phân tử Citronellal (c) Phân tử Caffeine (d) Đồ thị phân tử Caffeine Hình 1.1: Ví dụ biểu diễn phân tử bằng đồ thị [18]. b, Mạng xã hội Các mạng xã hội chứa rất nhiều thông tin về hành vi, thói quen, sở thích của cá nhân và tổ chức.

Ta có thể xây dựng một đồ thị biểu diễn các nhóm người bằng cách mô hình hóa các cá nhân là các nút và quan hệ giữa họ là các cạnh của đồ thị. c, Trích dẫn Các bài báo khoa học luôn có trích dẫn đến các bài báo khác. Các trích dẫn này có thể được biểu diễn bằng một đồ thị, trong đó mỗi bài báo là một nút và mỗi trích dẫn từ bài báo này đến bài báo khác là một cạnh có hướng. d, Các ví dụ khác Đồ thị còn được dùng trong bài toán gán nhãn vật thể, trong đó các vật thể là các nút và quan hệ giữa chúng là các cạnh.

Các mô hình học máy, mã nguồn lập trình [19] và phương trình toán học [20] cũng có thể được biểu diễn bằng đồ thị, trong đó các biến là các nút và các toán tử là các cạnh có nút nguồn và nút đích. Kiến trúc của các đồ thị thực tế có thể rất khác nhau tùy vào loại dữ liệu, có đồ thị có rất nhiều nút nhưng rất ít cạnh và ngược lại. Các tập dữ liệu đồ 5 thị có thể khác nhau về số lượng nút, cạnh và tính kết nối (connectivity).3 Các loại tác vụ với đồ thị Có ba loại tác vụ mà ta có thể thực hiện với đồ thị: cấp đồ thị, cấp nút, và cấp cạnh [18]. a, Tác vụ cấp đồ thị Trong tác vụ cấp đồ thị (graph-level), ta cần đưa ra dự đoán cho toàn bộ đồ thị.

Ví dụ, với một phân tử, ta muốn dự đoán mùi của phân tử đó, hoặc liệu nó có liên kết với một thụ thể gây bệnh hay không. Bài toán này tương tự với bài toán phân loại ảnh, trong đó ta muốn gán một nhãn cho toàn bộ bức ảnh, hay bài toán phân tích cảm xúc văn bản, trong đó ta muốn xác định cảm xúc của toàn bộ câu văn. b, Tác vụ cấp nút Trong tác vụ cấp nút (node-level), ta cần đưa ra dự đoán cho mỗi nút trong đồ thị. Ví dụ, ta muốn dự đoán mỗi người trong một mạng xã hội ủng hộ ai trong cuộc bầu cử tổng thống.

Bài toán này tương tự với bài toán phân vùng ảnh, trong đó ta muốn gán nhãn mỗi pixel trong một bức ảnh. Còn với văn bản, một bài toán tương tự là dự đoán từ loại trong câu (ví dụ danh từ, động từ, trạng từ,. c, Tác vụ cấp cạnh Trong tác vụ cấp cạnh (edge-level), ta cần dự đoán quan hệ giữa các nút trong đồ thị.2 là một ví dụ phân tích ngữ cảnh ảnh, trong đó bên cạnh xác định các vật thể trong ảnh, ta còn muốn dự đoán quan hệ giữa chúng.2 Mạng nơ-ron đồ thị Mô hình mạng nơ-ron chuyên biệt để học từ dữ liệu dạng đồ thị được gọi là mạng nơ-ron đồ thị.2 sẽ trình bày một số kiến trúc mạng nơ-ron đồ thị cơ bản được sử dụng phổ biến.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn: Một số mô hình ngôn ngữ và bài toán xác thực thông tin

I. Cách hiểu mô hình ngôn ngữ trong phát hiện tin giả chính xác nhất

1.1. 1. Hiểu rõ các mô hình ngôn ngữ như BERT và transformer

1.2. 2. Mô hình ngôn ngữ giúp phân loại và nhận diện nội dung giả mạo

II. Phương pháp phát hiện tin giả bằng mô hình ngôn ngữ và AI hiệu quả nhất

2.1. 1. Ứng dụng mô hình transformer và BERT trong phát hiện tin giả

2.3. 3. Tối ưu hóa mô hình ngôn ngữ qua phần mềm mô phỏng và datasets chuẩn

III. Bí quyết xây dựng mô hình ngôn ngữ cho bài toán phát hiện tin giả hiệu quả

3.1. 1. Các bước tối ưu mô hình ngôn ngữ để phát hiện tin giả

3.2. 2. Ứng dụng các kỹ thuật trích xuất đặc trưng bằng semantic keywords và question keywords

IV. Ứng dụng thực tiễn của mô hình ngôn ngữ trong phát hiện tin giả hiện nay

4.1. 1. Các hệ thống kiểm chứng tự động dựa trên mô hình ngôn ngữ

4.2. 2. Phát triển mô hình dự đoán xu hướng và ngăn chặn tin giả trong tương lai

THÔNG TIN CHI TIẾT

Tác giả: Ngô Thị Trà

Người hướng dẫn: TS. Bùi Xuân Diệu

Trường học: Đại học Bách Khoa Hà Nội

Chuyên ngành: Toán Tin

Đề tài: Một số mô hình ngôn ngữ và bài toán xác thực thông tin

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: Hà Nội

Luận văn: Một số mô hình ngôn ngữ và bài toán xác thực thông tin

I. Cách hiểu mô hình ngôn ngữ trong phát hiện tin giả chính xác nhất

1.1. 1. Hiểu rõ các mô hình ngôn ngữ như BERT và transformer

1.2. 2. Mô hình ngôn ngữ giúp phân loại và nhận diện nội dung giả mạo

II. Phương pháp phát hiện tin giả bằng mô hình ngôn ngữ và AI hiệu quả nhất

2.1. 1. Ứng dụng mô hình transformer và BERT trong phát hiện tin giả

2.3. 3. Tối ưu hóa mô hình ngôn ngữ qua phần mềm mô phỏng và datasets chuẩn

III. Bí quyết xây dựng mô hình ngôn ngữ cho bài toán phát hiện tin giả hiệu quả

3.1. 1. Các bước tối ưu mô hình ngôn ngữ để phát hiện tin giả

3.2. 2. Ứng dụng các kỹ thuật trích xuất đặc trưng bằng semantic keywords và question keywords

IV. Ứng dụng thực tiễn của mô hình ngôn ngữ trong phát hiện tin giả hiện nay

4.1. 1. Các hệ thống kiểm chứng tự động dựa trên mô hình ngôn ngữ

4.2. 2. Phát triển mô hình dự đoán xu hướng và ngăn chặn tin giả trong tương lai

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Ngô Thị Trà

Người hướng dẫn: TS. Bùi Xuân Diệu

Trường học: Đại học Bách Khoa Hà Nội

Chuyên ngành: Toán Tin

Đề tài: Một số mô hình ngôn ngữ và bài toán xác thực thông tin

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: Hà Nội

SINH VIÊN CŨNG XEM