Ứng dụng mô hình học sâu trong bài toán xác minh tính chính xác

Luận văn về ứng dụng mô hình học sâu (Deep Learning) để xác minh tính chính xác của tin tức. Giải pháp hiệu quả chống lại tin giả, thông tin sai lệch trên Internet.

Trường đại học

Đại Học Bách Khoa Hà Nội

Chuyên ngành

Toán Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Tổng quan về cơ chế chú ý

1.2. Các biến thể của cơ chế chú ý

1.3. Mô hình Transformer

1.3.1. Tổng quan về mô hình Transformer

1.3.2. Cơ chế tự chú ý (Self attention)

1.3.3. Mã hóa vị trí (Position encoding)

2. CHƯƠNG 2: CÁC MÔ HÌNH NGÔN NGỮ LỚN

2.1. Mô hình ngôn ngữ BERT

2.2. Mô hình ngôn ngữ lớn GPT

2.3. Mô hình ngôn ngữ lớn LLaMA

3. CHƯƠNG 3: ĐỀ XUẤT VÀ THỰC NGHIỆM

3.1. Tinh chỉnh mô hình LLaMA

3.1.1. Tinh chỉnh mô hình bằng bộ chuyển đổi (Adapter)

3.1.2. Tinh chỉnh mô hình bằng bộ chuyển đổi cấp thấp (Low-Rank Adaptation - LoRA)

3.1.3. Tinh chỉnh mô hình ngôn ngữ lớn LLaMA trong bài toán xác minh tính chính xác

3.1.4. Dữ liệu và kết quả

3.1.4.1. Xử lý dữ liệu và kết quả

KẾT LUẬN

Tóm tắt

I. Tổng Quan về Ứng Dụng Học Sâu Xác Minh Tin Tức

Trong kỷ nguyên số, tin tức giả mạo (fake news) đang trở thành một vấn đề nhức nhối toàn cầu. Sự lan truyền nhanh chóng của thông tin sai lệch trên mạng xã hội có thể gây ra những hậu quả nghiêm trọng. Việc xác minh tính chính xác của tin tức trở nên cấp thiết hơn bao giờ hết. Học sâu (Deep Learning), với khả năng xử lý và phân tích dữ liệu phức tạp, đã nổi lên như một giải pháp đầy hứa hẹn. Các mô hình học sâu có thể tự động học các đặc trưng quan trọng từ văn bản, hình ảnh và các nguồn thông tin khác để phát hiện tin sai lệch bằng học sâu. Bài toán này không chỉ đòi hỏi các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) tiên tiến mà còn yêu cầu khả năng phân tích ngữ cảnh và xác minh nguồn tin cậy bằng học sâu. Luận văn này tập trung vào việc ứng dụng các mô hình học sâu mới nhất để giải quyết thách thức này, góp phần xây dựng một môi trường thông tin đáng tin cậy hơn.

1.1. Tầm quan trọng của xác minh tin tức trong thời đại số

Sự bùng nổ của Internet và mạng xã hội đã tạo điều kiện cho việc lan truyền thông tin nhanh chóng, nhưng đồng thời cũng làm gia tăng nguy cơ thông tin sai lệch (misinformation) và tin giả (disinformation). Việc xác minh tính chính xác của tin tức là vô cùng quan trọng để bảo vệ công chúng khỏi những tác động tiêu cực của fake news detection deep learning, bao gồm gây hoang mang, ảnh hưởng đến quyết định cá nhân và thậm chí gây bất ổn xã hội. Theo một nghiên cứu của Đại học Stanford, phần lớn người dùng Internet gặp khó khăn trong việc phân biệt tin thật và tin giả, nhấn mạnh sự cần thiết của các công cụ và phương pháp xác minh tin tức hiệu quả.

1.2. Học sâu Deep Learning và tiềm năng trong xác thực thông tin

Học sâu là một nhánh của trí tuệ nhân tạo (AI) cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình rõ ràng. Các mô hình học sâu, như mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi quy (RNN) và Transformer, đã chứng minh khả năng vượt trội trong nhiều lĩnh vực, bao gồm xử lý ảnh, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói. Trong lĩnh vực xác minh tin tức, học sâu có tiềm năng to lớn trong việc tự động phân tích văn bản, hình ảnh và video để phát hiện các dấu hiệu của thông tin sai lệch, ứng dụng AI trong xác thực thông tin.

II. Thách Thức Xác Minh Độ Tin Cậy Của Tin Tức Tự Động

Mặc dù học sâu mang lại nhiều hứa hẹn, việc xây dựng một hệ thống xác minh tin tức tự động bằng AI hiệu quả vẫn còn nhiều thách thức. Một trong những khó khăn lớn nhất là sự đa dạng và phức tạp của ngôn ngữ. Tin giả thường được viết một cách tinh vi để đánh lừa người đọc. Ngoài ra, tin tức thường chứa thông tin đa phương tiện, bao gồm văn bản, hình ảnh và video, đòi hỏi các mô hình học sâu có khả năng xử lý nhiều loại dữ liệu khác nhau. Xác minh nguồn tin bằng học sâu cũng là một thách thức quan trọng. Thông tin từ các nguồn không đáng tin cậy có thể được sử dụng để tạo ra tin giả. Do đó, hệ thống cần có khả năng đánh giá độ tin cậy của nguồn tin.

2.1. Sự phức tạp của ngôn ngữ và tin giả tinh vi

Ngôn ngữ tự nhiên vốn dĩ mơ hồ và đa nghĩa. Tin giả thường được viết một cách khéo léo, sử dụng các thủ thuật ngôn ngữ như phân tích cảm xúc trong xác minh tin tức, ngụy biện và thông tin sai lệch để đánh lừa người đọc. Các mô hình học sâu cần có khả năng hiểu được ngữ cảnh và ý định thực sự của người viết để phân biệt tin thật và tin giả. Việc xử lý các ngôn ngữ khác nhau cũng là một thách thức, vì các mô hình học sâu thường được huấn luyện trên dữ liệu tiếng Anh.

2.2. Xử lý thông tin đa phương tiện và xác minh nguồn tin

Tin tức hiện đại thường kết hợp văn bản, hình ảnh và video. Các mô hình học sâu cần có khả năng xử lý ảnh trong xác minh tin tức và video để phát hiện các dấu hiệu của thao túng hoặc thông tin sai lệch. Ví dụ, một bức ảnh có thể bị chỉnh sửa để tạo ra một ấn tượng sai lệch về sự kiện. Xác minh nguồn tin là một yếu tố quan trọng khác. Các mô hình học sâu cần có khả năng đánh giá độ tin cậy của nguồn tin dựa trên lịch sử, danh tiếng và các yếu tố khác. Ví dụ, thông tin từ các tờ báo uy tín thường đáng tin cậy hơn thông tin từ các trang web không rõ nguồn gốc.

2.3. Vấn đề về dữ liệu huấn luyện và bias trong mô hình học sâu

Các mô hình học sâu cần được huấn luyện trên một lượng lớn dữ liệu để đạt được độ chính xác cao. Tuy nhiên, việc thu thập dữ liệu chất lượng cao cho bài toán xác minh tin tức là một thách thức. Ngoài ra, dữ liệu huấn luyện có thể chứa bias, dẫn đến việc mô hình học các khuôn mẫu không mong muốn và đưa ra các dự đoán sai lệch. Ví dụ, nếu dữ liệu huấn luyện chủ yếu bao gồm tin giả về một chủ đề cụ thể, mô hình có thể có xu hướng gắn nhãn tin thật về chủ đề đó là tin giả.

III. Phương Pháp Mô Hình BERT Ứng Dụng Xác Minh Tin Tức Giả Mạo

Để giải quyết các thách thức trên, nhiều nhà nghiên cứu đã tập trung vào việc sử dụng mô hình ngôn ngữ lớn (LLM) như BERT cho bài toán xác minh tin tức. BERT (Bidirectional Encoder Representations from Transformers) là một mô hình ngôn ngữ được huấn luyện trước trên một lượng lớn dữ liệu văn bản, cho phép nó hiểu sâu sắc về ngữ nghĩa và ngữ cảnh của ngôn ngữ. Việc tinh chỉnh BERT trên dữ liệu xác minh tin tức có thể giúp mô hình đạt được độ chính xác cao trong việc deep learning kiểm tra tin tức giả mạo. BERT có khả năng xử lý thông tin hai chiều (bidirectional), cho phép nó xem xét cả ngữ cảnh trước và sau của một từ để hiểu rõ hơn ý nghĩa của nó.

3.1. Tổng quan về mô hình BERT và kiến trúc Transformer

BERT là một mô hình ngôn ngữ dựa trên kiến trúc Transformer, một kiến trúc mạng nơ-ron được thiết kế đặc biệt để xử lý các chuỗi dữ liệu, như văn bản. Transformer sử dụng cơ chế tự chú ý (self-attention), cho phép mô hình tập trung vào các phần quan trọng nhất của chuỗi đầu vào. BERT được huấn luyện trước trên hai nhiệm vụ chính: dự đoán từ bị che giấu (Masked Language Model) và dự đoán câu tiếp theo (Next Sentence Prediction), giúp nó học được các biểu diễn ngôn ngữ phong phú.

3.2. Fine tuning BERT cho bài toán xác minh tính chính xác

Để áp dụng BERT cho bài toán xác minh tin tức, mô hình cần được tinh chỉnh (fine-tuning) trên một bộ dữ liệu chứa tin thật và tin giả. Trong quá trình tinh chỉnh, các tham số của BERT được điều chỉnh để tối ưu hóa hiệu suất trên nhiệm vụ cụ thể này. Bộ dữ liệu có thể bao gồm các bài báo, tweet, hoặc các đoạn văn bản khác được gắn nhãn là tin thật hoặc tin giả. Các thông tin metadata, như nguồn tin và ngày xuất bản, cũng có thể được sử dụng làm đặc trưng đầu vào cho mô hình.

3.3. Ưu điểm của BERT so với các mô hình học sâu truyền thống

BERT có một số ưu điểm so với các mô hình học sâu truyền thống như CNN và RNN. Thứ nhất, BERT được huấn luyện trước trên một lượng lớn dữ liệu, cho phép nó học được các biểu diễn ngôn ngữ chung, có thể được áp dụng cho nhiều nhiệm vụ khác nhau. Thứ hai, BERT có khả năng xử lý thông tin hai chiều, cho phép nó hiểu rõ hơn ngữ cảnh của ngôn ngữ. Thứ ba, kiến trúc Transformer của BERT cho phép nó xử lý các chuỗi dài một cách hiệu quả hơn so với RNN.

IV. Thực Nghiệm Đánh Giá Hiệu Năng Mô Hình Học Sâu trên LIAR

Để đánh giá hiệu quả của mô hình học sâu trong việc xác minh tin tức, các nhà nghiên cứu thường sử dụng các bộ dữ liệu chuẩn, như LIAR. LIAR là một bộ dữ liệu chứa các tuyên bố được trích xuất từ các trang web kiểm tra thực tế (fact-checking), được gắn nhãn là đúng, sai hoặc nửa sự thật. Hiệu năng của mô hình được đánh giá dựa trên các chỉ số như độ chính xác (accuracy), độ tin cậy (precision), độ phủ (recall) và điểm F1 (F1-score). Kết quả thực nghiệm cho thấy rằng các mô hình học sâu, đặc biệt là BERT, có thể đạt được độ chính xác cao trên bộ dữ liệu LIAR.

4.1. Giới thiệu bộ dữ liệu LIAR và các tiêu chí đánh giá

Bộ dữ liệu LIAR bao gồm các tuyên bố từ PolitiFact, một trang web kiểm tra thực tế nổi tiếng. Các tuyên bố được gắn nhãn với một trong sáu loại: true, mostly-true, half-true, barely-true, false, và pants-fire. Các tiêu chí đánh giá thường được sử dụng bao gồm: độ chính xác, độ tin cậy, độ phủ và F1-score. Độ chính xác đo lường tỷ lệ các tuyên bố được phân loại đúng. Độ tin cậy đo lường tỷ lệ các tuyên bố được dự đoán là đúng mà thực sự là đúng. Độ phủ đo lường tỷ lệ các tuyên bố đúng được mô hình dự đoán là đúng. F1-score là trung bình điều hòa của độ tin cậy và độ phủ.

4.2. Kết quả thực nghiệm và so sánh với các mô hình khác

Các nghiên cứu đã chỉ ra rằng các mô hình học sâu có thể đạt được kết quả ấn tượng trên bộ dữ liệu LIAR. Ví dụ, một nghiên cứu sử dụng BERT đã đạt được độ chính xác trên 80%. So với các mô hình truyền thống hơn, như máy vectơ hỗ trợ (SVM) và hồi quy logistic, các mô hình học sâu thường cho kết quả tốt hơn đáng kể. Tuy nhiên, hiệu năng của mô hình có thể khác nhau tùy thuộc vào kiến trúc, phương pháp huấn luyện và các siêu tham số được sử dụng.

4.3. Phân tích lỗi và hướng cải thiện mô hình học sâu

Việc phân tích lỗi có thể giúp xác định các điểm yếu của mô hình học sâu và đề xuất các hướng cải thiện. Ví dụ, mô hình có thể gặp khó khăn trong việc phân biệt các tuyên bố nửa sự thật hoặc các tuyên bố sử dụng ngôn ngữ mỉa mai. Để cải thiện hiệu năng, có thể sử dụng các kỹ thuật như tăng cường dữ liệu (data augmentation), điều chỉnh siêu tham số (hyperparameter tuning) và tích hợp thông tin bên ngoài, như thông tin về nguồn tin và các bài báo liên quan.

V. Kết Luận Hướng Phát Triển Ứng Dụng AI Xác Minh Tin Tức

Ứng dụng mô hình học sâu trong xác minh tính chính xác của tin tức là một lĩnh vực đầy tiềm năng. Mặc dù đã đạt được nhiều tiến bộ, vẫn còn nhiều thách thức cần vượt qua. Trong tương lai, các nhà nghiên cứu có thể tập trung vào việc phát triển các mô hình học sâu có khả năng hiểu sâu sắc hơn về ngôn ngữ, xử lý thông tin đa phương tiện hiệu quả hơn và xác minh nguồn tin đáng tin cậy hơn. Ngoài ra, việc phát triển các công cụ và nền tảng dễ sử dụng có thể giúp người dùng cuối dễ dàng tiếp cận và sử dụng các công nghệ xác minh tin tức.

5.1. Tổng kết những thành tựu và hạn chế của học sâu

Những thành tựu của học sâu trong lĩnh vực xác minh tin tức là không thể phủ nhận. Các mô hình học sâu có thể tự động phân tích văn bản, hình ảnh và video để phát hiện các dấu hiệu của thông tin sai lệch. Tuy nhiên, học sâu vẫn còn một số hạn chế. Các mô hình học sâu cần một lượng lớn dữ liệu để huấn luyện và có thể bị ảnh hưởng bởi bias trong dữ liệu. Ngoài ra, việc giải thích các dự đoán của mô hình học sâu (Explainable AI - XAI) vẫn là một thách thức.

5.2. Triển vọng phát triển các mô hình ngôn ngữ lớn tiên tiến

Các mô hình ngôn ngữ lớn như GPT-3 và LLaMA đang ngày càng trở nên mạnh mẽ hơn. Trong tương lai, các mô hình này có thể được sử dụng để tạo ra các hệ thống xác minh tin tức tự động và hiệu quả hơn. Ví dụ, các mô hình ngôn ngữ lớn có thể được sử dụng để tóm tắt các bài báo, so sánh thông tin từ nhiều nguồn khác nhau và phát hiện các mâu thuẫn trong thông tin. Các công cụ như Low-Rank Adaptation - LoRA cũng giúp việc tinh chỉnh các mô hình này trở nên dễ dàng hơn.

5.3. Ứng dụng học sâu để chống lại disinformation và fake news

Việc ứng dụng học sâu để chống lại disinformation và fake news là vô cùng quan trọng để bảo vệ xã hội khỏi những tác động tiêu cực của thông tin sai lệch. Các công nghệ xác minh tin tức có thể được sử dụng để cảnh báo người dùng về các thông tin sai lệch, giúp họ đưa ra các quyết định sáng suốt hơn. Ngoài ra, các công nghệ này có thể được sử dụng để xác định và ngăn chặn các chiến dịch lan truyền thông tin sai lệch trên mạng xã hội.

24/04/2025

Bạn đang xem trước tài liệu:

Ứng dụng mô hình học sâu trong bài toán xác minh tính chính xác

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, tin tức giả mạo đang trở thành một vấn đề toàn cầu với sự lan truyền nhanh chóng trên các nền tảng mạng xã hội. Theo ước tính, hàng triệu tin tức giả được phát tán mỗi ngày, gây ảnh hưởng tiêu cực đến nhận thức xã hội và làm suy giảm niềm tin vào các nguồn thông tin chính thống. Bài toán xác minh tính chính xác của tin tức trở thành thách thức lớn trong thời đại số hóa, khi lượng thông tin khổng lồ được tạo ra và chia sẻ liên tục. Mục tiêu của luận văn là ứng dụng mô hình học sâu, cụ thể là mô hình ngôn ngữ lớn (Large Language Model - LLM), để phát triển công cụ xác minh tính chính xác của tin tức, giúp phát hiện và loại bỏ thông tin sai lệch. Nghiên cứu tập trung vào việc tinh chỉnh mô hình LLaMA phiên bản 7 tỷ tham số, đánh giá hiệu suất trên tập dữ liệu chuẩn LIAR, với phạm vi nghiên cứu từ năm 2007 đến 2016, chủ yếu dựa trên dữ liệu tiếng Anh từ các nguồn tin cậy. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trong phát hiện tin giả, góp phần giảm thiểu tác động tiêu cực của tin tức giả mạo trên mạng xã hội và hỗ trợ các cơ quan quản lý thông tin trong việc kiểm soát nội dung.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên kiến trúc Transformer, một mô hình học sâu nổi bật trong xử lý ngôn ngữ tự nhiên (NLP), với cơ chế tự chú ý (self-attention) cho phép mô hình tập trung vào các phần quan trọng của câu để hiểu ngữ cảnh phức tạp. Cơ chế chú ý nhiều đầu (multi-head attention) giúp mô hình học được nhiều kiểu mối quan hệ giữa các từ trong câu. Ngoài ra, kỹ thuật mã hóa vị trí (positional encoding) được sử dụng để bổ sung thông tin vị trí từ trong câu, giúp mô hình nhận biết thứ tự từ. Trong lĩnh vực mô hình ngôn ngữ lớn, ba mô hình chính được nghiên cứu là BERT (Bidirectional Encoder Representations from Transformers), GPT (Generative Pre-trained Transformer) và LLaMA (Large Language Model Meta AI). BERT sử dụng kiến trúc mã hóa hai chiều, GPT tập trung vào mô hình tạo sinh ngôn ngữ theo chiều xuôi, còn LLaMA là mô hình mã nguồn mở với khả năng xử lý ngữ cảnh dài và hiệu suất cao. Các phương pháp tinh chỉnh mô hình bao gồm Adapter và Low-Rank Adaptation (LoRA), giúp giảm số lượng tham số cần huấn luyện, tiết kiệm tài nguyên và tránh hiện tượng quên kiến thức đã học trước.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu LIAR, gồm khoảng 12,800 mẫu tin tức được gán nhãn chính xác theo sáu mức độ từ "Chính xác" đến "Hoàn toàn sai". Dữ liệu được chia thành ba phần: huấn luyện (10,269 mẫu), thẩm định (1,284 mẫu) và kiểm thử (1,283 mẫu). Mỗi tuyên bố trung bình dài khoảng 17.9 token, đa dạng về chủ đề và nguồn gốc, thu thập trong giai đoạn 2007-2016. Phương pháp phân tích sử dụng kỹ thuật tinh chỉnh mô hình LLaMA phiên bản 7 tỷ tham số bằng cách kết hợp các mẫu chỉ dẫn, tuyên bố đầu vào và thông tin liên quan được thu thập qua API tìm kiếm từ các nguồn tin cậy, loại bỏ các trang kiểm tra sự thật để đảm bảo tính khách quan. Quá trình huấn luyện gồm 20 bước lặp, với việc phân chia dữ liệu thành 5 phần ngẫu nhiên để đánh giá tính ổn định và khách quan của mô hình. Các chỉ số đánh giá bao gồm Precision, Recall và F1-score, được sử dụng để so sánh hiệu suất với các mô hình hiện có như DeClarE, EXPLAINERFC, HAN, CofCED.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất vượt trội của mô hình LLaMA tinh chỉnh: Mô hình LLaMA đạt điểm F1 cao hơn đáng kể so với các mô hình hiện tại, ví dụ điểm F1 của LLaMA vượt trội so với EXPLAINERFC (0.28933). Điều này chứng tỏ khả năng phân loại tin tức giả và thật của LLaMA được cải thiện rõ rệt.
Khả năng xử lý ngôn ngữ tự nhiên sâu sắc: Mô hình LLaMA thể hiện khả năng hiểu ngữ cảnh phức tạp và sắc thái của các tuyên bố, giúp giảm tỷ lệ báo động giả và tăng độ chính xác trong phân loại.
Tiết kiệm tài nguyên khi sử dụng phiên bản 7 tỷ tham số: Phiên bản nhỏ nhất của LLaMA với dung lượng khoảng 13GB cho phép triển khai trên các hệ thống có GPU tầm trung, giảm chi phí tính toán và lưu trữ so với các mô hình lớn hơn như GPT hay BERT.
Hiệu quả của các kỹ thuật tinh chỉnh Adapter và LoRA: Việc áp dụng các phương pháp tinh chỉnh này giúp giảm số lượng tham số cần huấn luyện xuống còn khoảng 3.6% so với tinh chỉnh toàn bộ mô hình, đồng thời duy trì hoặc nâng cao hiệu suất mô hình.

Thảo luận kết quả

Nguyên nhân chính dẫn đến thành công của mô hình LLaMA là nhờ kiến trúc Transformer tiên tiến với cơ chế tự chú ý nhiều đầu, cho phép mô hình nắm bắt mối quan hệ phức tạp giữa các từ và ngữ cảnh trong câu. So với các mô hình trước đây như DeClarE hay HAN, LLaMA có khả năng xử lý ngữ cảnh dài hơn (4096 token) và được huấn luyện trên lượng dữ liệu lớn hơn (khoảng 2 nghìn tỷ token), giúp nâng cao độ chính xác và tính tổng quát. Việc sử dụng kỹ thuật tinh chỉnh hiệu quả như Adapter và LoRA không chỉ giảm chi phí tính toán mà còn hạn chế hiện tượng quên kiến thức, một vấn đề phổ biến khi tinh chỉnh toàn bộ mô hình. Kết quả có thể được trình bày qua biểu đồ so sánh điểm F1 giữa các mô hình, bảng phân phối nhãn trong tập dữ liệu LIAR, và biểu đồ thể hiện sự cải thiện hiệu suất qua các bước huấn luyện. Mặc dù kết quả hiện tại đã vượt trội, việc áp dụng thực tế vẫn cần tiếp tục tối ưu để xử lý đa dạng chủ đề và ngôn ngữ khác nhau, đồng thời mở rộng phạm vi nghiên cứu.

Đề xuất và khuyến nghị

Triển khai mô hình LLaMA tinh chỉnh trên các nền tảng truyền thông xã hội: Động từ hành động là "ứng dụng", mục tiêu là giảm tỷ lệ lan truyền tin giả trên mạng xã hội, thời gian thực hiện trong 6-12 tháng, chủ thể thực hiện là các cơ quan quản lý truyền thông và các công ty công nghệ.
Phát triển hệ thống cảnh báo sớm dựa trên mô hình: Động từ "xây dựng", mục tiêu là phát hiện sớm các tin tức sai lệch, timeline 12 tháng, chủ thể là các tổ chức nghiên cứu và doanh nghiệp công nghệ.
Mở rộng dữ liệu huấn luyện đa ngôn ngữ và đa chủ đề: Động từ "mở rộng", mục tiêu nâng cao khả năng nhận diện tin giả trong nhiều lĩnh vực và ngôn ngữ, timeline 18 tháng, chủ thể là các nhóm nghiên cứu và cộng đồng học thuật.
Tối ưu hóa kỹ thuật tinh chỉnh để giảm chi phí tính toán: Động từ "cải tiến", mục tiêu giảm thời gian huấn luyện và tài nguyên sử dụng, timeline 12 tháng, chủ thể là các nhà phát triển mô hình và kỹ sư AI.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và học giả trong lĩnh vực trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức sâu sắc về kiến trúc Transformer, các mô hình ngôn ngữ lớn và kỹ thuật tinh chỉnh hiệu quả, hỗ trợ phát triển các nghiên cứu tiếp theo.
Chuyên gia phát triển sản phẩm công nghệ liên quan đến kiểm duyệt nội dung và phát hiện tin giả: Cung cấp phương pháp và kết quả thực nghiệm để ứng dụng trong xây dựng hệ thống xác minh tin tức tự động.
Cơ quan quản lý truyền thông và báo chí: Giúp hiểu rõ công nghệ mới trong việc kiểm soát và xác minh thông tin, từ đó xây dựng chính sách và công cụ hỗ trợ quản lý thông tin trên mạng.
Sinh viên và học viên ngành Toán Tin, Khoa học Máy tính: Là tài liệu tham khảo quý giá về ứng dụng học sâu trong bài toán thực tiễn, giúp nâng cao kỹ năng nghiên cứu và phát triển mô hình.

Câu hỏi thường gặp

Mô hình LLaMA có ưu điểm gì so với các mô hình ngôn ngữ lớn khác?
LLaMA có khả năng xử lý ngữ cảnh dài hơn (4096 token), được huấn luyện trên lượng dữ liệu lớn (khoảng 2 nghìn tỷ token), đồng thời có phiên bản nhỏ gọn (7 tỷ tham số) giúp tiết kiệm tài nguyên tính toán và dễ triển khai hơn.
Tại sao cần tinh chỉnh mô hình thay vì sử dụng mô hình gốc?
Tinh chỉnh giúp mô hình thích ứng với nhiệm vụ cụ thể, như xác minh tính chính xác của tin tức, nâng cao hiệu suất và độ chính xác so với mô hình gốc chỉ được huấn luyện chung chung.
Adapter và LoRA khác nhau như thế nào trong tinh chỉnh mô hình?
Adapter sử dụng các mô-đun nhỏ chèn vào giữa các lớp mô hình, còn LoRA biểu diễn cập nhật trọng số bằng ma trận cấp thấp, giúp giảm số lượng tham số cần huấn luyện và không làm tăng độ trễ trong triển khai.
Tập dữ liệu LIAR có đặc điểm gì nổi bật?
LIAR gồm khoảng 12,800 mẫu tin tức được gán nhãn theo sáu mức độ chính xác, có phân phối nhãn cân bằng và đa dạng về chủ đề, thu thập từ năm 2007 đến 2016, là bộ dữ liệu chuẩn được sử dụng rộng rãi trong nghiên cứu phát hiện tin giả.
Kết quả nghiên cứu có thể ứng dụng thực tế như thế nào?
Mô hình tinh chỉnh có thể được triển khai trong các hệ thống kiểm duyệt nội dung tự động, hỗ trợ cơ quan quản lý và người dùng phân biệt tin thật - giả, giảm thiểu tác động tiêu cực của tin giả trên mạng xã hội.

Kết luận

Việc tinh chỉnh mô hình ngôn ngữ lớn LLaMA đã nâng cao hiệu suất xác minh tính chính xác của tin tức, vượt trội so với các mô hình hiện có trên tập dữ liệu LIAR.
Nghiên cứu đã áp dụng thành công các kỹ thuật tinh chỉnh hiệu quả như Adapter và LoRA, giúp tiết kiệm tài nguyên và duy trì độ chính xác cao.
Kết quả có ý nghĩa thực tiễn lớn trong việc chống lại tin tức giả mạo, góp phần bảo vệ thông tin chính thống trên mạng xã hội.
Hướng nghiên cứu tiếp theo là mở rộng phạm vi dữ liệu, đa dạng ngôn ngữ và chủ đề, đồng thời tối ưu hóa mô hình để ứng dụng rộng rãi hơn.
Khuyến khích các nhà nghiên cứu, chuyên gia và cơ quan quản lý tiếp tục phát triển và ứng dụng mô hình nhằm nâng cao hiệu quả kiểm soát thông tin trong kỷ nguyên số.

Trích đoạn nội dung tài liệu

Chương 1 Cơ sở lý thuyết Trước khi bắt đầu tìm hiểu sâu hơn về những mô hình ngôn ngữ lớn (LLM) có khả năng hiểu và tạo sinh ngôn ngữ tự nhiên với độ chính xác và độ phức tạp cao, việc quan trọng là nắm bắt kiến thức cơ bản về những công cụ quan trọng trong lĩnh vực này, đặc biệt là kiến trúc Transformer [3] với cơ chế tự chú ý. Sự hiểu biết vững chắc về cách mà các mô hình này hoạt động không chỉ cung cấp cho chúng ta cái nhìn sâu sắc về ngôn ngữ tự nhiên và cơ sở của công nghệ xử lý ngôn ngữ tự nhiên (NLP), mà còn tạo tiền đề cho việc hiểu và tinh chỉnh mô hình ngôn ngữ lớn trong bài toán xác minh tính chính xác của tin tức.1 Tổng quan về cơ chế chú ý Trong các mô hình chuỗi sang chuỗi, chuỗi đầu vào được bộ mã hóa thành một véc-tơ ngữ cảnh có độ dài cố định đại diện cho lượng thông tin đầu vào. Véc-tơ ngữ cảnh là một véc-tơ có chứa thông tin tổng hợp từ toàn bộ các từ trong câu đầu vào. Sau đó, véc-tơ ngữ cảnh được sử dụng làm trạng thái ban đầu của bộ giải mã để sinh chuỗi đầu ra theo từng bước.

Cách hoạt động này yêu cầu đầu ra trạng thái cuối cùng của bộ mã hóa cần phải chứa tất cả các thông tin về câu nguồn. Dẫn đến việc véc-tơ ngữ cảnh bị quá tải về mặt thông tin nếu như chuỗi nguồn quá dài.1: Cơ chế mã hóa, giải mã 3 Cơ chế chú ý được sinh ra dựa trên nhu cầu ghi nhớ các câu dài, một trong những vấn đề cơ bản của bài toán dịch máy. Cơ chế chú ý cho phép mô hình tập trung vào một hoặc một vài ngữ cảnh địa phương trong câu, đó cũng là nguồn gốc tên gọi cơ chế chú ý. Thay vì để bộ mã hóa nén toàn bộ thông tin vào một véc-tơ trạng thái đầu ra cuối cùng, ta cho phép bộ giải mã quan sát toàn bộ đầu ra của bộ mã hóa.

Thay vì sử dụng véc-tơ ngữ cảnh duy nhất một lần tại đầu vào của bộ mã hóa, ta sử dụng mỗi véc-tơ ngữ cảnh riêng biệt cho từng phần để dự đoán ra từ kế tiếp, mỗi véc-tơ ngữ cảnh được tổng hợp có trọng số từ các trạng thái ẩn trong bộ mã hóa (Hình 1.2: Bộ mã hóa, bộ giải mã với cơ chế chú ý Cách thức tổng hợp để ra được véc-tơ ngữ cảnh (hay véc-tơ chú ý) có nhiều cách, trong phần này, chúng ta tìm hiểu về cơ chế tổng hợp chú ý của Bahdanau [1]. Mô hình toán học của cơ chế mã hóa - giải mã Trong mô hình bộ mã hóa - bộ giải mã, bộ mã hóa đọc một câu đầu vào gồm một chuỗi các véc-tơ x = (x1 ,. , xT ) thành véc-tơ ngữ cảnh c. Khi sử dụng RNN thì ta có: ht = f (xt , ht−1 ) và c = q({h1,.

, hT }) Trong đó: 4 • ht ∈ Rn : Trạng thái ẩn của tại bước t. • c: Véc-tơ sinh bởi chuỗi trạng thái ẩn. • f, q: Các hàm phi tuyến. Bộ giải mã dự đoán yt dựa vào véc-tơ ngữ cảnh c và tất cả các từ trước nó {y1 ,.

Nói cách khác, bộ giải mã định nghĩa một xác xuất qua phép dịch y như sau: T Y p(y) = p(yt |{y1 ,. Khi sử dụng RNN cho bộ giải mã, ta có: p(yt |{y1 ,. , yt−1 }, c) = g(yt−1 , st , c) Trong đó: • g là hàm phi tuyến. • st là trạng thái ẩn của RNN.

Mô hình toán học bộ mã hóa - bộ giải mã với cơ chế chú ý Trong kiến trúc mới với chú ý, xác suất để tạo ra đầu ra yi tại bộ giải mã biết các đầu tra trước đó y1 ,. , yi−1 và câu nguồn x là: p(yi |{y1 ,. Khác với mô hình bộ mã hóa - bộ giải mã thông thường, tại mỗi đầu ra yi , chúng ta sử dụng véc-tơ ngữ cảnh ci. véc-tơ ngữ cảnh ci là véc-tơ phụ thuộc vào bộ h1 ,.

, hT : T X ci = αij hj j=1 Trong đó: exp(eij ) αij = PT k=1 exp(eik ) biểu thị trọng số cho từ mục tiêu yi được dịch từ từ nguồn xj. Tại đây: eij = a(ai−1 , hj ) được gọi là mô hình liên kết với mục đích đánh giá mức độ tương quan của từ tại vị trí j của bộ mã hóa với từ đầu ra tại vị trí i của bộ giải mã bằng việc gán trọng số vào αij. eij biểu thị tầm quan trọng của hj với trạng thái ẩn trước đó si−1 trong việc quyết định trạng thái tiếp theo si và tạo ra yi .3: Hoạt động của cơ chế chú ý [1] Trong bài báo của tác giả Bahdanau, mô hình liên kết a được chọn với công thức như sau: score(si−1 , hj ) = a(si−1 , hj ) = vaT tanh(Wa si−1 + Ua hj ) thực chất là một perceptron nhiều lớp với Wa , Ua , va là các ma trận trọng số.4: Hoạt động của cơ chế chú ý chuyển tiếp [2] Ma trận bất đối xứng (confusion matrix) được tạo ra bởi điểm liên kết thể hiện mức độ tương quan giữa câu nguồn và câu đích. Nói cách khác, thực chất cơ chế chú ý giúp mô hình tập trung vào phần quan trọng trên dữ liệu nguồn, bằng việc tạo ra một mô hình liên kết a tính các điểm liên kết αij để thay đổi lại các trọng số của trạng thái ẩn của bộ mã hóa.2 Các biến thể của cơ chế chú ý Có nhiều cách tính điểm liên kết như sau: 1.

Content-base Attention [20]: score(si−1 , hj ) = consine[si−1 , hj ] 2. Multiplicative Attention hay General Attention [21]: score(si−1 , hj ) = sTi−1 Wa hj 3.2 Mô hình Transformer 1.1 Tổng quan về mô hình Transformer Trong bài báo Attention is all you need [3], các tác giả giới thiệu về kiểu mô hình chú ý được sử dụng trong các tác vụ học máy. Trong bài báo cũng đưa ra một kiến trúc mới là Transformer [3] hoàn toàn khác so với các kiến trúc RNN trước đây, mặc dù cả hai đều thuộc lớp mô hình chuỗi sang chuỗi nhằm chuyển một chuỗi đầu vào ở ngôn ngữ A sang một chuỗi đầu ra ở ngôn ngữ B. Quá trình biến đổi được dựa trên hai phần bộ mã hóa và bộ giải mã.

Nghiên cứu chỉ ra rằng với cơ chế chú ý không cần cần đến RNN đã có thể cải thiện hiệu quả của các tác vụ dịch máy và nhiều tác vụ khác. Kiến trúc mô hình Transformer [3] gồm hai phân bộ mã hóa bên trái và bộ giải mã bên phải (Hình 1. • Bộ mã hóa: Là tổng hợp xếp chồng lên nhau của sáu lớp (layer) xác định. Mỗi lớp bao gồm hai lớp con (sublayer) trong nó.

Lớp con đầu tiên là cơ chế chú ý nhiều đầu (multi-head attention). Lớp con thứ hai đơn thuần là các lớp đầy đủ chuyển tiếp (fully-connected feed-forward). Một lưu ý là chúng ta sẽ sử dụng một kết nối dư (residual) ở mỗi lớp con, kiến trúc này tương tự như mạng resnet trong CNN. Đầu ra của mỗi lớp con là LayerNorm(x+Sublayer(x)) có số chiều là 512 như bài báo.

• Bộ giải mã: Cũng là tổng hợp của sáu lớp xếp chồng nhau, kiến trúc tương tự như các lớp con của bộ mã hóa ngoại trừ thêm một lớp con thể hiện phân phối chú ý ở vị trí đầu tiên. Lớp này không gì khác so với cơ chế chú ý nhiều đầu (multi-head attention) ngoại trừ được điều chỉnh để không đưa các từ trong tương lai vào cơ chế chú ý. Tại bước thứ i của bộ giải mã chúng ta chỉ biết được các từ ở vị trí nhỏ hơn i nên việc điều chỉnh đảm bảo cơ chế chú ý chỉ áp dụng cho những từ nhỏ hơn vị trí thứ i. Kết nối dư cũng được áp dụng tương tự như trong bộ mã hóa.

7 Ngoài ra, chúng ta có một bước cộng thêm mã hóa vị trí (positional encoding) vào các đầu vào của bộ mã hóa và bộ giải mã nhằm thêm yếu tố vị trí vào mô hình để tăng độ chính xác. Đây đơn giản là phép cộng véc-tơ mã hóa vị trí của từ trong câu với véc-tơ biểu diễn từ. Chúng ta có thể mã hóa vị trí dưới dạng {0, 1} véc-tơ vị trí hoặc sử dụng hàm sin, cos như trong bài báo.5: Kiến trúc mô hình Transformer [3] 1.2 Cơ chế tự chú ý (Self attention) Như đã giới thiệu ở phần trên, bộ mã hóa và bộ giải mã cơ bản giống nhau về cấu trúc, gồm nhiều lớp xếp chồng lên nhau, trong mỗi lớp này lại được chia thành hai lớp con (Hình 1.6: Kiến trúc của một lớp trong bộ mã hóa và bộ giải mã Cơ chế tự chú ý (self attention) cho phép mô hình khi mã hóa một từ có thể sử 8 dụng thông tin của những từ liên quan tới nó. Chúng ta có thể tưởng tượng cơ chế tự chú ý giống như cơ chế tìm kiếm.

Với một từ cho trước, cơ chế này sẽ cho phép mô hình tìm kiếm trong các từ còn lại, từ nào “giống” để sau đó thông tin sẽ được mã hóa dựa trên tất cả các từ trên. Chúng ta có câu: mặt trời mọc phía đông và nó lặn ở phía tây thì cơ chế tự chú ý sẽ giúp mô hình khi mã hóa từ nó thì sẽ tập trung vào từ liên quan là mặt trời.7: Ví dụ cơ chế tự chú ý Tích vô hướng tỉ lệ chú ý (Scale dot product attention) Tích vô hướng tỉ lệ chú ý (Scale dot product attention) là một cơ chế tự chú ý. Sau bước nhúng từ ta có đầu vào của bộ mã hóa và bộ giải mã là ma trận X kích thước m × n với m, n lần lượt là độ dài câu và số chiều của một véc-tơ nhúng từ.8: Sơ đồ hoạt động của cơ chế tự chú ý Trong Hình 1.8, khung màu vàng là ba ma trận Wq , Wk , Wv là những hệ số mà mô hình cần huấn luyện. Sau khi nhân các ma trận này với ma trận đầu vào X ta thu được ma trận Q, K, V (tương ứng gọi là truy vấn (Query), khóa (Key), giá trị (Value)).

Ma trận truy vấn và khóa có tác dụng tính toán ra phân phối điểm cho các cặp từ. Ma 9 trận giá trị sẽ dựa trên phân phối điểm để tính ra véc-tơ phân phối xác suất đầu ra. Như vậy, mỗi từ sẽ được gán bởi ba véc-tơ truy vấn, khóa và giá trị là các dòng của ma trận Q, K, V (Hình 1. • Véc-tơ truy vấn: Véc-tơ dùng để chứa thông tin của các từ được tìm kiếm, so sánh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

bài toán xác minh tính chính xác thông tin

phát hiện và ngăn chặn tin giả trực tuyến

công nghệ AI hỗ trợ báo chí và truyền thông

Ứng dụng mô hình học sâu trong bài toán xác minh tính chính xác

LỜI MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Tổng quan về cơ chế chú ý

1.2. Các biến thể của cơ chế chú ý

1.3. Mô hình Transformer

1.3.1. Tổng quan về mô hình Transformer

1.3.2. Cơ chế tự chú ý (Self attention)

1.3.3. Mã hóa vị trí (Position encoding)

2. CHƯƠNG 2: CÁC MÔ HÌNH NGÔN NGỮ LỚN

2.1. Mô hình ngôn ngữ BERT

2.2. Mô hình ngôn ngữ lớn GPT

2.3. Mô hình ngôn ngữ lớn LLaMA

3. CHƯƠNG 3: ĐỀ XUẤT VÀ THỰC NGHIỆM

3.1. Tinh chỉnh mô hình LLaMA

3.1.1. Tinh chỉnh mô hình bằng bộ chuyển đổi (Adapter)

3.1.2. Tinh chỉnh mô hình bằng bộ chuyển đổi cấp thấp (Low-Rank Adaptation - LoRA)

3.1.3. Tinh chỉnh mô hình ngôn ngữ lớn LLaMA trong bài toán xác minh tính chính xác

3.1.4. Dữ liệu và kết quả

3.1.4.1. Xử lý dữ liệu và kết quả

KẾT LUẬN

I. Tổng Quan về Ứng Dụng Học Sâu Xác Minh Tin Tức

1.1. Tầm quan trọng của xác minh tin tức trong thời đại số

1.2. Học sâu Deep Learning và tiềm năng trong xác thực thông tin

II. Thách Thức Xác Minh Độ Tin Cậy Của Tin Tức Tự Động

2.1. Sự phức tạp của ngôn ngữ và tin giả tinh vi

2.2. Xử lý thông tin đa phương tiện và xác minh nguồn tin

2.3. Vấn đề về dữ liệu huấn luyện và bias trong mô hình học sâu

III. Phương Pháp Mô Hình BERT Ứng Dụng Xác Minh Tin Tức Giả Mạo

3.1. Tổng quan về mô hình BERT và kiến trúc Transformer

3.2. Fine tuning BERT cho bài toán xác minh tính chính xác

3.3. Ưu điểm của BERT so với các mô hình học sâu truyền thống

IV. Thực Nghiệm Đánh Giá Hiệu Năng Mô Hình Học Sâu trên LIAR

4.1. Giới thiệu bộ dữ liệu LIAR và các tiêu chí đánh giá

4.2. Kết quả thực nghiệm và so sánh với các mô hình khác

4.3. Phân tích lỗi và hướng cải thiện mô hình học sâu

V. Kết Luận Hướng Phát Triển Ứng Dụng AI Xác Minh Tin Tức

5.1. Tổng kết những thành tựu và hạn chế của học sâu

5.2. Triển vọng phát triển các mô hình ngôn ngữ lớn tiên tiến

5.3. Ứng dụng học sâu để chống lại disinformation và fake news

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Vũ Minh Linh

Người hướng dẫn: TS. Bùi Xuân Diệu

Trường học: Đại Học Bách Khoa Hà Nội

Chuyên ngành: Toán Tin

Đề tài: Ứng Dụng Mô Hình Học Sâu Trong Bài Toán Xác Minh Tính Chính Xác

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2023

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

SINH VIÊN CŨNG XEM