Đồ án tốt nghiệp công nghệ kỹ thuật máy tính nghiên cứu và tối ưu mô hình học sâu trong bài toán phân loại bình luận tiêu cực trên mạng xã hội

Đồ án tốt nghiệp nghiên cứu và tối ưu mô hình học sâu trong bài toán phân loại bình luận tiêu cực trên mạng xã hội, ứng dụng công nghệ kỹ thuật máy tính.

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Công Nghệ Kỹ Thuật Máy Tính

Người đăng

Ẩn danh

Thể loại

Đồ Án Tốt Nghiệp

2024

126

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: GIỚI THIỆU

1.1. HƯỚNG TIẾP CẬN

1.2. MỤC TIÊU ĐỀ TÀI

1.3. GIỚI HẠN NGHIÊN CỨU

1.4. PHƯƠNG PHÁP NGHIÊN CỨU

2. CHƯƠNG 2: NGHIÊN CỨU TỔNG QUAN

2.1. SO SÁNH GIỮA CÁC MÔ HÌNH XỬ LÝ NGÔN NGỮ TỰ NHIÊN HIỆN NAY

2.2. MÔ HÌNH HỌC SÂU (DEEP LEARNING)

2.3. TẬP DỮ LIỆU VIHSD

2.4. XỬ LÝ DỮ LIỆU

2.5. PHƯƠNG PHÁP ĐÁNH GIÁ

3. CHƯƠNG 3: PHƯƠNG PHÁP THỰC HIỆN PHÂN TÍCH THIẾT KẾ

3.1. TIỀN XỬ LÝ DỮ LIỆU

3.2. THIẾT KẾ MÔ HÌNH

3.3. TĂNG CƯỜNG DỮ LIỆU

3.3.1. Tăng cường dữ liệu với phương pháp EDA

3.3.2. Tăng cường dữ liệu với PhoBERT

3.4. THIẾT LẬP SIÊU THAM SỐ (HYPER PARAMETER)

3.4.1. Kỹ thuật xác định siêu tham số tối ưu

3.4.2. Pre-trained model

4. CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN

4.1. TIỀN XỬ LÝ DỮ LIỆU

4.2. PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU

4.2.1. Phương pháp EDA

4.2.2. Phương pháp tăng cường dữ liệu với PhoBERT

4.3. SO SÁNH 2 PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU DỰA TRÊN CONFUSION MATRIX

4.4. THỜI GIAN HUẤN LUYỆN VÀ DUNG LƯỢNG MÔ HÌNH

4.5. PHÂN TÍCH CÁC DỰ ĐOÁN SAI

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. HƯỚNG PHÁT TRIỂN

DANH MỤC HÌNH

DANH MỤC BẢNG

CÁC TỪ VIẾT TẮT

Tóm tắt

I. Giới thiệu

Nghiên cứu này tập trung vào việc tối ưu hóa mô hình học sâu để phân loại bình luận tiêu cực trên mạng xã hội. Với sự phát triển của AI trong mạng xã hội, việc nhận diện và xử lý các bình luận độc hại trở nên cấp thiết. Nghiên cứu sử dụng các mô hình học máy như CNN, BERT, và PhoBERT để cải thiện hiệu suất phân loại. Đồng thời, các phương pháp tăng cường dữ liệu và xử lý ngôn ngữ tự nhiên được áp dụng để tối ưu hóa mô hình.

1.1. Mô hình học sâu

Các mô hình học sâu như CNN và Transformer đã chứng minh hiệu quả trong việc phân loại văn bản. Đặc biệt, PhoBERT, một biến thể của BERT được huấn luyện trên dữ liệu tiếng Việt, cho thấy khả năng vượt trội trong việc hiểu và biểu diễn ngôn ngữ tự nhiên. Nghiên cứu này sử dụng PhoBERT để tối ưu hóa hiệu suất phân loại bình luận tiêu cực.

1.2. Phân loại bình luận tiêu cực

Phân loại bình luận tiêu cực là một bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Các bình luận tiêu cực không chỉ ảnh hưởng đến tâm lý người dùng mà còn tạo ra môi trường độc hại trên mạng xã hội. Nghiên cứu này tập trung vào việc nhận diện và phân loại các bình luận này bằng các mô hình học sâu để giảm thiểu tác động tiêu cực.

II. Nghiên cứu tổng quan

Nghiên cứu tổng quan so sánh các mô hình xử lý ngôn ngữ tự nhiên hiện nay, từ các mô hình truyền thống như SVM và Naïve Bayes đến các mô hình học sâu hiện đại. Các mô hình học sâu như CNN và Transformer đã chứng minh hiệu quả vượt trội trong việc xử lý dữ liệu phi cấu trúc và tự động hóa quy trình huấn luyện.

2.1. Mô hình học sâu Deep Learning

Các mô hình học sâu như CNN và Transformer đã tạo ra bước đột phá trong xử lý ngôn ngữ tự nhiên. CNN đặc biệt hiệu quả trong việc xử lý các văn bản ngắn, phù hợp với các bình luận trên mạng xã hội. Transformer, với cơ chế Attention, cho phép mô hình hiểu sâu hơn về ngữ cảnh và mối quan hệ giữa các từ.

2.2. Xử lý dữ liệu

Xử lý dữ liệu là bước quan trọng trong việc chuẩn bị dữ liệu đầu vào cho các mô hình học sâu. Nghiên cứu này sử dụng các kỹ thuật tiền xử lý dữ liệu như chuẩn hóa văn bản, loại bỏ từ dừng, và thay thế các từ viết tắt để cải thiện hiệu suất của mô hình. Đồng thời, các phương pháp tăng cường dữ liệu như EDA và PhoBERT được áp dụng để mở rộng tập dữ liệu huấn luyện.

III. Phương pháp thực hiện

Nghiên cứu này sử dụng các mô hình học sâu như CNN, BERT, và PhoBERT để phân loại bình luận tiêu cực. Các phương pháp tăng cường dữ liệu và tiền xử lý dữ liệu được áp dụng để tối ưu hóa hiệu suất của mô hình. Đồng thời, các siêu tham số được tối ưu hóa để đảm bảo mô hình đạt hiệu suất cao nhất.

3.1. Tiền xử lý dữ liệu

Tiền xử lý dữ liệu bao gồm các bước chuẩn hóa văn bản, loại bỏ từ dừng, và thay thế các từ viết tắt. Các kỹ thuật này giúp cải thiện chất lượng dữ liệu đầu vào, từ đó nâng cao hiệu suất của mô hình học sâu. Nghiên cứu này cũng sử dụng các bộ từ điển để thay thế các từ viết tắt và teencode bằng các từ chuẩn tương ứng.

3.2. Tăng cường dữ liệu

Tăng cường dữ liệu là phương pháp quan trọng để mở rộng tập dữ liệu huấn luyện. Nghiên cứu này sử dụng các phương pháp như EDA và PhoBERT để tạo ra các mẫu dữ liệu mới. EDA là phương pháp đơn giản và hiệu quả, trong khi PhoBERT sử dụng kiến thức ngôn ngữ của mô hình để tạo ra các dữ liệu mới chất lượng cao hơn.

IV. Kết quả và thảo luận

Kết quả nghiên cứu cho thấy các mô hình học sâu như PhoBERT và PhoBERT-CNN đạt hiệu suất cao nhất trong việc phân loại bình luận tiêu cực. Các phương pháp tăng cường dữ liệu như EDA và PhoBERT cũng giúp cải thiện đáng kể hiệu suất của mô hình. Nghiên cứu cũng phân tích các dự đoán sai của mô hình để tìm ra hướng phát triển mới.

4.1. So sánh các phương pháp tăng cường dữ liệu

Nghiên cứu so sánh hiệu quả của các phương pháp tăng cường dữ liệu như EDA và PhoBERT. Kết quả cho thấy PhoBERT vượt trội hơn EDA trong việc cải thiện hiệu suất của mô hình. Điều này cho thấy việc sử dụng kiến thức ngôn ngữ của mô hình để tạo ra dữ liệu mới là phương pháp hiệu quả hơn.

4.2. Phân tích các dự đoán sai

Nghiên cứu phân tích các dự đoán sai của mô hình để tìm ra nguyên nhân và đề xuất các hướng cải thiện. Các dự đoán sai thường xảy ra do sự phức tạp của ngôn ngữ và sự thiếu hụt dữ liệu huấn luyện. Việc tăng cường dữ liệu và tối ưu hóa mô hình sẽ giúp giảm thiểu các lỗi này trong tương lai.

V. Kết luận và hướng phát triển

Nghiên cứu này đã thành công trong việc tối ưu hóa mô hình học sâu để phân loại bình luận tiêu cực trên mạng xã hội. Các mô hình học sâu như PhoBERT và PhoBERT-CNN đã chứng minh hiệu quả vượt trội. Các phương pháp tăng cường dữ liệu và tiền xử lý dữ liệu cũng giúp cải thiện đáng kể hiệu suất của mô hình. Hướng phát triển trong tương lai bao gồm việc mở rộng tập dữ liệu và triển khai mô hình trong môi trường thực tế.

5.1. Hướng phát triển

Hướng phát triển trong tương lai bao gồm việc mở rộng tập dữ liệu huấn luyện và triển khai mô hình trong môi trường thực tế. Nghiên cứu cũng đề xuất việc sử dụng các mô hình học sâu lớn hơn như BERT-Large để cải thiện hiệu suất. Đồng thời, việc tích hợp các công nghệ AI tiên tiến như phân tích cảm xúc sẽ giúp nâng cao khả năng nhận diện và xử lý các bình luận tiêu cực.

21/02/2025

Bạn đang xem trước tài liệu:

Đồ án tốt nghiệp công nghệ kỹ thuật máy tính nghiên cứu và tối ưu mô hình học sâu trong bài toán phân loại bình luận tiêu cực trên mạng xã hội

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề: Trong thời đại công nghệ hiện nay, mạng xã hội đã trở thành một phần không thể thiếu trong đời sống con người. Các nền tảng như Facebook, Youtube, TikTok, Twitter,…. không chỉ là nơi mọi người chia sẻ thông tin và kết nối bạn bè, người thân mà còn là nơi để mọi người tự do bày tỏ quan điểm và cảm xúc cá nhân. Tuy nhiên, với sự phát triển vượt bậc, lượng người sử dụng ngày càng tăng, không khó để bắt gặp những bình luận tiêu cực, bao gồm những nội dung xúc phạm, bạo lực, phân biệt chủng tộc,.

Những bình luận này không chỉ ảnh hưởng đến tâm lý con người mà còn tạo ra môi trường độc hại trên mạng xã hội. Theo nghiên cứu [1], người dùng sau khi đọc các bình luận tiêu cực, đặc biệt là các bình luận tiêu cực nhắm đến bản thân, họ có thể trải qua các tác động tâm lý tiêu cực như cảm giác buồn bã, tức giận, sợ hãi,…. Những tác động này làm suy giảm tinh thần lạc quan, tăng cảm giác căng thẳng và giảm sự tự tin của người đọc. Họ cũng chỉ ra rằng, việc tiếp xúc thời gian dài với các bình luận tiêu cực có thể dẫn đến các vấn đề về sức khỏe tinh thần như bệnh trầm cảm,….

Cũng trong nghiên cứu, tác giả quan sát và phân tích hành vi người dùng sau khi tiếp xúc với bình luận tiêu cực, người dùng sẽ trở nên ít hoạt động và tương tác hơn trên mạng xã hội. Điều này cho thấy, việc tiếp xúc các bình luận độc hại còn làm giảm số lượng người dùng trên mạng xã hội, đây sẽ là vấn đề mà các nền tảng và tổ chức không mong muốn. Các bình luận tiêu cực còn có thể lan rộng và có thể vô tình trở thành xu hướng để người dùng làm theo, cụ thể là tình trạng phân biệt vùng miền ở Việt Nam ngày càng tăng, một phần là từ các thế lực muốn chia rẽ nhưng phần lớn là tới những người dùng thích cảm giác trêu chọc và chọc tức người khác, việc làm tuy sai trái nhưng lâu dần nó trở thành điều mà mọi người thấy thú vị, do đó cần phải cải thiện môi trường mạng xã hội càng sớm và có nhiều biện pháp đối với những người bình luận mang tính công kích. 1 Các bình luận tiêu cực trên mạng xã hội không chỉ ảnh hưởng đến sức khỏe tinh thần mà đôi khi nó còn gây ra nhiều hệ quả nghiêm trọng, như gần đây, hiện tượng “Bắt nạt trên mạng” (Cyber-bullying) diễn ra ngày càng phổ biến, đây là hiện tượng ám chỉ việc người dùng bị nhiều người khác nhắm đến công kích trong một thời gian dài nhằm khiến nạn nhân sợ hãi, tức giận, xấu hổ,….

Lâu dần khiến người dùng ảnh hưởng trầm trọng về tâm lý, sức khỏe tinh thần dẫn đến hậu quả nghiêm trọng hơn. Mặc dù các nền tảng mạng xã hội hiện nay đã có nhiều phương pháp để ngăn chặn điều này như cho phép người dùng báo cáo những bình luận tiêu cực nhưng với số lượng bình luận tiêu cực quá nhiều khiến người dùng khác cũng không muốn báo cáo hoặc thuê nhân viên kiểm duyệt nhưng cũng chỉ thực hiện thủ công và lâu dần những nhân viên kiểm duyệt cũng sẽ bị ảnh hưởng tâm lý vì thường xuyên tiếp xúc với các bình luận tiêu cực. Vào năm 2022, Microsoft đã đưa ra bảng đánh giá về những nước kém văn minh nhất thế giới trên Internet, trong đó Việt Nam là nước thuộc top 5 bởi những hành vi kém văn minh [2]. Cũng trong [2], bài báo có nói rằng có đến 87% bạn đọc của báo Zing.vn đồng tình với bảng xếp hạng này, điều đó cho thấy rằng mức độ tiêu cực trong bình luận của người Việt Nam là rất nhiều và dễ dàng nhận thấy mỗi khi sử dụng.

Do đó việc nghiên cứu về phân loại các bình luận tiêu cực ở Việt Nam sử dụng các mô hình học sâu là nhu cầu cấp bách trong bối cảnh hiện nay. Hướng tiếp cận: Nghiên cứu trong lĩnh vực phân loại bình luận trên mạng xã hội đã thu hút sự quan tâm của nhiều nhà khoa học và chuyên gia công nghệ. Các hướng tiếp cận và giải pháp đã được đề xuất và triển khai bao gồm: 1. Mô hình học sâu: Trước sự xuất hiện của các mô hình học sâu, các mô hình thường được sử dụng trong NLP thường dựa vào các phương pháp và thuật toán truyền thống như SVM, Logistic Regression, Naïve Bayes,….

Đây thường là những phương pháp dựa trên quy tắc và sử dụng các đặc trưng được thiết kế thủ công, điều này có nghĩa là là các đặc trưng này không được mô hình tự động học từ dữ liệu, mà thay vào đó chúng xác định và xây dựng theo cách thủ công dựa trên kiến thức và hiểu biết 2 của con người về dữ liệu. Tuy nhiên cho đến khi các mô hình học sâu như Convolutional Neural Network (CNN), Gated Recurrent Unit (GRU),…. và đặc biệt là Transformer ra đời đã tạo ra bước đột phá lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên. Đã có nhiều công trình nghiên cứu, so sánh và thấy rằng các mô hình học sâu có hiệu suất vượt trội ở trong các mô hình truyền thống.

Các nghiên cứu [3],[4] đã thực hiện so sánh hiệu suất và thấy rằng các mô hình học sâu đều cải thiện hiệu suất đáng kể so với các mô hình truyền thống, cải thiện những nhược điểm vốn có của các mô hình truyền thống như: • Phụ thuộc vào các đặc trưng thủ công: Đòi hỏi tính toán và trích xuất các đặc trưng của văn bản bằng thủ công, đòi hỏi sự hiểu biết về ngôn ngữ và không phản ảnh được sự tự nhiên của dữ liệu. • Khó khăn trong xử lý dữ liệu phi cấu trúc: Các đầu vào như văn bản tự do, các bình luận ngắn thường không tuân thủ theo một cấu trúc câu không thích hợp cho các mô hình truyền thống vì chúng yêu cầu dữ liệu đầu vào phải được biểu diễn dưới dạng các đặc trưng có cấu trúc. • Khả năng tổng quát hóa kém: Mặc dù đạt hiệu suất tốt trên các tập huấn luyện nhưng khả năng dự đoán các câu mới thường gặp khó khăn khi các dữ liệu mới không quen thuộc. Mô hình CNN đã cho thấy sự thành công trong phân loại văn bản.

Trong nghiên cứu [5] tác giả đã giới thiệu mô hình CNN, sử dụng mô hình word2vec để nhúng các từ trong văn bản thành các vector, giống như các vector điểm ảnh, tinh chỉnh tham số và thực hiện huấn luyện. Kết quả cho thấy rất tốt, đặc biệt với tác vụ phân loại văn bản. Tác giả cũng phát hiện ra rằng CNN đạt kết quả tốt nhất xử lý các văn bản ngắn và có độ dài cố định do tính chất cấu trúc của nó. Các bình luận trên mạng xã hội hiện nay thường là câu hoặc đoạn văn ngắn, rất phù hợp với mô hình CNN.

Do đó, tôi sử dụng mô hình CNN để nghiên cứu cho nhiệm vụ phân loại các bình luận trên mạng xã hội. Transformer là một loại kiến trúc mạng nơ-ron dựa trên cơ chế Attention, được giới thiệu bởi Vaswani et al. trong bài báo “Attention is All You Need” vào năm 2017 [6]. Tiếp nối thành công của kiến trúc Transformer, vào năm 2018, Google 3 đã công bố nghiên cứu mới mang tính đột phá BERT.

BERT hiểu đơn giản là mô hình được tiền huấn luyện (học sẵn) với ý tưởng sử dụng Transformer và huấn luyện trên một lượng dữ liệu lớn để học cách biểu diền ngữ nghĩa. Mặc dù BERT thu được kết quả tối ưu nhất cho hầu hết các nhiệm vụ xử lý ngôn ngữ tự nhiên. Tuy nhiên, mô hình BERT chỉ được huấn luyện trên dữ liệu tiếng Anh do đó trên các tập dữ liệu tiếng Việt vẫn còn hạn chế. Để giải quyết vấn đề này, vào năm 2020, VinAI Research đã tiến hành huấn luyện phoBERT, phát triển như một biến thể của BERT, trên một lượng lớn dữ liệu tiếng Việt [7].

Kết quả là phoBERT đã có khả năng hiểu và biểu diễn ngôn ngữ tự nhiên tiếng Việt một cách chính xác và hiệu quả. Mục tiêu của đề tài là phân loại bình luận tiếng Việt, do đó, tôi chọn mô hình PhoBERT để giải quyết bài toán xử lý ngôn ngữ Tiếng Việt để tối ưu hiệu suất, đồng thời tôi cũng sử dụng BERT để so sánh hiệu năng giữa hai mô hình. Mô hình kết hợp: Các mô hình kết hợp đang ngày càng trở nên phổ biến do khả năng tận dụng các ưu điểm nhiều kiến trúc khác nhau để đạt được hiệu suất cao hơn trong các nhiệm vụ cụ thể. Trong [8], tác giả đã giới thiệu các mô hình kết hợp giữa 2 mô hình học sâu như BERT-CNN, kết quả đã đạt được hiệu suất tốt nhất vượt qua hai mô hình đơn BERT và CNN.

Ý tưởng của mô hình này là tận dụng khả năng hiểu ngữ nghĩa của các mô hình tiền huấn luyện như BERT để hiểu và biểu diễn ngữ cảnh, trong khi CNN được sử dụng để trích xuất các đặc trưng cụ thể từ văn bản. Kết quả nghiên cứu cũng cho thấy mô hình kết hợp có độ chính xác cao trên các dữ liệu từ mạng xã hội, đồng thời cũng cho thấy tính linh hoạt và hiệu quả của phương pháp này trong việc giải quyết vấn đề nhận dạng nội dung xúc phạm trực tuyến. Mô hình kết hợp giữa PhoBERT và CNN đã được triển khai ở [9] cùng với tập dữ liệu mà tôi sẽ thực hiện trong đề tài này và thu về kết quả tốt nhất so với các mô hình khác. Đây có thể được xem là mô hình sẽ đem lại hiệu suất tốt nhất vì nó tận dụng sức mạnh của cả 2 mô hình được xem là tối ưu nhất cho bài toán phân loại bình luận mạng xã hội.

Do đó tôi sử dụng mô hình này để thử nghiệm và so sánh giữa các mô hình khác để tìm hiệu suất tốt nhất. Dữ liệu tiếng Việt: 4 Dữ liệu là phần quan trọng nhất trong học máy, dữ liệu chất lượng và đa dạng đóng vai trò quan trọng trong việc quyết định hiệu suất và độ chính xác của mô hình. Mục tiêu đề tài là thực hiện trên dữ liệu các bình luận tiêu cực tiếng Việt, sau khi tiến hành tìm kiếm và đánh giá các nguồn dữ liệu khác nhau, tôi quyết định sử dụng tập dữ liệu ViHSD phù hợp nhất với đề tài, tập dữ liệu này được phát triển và công bố vào năm 2021 [10]. Dữ liệu này được gán nhãn bởi người thật và dùng nhiều phương pháp kiểm tra khác nhau để đảm bảo độ chính xác.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu và tối ưu mô hình học sâu phân loại bình luận tiêu cực trên mạng xã hội" tập trung vào việc phát triển và cải tiến các mô hình học sâu để nhận diện và phân loại bình luận tiêu cực trên các nền tảng mạng xã hội. Nghiên cứu này không chỉ giúp nâng cao hiệu quả của các hệ thống kiểm duyệt tự động mà còn góp phần cải thiện trải nghiệm người dùng bằng cách giảm thiểu sự lan truyền của nội dung độc hại. Đây là một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và học máy, đặc biệt trong bối cảnh mạng xã hội ngày càng phổ biến.

Để mở rộng kiến thức về ứng dụng học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực, nghiên cứu này cung cấp góc nhìn sâu hơn về phân loại cảm xúc trong văn bản. Ngoài ra, Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer sẽ giúp bạn hiểu rõ hơn về cách transformer được áp dụng trong phân loại văn bản. Cuối cùng, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin là một tài liệu hữu ích để khám phá thêm về các mô hình học sâu trong việc trích xuất thông tin.

Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của học sâu trong lĩnh vực xử lý ngôn ngữ tự nhiên và các vấn đề liên quan.

#xử lý ngôn ngữ tự nhiên

#đồ án tốt nghiệp AI

#học sâu phân loại bình luận

#tối ưu mô hình học sâu

#bình luận tiêu cực mạng xã hội

#phân loại bình luận tự động

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Trí tuệ nhân tạo

học máy ứng dụng

phân tích mạng xã hội

Đồ án tốt nghiệp công nghệ kỹ thuật máy tính nghiên cứu và tối ưu mô hình học sâu trong bài toán phân loại bình luận tiêu cực trên mạng xã hội

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: GIỚI THIỆU

1.1. HƯỚNG TIẾP CẬN

1.2. MỤC TIÊU ĐỀ TÀI

1.3. GIỚI HẠN NGHIÊN CỨU

1.4. PHƯƠNG PHÁP NGHIÊN CỨU

2. CHƯƠNG 2: NGHIÊN CỨU TỔNG QUAN

2.1. SO SÁNH GIỮA CÁC MÔ HÌNH XỬ LÝ NGÔN NGỮ TỰ NHIÊN HIỆN NAY

2.2. MÔ HÌNH HỌC SÂU (DEEP LEARNING)

2.3. TẬP DỮ LIỆU VIHSD

2.4. XỬ LÝ DỮ LIỆU

2.5. PHƯƠNG PHÁP ĐÁNH GIÁ

3. CHƯƠNG 3: PHƯƠNG PHÁP THỰC HIỆN PHÂN TÍCH THIẾT KẾ

3.1. TIỀN XỬ LÝ DỮ LIỆU

3.2. THIẾT KẾ MÔ HÌNH

3.3. TĂNG CƯỜNG DỮ LIỆU

3.3.1. Tăng cường dữ liệu với phương pháp EDA

3.3.2. Tăng cường dữ liệu với PhoBERT

3.4. THIẾT LẬP SIÊU THAM SỐ (HYPER PARAMETER)

3.4.1. Kỹ thuật xác định siêu tham số tối ưu

3.4.2. Pre-trained model

4. CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN

4.1. TIỀN XỬ LÝ DỮ LIỆU

4.2. PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU

4.2.1. Phương pháp EDA

4.2.2. Phương pháp tăng cường dữ liệu với PhoBERT

4.3. SO SÁNH 2 PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU DỰA TRÊN CONFUSION MATRIX

4.4. THỜI GIAN HUẤN LUYỆN VÀ DUNG LƯỢNG MÔ HÌNH

4.5. PHÂN TÍCH CÁC DỰ ĐOÁN SAI

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. HƯỚNG PHÁT TRIỂN

DANH MỤC HÌNH

DANH MỤC BẢNG

CÁC TỪ VIẾT TẮT

I. Giới thiệu

1.1. Mô hình học sâu

1.2. Phân loại bình luận tiêu cực

II. Nghiên cứu tổng quan

2.1. Mô hình học sâu Deep Learning

2.2. Xử lý dữ liệu

III. Phương pháp thực hiện

3.1. Tiền xử lý dữ liệu

3.2. Tăng cường dữ liệu

IV. Kết quả và thảo luận

4.1. So sánh các phương pháp tăng cường dữ liệu

4.2. Phân tích các dự đoán sai

V. Kết luận và hướng phát triển

5.1. Hướng phát triển

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Võ Mạnh Thường

Người hướng dẫn: GVHD: Võ Minh Huân

Trường học: Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành: Công Nghệ Kỹ Thuật Máy Tính

Đề tài: Nghiên Cứu Và Tối Ưu Mô Hình Học Sâu Phân Loại Bình Luận Tiêu Cực Trên Mạng Xã Hội

Loại tài liệu: Đồ Án Tốt Nghiệp

Năm xuất bản: 2024

Địa điểm: Thành Phố Hồ Chí Minh

Có thể bạn quan tâm