Luận văn thạc sĩ về phát hiện lập trường sử dụng kỹ thuật học sâu

Luận văn thạc sĩ kỹ thuật nghiên cứu phát hiện lập trường sử dụng kỹ thuật học sâu, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG I: BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG

1.1. Giới thiệu bài toán phát hiện lập trường

1.2. Một số nghiên cứu liên quan

1.3. Tính thời sự của bài toán

1.4. Kết luận chương

2. CHƯƠNG II: CÁC PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG

3. CHƯƠNG III: ĐỀ XUẤT PHƯƠNG PHÁP, GIẢI PHÁP

4. CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu bài toán phát hiện lập trường

Bài toán phát hiện lập trường là một lĩnh vực nghiên cứu quan trọng trong học sâu và xử lý ngôn ngữ tự nhiên. Với sự phát triển mạnh mẽ của Internet, việc phân tích và tổng hợp ý kiến dư luận trở nên cần thiết. Lập trường (stance) được hiểu là ý kiến của cá nhân về một chủ đề hoặc sự kiện. Việc phát hiện lập trường có nhiều ứng dụng thực tiễn, từ khảo sát ý kiến đến phát hiện tin giả. Theo báo cáo của WeAreSocial, Việt Nam có 68.72 triệu người dùng Internet, cho thấy nhu cầu phân tích dư luận ngày càng cao. Việc tự động hóa phát hiện lập trường giúp thu thập và phân loại ý kiến một cách nhanh chóng và hiệu quả. Một nghiên cứu cho thấy, việc phát hiện lập trường có thể hỗ trợ kiểm tra tính xác thực của thông tin, từ đó giúp người dùng đưa ra quyết định chính xác hơn. Các ứng dụng khác bao gồm phân loại tin đồn và dự đoán xu hướng thị trường.

II. Các phương pháp học máy sử dụng trong bài toán phát hiện lập trường

Trong nghiên cứu này, các phương pháp học máy được chia thành hai nhóm chính: phương pháp truyền thống và phương pháp học sâu. Phương pháp truyền thống bao gồm các thuật toán như naïve Bayes, cây quyết định (Decision Tree), và SVM. Những phương pháp này đã được áp dụng thành công trong nhiều nghiên cứu trước đây. Ngược lại, các phương pháp học sâu như mạng nơ-ron hồi quy (RNN) và mạng bộ nhớ dài-ngắn (LSTM) đang trở thành xu hướng mới trong việc phát hiện lập trường. Các mô hình này cho phép xử lý dữ liệu phức tạp và cải thiện độ chính xác trong việc phân loại lập trường. Việc áp dụng các mô hình học sâu đã cho thấy hiệu quả vượt trội so với các phương pháp truyền thống, đặc biệt trong việc xử lý ngôn ngữ tự nhiên.

III. Đề xuất phương pháp giải pháp

Để phát hiện lập trường trong tiếng Việt, nghiên cứu đề xuất một phương pháp kết hợp giữa các mô hình học máy truyền thống và học sâu. Đầu tiên, dữ liệu cần được tiền xử lý để loại bỏ nhiễu và chuẩn hóa. Sau đó, các đặc trưng sẽ được trích xuất từ văn bản để phục vụ cho việc phân loại. Mô hình BiLSTM được sử dụng để cải thiện khả năng nhận diện ngữ cảnh trong văn bản. Các bước thực hiện bao gồm xây dựng bộ dữ liệu, huấn luyện mô hình và đánh giá kết quả. Việc áp dụng mô hình học sâu không chỉ giúp cải thiện độ chính xác mà còn tạo ra những hiểu biết sâu sắc hơn về lập trường của người dùng. Nghiên cứu này hy vọng sẽ đóng góp vào việc phát triển các ứng dụng thực tiễn trong phân tích dư luận xã hội.

IV. Kết quả thực nghiệm và đánh giá

Kết quả thực nghiệm cho thấy mô hình LSTM và RNN đạt được độ chính xác cao trong việc phát hiện lập trường. Các mô hình này đã được thử nghiệm trên bộ dữ liệu được xây dựng từ các bình luận trên mạng xã hội và các bài viết tin tức. Đặc biệt, mô hình BiLSTM cho thấy hiệu suất vượt trội trong việc phân loại lập trường so với các phương pháp truyền thống. Thống kê cho thấy độ chính xác của mô hình đạt trên 80%, cho thấy khả năng áp dụng thực tiễn cao. Việc phân tích lỗi cũng chỉ ra những điểm cần cải thiện, như việc xử lý các trường hợp ngữ nghĩa phức tạp. Kết quả này không chỉ khẳng định tính khả thi của phương pháp mà còn mở ra hướng nghiên cứu mới trong lĩnh vực xử lý ngôn ngữ tự nhiên cho tiếng Việt.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát hiện lập trường sử dụng kỹ thuật học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, việc xử lý và phân tích lượng lớn dữ liệu văn bản trên mạng Internet trở thành một thách thức quan trọng. Tại Việt Nam, theo báo cáo “Digital 2021”, có khoảng 68,72 triệu người dùng Internet, chiếm 70,3% dân số, cùng với 72 triệu người dùng mạng xã hội, chiếm khoảng 73%. Các nền tảng như Facebook, YouTube, Zalo, và các trang báo điện tử như Vnexpress, Dantri đóng vai trò quan trọng trong việc truyền tải thông tin và ý kiến dư luận. Trong bối cảnh đó, bài toán phát hiện lập trường (stance detection) nhằm xác định quan điểm của người dùng đối với một tuyên bố hoặc chủ đề cụ thể trở nên cấp thiết. Mục tiêu nghiên cứu là xây dựng hệ thống phát hiện lập trường cho tiếng Việt, phân loại các bình luận thành bốn nhóm: đồng ý, không đồng ý, thảo luận và không liên quan. Nghiên cứu tập trung trên dữ liệu thu thập từ các trang mạng xã hội và báo điện tử trong khoảng thời gian gần đây, với tổng số 500 tiêu đề và hơn 11.250 bình luận. Việc phát hiện lập trường không chỉ giúp tổng hợp ý kiến dư luận mà còn hỗ trợ các ứng dụng như phát hiện tin giả, khảo sát ý kiến, dự báo xu hướng xã hội, góp phần nâng cao hiệu quả quản lý và nghiên cứu xã hội.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai nhóm lý thuyết chính trong học máy và xử lý ngôn ngữ tự nhiên (NLP):

Phương pháp học máy truyền thống: Bao gồm các thuật toán phân lớp như Naïve Bayes và cây quyết định (Decision Tree). Naïve Bayes dựa trên định lý Bayes với giả định các đặc trưng đầu vào độc lập, tính xác suất hậu nghiệm để phân loại. Cây quyết định xây dựng mô hình phân cấp dựa trên các câu hỏi phân loại, dễ hiểu và hiệu quả với dữ liệu có cấu trúc rõ ràng.
Phương pháp học sâu (Deep Learning): Tập trung vào các mô hình mạng nơ-ron hồi quy (RNN) và mạng bộ nhớ dài-ngắn (LSTM). RNN có khả năng xử lý dữ liệu chuỗi tuần tự, ghi nhớ thông tin trước đó để dự đoán đầu ra hiện tại. LSTM cải tiến RNN bằng cách sử dụng các cổng (input, forget, output gate) để kiểm soát thông tin lưu giữ hoặc loại bỏ, giải quyết vấn đề gradient biến mất, giúp ghi nhớ thông tin dài hạn hiệu quả hơn. Ngoài ra, mô hình BiLSTM (LSTM hai chiều) được sử dụng để khai thác thông tin ngữ cảnh từ cả hai hướng của câu, nâng cao độ chính xác phát hiện lập trường.

Các khái niệm chính bao gồm: lập trường (stance), phân lớp (classification), mạng nơ-ron hồi quy (RNN), mạng bộ nhớ dài-ngắn (LSTM), BiLSTM, vector từ (word embeddings), và hàm kích hoạt ReLU.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ các trang mạng xã hội (Facebook, Twitter) và các trang báo điện tử lớn tại Việt Nam như Vnexpress, VTV24, Dantri, Beat.vn, Webtretho. Bộ dữ liệu gồm 500 tiêu đề và 11.252 bình luận, tập trung vào các chủ đề chính trị, đời sống, giáo dục và thời sự.

Quy trình nghiên cứu gồm các bước:

Tiền xử lý dữ liệu: Chuẩn hóa văn bản (loại bỏ dấu câu, chuyển chữ thường), tách từ (tokenization) phù hợp với đặc thù tiếng Việt, mã hóa từ thành vector số bằng phương pháp Word2Vec và Glove.
Gán nhãn dữ liệu: Bình luận được phân loại thành bốn nhóm: Agree (đồng ý), Disagree (không đồng ý), Discuss (thảo luận), Unrelated (không liên quan). Quá trình gán nhãn được thực hiện thủ công bởi ba người, kiểm tra độ tương đồng bằng hệ số Cohen’s kappa đạt 99,2%, đảm bảo tính nhất quán.
Phân tích và xây dựng mô hình: Sử dụng các thuật toán học máy truyền thống (Naïve Bayes, Decision Tree) và mô hình học sâu (LSTM, BiLSTM). Mỗi mô hình được huấn luyện và đánh giá trên 5 bộ dữ liệu ngẫu nhiên, kết quả trung bình được sử dụng để đánh giá hiệu quả.
Đánh giá mô hình: Sử dụng các chỉ số precision, recall và F1-score để đo lường hiệu suất phân loại.

Thời gian nghiên cứu tập trung trong giai đoạn từ năm 2019 đến 2021, tại Việt Nam, với công cụ chính là Google Colab hỗ trợ xử lý và huấn luyện mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình học sâu vượt trội: Mô hình LSTM đạt độ chính xác trung bình khoảng 85%, trong khi RNN đạt khoảng 80%. Các mô hình học máy truyền thống như Decision Tree và Naïve Bayes có độ chính xác lần lượt khoảng 75% và 70%. Điều này cho thấy khả năng xử lý ngữ cảnh và chuỗi của LSTM giúp cải thiện đáng kể kết quả phát hiện lập trường.
BiLSTM cải thiện ngữ cảnh hai chiều: Việc sử dụng BiLSTM giúp mô hình khai thác thông tin từ cả phía trước và phía sau của từ trong câu, nâng cao độ chính xác phân loại lên khoảng 87%, cao hơn so với LSTM đơn chiều.
Phân bố nhãn trong dữ liệu: Trong tổng số 11.250 bình luận, tỷ lệ bình luận đồng ý (Agree) chiếm khoảng 26%, không đồng ý (Disagree) chiếm 23%, thảo luận (Discuss) chiếm 29,6%, và không liên quan (Unrelated) chiếm 21,4%. Sự phân bố này phản ánh tính đa dạng và phức tạp của ý kiến người dùng trên mạng xã hội.
Độ tương đồng gán nhãn cao: Độ đo Cohen’s kappa giữa ba người gán nhãn đạt 99,2%, cho thấy tính nhất quán và độ tin cậy cao của dữ liệu gán nhãn, đảm bảo chất lượng cho quá trình huấn luyện và đánh giá mô hình.

Thảo luận kết quả

Kết quả cho thấy các mô hình học sâu, đặc biệt là BiLSTM, có khả năng xử lý tốt các đặc trưng ngữ cảnh phức tạp trong tiếng Việt, vượt trội hơn so với các phương pháp học máy truyền thống. Điều này phù hợp với các nghiên cứu quốc tế về phát hiện lập trường trên các ngôn ngữ khác, trong đó mạng nơ-ron hồi quy và các biến thể LSTM được đánh giá cao về hiệu quả.

Sự khác biệt về đặc điểm ngôn ngữ tiếng Việt như từ đa âm tiết, không gian từ không phân tách bằng dấu cách như tiếng Anh, đòi hỏi các bước tiền xử lý và biểu diễn từ phù hợp, góp phần nâng cao chất lượng mô hình. Việc xây dựng kho ngữ liệu tiếng Việt với hơn 11.000 bình luận có gán nhãn chi tiết là đóng góp quan trọng, bổ sung tài nguyên cho lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt.

Dữ liệu có thể được trình bày qua biểu đồ phân bố tỷ lệ các nhãn, bảng so sánh độ chính xác các mô hình, và biểu đồ F1-score theo từng mô hình để minh họa hiệu quả của các phương pháp.

Đề xuất và khuyến nghị

Phát triển hệ thống phát hiện lập trường tích hợp BiLSTM: Triển khai mô hình BiLSTM vào các nền tảng phân tích dư luận xã hội nhằm nâng cao độ chính xác và tốc độ xử lý, hướng tới mục tiêu đạt F1-score trên 85% trong vòng 12 tháng, do các tổ chức nghiên cứu và doanh nghiệp công nghệ thực hiện.
Mở rộng và cập nhật kho ngữ liệu tiếng Việt: Thu thập thêm dữ liệu từ các nguồn đa dạng như diễn đàn, blog, mạng xã hội để tăng tính đại diện và phong phú, cải thiện khả năng tổng quát của mô hình, thực hiện liên tục hàng năm bởi các viện nghiên cứu và trường đại học.
Tối ưu hóa tiền xử lý và biểu diễn từ: Nghiên cứu và áp dụng các kỹ thuật tách từ, chuẩn hóa và biểu diễn từ mới như transformer-based embeddings (BERT, PhoBERT) để nâng cao chất lượng đặc trưng đầu vào, dự kiến hoàn thành trong 6-9 tháng, do nhóm nghiên cứu NLP đảm nhiệm.
Ứng dụng phát hiện lập trường trong phát hiện tin giả và giám sát dư luận: Phát triển công cụ hỗ trợ kiểm tra tính xác thực thông tin dựa trên lập trường, giúp cơ quan quản lý và báo chí nhanh chóng phân loại và xử lý thông tin sai lệch, triển khai thử nghiệm trong 1 năm, phối hợp giữa các cơ quan truyền thông và công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và học giả trong lĩnh vực xử lý ngôn ngữ tự nhiên và học máy: Có thể sử dụng kết quả và phương pháp nghiên cứu để phát triển các mô hình NLP cho tiếng Việt, đặc biệt trong bài toán phân loại văn bản và phát hiện lập trường.
Doanh nghiệp công nghệ và phát triển phần mềm: Áp dụng mô hình và giải pháp đề xuất để xây dựng các sản phẩm phân tích dư luận, giám sát mạng xã hội, hỗ trợ marketing và quản lý thương hiệu.
Cơ quan báo chí và truyền thông: Sử dụng công cụ phát hiện lập trường để phân tích ý kiến độc giả, phát hiện tin giả, nâng cao chất lượng thông tin và phản hồi nhanh chóng các vấn đề xã hội.
Cơ quan quản lý nhà nước và tổ chức xã hội: Ứng dụng kết quả nghiên cứu để giám sát dư luận xã hội, hỗ trợ ra quyết định chính sách dựa trên phân tích ý kiến công chúng, đặc biệt trong các lĩnh vực chính trị, giáo dục và y tế.

Câu hỏi thường gặp

Phát hiện lập trường là gì và tại sao quan trọng?
Phát hiện lập trường là quá trình xác định quan điểm của người dùng đối với một tuyên bố hoặc chủ đề cụ thể. Nó quan trọng vì giúp tổng hợp ý kiến dư luận, hỗ trợ phân tích xã hội, phát hiện tin giả và dự báo xu hướng.
Tại sao cần xây dựng mô hình riêng cho tiếng Việt?
Tiếng Việt có đặc điểm ngôn ngữ khác biệt như từ đa âm tiết, không gian từ không phân tách bằng dấu cách, cấu trúc câu khác biệt so với tiếng Anh. Do đó, mô hình riêng giúp xử lý chính xác hơn các đặc trưng ngôn ngữ này.
Mô hình học sâu nào được sử dụng và ưu điểm của nó?
Mô hình BiLSTM được sử dụng vì khả năng khai thác thông tin ngữ cảnh từ cả hai hướng trong câu, giúp cải thiện độ chính xác phát hiện lập trường so với các mô hình truyền thống và LSTM đơn chiều.
Dữ liệu nghiên cứu được thu thập từ đâu?
Dữ liệu gồm 500 tiêu đề và hơn 11.250 bình luận thu thập từ các trang mạng xã hội như Facebook, Twitter và các trang báo điện tử lớn tại Việt Nam như Vnexpress, Dantri, VTV24, Beat.vn, Webtretho.
Làm thế nào để đánh giá hiệu quả mô hình?
Hiệu quả được đánh giá qua các chỉ số precision, recall và F1-score trên tập dữ liệu kiểm thử. Mô hình BiLSTM đạt F1-score khoảng 87%, vượt trội so với các mô hình học máy truyền thống.

Kết luận

Đã xây dựng thành công bộ dữ liệu tiếng Việt gồm 500 tiêu đề và hơn 11.250 bình luận có gán nhãn lập trường, đảm bảo độ tin cậy với hệ số Cohen’s kappa 99,2%.
So sánh các phương pháp học máy truyền thống và học sâu cho thấy BiLSTM đạt hiệu quả cao nhất với độ chính xác và F1-score vượt trội.
Nghiên cứu góp phần làm phong phú tài nguyên ngôn ngữ và phương pháp xử lý ngôn ngữ tự nhiên cho tiếng Việt, mở rộng ứng dụng trong phát hiện tin giả và phân tích dư luận.
Đề xuất phát triển hệ thống ứng dụng thực tiễn, mở rộng kho dữ liệu và áp dụng các kỹ thuật biểu diễn từ hiện đại để nâng cao hiệu quả.
Khuyến nghị các nhà nghiên cứu, doanh nghiệp và cơ quan quản lý khai thác kết quả để phát triển các công cụ hỗ trợ phân tích và giám sát dư luận xã hội.

Tiếp theo, việc triển khai các giải pháp đề xuất và mở rộng nghiên cứu sẽ góp phần nâng cao chất lượng và ứng dụng của bài toán phát hiện lập trường tiếng Việt trong thực tế. Độc giả và các chuyên gia được khuyến khích tham khảo và áp dụng kết quả nghiên cứu này để phát triển các ứng dụng phù hợp.

Trích đoạn nội dung tài liệu

CHƯƠNG I: BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG 1.1 Giới thiệu bài toán phát hiện lập trường Internet đã trở thành một phần không thể thiếu trong cuộc sống hàng ngày của mỗi người trên thế giới ngày nay và đóng một vai trò đặc biệt trong việc thúc đẩy sự phát triển mạnh mẽ của các kênh truyền thông mạng xã hội,diễn đàn, website tin tức. Tại Việt Nam, các kênh truyền thông mạng xã hội (MXH) ngày càng trở nên gần gũi và thân thuộc với rất nhiều người, kể cả đối với thanh, thiếu niên và người già. Theo báo cáo thường niên “Digital 2021” được công bố bởi WeAreSocial và Hootsuite, Việt Nam có 68.72 triệu người dùng Internet chiếm 70.3% dân số và 72 triệu người dùng mạng xã hội chiếm khoảng 73. Các kênh truyền thông MXH được sử dụng phổ biến bao gồm: Facebook, YouTube, Instagram, Zalo,Twitter… ALEXA cũng thông báo top 10 trang web có lượng truy cập nhiều tại Việt Nam, ngoài các website phổ biến nằm đầu danh sách như Facebook, Youtube, các loại website tin tức cũng chiếm phần lớn trong danh sách này bao gồm vnexpress.

Các diễn đàn như Webtretho, Beat.vn…cũng thu hút số lượng thành viên đông đảo và có tác động mạnh mẽ đến cộng đồng và dư luận xã hội ở Việt Nam. Thực tế cho thấy, internet và các kênh kể trên đem tới cho người dùng rất nhiều tiện ích nhờ tốc độ thông tin nhanh, gần như tức thời, nội dung phong phú, hình thức sinh động, hấp dẫn. Điều này cũng tạo điều kiện cho mỗi cá nhân chia sẻ kiến thức, thảo luận, trao đổi những ý kiến về các chủ đề cùng quan tâm, đồng thời cũng là những kênh thông tin quan trọng góp phần đưa các chủ trương, đường lối của Đảng, chính sách, pháp luật của nhà nước đến với nhân dân nhanh chóng, kịp thời. [3] Tại đây cơ quan chức năng các cấp có thể nắm bắt thường xuyên thái độ của người sử dụng mạng xã hội đối với các vấn đề, sự kiện đang được dư luận xã hội quan tâm.

[4] Như vậy dựa vào việc tổng hợp và phân loại ý kiến của dư luận trên nhiều kênh có thể là một nguồn tài nguyên quan trong việc phân tích, nghiên cứu tình hình và xu hướng của dư luận xã hội. Nhìn vào bối cảnh trên, lập trường (stance) có thể hiểu là một ý kiến được thể hiện bởi một cá nhân hướng tới chủ đề hoặc sự kiện hoặc nhân vật nào đó. [5]Bài toán phát hiện lập trường thu hút rất nhiều sự chú ý của các nhà nghiên cứu bởi nó Luan van 4 mang lại rất nhiều ứng dụng thiết thực. Một trong những ứng dụng phổ biến nhất trong đó là khảo sát, thăm dò ý kiến được thực hiện trên các văn bản nội dung trực tuyến với các chủ đề khác nhau bao gồm các cuộc tranh luận chính trị, tư tưởng, xã hội, đánh giá sản phẩm và bầu cử, trưng cầu dân ý.

[2] Ví dụ chúng ta có thể lấy ý kiến dư luận về một vấn đề chính trị - xã hội như hợp pháp hóa việc phá thai ở một số quốc gia. Dựa vào tự động hóa phát hiện lập trường, chúng ta có thể tồng hợp và phân loại ra có bao nhiêu người tán thành và không tán thành với vấn đề này. Một ứng dụng quan trọng khác của phát hiện lập trường cũng thu hút nhiều sự chú ý là phát hiện tin giả. Đánh giá tính xác thực của một bài tin là một công việc phức tạp và cồng kềnh, ngay cả đối với các chuyên gia được đào tạo [6].

Mục tiêu áp dụng bài toán lập trường cho phát hiện tin tức giả là để hỗ trợ kiểm tra tính xác thực của thông tin giúp họ nhanh chóng thu thập thông tin cần thiết để đưa ra đánh giá của mình. Một bài toán phát hiện lập trường tốt sẽ cho phép người kiểm tra tính xác thực của thông tin nhập một tuyên bố hay tiêu đề và ngay lập tức họ nhận được các truy xuất về các bài báo: đồng ý, không đồng ý hoặc thảo luận về tuyên bố/tiêu đề được đề cập. Sau đó, họ có thể xem xét các lập luận ủng hộ và chống lại tuyên bố, đồng thời sử dụng khả năng phán đoán và lập luận của mình để đánh giá tính hợp lệ của tuyên bố được đề cập. Một công cụ như vậy sẽ cho phép người kiểm tra thực tế nhanh chóng và hiệu quả.

[7] Ngoài ra phát hiện lập trường còn áp dụng nhiều ứng dụng khác như: phân loại tin đồn, phân tích, dự báo xu hướng và thị trường, tạo hệ thống khuyến nghị, hỗ trợ giám sát sức khỏe cộng đồng, truy xuất thông tin, khảo sát ý kiến góp ý người tiêu dùng.2 Một số nghiên cứu liên quan Trong những năm gần đây, đã có rất nhiều nghiên cứu về lĩnh vực Xử lý Ngôn ngữ Tự nhiên (Natural language processing - NLP) liên quan đến lĩnh vực phát hiện lập trường. Phát hiện lập trường nhằm mục đích xác định lập trường của tác giả văn bản đối với mục tiêu (một thực thể, khái niệm, sự kiện, ý tưởng, ý kiến, tuyên bố, chủ đề, v. Các nghiên cứu ban đầu về phát hiện lập trường tính đến năm 2013 chủ yếu tập trung vào các cuộc tranh luận trong quốc hội [Thomas et al. 2006]; các cuộc thảo luận nội bộ công ty [Murakami và Raymond 2010]; các cuộc tranh luận xã hội ,chính Luan van 5 trị và các hệ tư tưởng trực tuyến [Anand et al.

2011; Somasundaran and Wiebe 2010; Walker et al. 2012a]; các cuộc tranh luận trực tuyến về sản phẩm [Somasundaran và Wiebe 2009]. Các công trình sau năm 2013 được thực hiện trên các bài luận của sinh viên [Faulkner 2014], và trên các tweet [Rajadesingan và Liu 2014]. Những chủ đề phổ biến được lấy trên các cuộc tranh luận trực tuyến ấy cho các mục tiêu lập trường (stance targets) bao gồm sự tiến hóa, quyền sử dụng súng, quyền của người đồng tính, phá thai, chăm sóc sức khỏe, án tử hình và sự tồn tại của Chúa[ Dilek Küçük và Fazli Can.

Các cách phân loai lập trường trong các nghiên cứu đó cũng rất đa dạng, thay vì sử sụng bộ phân loại lập trường (Favor, Against) các nhà nghiên cứu còn sử dụng một số bộ khác như (Support, Oppose), (Pro, Con), và (Pro, Anti). Các phương pháp được được sử dụng bao gồm thuật toán dựa trên quy tắc ( rule-based algorithms) như JRip) [Anand et al. 2011; Murakami và Raymond 2010; Walker et al. 2012a, 2012b]; các thuật toán giám sát ( supervised algorithms ) SVM [Hasan và Ng 2013; Somasundaran và Wiebe 2010; Thomas et al.

2006; Walker et al. 2012b], naïve Bayes [Anand et al.2011; Hasan và Ng 2013; Rajadesingan và Liu 2014; Walker et al. 2012b], boosting [Levow et al.2014], cây quyết định (decision tree) và random forest [Misra và Walker 2013], Hidden Markov Models (HMM) và trường điều kiện ngẫu nhiên (Conditional Random Fields -CRF) [Hasan và Ng 2013]; thuật toán đồ thị (graph algorithms) MaxCut [Murakami và Raymond 2010; Walker et al. 2012a], và các cách tiếp cận khác như quy hoạch tuyến tính (Integer Linear Programming -ILP) [Somasundaran và Wiebe 2009] [2].

Bên cạnh đó, các cuộc thi về phát hiện lập trường cũng thu hút rất nhiều sự quan tâm. Theo như tìm hiểu thì cho đến hiện tại có 3 cuộc thi liên quan về chủ đề trên như (1) SemEval-2016 Task 6: phát hiện lập trường trong các tweet tiếng Anh, (2) phát hiện lập trường trong các blog nhỏ của Trung Quốc tại NLPCC-ICCPOL- 2016 , (3) Phát hiện lập trường trên các Tweet tiếng Tây Ban Nha và Catalan tại IberEval-2017. Các cuộc thi đó cung cấp chi tiết các hướng dẫn chú thích, tập dữ liệu chú thích, chỉ số đánh giá và mô tả về các tác phẩm tham gia. Cuộc thi thứ nhất gồm 2 nhiệm vụ: nhiệm vụ A và nhiệm vụ B.

Nhiệm vụ A gồm tập dữ liệu đào tạo có chú thích gồm 2.814 tweet và tập dữ liệu thử nghiệm gồm 1.249 tweet được cung cấp cho tổng số năm mục tiêu. Nhiệm vụ B gồm tập dữ liệu đào tạo không được gắn nhãn (khoảng 78.000 tweet) và tập dữ thử nghiệm nhỏ hơn Luan van 6 (khoảng 707 tweet) cho một mục tiêu khác được cung cấp cho những người tham gia mà không có bất kỳ dữ liệu đào tạo nào được chú thích. Kết quả của cuộc thi như sau: đối vơi nhiệm vụ A hệ thống tốt nhất dựa trên Mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) đạt F-score là 67,82%, nhiệm vụ B hệ thống tốt nhất dựa trên Mạng nơ-ron tích chập (Convolutional Neural Networks -CNN) đạt F-score là 56. Cuộc thi thứ hai cũng tương tự như cuộc thi SemEval-2016 với hai nhiệm vụ.

Đối với nhiệm A: 4.000 blog nhỏ được gắn nhãn thủ công cho năm mục tiêu và 75% trong số đó được sử dụng làm tập dữ liệu đào tạo trong khi phần còn lại 25% trong số chúng được sử dụng làm tập dữ liệu thử nghiệm. Kết quả của cuộc thi như sau: hệ thống đạt F-score cao nhất (71.06%) với các phân loại được sử dụng dựa trên SVM and random forest trong khi hệ thống đạt F-score cao nhất của nhiệm vụ B chỉ đạt 46. Điều này là do người tham gia sử dụng nhiều cách phân loại và sử dụng hệ thống phân tích cảm tính hiệu suất cao có thể không đảm bảo hiệu suất phát hiện lập trường được cải thiện. Cuộc thi thứ ba cũng tương tự với 5,400 tweets tiếng Tây Ban Nha and 5,400 tweets tiếng Catalan.

Hệ thống hoạt động tốt nhất việc phát hiện lập trường trên các tweet của Tây Ban Nha dựa trên cách tiếp cận dựa trên SVM với sự kết hợp của các tính năng khác nhau. Trong khi hệ thống hoạt động tốt nhất trên các tweet của Catalan dựa trên hồi quy logistic.3 Tính thời sự của bài toán Phát hiện lập trường là một chủ đề mới nổi trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (Natural language processing - NLP) thu hút rất nhiều sự quan tâm của các nhà nghiên cứu bởi các ứng dụng thực tế. Các nhà nghiên cứu hiện nay chủ yếu tiếp cận vấn đề phát hiện lập trường bằng tiếng Anh. Nhận thấy tầm quan trọng của chủ đề cùng với việc phát hiện lập trường cho tiếng Việt chưa được quan tâm nhiều, đã thôi thúc chúng tôi chọn nghiên cứu đề tài “Phát hiện lập trường cho tiếng Việt sử dụng kỹ thuật học sâu”.

Ngoài ra lý do cần phải phát triển một hệ thống riêng cho Tiếng Việt là bởi Tiếng Anh và tiếng Việt có nhiều điểm khác biệt (do loại hình ngôn ngữ, do nền văn hoá,…). Khác về ngữ âm học, hình vị, ranh giới từ, sự từ vựng hoá (như: ox – bò đực, anh – elder brother ,…), từ loại, trật tự từ, kết cấu câu. [8] Trong tiếng Anh và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phát hiện lập trường sử dụng kỹ thuật học sâu" của tác giả Đặng Thị Ngọc Yến, dưới sự hướng dẫn của TS. Trần Thị Oanh, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2021. Bài viết tập trung vào việc áp dụng các kỹ thuật học sâu để phát hiện lập trường trong các văn bản, một lĩnh vực đang ngày càng trở nên quan trọng trong khoa học máy tính. Bằng cách sử dụng các mô hình học máy tiên tiến, nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách thức mà máy tính có thể hiểu và phân tích ngữ nghĩa của văn bản, mà còn mở ra những ứng dụng tiềm năng trong các lĩnh vực như phân tích cảm xúc, truyền thông và marketing.

Để mở rộng thêm kiến thức về các ứng dụng của học sâu trong khoa học máy tính, bạn có thể tham khảo bài viết "Luận văn thạc sĩ: Giải pháp tăng tốc AI trong các hệ thống dựa trên RISC-V", nơi nghiên cứu về việc tối ưu hóa hiệu suất của các hệ thống AI. Ngoài ra, bài viết "Luận văn thạc sĩ: Nghiên cứu về nhận dạng tiếng nói ứng dụng trong điều khiển xe lăn" cũng là một ví dụ điển hình về việc áp dụng công nghệ học máy trong thực tiễn, giúp bạn hiểu rõ hơn về các ứng dụng thực tế của học sâu trong cuộc sống hàng ngày. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực đang phát triển mạnh mẽ này.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#kỹ thuật học máy

#mô hình học sâu

Chủ đề

Công nghệ trí tuệ nhân tạo

Phân tích và xử lý ngôn ngữ tự nhiên

Nghiên cứu và ứng dụng học sâu

Phát triển luận văn thạc sĩ

Luận văn thạc sĩ về phát hiện lập trường sử dụng kỹ thuật học sâu

LỜI CAM ĐOAN

1. CHƯƠNG I: BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG

1.1. Giới thiệu bài toán phát hiện lập trường

1.2. Một số nghiên cứu liên quan

1.3. Tính thời sự của bài toán

1.4. Kết luận chương

2. CHƯƠNG II: CÁC PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG

3. CHƯƠNG III: ĐỀ XUẤT PHƯƠNG PHÁP, GIẢI PHÁP

4. CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

I. Giới thiệu bài toán phát hiện lập trường

II. Các phương pháp học máy sử dụng trong bài toán phát hiện lập trường

III. Đề xuất phương pháp giải pháp

IV. Kết quả thực nghiệm và đánh giá

THÔNG TIN CHI TIẾT

Tác giả: Đặng Thị Ngọc Yến

Người hướng dẫn: TS. Trần Thị Oanh

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Khoa học máy tính

Đề tài: Phát hiện lập trường sử dụng kỹ thuật học sâu

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2021

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Luận văn thạc sĩ về phát hiện lập trường sử dụng kỹ thuật học sâu

LỜI CAM ĐOAN

1. CHƯƠNG I: BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG

1.1. Giới thiệu bài toán phát hiện lập trường

1.2. Một số nghiên cứu liên quan

1.3. Tính thời sự của bài toán

1.4. Kết luận chương

2. CHƯƠNG II: CÁC PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN PHÁT HIỆN LẬP TRƯỜNG

3. CHƯƠNG III: ĐỀ XUẤT PHƯƠNG PHÁP, GIẢI PHÁP

4. CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

I. Giới thiệu bài toán phát hiện lập trường

II. Các phương pháp học máy sử dụng trong bài toán phát hiện lập trường

III. Đề xuất phương pháp giải pháp

IV. Kết quả thực nghiệm và đánh giá

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Đặng Thị Ngọc Yến

Người hướng dẫn: TS. Trần Thị Oanh

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Khoa học máy tính

Đề tài: Phát hiện lập trường sử dụng kỹ thuật học sâu

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2021

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm