Nghiên Cứu Tóm Tắt Văn Bản Tự Động và Ứng Dụng

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

2018

74
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng Quan Nghiên Cứu Tóm Tắt Văn Bản Tự Động Hiện Nay

Với sự tăng trưởng mạnh mẽ của Internet, con người ngày càng bị quá tải bởi khối lượng lớn các thông tin và tài liệu trực tuyến. Điều này thúc đẩy nhiều nghiên cứu về tóm tắt văn bản tự động. Theo Radev và cộng sự, một tóm tắt được định nghĩa như là một văn bản được tạo từ một hoặc nhiều văn bản, truyền đạt các thông tin quan trọng từ các văn bản gốc. Văn bản tóm tắt không dài hơn 50% độ dài văn bản gốc và thông thường bản tóm tắt có độ dài khá ngắn, ngắn hơn nhiều so với 50% độ dài văn bản gốc. Bài toán tóm tắt văn bản tự động là tác vụ để tạo ra một tóm tắt chính xác và hợp ngữ pháp trong khi vẫn giữ được các thông tin chính và ý nghĩa của văn bản gốc. Trong các năm gần đây, có rất nhiều hướng tiếp cận đã được nghiên cứu cho tóm tắt văn bản tự động và đã được áp dụng rộng rãi trong nhiều lĩnh vực. Ví dụ, máy tìm kiếm sinh ra các trích đoạn, các website tin tức sinh ra các đoạn mô tả ngắn gọn cho bài viết.

1.1. Bài Toán Tóm Tắt Văn Bản Tự Động Định Nghĩa

Tóm tắt văn bản tự động là một bài toán đầy thách thức. Mục tiêu là tạo ra bản tóm tắt giống như cách con người tóm tắt. Khi con người thực hiện tóm tắt, họ thường đọc toàn bộ nội dung, hiểu và cảm thụ để viết lại một đoạn tóm tắt, làm nổi bật các ý chính. Máy tính khó có được tri thức và khả năng ngôn ngữ như con người, nên việc thực hiện tóm tắt văn bản tự động là một công việc phức tạp. Nhìn chung, có hai hướng tiếp cận cho tóm tắt văn bản tự động: trích chọn (extraction) và tóm lược (abstraction).

1.2. Phân Loại Phương Pháp Tóm Tắt Văn Bản

Phương pháp tóm tắt trích chọn thực hiện đánh giá các phần quan trọng của văn bản và đưa chúng một cách nguyên bản vào bản tóm tắt. Phương pháp này chỉ phụ thuộc vào việc trích chọn các câu từ văn bản gốc dựa trên việc xếp hạng mức độ liên quan của các cụm từ để chỉ chọn những cụm từ liên quan nhất tới nội dung của tài liệu gốc. Trong khi đó, phương pháp tóm tắt tóm lược nhằm tạo ra văn bản tóm tắt mới có thể không gồm các từ hay các cụm từ trong văn bản gốc. Nó cố gắng hiểu và đánh giá văn bản sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để tạo ra một văn bản ngắn hơn, truyền đạt được những thông tin quan trọng nhất từ văn bản gốc.

II. Các Nghiên Cứu Về Tóm Tắt Văn Bản Tổng Quan Chi Tiết

Như đã đề cập, các kỹ thuật tóm tắt bằng trích chọn sinh ra các đoạn tóm tắt bằng cách chọn một tập các câu trong văn bản gốc. Các đoạn tóm tắt này chứa các câu quan trọng nhất của đầu vào. Trong khuôn khổ của luận văn này, đầu vào của bài toán tóm tắt văn bản là đơn văn bản. Các hệ thống tóm tắt văn bản theo hướng trích chọn thường gồm các tác vụ: xây dựng một đại diện trung gian của văn bản đầu vào thể hiện các đặc điểm chính của văn bản; tính điểm (xếp hạng) các câu dựa trên đại diện trung gian đã xây dựng; chọn các câu đưa vào tóm tắt. Mỗi hệ thống tóm tắt văn bản tạo ra một số đại diện trung gian của văn bản mà nó sẽ thực hiện tóm tắt và tìm các nội dung nổi bật dựa trên đại diện trung gian này.

2.1. Phương Pháp Chủ Đề Đại Diện Dựa Trên Tần Xuất

Có hai hướng tiếp cận dựa trên đại diện trung gian là chủ đề đại diện (topic representation) và các đặc trưng đại diện (indicator representation). Các phương pháp dựa trên chủ đề đại diện biến đổi văn bản đầu vào thành một đại diện trung gian và tìm kiếm các chủ đề được thảo luận trong văn bản. Kỹ thuật tóm tắt dựa trên chủ đề đại diện tiêu biểu là phương pháp tiếp cận dựa trên tần xuất (frequency).

2.2. Phương Pháp TF IDF Trong Tóm Tắt Văn Bản

Phương pháp dựa trên xác suất của từ phụ thuộc vào danh sách stop word để loại bỏ các từ không quan trọng khỏi bản tóm tắt. Việc quyết định từ nào sẽ đưa vào danh sách stop word sẽ ảnh hưởng tới hiệu năng của phương pháp word probability. Phương pháp TF-IDF (Term Frequency - Inverse Document Frequency) đã được nghiên cứu phát triển để giải quyết hạn chế của phương pháp xác suất từ. Phương pháp này sẽ đánh giá độ quan trọng của một từ bằng cách đánh trọng số cho từ. Các từ quan trọng trong văn bản sẽ được đánh trọng số cao, còn các từ phổ biến trong rất nhiều tài liệu (common words) sẽ được đánh trọng số thấp để loại bỏ khỏi danh sách đánh giá lựa chọn đưa vào văn bản tóm tắt.

III. Mạng Nơ Ron Nhân Tạo Cơ Sở Lý Thuyết Và Ứng Dụng

Mạng nơ ron nhân tạo (ANN – Artificial Neural Network) là một mô phỏng xử lý thông tin, được nghiên cứu ra từ hệ thống thần kinh của con người, giống như bộ não để xử lý thông tin. Mạng ANN bao gồm số lượng lớn các mối gắn kết cấp cao để xử lý các thông tin trong mối liên hệ rõ ràng. Nó có khả năng học bởi kinh nghiệm từ huấn luyện, lưu trữ những kinh nghiệm thành tri thức và áp dụng trong những dữ liệu mới trong tương lai. Mỗi nơ ron (gọi là nút mạng) là yếu tố cơ bản nhất cấu tạo nên mạng nơ ron, tham gia vào xử lý thông tin trong mạng. Các nơ ron trong mạng liên kết với nhau, xử lý và chuyển tiếp thông tin dựa trên các trọng số liên kết và hàm kích hoạt.

3.1. Cấu Trúc Mạng Nơ Ron Nhân Tạo Các Lớp Cơ Bản

Cấu trúc mạng nơ ron nhân tạo về cơ bản gồm ba lớp: lớp đầu vào (input layer), lớp ẩn (hidden layer) và lớp đầu ra (output layer). Khi một mạng ANN có nhiều hơn hai lớp ẩn thì được gọi là một mạng nơ ron sâu (deep neural network hay DNN). Đầu vào của mạng ANN tùy thuộc vào ứng dụng mà mô hình cần xử lý. Ví dụ với bài toán kinh điển nhận dạng ký tự viết tay, đầu vào là các ảnh chụp các số viết tay từ 0 đến 9.

3.2. Hàm Kích Hoạt Trong Mạng Nơ Ron Vai Trò Quan Trọng

Hàm kích hoạt (activation function) quyết định đầu ra của một nút mạng (neuron) dựa trên đầu vào. Nó thực hiện một phép biến đổi phi tuyến tính trên đầu vào, cho phép mạng nơ-ron học các mối quan hệ phức tạp trong dữ liệu. Các hàm kích hoạt phổ biến bao gồm sigmoid, ReLU (Rectified Linear Unit), và tanh (Hyperbolic Tangent). Mỗi hàm có những ưu điểm và nhược điểm riêng, và việc lựa chọn hàm kích hoạt phù hợp có thể ảnh hưởng đáng kể đến hiệu suất của mô hình.

IV. Xây Dựng Hệ Thống Tóm Tắt Văn Bản Hướng Tóm Lược

Luận văn trình bày mô hình bài toán tóm tắt văn bản tự động, quy trình thực hiện giải quyết bài toán trong luận văn, các xây dựng mô hình học sâu dựa trên kiến trúc mạng LSTM áp dụng cho bài toán tóm tắt văn bản. Các bước thực hiện bao gồm tiền xử lý dữ liệu, xây dựng từ điển, huấn luyện mô hình, và đánh giá kết quả. Mô hình LSTM được lựa chọn vì khả năng xử lý tốt các chuỗi dữ liệu có độ dài khác nhau, phù hợp với đặc điểm của văn bản tự nhiên.

4.1. Mô Hình LSTM Trong Tóm Tắt Văn Bản Ưu Điểm Vượt Trội

Mạng LSTM (Long Short-Term Memory) là một loại mạng nơ-ron hồi quy (RNN) được thiết kế để giải quyết vấn đề biến mất gradient trong các RNN truyền thống. LSTM có khả năng ghi nhớ thông tin trong thời gian dài, cho phép nó học các phụ thuộc xa trong chuỗi dữ liệu. Điều này làm cho LSTM trở thành một lựa chọn phổ biến cho các tác vụ xử lý ngôn ngữ tự nhiên, bao gồm tóm tắt văn bản.

4.2. Quy Trình Tóm Tắt Văn Bản Tiếng Việt Với LSTM Chi Tiết Từng Bước

Quy trình tóm tắt văn bản tiếng Việt với LSTM bao gồm các bước sau: (1) Tiền xử lý văn bản: Loại bỏ các ký tự đặc biệt, chuyển đổi chữ hoa thành chữ thường, tách từ. (2) Xây dựng từ điển: Tạo một danh sách các từ duy nhất trong tập dữ liệu huấn luyện. (3) Chuyển đổi văn bản thành số: Thay thế mỗi từ bằng chỉ số tương ứng trong từ điển. (4) Huấn luyện mô hình LSTM: Sử dụng tập dữ liệu huấn luyện để điều chỉnh các tham số của mô hình. (5) Tạo tóm tắt: Sử dụng mô hình đã huấn luyện để tạo tóm tắt cho văn bản mới.

V. Thử Nghiệm Và Đánh Giá Kết Quả Thực Tế Của Mô Hình

Quá trình thử nghiệm mô hình đã xây dựng cho tập dữ liệu tiếng Anh và tiếng Việt và thực hiện đánh giá độ chính xác của mô hình bằng phương pháp ROUGE. Kết quả cho thấy mô hình đạt được độ chính xác khá cao trên cả hai tập dữ liệu. Các thử nghiệm được thực hiện trên nhiều bộ dữ liệu khác nhau để đảm bảo tính tổng quát của mô hình. Các tham số của mô hình được điều chỉnh để đạt được hiệu suất tốt nhất.

5.1. Phương Pháp Đánh Giá ROUGE Đo Lường Độ Chính Xác

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) là một tập hợp các số liệu được sử dụng để đánh giá chất lượng của tóm tắt tự động. ROUGE so sánh tóm tắt được tạo ra bởi mô hình với tóm tắt tham khảo do con người tạo ra. Các số liệu ROUGE phổ biến bao gồm ROUGE-N (đo lường sự trùng lặp của n-gram), ROUGE-L (đo lường sự trùng lặp của chuỗi con dài nhất), và ROUGE-S (đo lường sự trùng lặp của cặp từ).

5.2. So Sánh Với Các Mô Hình Khác Ưu Thế Của LSTM

So sánh kết quả của mô hình LSTM với các mô hình tóm tắt văn bản khác, như TextRank và các mô hình dựa trên TF-IDF. Kết quả cho thấy mô hình LSTM có hiệu suất tốt hơn, đặc biệt là trong việc tạo ra các tóm tắt mạch lạc và giữ được ý nghĩa chính của văn bản gốc. Điều này chứng tỏ ưu thế của LSTM trong việc xử lý các chuỗi dữ liệu dài và phức tạp.

VI. Kết Luận Và Hướng Phát Triển Tương Lai Của Nghiên Cứu

Tổng kết các đóng góp và kết quả đạt được trong quá trình nghiên cứu và thực hiện luận văn, cũng như hướng phát triển trong tương lai để hoàn thiện hơn kết quả nghiên cứu. Các hướng phát triển có thể bao gồm việc sử dụng các kiến trúc mạng nơ-ron tiên tiến hơn, kết hợp với các kỹ thuật xử lý ngôn ngữ tự nhiên khác, và mở rộng tập dữ liệu huấn luyện.

6.1. Các Đóng Góp Chính Của Nghiên Cứu Tóm Tắt Văn Bản Tiếng Việt

Nghiên cứu này đóng góp vào lĩnh vực tóm tắt văn bản tiếng Việt bằng cách xây dựng và đánh giá một mô hình LSTM hiệu quả. Mô hình này có thể được sử dụng để tạo ra các tóm tắt chất lượng cao cho các văn bản tiếng Việt, giúp người dùng tiết kiệm thời gian và công sức trong việc tìm kiếm thông tin.

6.2. Hướng Phát Triển Trong Tương Lai Nâng Cao Hiệu Suất

Trong tương lai, có thể nghiên cứu các phương pháp để nâng cao hiệu suất của mô hình, chẳng hạn như sử dụng các kiến trúc mạng nơ-ron tiên tiến hơn, kết hợp với các kỹ thuật xử lý ngôn ngữ tự nhiên khác, và mở rộng tập dữ liệu huấn luyện. Ngoài ra, có thể nghiên cứu các ứng dụng thực tế của mô hình trong các lĩnh vực khác nhau, như báo chí, giáo dục, và nghiên cứu khoa học.

05/06/2025
Luận văn nghiên cứu về tóm tắt văn bản tự động và ứng dụng
Bạn đang xem trước tài liệu : Luận văn nghiên cứu về tóm tắt văn bản tự động và ứng dụng

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống