Khóa luận tốt nghiệp khoa học máy tính tóm tắt văn bản tiếng việt sử dụng mô hình encoderdecoder với cấu trúc hierarchical neural semantic encoder

Khóa luận tốt nghiệp nghiên cứu tóm tắt văn bản tiếng Việt bằng mô hình encoder-decoder với cấu trúc hierarchical neural semantic encoder.

Trường đại học

Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Vấn đề

1.2. Mục tiêu của khóa luận. Đối tượng và phạm vi nghiên cứu. Cấu trúc của khóa luận

2. CHƯƠNG 2: MÔ HÌNH BÀI TOÁN

2.1. Mô hình bài toán tóm tắt văn bản tóm lược

2.2. Đánh giá mô hình bằng phương pháp ROUGE

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Mô hình Encoder-Decoder

3.2. Mô hình Pointer Generator với cơ chế Coverage

3.3. Cơ sở lý thuyết của cấu trúc Neural Semantic Encoder (NSE) với các cải tiến

3.4. Đề xuất cấu trúc áp dụng cho bài toán là Hierarchical NSE

4. CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG BẰNG MÔ HÌNH HIERARCHICAL NSE

5. CHƯƠNG 5: KẾT LUẬN, HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tóm tắt văn bản tiếng Việt

Khóa luận tập trung vào việc tóm tắt văn bản tiếng Việt bằng cách sử dụng mô hình Encoder-Decoder với cấu trúc Hierarchical Neural Semantic Encoder (NSE). Đây là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), nhằm trích xuất thông tin quan trọng từ văn bản gốc để tạo ra bản tóm tắt ngắn gọn. Phương pháp này giúp tiết kiệm thời gian và chi phí trong việc nắm bắt thông tin từ các tài liệu dài. Khóa luận sử dụng hướng tiếp cận tóm tắt tóm lược (Abstractive Summarization), tạo ra bản tóm tắt mới dựa trên đặc trưng của văn bản gốc, thay vì chỉ trích xuất các câu từ văn bản.

1.1. Mục tiêu và phạm vi nghiên cứu

Mục tiêu chính của khóa luận là thử nghiệm và đánh giá hiệu suất của mô hình Hierarchical NSE trong việc tóm tắt văn bản tiếng Việt, đặc biệt là các bài báo từ các trang báo điện tử. Phạm vi nghiên cứu bao gồm các mô hình học sâu như Encoder-Decoder, RNN, và LSTM, cùng với các kỹ thuật xử lý ngôn ngữ tự nhiên để tối ưu hóa quá trình tóm tắt.

1.2. Cấu trúc khóa luận

Khóa luận được chia thành 5 chương chính: Mở đầu, Mô hình bài toán, Cơ sở lý thuyết, Xây dựng hệ thống tóm tắt văn bản tiếng Việt tự động, và Kết luận. Mỗi chương tập trung vào một khía cạnh cụ thể của bài toán, từ lý thuyết đến thực nghiệm, nhằm đánh giá toàn diện hiệu suất của mô hình.

II. Mô hình Encoder Decoder với Hierarchical NSE

Mô hình Encoder-Decoder là một trong những mô hình phổ biến nhất trong NLP, được sử dụng để giải quyết các bài toán như dịch máy và tóm tắt văn bản. Trong khóa luận này, mô hình được kết hợp với cấu trúc Hierarchical NSE để cải thiện hiệu suất tóm tắt. Hierarchical NSE là một cải tiến của Neural Semantic Encoder (NSE), sử dụng tính phân cấp của văn bản để tăng cường khả năng ghi nhớ và xử lý thông tin dài hạn. Mô hình này giúp tạo ra bản tóm tắt có độ chính xác và mạch lạc cao hơn.

2.1. Cơ chế hoạt động của Encoder Decoder

Encoder có nhiệm vụ mã hóa văn bản đầu vào thành một vector đặc trưng, trong khi Decoder giải mã vector này để tạo ra bản tóm tắt. Cơ chế Attention được sử dụng để tập trung vào các phần quan trọng của văn bản, giúp cải thiện chất lượng tóm tắt. Hierarchical NSE thêm vào cấu trúc phân cấp, cho phép mô hình xử lý thông tin theo từng cấp độ, từ câu đến đoạn văn.

2.2. Đánh giá mô hình bằng ROUGE

Hiệu suất của mô hình được đánh giá bằng phương pháp ROUGE, so sánh sự trùng khớp giữa bản tóm tắt được tạo ra và bản tóm tắt tham khảo. Các chỉ số ROUGE-1, ROUGE-2, và ROUGE-L được sử dụng để đo lường độ chính xác và mạch lạc của bản tóm tắt. Kết quả thực nghiệm cho thấy mô hình đạt hiệu suất tốt trên tập dữ liệu tiếng Việt.

III. Xây dựng hệ thống tóm tắt văn bản tiếng Việt

Khóa luận đề xuất một hệ thống tự động hóa tóm tắt văn bản tiếng Việt bằng cách sử dụng mô hình Hierarchical NSE. Hệ thống bao gồm các bước: thu thập dữ liệu, tiền xử lý, word embedding, xây dựng mô hình, huấn luyện và đánh giá. Dữ liệu được thu thập từ các trang báo điện tử Việt Nam, sau đó được xử lý để loại bỏ các ký tự không cần thiết và chuẩn hóa định dạng. Word embedding được sử dụng để chuyển đổi văn bản thành các vector số, giúp mô hình có thể xử lý và học từ dữ liệu.

3.1. Thu thập và tiền xử lý dữ liệu

Dữ liệu được thu thập từ các trang báo điện tử như VnExpress, bao gồm các bài báo và bản tóm tắt mẫu. Quá trình tiền xử lý bao gồm việc làm sạch dữ liệu, loại bỏ các ký tự đặc biệt, và chuẩn hóa định dạng văn bản. Điều này đảm bảo rằng dữ liệu đầu vào có chất lượng cao, giúp mô hình học tập hiệu quả hơn.

3.2. Huấn luyện và đánh giá mô hình

Mô hình được huấn luyện trên bộ dữ liệu đã tiền xử lý, với mục tiêu tối ưu hóa điểm ROUGE. Quá trình huấn luyện bao gồm việc điều chỉnh các siêu tham số để cải thiện hiệu suất. Kết quả thực nghiệm cho thấy mô hình đạt được hiệu suất tóm tắt tốt, đặc biệt là trên các bài báo tiếng Việt.

IV. Kết luận và hướng phát triển

Khóa luận đã thành công trong việc áp dụng mô hình Encoder-Decoder với Hierarchical NSE để tóm tắt văn bản tiếng Việt. Kết quả thực nghiệm cho thấy mô hình có khả năng tạo ra bản tóm tắt chính xác và mạch lạc, đặc biệt là trên các bài báo từ các trang báo điện tử. Tuy nhiên, vẫn còn một số hạn chế, chẳng hạn như việc xử lý các văn bản dài và phức tạp. Hướng phát triển trong tương lai bao gồm việc cải thiện mô hình để xử lý tốt hơn các văn bản đa dạng và phức tạp hơn.

4.1. Hạn chế của mô hình

Một trong những hạn chế chính của mô hình là khả năng xử lý các văn bản dài và phức tạp. Mặc dù Hierarchical NSE đã cải thiện khả năng ghi nhớ thông tin, nhưng vẫn cần thêm nghiên cứu để tối ưu hóa mô hình cho các văn bản có cấu trúc phức tạp hơn.

4.2. Hướng phát triển trong tương lai

Hướng phát triển trong tương lai bao gồm việc tích hợp thêm các kỹ thuật học sâu và xử lý ngôn ngữ tự nhiên để cải thiện hiệu suất của mô hình. Ngoài ra, việc mở rộng bộ dữ liệu và thử nghiệm trên các loại văn bản khác nhau cũng là một hướng đi tiềm năng.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính tóm tắt văn bản tiếng việt sử dụng mô hình encoderdecoder với cấu trúc hierarchical neural semantic encoder

Tải đầy đủ

Trích đoạn nội dung tài liệu

Mở đầu. e Chương 2: Mô hình bài toán. e Chương 3: Cơ sở lý thuyết. e Chương 4: Xây dựng hệ thống tóm tắt văn bản tiếng Việt tự động bằng mô hình Hierarchical NSE.

e Chương 5: Kết luận, hạn chế và hướng phát triển. MO HÌNH BÀI TOÁN Ở chương này, trình bày mô hình bài toán tóm tắt văn bản tự động theo hướng tóm lược cũng như cách đánh giá mô hình dựa trên phương pháp đánh giá ROUGE. Mô hình bài toán tóm tắt văn bản tóm lược Bài toán tóm tắt văn bản tự động theo hướng tóm lược có thé được phát biểu như sau: đầu vào của bài toán là một văn bản D gồm M từ: xi, X2,. Mục tiêu sẽ là ánh xạ chuỗi M từ này thành một chuỗi đầu ra y gồm N từ yi, yo, ., ym, trong đó chiều dai của bản tóm tắt phải ngắn hơn chiều dài của văn bản đầu vào (N < M).

Việc tạo ra chuỗi N dựa trên một tập từ vựng có kích thước có định V. Các từ thuộc S không nhất định phải thuộc D. Mục tiêu là tìm một chuỗi đầu ra y làm cực đại xác suất có điều kiện của S theo chuỗi đầu vào D: argmax P(y|x) y€V ăsauaaa.- U23 Nam dành vé an ViệtNam —Văn ban dau diuvio vao Vansn ban tom tatit Hình 2.1: Minh họa mô hình bài toán tóm tắt tự động [1] Quy trình giải quyết bài toán tóm tắt văn bản tự động được trình bày như sau: - Thu thập dit liệu phù hợp: dữ liệu phù hợp cho bài toán tóm tắt văn bản tiếng Việt là bộ dit liệu gồm có một cặp tương ứng: văn bản đầy đủ và văn bản tóm tắt mẫu (do con người thực hiện tóm tắt). - Xử lý dữ liệu: làm sạch dữ liệu, loại bỏ các ký tự không cần thiết, các lỗi phân tách cau,.

- Word Embedding: vector hóa dữ liệu về dạng số dé thực hiện tính toán trên mạng neuron nhân tạo. - Xây dựng mô hình mạng neuron nhân tạo: sử dung các cau trúc mang neuron, kết hợp với cấu trúc Encoder — Decoder là sự kết hợp của các khối mạng neuron, dé xây dựng mô hình xử lý chuỗi đầu vào và tạo ra chuỗi văn bản tóm tắt. - Huấn luyện và đánh giá hiệu suất của mô hình sử dụng bộ dữ liệu đã thu thập. Thu thập dữ liệu phù hợp Tiền xử lý đữ liệu Word Embedding Xay dung Model Deeplearning Thu nghiém va danh gia Hình 2.2: Quy trình thực hiện tóm tắt văn bản tiếng Việt tự động 2.

Đánh giá mô hình bằng phương pháp ROUGE Hiệu suất của mô hình tóm tắt tự động sẽ được đánh giá thông qua phương pháp ROUGE, quá trình training thực chất là quá trình điều chỉnh các siêu tham số (hyper parameters) bên trong các mạng neuron nhân tạo với mục đích cực đại hóa điểm ROUGE của mô hình nhất có thé. Recall Oriented Understudy of Gisting Evaluation (ROUGE) [2] là một phương pháp đề xuất bởi Lin và Hovy (2003), có hiệu quả nhanh, độc lập với ngôn ngữ và sự liên quan với các đánh giá của con người. Với ý tưởng chính là so sánh sự khớp nhau giữa bản tóm tắt sinh ra bởi mô hình với bản tóm tắt gốc của con người, phương pháp này sử dụng n-gram để đánh giá sự tương quan giữa các kết quả của mô hình tóm tắt và tập dữ liệu đánh giá. Các phương pháp phố biến được dùng dé đánh giá cho bài toán tom tắt văn ban tự động là ROUGE-1, ROUGE-2 và ROUGE-L tương ứng với một từ, cặp từ và chuỗi L từ.

Trong đó, ROUGE-1 so sánh sự trùng khớp của các từ đơn (unigrams) giữa chuỗi văn bản tóm tắt được sinh ra bới mô hình và chuỗi thực tế (ground truth). Tương tự, ROUGE-2 so sánh từng cặp từ là sự kết hợp của hai từ đơn trong chuỗi được sinh ra với chuỗi thực tế. ROUGE-L so sánh độ tương quan giữa các từ của chuỗi con chung dài nhất (Longest common subsequence) giữa hai chuỗi cần so sánh. Được tính theo công thức sau: Xce Rss Ygram-n eC Countmatcnh(gramy) ROUGE-n = Xce Rss Lgram-nec Count(gramy) Với Count match (GTAMn) là số lượng n-grams lớn nhất có trong kết quả tóm tat và bản tóm tắt tham khảo, Count(gram,,) là số lượng n-grams có trong bản tóm tắt tham khảo.

RSS là viết tắt của Reference Summaries. Ví dụ minh họa về cách tính điểm ROUGE, ta có: Câu tóm tắt được sinh ra từ mô hình: “The cat was found under the bed” Câu tóm tắt tham khảo: “The cat was under the bed” Bigrams câu tóm tắt được sinh ra từ mô hình ta được các cụm từ: “the cat”, “cat was”, “was found”, “found under”, “under the”, “the bed” Bigrams câu tóm tắt tham khảo ta được các cụm từ: “the cat”, “cat was”, “was under’, “under the”, “the bed” Diém ROUGE-2 recall: : : số từ lặp 4 —ng ouge — g recall `” số từ có trong câu tóm tắt tham khả — SA th nỗ trang câm fam tắt tham thân o 5 5S 6 Điểm ROUGE-2 precision: R 2 số từ lặp 4 067 ouge — 9 precision ision = số từ có trong câu tém tắt của mô hình —X aA A PEP TA TH = ZY: 6 Điểm ROUGE-2 FI score là giá trị đánh giá hiệu suất mô hình: 2 1 1 ————=——---- + _—~ >> Rouge - 2;¡ = 0.7292 Rouge~2F1 RoWg€~2recall Rog€~2precision Chương 3. CƠ SỞ LÝ THUYET Ở chương này, trình bày khái quát mô hình Encoder-Decoder [3], mô hình Pointer Generator với cơ chế Coverage [4] và cơ sở lý thuyết của cấu trúc Neural Semantic Encoder (NSE) [5] với các cải tiễn. Cuối cùng, đề xuất cấu trúc áp dụng cho bài toán là Hierarchical NSE [6].

Mô hình Encoder-Decoder Trong lĩnh vực NLP, Encoder-Decoder hay còn gọi là sequence-to-sequence (seq2seq) là một mô hình đã được đề xuất và phát triển từ lâu để giải quyết các bài toán đặc trưng như: dịch máy (Machine Translate), tốm tắt văn bản (Text Summarize), robot tra lời tự động (chatbot) và đã đạt được những thành công nhất định. Với mục đích cần phát sinh một chuỗi đầu ra từ một chuỗi đầu vào cho trước, mô hình Encoder-Decoder sử dụng hai mạng neural truy hồi (Recurrent Neural Network) đóng vai trò là các bộ mã hóa, giải mã tương ứng. Mục này sẽ trình bày khái quát về mạng neural truy hồi và mô hình Encoder - Decoder với kỹ thuật attention, sau đó sẽ phân tích những hạn chế của mô hình này đối với bài toán tóm tắt văn bản tự động. Mạng neural truy hồi Lần đầu được đề xuất vào năm 1982 bởi John Hopfield [7], được ứng dụng rộng rãi trong những năm gần đây trong lĩnh vực NLP.

Mạng RNN có thể mô hình hóa được bản chất của dữ liệu trong các đoạn văn bản hoặc chuỗi từ (có tính chuỗi và các thành phần như từ, cụm từ trong dữ liệu phụ thuộc lẫn nhau) thông qua việc thực hiện cùng một tác vụ cho tất cả các phần tử của một chuỗi với đầu ra phụ thuộc vào tất cả các phép tính trước đó. Nói cách khác, RNN có khả năng nhớ các thông tin được tính toán trước đó. Mạng RNN nhận vào một chuỗi các vector x¡,., xạ và trả về một vector yp, sô chiêu của hai vector xi va yi không nhât thiệt phải băng nhau. Ví dụ dau vào là một câu gồm nhiều từ, mỗi từ được biéu diễn băng một vector ngữ nghĩa (có thé là one- 10 hot vector hoặc được tạo bởi các mô hình pre-trained như GloVe, word2vec), mô hình sử dụng một đơn vị RNN có bản chất là một hàm đệ quy để tính trạng thái đầu ra dựa vào trạng thái trước va dau vào hiện tại.

Cụ thê như sau: yi y2 y3 Y4 ys Yi A A A ⁄ NN so—>| RO 4! Ro 4! Ro |3.) Ro U4! Ro Less Sj-1 - R,O | > Sị k i r k 4 XỊ Xa x3 X4 X5 9 Xj 0 (a) (b) Hình 3.1: Minh họa cấu trúc mạng RNN [8] (a) Một mạng RNN với Xj, sị, Vị lần lượt là vector của từ dau vào tại thời điểm i, trạng thái ân của mang tại thời diém i và vector đâu ra tại thời diém i. (b) Minh họa mạng RNN khi duối thăng, 6 là tham số của mạng.! Yn = RNN"(® Sion) (1) yi = 0(s¡) (2) sj = R(Si-1, i) (3) xi E Riin ; yi € Roout ; 5, € Rf Gout) Hàm R nhận đầu vào là một vector trạng thái s;_, và một vector của từ đầu vào x; Và trả vé vector trạng thái hiện tai là s;. Vector trạng thái hiện tai s; sau đó được ánh xạ trở thành vector đầu ra y; thông qua hàm O. Thông thường, hàm R được sử dụng là ham tanh còn hàm O có thé là sigmoid hoặc softmax.

Vector y, là vector đầu ra cuối cùng của mạng, được xem là vector nén (compressed vector) của toàn bộ chuỗi đâu vào. Mạng RNN đơn giản sẽ kém hiệu qua với các chuỗi đầu vào dài do van dé vanishing gradients, xảy ra khi gradient bị cộng dôn quá nhiêu lân. Các kiên trúc 11 Long-Short Term Memory (LSTM) va Gated-Recurrent Unit (GRU) là các mang RNN với các cau trúc công phức tạp bên trong, sẽ quyết định thông tin nào được giữ lại hoặc bị loại bỏ, giúp các node trong mạng RNN “ghi nhớ” thông tin tốt hơn. Mạng neural LSTM Mạng RNN cơ bản không có khả năng ghi nhớ các thông tin qua nhiều bước do đó mạng RNN tỏ ra không hiệu quả đối với các bài toán cần xử lý dữ liệu theo thời gian đòi hỏi phải có trạng thái trung gian dé ghi nhớ thông tin của các bước trước.

Từ hạn chế này, mạng LSTM (Long-Short Term Memory) được ra đời nhằm giải quyết hạn chế của mạng RNN bằng cách đưa vào mang một đơn vi nhớ được gọi là LSTM memory unit hay cell. Mạng LSTM được giới thiệu lần đầu bởi Hochreiter & Schimidhuber (1997) [9], mạng LSTM hoạt động hiệu quả trên nhiều bài toán khác nhau nên dân trở nên phô biên. Tại mỗi thời điểm ¿, đầu vào của một LSTM nhận vào ba thành phan, trong đó x, là đầu vào ở bước hiện tai, fy) là đầu ra của khối LSTM trước đó /-J và C,; là các thông tin được “nhớ” của khối LSTM trước. Đầu ra là các thông tin 7, là kết quả của khối LSTM hiện tai và C, là “nhớ” của khối hiện tại.

Do đó, quyết định của một khối LSTM dựa vào đâu vào của khôi tại thời diém đang xét, kêt quả dau ra và “nhớ” của 12 khôi trước dé tạo ra kêt quả dau ra h; và “nhớ” C; của khôi hiện tai. Câu trúc tông quát của mạng LSTM được biéu diễn trong hình 3.3: Cấu trúc mạng LSTM [10] Trong cấu trúc của LSTM ở hình 3.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Tóm Tắt Văn Bản Tiếng Việt Bằng Mô Hình Encoder-Decoder Với Hierarchical Neural Semantic Encoder" giới thiệu một phương pháp tiên tiến trong việc tóm tắt văn bản tiếng Việt, sử dụng mô hình Encoder-Decoder kết hợp với Hierarchical Neural Semantic Encoder. Phương pháp này không chỉ cải thiện độ chính xác mà còn tối ưu hóa quá trình xử lý ngôn ngữ tự nhiên, giúp tạo ra các bản tóm tắt ngắn gọn, súc tích và đầy đủ thông tin. Đây là một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là với tiếng Việt, một ngôn ngữ có cấu trúc phức tạp.

Để hiểu sâu hơn về các ứng dụng của học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin, nghiên cứu này cung cấp cái nhìn chi tiết về việc áp dụng học sâu trong các bài toán rút trích thông tin. Ngoài ra, Luận văn thạc sĩ khoa học máy tính trích xuất thông tin thực thể và quan hệ trong văn bản tiếng việt bằng mô hình đồ thị động cũng là một tài liệu hữu ích, tập trung vào việc trích xuất thông tin từ văn bản tiếng Việt bằng các mô hình đồ thị động. Cuối cùng, Luận văn thạc sĩ khoa học máy tính dịch máy tiếng việtba na bằng phương pháp attention sẽ giúp bạn khám phá thêm về các phương pháp dịch máy tiên tiến, một lĩnh vực liên quan chặt chẽ đến xử lý ngôn ngữ tự nhiên.

Những tài liệu này không chỉ mở rộng kiến thức của bạn về học sâu và xử lý ngôn ngữ tiếng Việt mà còn cung cấp các góc nhìn đa chiều, giúp bạn nắm bắt được xu hướng và công nghệ mới nhất trong lĩnh vực này.

#xử lý ngôn ngữ tự nhiên

#khóa luận tốt nghiệp

#trí tuệ nhân tạo

#tóm tắt văn bản

#mô hình encoder-decoder

#hierarchical neural semantic encoder

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Trí tuệ nhân tạo

tóm tắt văn bản tự động

Khóa luận tốt nghiệp khoa học máy tính tóm tắt văn bản tiếng việt sử dụng mô hình encoderdecoder với cấu trúc hierarchical neural semantic encoder

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Vấn đề

1.2. Mục tiêu của khóa luận. Đối tượng và phạm vi nghiên cứu. Cấu trúc của khóa luận

2. CHƯƠNG 2: MÔ HÌNH BÀI TOÁN

2.1. Mô hình bài toán tóm tắt văn bản tóm lược

2.2. Đánh giá mô hình bằng phương pháp ROUGE

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Mô hình Encoder-Decoder

3.2. Mô hình Pointer Generator với cơ chế Coverage

3.3. Cơ sở lý thuyết của cấu trúc Neural Semantic Encoder (NSE) với các cải tiến

3.4. Đề xuất cấu trúc áp dụng cho bài toán là Hierarchical NSE

4. CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG BẰNG MÔ HÌNH HIERARCHICAL NSE

5. CHƯƠNG 5: KẾT LUẬN, HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

I. Tóm tắt văn bản tiếng Việt

1.1. Mục tiêu và phạm vi nghiên cứu

1.2. Cấu trúc khóa luận

II. Mô hình Encoder Decoder với Hierarchical NSE

2.1. Cơ chế hoạt động của Encoder Decoder

2.2. Đánh giá mô hình bằng ROUGE

III. Xây dựng hệ thống tóm tắt văn bản tiếng Việt

3.1. Thu thập và tiền xử lý dữ liệu

3.2. Huấn luyện và đánh giá mô hình

IV. Kết luận và hướng phát triển

4.1. Hạn chế của mô hình

4.2. Hướng phát triển trong tương lai

THÔNG TIN CHI TIẾT

Tác giả: Trần Công Minh

Người hướng dẫn: ThS. Trịnh Quốc Sơn

Trường học: Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Tóm tắt văn bản tiếng Việt bằng mô hình Encoder-Decoder với Hierarchical Neural Semantic Encoder

Loại tài liệu: khóa luận tốt nghiệp

Năm xuất bản: 2021

Địa điểm: Thành phố Hồ Chí Minh

Khóa luận tốt nghiệp khoa học máy tính tóm tắt văn bản tiếng việt sử dụng mô hình encoderdecoder với cấu trúc hierarchical neural semantic encoder

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Vấn đề

1.2. Mục tiêu của khóa luận. Đối tượng và phạm vi nghiên cứu. Cấu trúc của khóa luận

2. CHƯƠNG 2: MÔ HÌNH BÀI TOÁN

2.1. Mô hình bài toán tóm tắt văn bản tóm lược

2.2. Đánh giá mô hình bằng phương pháp ROUGE

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Mô hình Encoder-Decoder

3.2. Mô hình Pointer Generator với cơ chế Coverage

3.3. Cơ sở lý thuyết của cấu trúc Neural Semantic Encoder (NSE) với các cải tiến

3.4. Đề xuất cấu trúc áp dụng cho bài toán là Hierarchical NSE

4. CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TÓM TẮT VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG BẰNG MÔ HÌNH HIERARCHICAL NSE

5. CHƯƠNG 5: KẾT LUẬN, HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

I. Tóm tắt văn bản tiếng Việt

1.1. Mục tiêu và phạm vi nghiên cứu

1.2. Cấu trúc khóa luận

II. Mô hình Encoder Decoder với Hierarchical NSE

2.1. Cơ chế hoạt động của Encoder Decoder

2.2. Đánh giá mô hình bằng ROUGE

III. Xây dựng hệ thống tóm tắt văn bản tiếng Việt

3.1. Thu thập và tiền xử lý dữ liệu

3.2. Huấn luyện và đánh giá mô hình

IV. Kết luận và hướng phát triển

4.1. Hạn chế của mô hình

4.2. Hướng phát triển trong tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trần Công Minh

Người hướng dẫn: ThS. Trịnh Quốc Sơn

Trường học: Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Tóm tắt văn bản tiếng Việt bằng mô hình Encoder-Decoder với Hierarchical Neural Semantic Encoder

Loại tài liệu: khóa luận tốt nghiệp

Năm xuất bản: 2021

Địa điểm: Thành phố Hồ Chí Minh

Có thể bạn quan tâm