TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI ĐOÀN XUÂN DŨNG TÓM TẮT VĂN BẢN SỬ DỤNG CÁC KỸ THUẬT TRONG DEEP LEARNING Ngành: Công Nghệ Thông Tin Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 8480101.01 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Xuân Hoài HÀ NỘI – 2018 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI ĐOÀN XUÂN DŨNG TÓM TẮT VĂN BẢN SỬ DỤNG CÁC KỸ THUẬT TRONG DEEP LEARNING Ngành: Công Nghệ Thông Tin Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 8480101.01 LUẬN VĂN THẠC SỸ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Xuân Hoài HÀ NỘI – 2018 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn đến PGS.TS Nguyễn Xuân Hoài, người thầy đã chỉ bảo và hướng dẫn tận tình trong quá trình tôi nghiên cứu khoa học và làm luận văn này. Tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình của PGS.TS Nguyễn Lê Minh trong quá trình nghiên cứu tại Viện Khoa học và Công nghệ tiên tiến Nhật Bản (JAIST) từ tháng 4/2017 đến tháng 6/2017. Và cuối cùng tôi xin gửi lời cảm ơn tới gia đình, người thân, bạn bè – những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên và khuyến khích tôi trong cuộc sống và trong công việc. Tôi xin chân thành cảm ơn! Hà Nội, ngày.năm 2018 Người cam đoan Đoàn Xuân Dũng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cam đoan Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và phát triển các nghiên cứu tóm tắt văn bản. Trong quá trình làm luận văn tôi có tham khảo các tài liệu có liên quan và đã ghi rõ nguồn gốc tài liệu. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Hà Nội, ngày.năm 2018 Người cam đoan Đoàn Xuân Dũng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Mở đầu .1 Chương 1: Giới thiệu tóm tắt văn bản . Tóm tắt trích chọn .6 Chương 2: Cơ sở lý thuyết . Mạng nơ-ron đa lớp. Lan truyền tiến . Tầng đầu ra. Lan truyền ngược . Mô hình RNN . Pha hướng tiến . Pha quay lui . Mạng LSTM, GRU. Mạng nơ-ron tích chập . Tầng phi tuyến. Tầng kết nối đầy đủ .30 Chương 3: Mô hình đề xuất . Kiến trúc RNN Encoder-Decoder .33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Thuật toán tìm kiếm chùm . Mô hình đề xuất .40 Chương 4: Thực nghiệm và đánh giá. Dữ liệu thử nghiệm. Bộ dữ liệu Gigaword . Bộ dữ liệu CNN/Daily Mail . Bộ dữ liệu Gigaword . Bộ dữ liệu CNN/Daily Mail .55 Tài liệu tham khảo.56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC TỪ VIẾT TẮT Viết tắt Đầy đủ Ý nghĩa ANN Artificial Neural Network Mạng nơ-ron nhân tạo FNN Feedforward Neural Mạng nơ-ron lan truyền Network tiến MLP Multilayer Perceptrons Mạng nơ-ron đa lớp RNN Recurrent Neural Mạng nơ-ron hồi quy Network LSTM Long Short Term Mạng nơ-ron bộ nhớ ngắn Memory dài hạn GRU Gated Recurrent Units Mạng nơ-ron với các đơn vị cổng hồi quy CNN Convolution Neural Mạng nơ-ron tích chập Network BiRNN Bi-directional Recurrent Mạng hai chiều RNN Neural Network Encoder-Decoder Encoder-Decoder Mã hóa – Giải mã LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 2.1: Một perceptron nhiều lớp.2: Hàm kích hoạt mạng nơ-ron.3: Một mạng RNN.4: Một khối nhớ LSTM với một ô nhớ .5: Minh họa mạng GRU….6: Phép tích chập.8: Minh họa một tầng đơn convolution.9: Hàm sigmoid, Hàm tanh………….10: Minh họa tầng pooling.1: Bài toán sinh tiêu đề.2: Sơ đồ mô hình Attention.3: Minh họa kiến trúc của mạng Encoder-Decoder.4: Pha tiến của mạng BiRNN .5: Pha lùi của mạng BiRNN .6: Minh họa cơ chế Attention.7: Mô hình đề xuất. 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC BẢNG Bảng 4. Thống kê dữ liệu Gigaword. Ví dụ dữ liệu Gigaword. Thống kê dữ liệu CNN/Daily Mail. Ví dụ dữ liệu CNN/Daily Mail . Kết quả với dữ liệu Gigaword. Kết quả với dữ liệu kiểm thử DUC-2003. Kết quả với dữ liệu kiểm thử DUC-2004. Kết quả mô hình words-lvt2k-1sent. Ví dụ đầu ra với bộ dữ liệu Gigaword. Kết quả với bộ dữ liệu CNN/Daily Mail. Ví dụ đầu ra với bộ dữ liệu CNN/Daily Mail.51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1 Mở đầu Ngày nay, con người đang bước vào kỷ nguyên của cách mạng công nghiệp 4.0, chúng ta phải đối mặt với lượng thông tin khổng lồ trên mạng Internet. Do đó nhu cầu tóm tắt thông tin đối với mỗi văn bản là vô cùng cấp thiết. Tóm tắt văn bản là phương pháp rút gọn lại một lượng lớn các thông tin thành một bản tóm tắt ngắn gọn bởi sự lựa chọn những thông tin quan trọng và bỏ qua các thông tin dư thừa. Thông thường tóm tắt văn bản có thể chia thành tóm tắt trích chọn (extractive summarization) và tóm tắt tóm lược (abstractive summarization). Tóm tắt trích chọn đưa ra sự tóm tắt bằng việc chọn một tập các câu trong văn bản ban đầu. Ngược lại, tóm tắt tóm lược đưa ra thông tin được thể hiện lại theo một cách khác. Tóm tắt trích chọn bao gồm các câu lấy ra từ văn bản, trong khi đó tóm tắt tóm lược sử dụng những từ và cụm từ không xuất hiện trong văn bản gốc. Tóm tắt trích chọn là phương pháp đơn giản nhưng mạnh mẽ cho tóm tắt văn bản, nó liên quan đến việc ấn định điểm số cho thành phần văn bản rồi chọn ra phần có điểm cao nhất. Tóm tắt tóm lược cần phải đọc và hiểu được văn bản để nhận thức được nội dung, sau đó tóm tắt văn bản cho ngắn gọn. Vì thế tóm tắt tóm lược cần một kỹ thuật sâu về xử lý ngôn ngữ. Những năm gần đây chứng tỏ sự trở lại mạnh mẽ của mạng nơ-ron nhân tạo trong các mô hình học tự động với tên gọi học sâu (Deep Learning). Học sâu đã và đang được áp dụng trong nhiều bài toán khác nhau để thu được những kết quả tốt trong nhiều lĩnh vực của khoa học máy tính. Những nghiên cứu đầu tiên cho bài toán tóm tắt văn bản sử dụng học sâu được đưa ra bởi nhóm tác giả Alexander Rush[2]. Nhóm tác giả đề xuất mô hình mạng nơ-ron attention kết hợp mô hình xác suất với một thuật toán sinh để đưa ra độ chính xác cho bài toán tóm tắt. Họ sử dụng một lượng lớn dữ liệu huấn luyện là các cặp văn bản tóm tắt, tận dụng sức mạnh của phần cứng máy tính để học ra mô hình huấn luyện. Sau đó một năm, nhóm tác giả Submit Chopra[3] mở rộng bài toán tóm tắt tới kiến trúc mạng nơ-ron hồi quy – RNN. Kết quả đạt tốt nhất trên tập Gigaword và DUC-2004. Tiếp đó, nhóm của Ramesh Nallapti [19] đưa ra bản tóm tắt sử dụng mạng RNN Attention Encoder-Decoder. Kết quả đạt cao nhất trên hai bộ dữ liệu khác nhau. Gần đây, tác giả Nguyễn Viết Hạnh [25] đã nghiên cứu vấn đề tóm tắt văn bản sử dụng mô hình LSTM trong học sâu, áp dụng cho cả tiếng Anh và tiếng Việt. Kết quả tác giả đưa ra cho thấy hiệu quả của các mô hình học sâu đối với bài toán này. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2 Mạng nơ-ron tích chập (CNN) đã được áp dụng thành công trong các lĩnh vực của xử lý ảnh, xử lý video. Trong xử lý ngôn ngữ tự nhiên, Yoo Kim[5] đã áp dụng nâng cao kết quả bài toán phân tích cảm xúc và phân loại câu hỏi. Nhóm Nal Kalchbrenner[6] mô tả kiến trúc CNN động cho bài toán gán nhãn ngữ nghĩa câu. Yoo Kim[7] đưa ra một kiến trúc mô hình nơ-ron đơn giản kết hợp mạng nơ-ron tích chập và mạng highway trên ký tự của câu. Tiếp theo đó, nhóm tác giả Jason Lee[8] giới thiệu mạng ký tự convolution với max pooling để mã hóa giảm chiều dài của câu trình bày. Kết quả của họ chứng tỏ mô hình ký tự cho kết quả cao hơn các mô hình trong dịch máy hiện tại. Với những thành công của mạng nơ-ron tích chập trong xử lý ngôn ngữ tự nhiên, tôi muốn cài đặt mạng nơ-ron tích chập và các mô hình trong Deep learning vào bài toán tóm tắt văn bản, kết quả trên tập dữ liệu Gigaword và DUC cho thấy hiệu quả của phương pháp này. Ngoài phần mở đầu và phần kết luận, luận văn được chia thành 4 chương như sau: Chương 1: Giới thiệu bài toán tóm tắt văn bản. Trình bày khái niệm và các phương pháp tiếp cận cho bài toán. Chương 2: Cơ sở lý thuyết. Trình bày những khái niệm và mô hình trong học sâu. Chương 3: Mô hình đề xuất. Trình bày cơ chế attention cùng thuật toán tìm kiếm chùm và áp dụng vào mô hình đề xuất. Chương 4: Thực nghiệm và đánh giá. Trình bày quá trình thử nghiệm và đưa ra một số đánh giá, nhận xét cùng kết quả đạt được. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 Chương 1: Giới thiệu tóm tắt văn bản Tóm tắt văn bản là quá trình trích rút những thông tin quan trọng nhất từ một văn bản để tạo ra phiên bản ngắn gọn, xúc tích mang đầy đủ lượng thông tin của văn bản gốc kèm theo đó là tính đúng đắn về ngữ pháp và chính tả. Bản tóm tắt phải giữ được những thông tin quan trọng của toàn bộ văn bản chính. Bên cạnh đó, bản tóm tắt cần phải có bố cục chặt chẽ có tính đến các thông số như độ dài câu, phong cách viết và cú pháp văn bản. Phụ thuộc vào số lượng các văn bản, kỹ thuật tóm tắt có thể chia làm hai lớp: đơn văn bản và đa văn bản. Tóm tắt đơn văn bản chỉ đơn giản là rút gọn một văn bản thành một sự trình bày ngắn gọn. Trong khi đó tóm tắt đa văn bản phải rút gọn một tập các văn bản thành một sự tóm tắt. Tóm tắt đa văn bản có thể xem như một sự mở rộng của tóm tắt đơn văn bản và thường dùng với thông tin chứa trong các cụm văn bản, để người dùng có thể hiểu được cụm văn bản đó. Tóm tắt đa văn bản phức tạp hơn tóm tắt đơn văn bản vì phải làm việc trên số lượng văn bản nhiều hơn. Xét về phương pháp thực hiện, tóm tắt văn bản có hai hướng tiếp cận là tóm tắt theo kiểu trích chọn – “extraction” và tóm tắt theo kiểu tóm lược ý – “abstraction”. Phương pháp tóm tắt trích chọn là công việc chọn ra một tập con những từ đã có, những lời nói hoặc những câu của văn bản gốc để đưa vào khuôn mẫu tóm tắt.
Luận văn thạc sĩ VNU UET: Tóm tắt văn bản sử dụng kỹ thuật deep learning
Luận văn thạc sĩ kỹ thuật nghiên cứu vnu uet tóm tắt văn bản sử dụng các kỹ thuật trong deep learning luận văn ths máy tính 84801, khảo sát thực trạng, phân tích nguyên nhân, đề
Trường đại học
Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà NộiChuyên ngành
Công Nghệ Thông TinNgười đăng
Ẩn danhThể loại
Luận văn thạc sỹPhí lưu trữ
30 PointMục lục chi tiết
THÔNG TIN CHI TIẾT
Tác giả: Đoàn Xuân Dũng
Người hướng dẫn: PGS.TS Nguyễn Xuân Hoài
Trường học: Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội
Chuyên ngành: Công Nghệ Thông Tin
Đề tài: Tóm tắt văn bản sử dụng các kỹ thuật trong deep learning
Loại tài liệu: Luận văn thạc sỹ
Năm xuất bản: 2018
Địa điểm: Hà Nội
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ