I. Tổng Quan Về Tóm Tắt Tài Liệu và Thuật Toán Tiến Hóa
Ngày nay, với sự phát triển của mọi mặt đời sống, lượng thông tin cung cấp cho con người ngày càng đa dạng và phong phú. Một câu hỏi đặt ra là làm thế nào để mọi người có thể nhanh chóng và hiệu quả tiếp cận được lượng thông tin khổng lồ như vậy? Mục tiêu của một hệ thống tóm tắt văn bản tự động là tạo ra một bản tóm tắt ngắn gọn và trôi chảy, đồng thời thể hiện nội dung chính và ý nghĩa tổng thể của văn bản gốc, cho phép người dùng nắm bắt thông tin có trong văn bản đó, nhưng với thời gian đọc ngắn hơn nhiều. Có hai cách tiếp cận cơ bản để tóm tắt tài liệu: tóm tắt trích xuất và tóm tắt trừu tượng.
1.1. Tóm Tắt Trích Xuất Lựa Chọn Câu Văn Quan Trọng
Tóm tắt trích xuất là chọn các câu từ văn bản thể hiện tốt nhất ý nghĩa của nội dung mà không sử dụng các từ bên ngoài. Kỹ thuật này bao gồm các câu và cụm từ được xếp hạng theo tầm quan trọng và chọn các yếu tố quan trọng nhất của tài liệu để xây dựng bản tóm tắt. Có rất nhiều kỹ thuật để tự động tạo ra các bản tóm tắt trích xuất cho một tài liệu duy nhất, có thể được nhóm thành hai hướng: có giám sát và không giám sát. Các phương pháp trước đây dựa trên các mô hình học máy (Machine Learning) hoặc các mô hình học sâu (Deep Learning). Những phương pháp này đòi hỏi một tập dữ liệu huấn luyện khổng lồ, bao gồm các bản tóm tắt do con người tạo ra, do đó rất tốn kém và tốn thời gian.
1.2. Tóm Tắt Trừu Tượng Diễn Giải và Tạo Nội Dung Mới
Tóm tắt trừu tượng có xu hướng "diễn giải" một văn bản để ngắn gọn và súc tích. Nó liên quan đến việc tạo ra các cụm từ và câu hoàn toàn mới để nắm bắt ý nghĩa của văn bản, đòi hỏi các kỹ thuật tiên tiến như diễn giải, khái quát hóa, kết hợp kiến thức thế giới thực, v.v. Do tính khó khăn của việc tóm tắt, hầu hết các nghiên cứu về tóm tắt văn bản đều dựa trên tóm tắt trích xuất.
II. Thách Thức và Hạn Chế Của Thuật Toán Tiến Hóa Hiện Tại
Luận án tập trung vào việc cải tiến thuật toán tiến hóa (EA) trong tóm tắt trích xuất. Nhiều công trình trước đây đã đề xuất một số thuật toán tiến hóa, đặc biệt là thuật toán di truyền (GA), để chọn các câu tốt nhất để tạo ra một bản tóm tắt. Tuy nhiên, việc sử dụng GA riêng lẻ có thể bị ảnh hưởng bởi khả năng tìm kiếm cục bộ yếu và tốc độ hội tụ chậm. Mặt khác, khả năng hội tụ nhanh của PSO được tận dụng để khắc phục hạn chế về tốc độ thấp của GA. Ngoài ra, hiện tượng tối ưu cục bộ của PSO cũng có thể tránh được bằng cách sử dụng GA. Do đó, một phương pháp lai, cụ thể là lai PSO - GA, khai thác những ưu điểm của cả hai phương pháp PSO và GA được đề xuất.
2.1. Điểm Yếu Của Thuật Toán Di Truyền GA Trong Tóm Tắt
Thuật toán di truyền (GA) là một kỹ thuật tìm kiếm xác suất, lặp đi lặp lại được kiểm soát, được sử dụng để tối ưu hóa toàn cầu, lấy cảm hứng từ lý thuyết tiến hóa tự nhiên của Charles Darwin. Thuật toán này mô phỏng quá trình chọn lọc tự nhiên, trong đó các cá thể phù hợp nhất được chọn để sinh sản nhằm tạo ra con cái của thế hệ tiếp theo. Do đó, con cái thừa hưởng các đặc điểm của cha mẹ và sẽ được thêm vào thế hệ tiếp theo. Nếu cha mẹ có thể chất tốt hơn, con cái của họ sẽ tốt hơn cha mẹ và có cơ hội sống sót tốt hơn. Quá trình này tiếp tục lặp đi lặp lại và cuối cùng, một thế hệ với những cá thể phù hợp nhất sẽ được tìm thấy.
2.2. Hạn Chế Về Tốc Độ Hội Tụ và Khả Năng Tìm Kiếm Cục Bộ
Ưu điểm thiết yếu của GA là khả năng duy trì sự đa dạng của các giải pháp tiềm năng nhờ các toán tử di truyền (tức là chọn lọc, lai ghép và đột biến). Tuy nhiên, sự phức tạp của quá trình tiến hóa thường dẫn đến tốc độ hội tụ chậm. Thật vậy, thời gian tính toán của GA tăng lên phi tuyến tính trong trường hợp kích thước quần thể lớn.
2.3. Vấn Đề Tối Ưu Cục Bộ Của Thuật Toán PSO
Thuật toán tối ưu hóa bầy đàn (PSO) là một kỹ thuật tối ưu hóa dựa trên quần thể, lấy cảm hứng từ chuyển động của đàn chim và đàn cá. Sự hội tụ sớm của PSO được ngăn chặn bằng cách áp dụng GA trên một quần thể nhỏ. Bên cạnh đó, hiện tượng tối ưu cục bộ của PSO cũng có thể tránh được với GA.
III. Phương Pháp Lai PSO GA Giải Pháp Cải Tiến Tóm Tắt
Nghiên cứu này đề xuất một phương pháp lai, cụ thể là lai PSO - GA, khai thác những ưu điểm của cả hai phương pháp PSO và GA. Cụ thể hơn, nghiên cứu sẽ cải tiến thuật toán tiến hóa trong tóm tắt văn bản trích xuất để tăng độ chính xác của bản tóm tắt và hiệu suất của mô hình được đề xuất. Mục tiêu là tận dụng lợi thế của hai thuật toán này để quần thể được tạo ra đa dạng hơn và hội tụ nhanh hơn.
3.1. Kết Hợp Ưu Điểm Của PSO và GA Để Tối Ưu Hóa
Khả năng hội tụ nhanh của PSO được tận dụng để khắc phục hạn chế về tốc độ thấp của GA. Ngoài ra, hiện tượng tối ưu cục bộ của PSO cũng có thể tránh được bằng cách sử dụng GA. Do đó, một phương pháp lai, cụ thể là lai PSO - GA, khai thác những ưu điểm của cả hai phương pháp PSO và GA được đề xuất.
3.2. Tăng Độ Chính Xác và Hiệu Suất Mô Hình Tóm Tắt
Nghiên cứu sẽ cải tiến thuật toán tiến hóa trong tóm tắt văn bản trích xuất để tăng độ chính xác của bản tóm tắt và hiệu suất của mô hình được đề xuất. Mục tiêu là tận dụng lợi thế của hai thuật toán này để quần thể được tạo ra đa dạng hơn và hội tụ nhanh hơn.
3.3. Đề Xuất Hàm Fitness Phù Hợp Cho PSO GA
Hàm fitness đóng vai trò quan trọng trong việc đánh giá chất lượng của các giải pháp tiềm năng (tức là bản tóm tắt tiềm năng) trong không gian tìm kiếm. Việc thiết kế một hàm fitness hiệu quả là rất quan trọng để hướng dẫn quá trình tìm kiếm của thuật toán tiến hóa đến các bản tóm tắt chất lượng cao.
IV. Ứng Dụng Thực Tiễn và Đánh Giá Hiệu Quả Của PSO GA
Để đánh giá hiệu quả của thuật toán được đề xuất, các thử nghiệm đã được tiến hành trên ba bộ dữ liệu phổ biến, DUC2001, DUC2002 và CNN/Daily Mail. Kết quả thử nghiệm cho thấy lai PSO - GA vượt trội hơn tất cả các công trình hiện đại về tất cả ba số liệu điểm ROUGE cho các bộ dữ liệu này. Giải pháp được trình bày trong luận án này đã được chấp nhận tại Hội nghị Châu Á Thái Bình Dương lần thứ 35 về Ngôn ngữ, Thông tin và Tính toán (PACLIC 35) năm 2021.
4.1. Thử Nghiệm Trên Các Bộ Dữ Liệu DUC2001 DUC2002 CNN Daily Mail
Để đánh giá hiệu quả của thuật toán được đề xuất, các thử nghiệm đã được tiến hành trên ba bộ dữ liệu phổ biến, DUC2001, DUC2002 và CNN/Daily Mail. Các bộ dữ liệu này thường được sử dụng để tóm tắt trích xuất.
4.2. So Sánh Với Các Phương Pháp Tóm Tắt Văn Bản Hiện Đại
Kết quả thử nghiệm cho thấy lai PSO - GA vượt trội hơn tất cả các công trình hiện đại về tất cả ba số liệu điểm ROUGE cho các bộ dữ liệu này. Điều này chứng minh tính hiệu quả của phương pháp lai trong việc cải thiện chất lượng của bản tóm tắt.
4.3. Đánh Giá Bằng ROUGE Độ Chính Xác và Tính Bao Quát
Để đánh giá hiệu quả của một bản tóm tắt, bộ công cụ đánh giá ROUGE thường được sử dụng, được phát hiện là có tương quan cao với đánh giá của con người. Nó so sánh các bản tóm tắt được tạo bởi chương trình với các bản tóm tắt do con người tạo ra (tiêu chuẩn vàng).
V. Kết Luận và Hướng Nghiên Cứu Tương Lai Về Tóm Tắt
Luận án này đã trình bày một phương pháp lai PSO - GA để cải tiến thuật toán tiến hóa trong tóm tắt văn bản trích xuất. Kết quả thử nghiệm cho thấy phương pháp này có hiệu quả trong việc cải thiện độ chính xác và hiệu suất của mô hình tóm tắt. Các hướng nghiên cứu tương lai có thể tập trung vào việc cải thiện hàm fitness, khám phá các toán tử di truyền mới và áp dụng phương pháp này cho các loại văn bản khác nhau.
5.1. Tóm Tắt Các Đóng Góp Chính Của Luận Án
Luận án này đã đề xuất và đánh giá một phương pháp lai PSO - GA để cải tiến thuật toán tiến hóa trong tóm tắt văn bản trích xuất. Phương pháp này đã được chứng minh là có hiệu quả trong việc cải thiện độ chính xác và hiệu suất của mô hình tóm tắt.
5.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai
Các hướng nghiên cứu tương lai có thể tập trung vào việc cải thiện hàm fitness, khám phá các toán tử di truyền mới và áp dụng phương pháp này cho các loại văn bản khác nhau. Ngoài ra, việc nghiên cứu các phương pháp tóm tắt trừu tượng cũng là một hướng đi đầy hứa hẹn.
5.3. Ứng Dụng Tóm Tắt Văn Bản Trong Thực Tế
Ứng dụng tóm tắt tài liệu có tiềm năng to lớn trong nhiều lĩnh vực, bao gồm tóm tắt báo cáo, tóm tắt nghiên cứu khoa học, tóm tắt tin tức, tóm tắt pháp lý, tóm tắt y tế và tóm tắt tài chính. Việc phát triển các phương pháp tóm tắt hiệu quả có thể giúp mọi người tiết kiệm thời gian và dễ dàng tiếp cận thông tin hơn.