## Tổng quan nghiên cứu

Trong bối cảnh sự phát triển nhanh chóng của các kênh truyền thông xã hội, số lượng bài viết chất lượng cao dưới dạng blog, ghi chú hay bình luận ngày càng tăng, tuy nhiên phần lớn các bài viết này thường thiếu tiêu đề và phần tóm tắt. Việc biên tập viên phải thủ công thêm tiêu đề và tóm tắt cho hàng trăm nghìn bài viết gây tốn kém thời gian và công sức, đồng thời khó đảm bảo tiêu đề phản ánh chính xác nội dung bài viết. Mục tiêu nghiên cứu của luận văn là xây dựng mô hình Forcing-Seq2Seq nhằm tự động tạo tiêu đề cho văn bản, giúp tự động hóa quá trình biên tập, nâng cao hiệu quả xử lý dữ liệu và hỗ trợ các hệ thống xử lý ngôn ngữ tự nhiên khác. Nghiên cứu tập trung trên tập dữ liệu đánh giá thực phẩm của Amazon với hơn 500.000 bài viết trong khoảng thời gian hơn 10 năm, đồng thời sử dụng kho dữ liệu mở rộng gồm 35 triệu bài đánh giá để huấn luyện các mô hình phụ trợ. Kết quả đánh giá mô hình dựa trên chỉ số BLEU và khảo sát đánh giá của 11 tình nguyện viên cho thấy mô hình Forcing-Seq2Seq đạt điểm BLEU 49,73%, cao hơn đáng kể so với các mô hình nền tảng, đồng thời có tỷ lệ tiêu đề hợp lý và khả thi lần lượt là 82,10% và 69,57%. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao chất lượng và hiệu quả xử lý tự động tiêu đề văn bản, góp phần phát triển các ứng dụng trí tuệ nhân tạo trong lĩnh vực xử lý ngôn ngữ tự nhiên.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mô hình Seq2Seq và cơ chế Attention**: Mô hình Seq2Seq gồm bộ mã hóa (encoder) và bộ giải mã (decoder) sử dụng mạng LSTM để xử lý chuỗi dữ liệu, kết hợp cơ chế Attention giúp tập trung vào các phần quan trọng của văn bản đầu vào khi tạo tiêu đề, khắc phục hạn chế của mô hình truyền thống trong việc xử lý chuỗi dài.
- **Hệ số TF-IDF**: Thuật toán thống kê đánh giá mức độ quan trọng của từ trong văn bản dựa trên tần suất xuất hiện và tần suất nghịch đảo trong tập tài liệu, được sử dụng để xác định từ khóa quan trọng nhất làm điểm khởi đầu cho quá trình tạo tiêu đề.
- **Cơ chế Teacher Forcing**: Chiến lược huấn luyện mạng nơ-ron lặp lại bằng cách sử dụng đầu ra thực tế làm đầu vào cho bước tiếp theo, giúp mô hình hội tụ nhanh hơn và giảm lỗi sai lặp trong quá trình tạo tiêu đề.
- **Mô hình ngôn ngữ (Language Model)**: Mô hình dự đoán xác suất xuất hiện của từ tiếp theo dựa trên ngữ cảnh, được huấn luyện trên tập corpus lớn để sửa lỗi ngữ pháp và làm mượt tiêu đề tự động tạo ra.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Sử dụng tập dữ liệu đánh giá thực phẩm Amazon (khoảng 500.000 bài viết) làm dữ liệu chính để huấn luyện mô hình tạo tiêu đề, đồng thời sử dụng kho dữ liệu mở rộng gồm 35 triệu bài đánh giá Amazon để huấn luyện mô hình TF-IDF và mô hình ngôn ngữ.
- **Phương pháp phân tích**: Xây dựng mô hình Forcing-Seq2Seq kết hợp Seq2Seq với Attention, TF-IDF, Teacher Forcing và mô hình ngôn ngữ. Đánh giá mô hình bằng chỉ số BLEU và khảo sát đánh giá thủ công của 11 tình nguyện viên trên 600 tiêu đề tạo ra từ 200 văn bản.
- **Timeline nghiên cứu**: Quá trình nghiên cứu gồm 4 giai đoạn chính: tìm hiểu công trình liên quan, xây dựng hệ thống mô hình, thu thập và xử lý dữ liệu, đánh giá kết quả mô hình. Thời gian thực hiện kéo dài trong khoảng 1 năm, hoàn thành bảo vệ luận văn tháng 8 năm 2021.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Forcing-Seq2Seq đạt điểm BLEU trung bình 49,73%, cao hơn đáng kể so với mô hình Base-Seq2Seq (35,23%) và Smooth-Seq2Seq (35,97%), cho thấy hiệu quả cải tiến trong việc tạo tiêu đề tự động.
- Tỷ lệ tiêu đề tự động tạo ra được đánh giá hợp lý (phản ánh đúng nội dung văn bản gốc) đạt 82,10%, vượt trội so với Base-Seq2Seq (64,73%) và Smooth-Seq2Seq (79,02%).
- Tỷ lệ tiêu đề khả thi (có thể sử dụng thay thế tiêu đề gốc) của Forcing-Seq2Seq là 69,57%, cao hơn nhiều so với Base-Seq2Seq (26,64%) và Smooth-Seq2Seq (43,37%).
- Ví dụ thực tế cho thấy tiêu đề tạo ra từ Forcing-Seq2Seq không chỉ ngắn gọn, đúng ngữ pháp mà còn truyền tải được nội dung trọng tâm, thậm chí có tiêu đề còn hay hơn tiêu đề gốc.

### Thảo luận kết quả

Kết quả cho thấy việc kết hợp TF-IDF để xác định từ khóa quan trọng làm điểm khởi đầu cho quá trình giải mã (Teacher Forcing) giúp mô hình tập trung vào nội dung trọng tâm, giảm sai lệch ngữ nghĩa so với mô hình truyền thống. Mô hình ngôn ngữ hỗ trợ sửa lỗi ngữ pháp, loại bỏ hiện tượng lặp từ, làm tiêu đề mạch lạc và tự nhiên hơn. So với các nghiên cứu trước đây chỉ sử dụng Seq2Seq và Attention, mô hình đề xuất đã khắc phục được hạn chế về độ chính xác và tính khả thi của tiêu đề tự động. Dữ liệu đánh giá thủ công từ 11 tình nguyện viên cũng xác nhận tính thực tiễn và hiệu quả của mô hình. Tuy nhiên, mô hình hiện chỉ được huấn luyện trên dữ liệu đánh giá thực phẩm, do đó khả năng áp dụng cho các lĩnh vực khác còn hạn chế và cần mở rộng tập dữ liệu huấn luyện. Các lỗi ngữ pháp nhỏ vẫn còn tồn tại, cần nghiên cứu thêm các kỹ thuật xử lý ngôn ngữ nâng cao để cải thiện.

## Đề xuất và khuyến nghị

- **Mở rộng tập dữ liệu huấn luyện**: Thu thập và tích hợp thêm các bộ dữ liệu đa dạng về lĩnh vực và ngôn ngữ nhằm nâng cao khả năng tổng quát và ứng dụng của mô hình. Mục tiêu tăng độ chính xác tiêu đề trên các lĩnh vực mới trong vòng 12-18 tháng, do nhóm nghiên cứu và đối tác dữ liệu thực hiện.
- **Nâng cao mô hình ngôn ngữ**: Phát triển và áp dụng các kỹ thuật sửa lỗi ngữ pháp nâng cao, bao gồm mô hình ngôn ngữ dựa trên Transformer hoặc BERT để cải thiện tính mạch lạc và chính xác của tiêu đề. Mục tiêu giảm lỗi ngữ pháp xuống dưới 5% trong 6 tháng tới.
- **Tích hợp kỹ thuật tóm tắt hiện đại**: Nghiên cứu và áp dụng các phương pháp tóm tắt văn bản mới như tóm tắt dựa trên Transformer, attention đa chiều để tăng tính thu hút và sáng tạo của tiêu đề tự động. Thời gian thử nghiệm và đánh giá trong 1 năm.
- **Phát triển hệ thống ứng dụng thực tiễn**: Xây dựng giao diện và API cho phép tích hợp mô hình vào các hệ thống quản lý nội dung, trang báo điện tử, mạng xã hội để tự động tạo tiêu đề, giảm tải công việc biên tập viên. Mục tiêu triển khai thử nghiệm trong 9 tháng tới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo**: Nghiên cứu các mô hình học sâu, xử lý ngôn ngữ tự nhiên, đặc biệt là tóm tắt văn bản và tạo tiêu đề tự động.
- **Các công ty công nghệ phát triển sản phẩm AI, xử lý ngôn ngữ tự nhiên**: Áp dụng mô hình Forcing-Seq2Seq để nâng cao chất lượng sản phẩm, tự động hóa quy trình biên tập nội dung.
- **Biên tập viên, nhà quản lý nội dung báo chí và truyền thông**: Tận dụng công nghệ tự động tạo tiêu đề để giảm thiểu thời gian và công sức trong việc xử lý bài viết, nâng cao hiệu quả công việc.
- **Các tổ chức nghiên cứu và phát triển ứng dụng AI trong lĩnh vực truyền thông, marketing**: Tham khảo mô hình và phương pháp để phát triển các giải pháp tự động hóa nội dung, tăng tính tương tác và thu hút người đọc.

## Câu hỏi thường gặp

1. **Mô hình Forcing-Seq2Seq khác gì so với các mô hình tóm tắt truyền thống?**  
Mô hình kết hợp Seq2Seq với Attention, TF-IDF để xác định từ khóa quan trọng, sử dụng cơ chế Teacher Forcing để bắt đầu giải mã bằng từ khóa này, đồng thời áp dụng mô hình ngôn ngữ để sửa lỗi ngữ pháp, giúp tạo tiêu đề chính xác và tự nhiên hơn.

2. **Tại sao cần sử dụng TF-IDF trong mô hình?**  
TF-IDF giúp xác định từ quan trọng nhất trong văn bản gốc, từ đó làm điểm khởi đầu cho quá trình tạo tiêu đề, đảm bảo tiêu đề phản ánh đúng nội dung trọng tâm của bài viết.

3. **Phương pháp đánh giá mô hình được thực hiện như thế nào?**  
Đánh giá tự động bằng chỉ số BLEU so sánh tiêu đề tạo ra với tiêu đề gốc, đồng thời đánh giá thủ công bởi 11 tình nguyện viên dựa trên tính hợp lý và khả thi của tiêu đề.

4. **Mô hình có thể áp dụng cho các lĩnh vực khác ngoài đánh giá thực phẩm không?**  
Hiện tại mô hình được huấn luyện chủ yếu trên dữ liệu đánh giá thực phẩm, cần mở rộng tập dữ liệu để áp dụng hiệu quả cho các lĩnh vực khác.

5. **Làm thế nào để cải thiện mô hình trong tương lai?**  
Mở rộng dữ liệu huấn luyện, nâng cao mô hình ngôn ngữ, tích hợp kỹ thuật tóm tắt hiện đại và phát triển hệ thống ứng dụng thực tiễn là các hướng cải tiến chính.

## Kết luận

- Mô hình Forcing-Seq2Seq đã cải thiện đáng kể hiệu quả tạo tiêu đề tự động so với các mô hình nền tảng, đạt điểm BLEU 49,73% và tỷ lệ tiêu đề hợp lý 82,10%.  
- Kết hợp TF-IDF và cơ chế Teacher Forcing giúp mô hình tập trung vào nội dung trọng tâm, giảm sai lệch ngữ nghĩa.  
- Mô hình ngôn ngữ hỗ trợ sửa lỗi ngữ pháp, làm tiêu đề mạch lạc và tự nhiên hơn.  
- Nghiên cứu mở ra hướng phát triển các hệ thống tự động hóa biên tập nội dung trong lĩnh vực truyền thông và xử lý ngôn ngữ tự nhiên.  
- Đề xuất mở rộng dữ liệu và nâng cao mô hình để tăng tính ứng dụng và chất lượng tiêu đề trong tương lai.  

**Hành động tiếp theo**: Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình vào thực tiễn, đồng thời tiếp tục phát triển và hoàn thiện mô hình theo các hướng đề xuất để nâng cao hiệu quả và phạm vi ứng dụng.