I. Giới Thiệu Bài Toán Xây Dựng Mục Lục Tự Động Tổng Quan
Trong kỷ nguyên số, lượng thông tin bùng nổ đặt ra thách thức lớn về khả năng tiếp cận và xử lý thông tin hiệu quả. Các hệ thống thu nhận thông tin (Information Retrieval) như Yahoo!, Google đã hỗ trợ tìm kiếm thông tin, nhưng việc nắm bắt nhanh chóng và chính xác nội dung cốt lõi vẫn còn hạn chế. Bài toán tóm tắt văn bản ra đời nhằm giải quyết vấn đề này, giúp người dùng dễ dàng nắm bắt ý chính của văn bản dưới dạng cô đọng. Ví dụ điển hình là thẻ tóm tắt sách trong thư viện, hoặc đoạn tóm tắt ở đầu bài báo. Tuy nhiên, việc tóm tắt thủ công tốn kém và không phải lúc nào cũng có sẵn. Do đó, tự động hóa quá trình tóm tắt văn bản trở thành yêu cầu cấp thiết. Các nghiên cứu về tóm tắt văn bản đã phát triển theo nhiều hướng, từ trích đoạn văn, câu quan trọng đến cụm từ ý nghĩa, và từ tóm tắt đơn văn bản đến đa văn bản. Tuy nhiên, hầu hết các phương pháp hiện tại tập trung vào văn bản ngắn như tin tức, bỏ ngỏ các văn bản cỡ lớn như tài liệu nghiên cứu, sách. Trong số đó, bài toán xây dựng mục lục cho văn bản đang thu hút sự quan tâm đặc biệt. Mục lục không chỉ chứa thông tin về nội dung mà còn định vị thông tin, với các tiêu đề súc tích. Luận văn này nghiên cứu và đề xuất phương pháp xây dựng mục lục tự động, hướng tới giải quyết bài toán cho văn bản cỡ trung bình và lớn, dựa trên các nghiên cứu về phân đoạn văn bản và sinh tiêu đề. Mục tiêu là nghiên cứu, giải quyết và đề xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡ trung bình và lớn thông qua các công trình nghiên cứu hiện tại trên thế giới. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán phân đoạn văn bản và bài toán sinh tiêu đề cho văn bản. Luận văn cũng tiến hành thử nghiệm trên một vài văn bản với sự đánh giá của các chuyên gia là các nhà ngôn ngữ học để đánh giá về tính chính xác của kết quả đạt được. Các kết quả bước đầu đạt được cho thấy hướng nghiên cứu của luận văn là có triển vọng và có khả năng phát triển tiếp thành một bài toán tổng thể cỡ lớn hơn.
1.1. Tóm Tắt Văn Bản Giải Pháp Tiếp Cận Thông Tin Nhanh Chóng
Bài toán tóm tắt văn bản đã có một lịch sử từ lâu đời, ví dụ như công việc của một người thư kí, có trách nhiệm tóm tắt lại những ý chính của tài liệu (tóm tắt đơn văn bản) hoặc tổng hợp thông tin trên nhiều tài liệu (tóm tắt đa văn bản). Hay trong các thư viện, người thủ thư phải đọc qua tài liệu để tóm tắt ý chính hoặc đưa ra các từ khoá trên các thẻ bài để người đọc có thể tìm thấy tài liệu dễ dàng. Trong thời kì thông tin được số hoá, bài toán tóm tắt văn bản số (sau đây gọi chung là văn bản) được giải quyết lần đầu tiên trong bài báo của Luhn năm 1958. Trong bài báo này, Luhn giải quyết bài toán tạo ra một đoạn tóm tắt (abstract) cho các tài liệu kĩ thuật. Những năm sau đó, bài toán được tiếp tục phát triển với nhiều cải tiến mới [Paice 1990, Tait 1983]. Và khi Internet thực sự đi vào cuộc sống con người (từ những năm 90) thì bài toán được quan tâm nhiều hơn. Một vài hướng tiếp cận đã được triển khai: tiếp cận theo hướng ngôn ngữ học [], và tiếp cận theo hướng thống kê [] hoặc kết hợp cả hai []. Tóm tắt văn bản tự động để đạt được mức như con người là một bài toán khó vì việc hiểu ngôn ngữ tự nhiên là một bài toán khó. Việc xây dựng một công cụ tóm tắt tổng quát là rất khó khăn do các yếu tố ảnh hưởng đến việc tóm tắt rất đa dạng, như phong cách viết, thể loại văn bản, từ vựng, cấu trúc câu,…
1.2. Xây Dựng Mục Lục Tự Động Hướng Tiếp Cận Mới Cho Văn Bản Dài
Các nghiên cứu giải quyết bài toán tóm tắt văn bản hầu hết chỉ tập trung vào việc xử lí các văn bản ngắn, đặc biệt là các mẩu tin tức hoặc bài viết nhỏ []. Hơn thế nữa, các phương pháp được đề ra cũng thường chỉ tập trung cho các văn bản thuộc một lĩnh vực cụ thể nào đó []. Điều này đã làm bỏ ngỏ một lĩnh vực nghiên cứu tóm tắt văn bản cho các văn bản cỡ trung bình và dài như tài liệu kĩ thuật hoặc các cuốn sách. Hiện tại cũng đã có một vài công trình được công bố nhằm giải quyết bài toán này nhưng hầu như cũng vẫn chỉ dùng các cách thức cũ để áp dụng cho bài toán lớn hơn []. Luận văn này sẽ tiến hành nghiên cứu một bài toán khá mới mẻ, đó là bài toán xây dựng mục lục cho văn bản []. Đây là một kiểu tóm tắt chỉ dẫn rất thích hợp cho việc truy cập thông tin trong những văn bản dài. Mục lục là nơi liệt kê ra danh sách các chủ đề trong tài liệu và vị trí tương ứng của từng chủ đề. Danh sách các chủ đề trong một văn bản, xét theo một khía cạnh nào đó cũng là một dạng tóm tắt giàu thông tin vì nó thường có độ dài vừa phải và chứa được tất cả những ý cốt lỗi nhất trong văn bản.
1.3. Phương Hướng Tiếp Cận Phân Đoạn Văn Bản Và Sinh Tiêu Đề
Có thể phát biểu một cách ngắn gọn bài toán xây dựng mục lục cho văn bản như sau: Cho trước một văn bản, cần phải sinh ra một cây, trong đó mỗi nút là một đoạn văn bản và tiêu đề của đoạn văn bản tương ứng. Quá trình này liên quan đến hai bài toán khác: - Phân đoạn văn bản (Text Segmentation): phân văn bản thành các đoạn độc lập và liên tục với nội dung các phần có sự tách biệt về mặt ngữ nghĩa. - Sinh tiêu đề (Title Generation): sinh ra các tiêu đề ngắn gọn, giàu thông tin cho đoạn văn bản tương ứng. Đối với bài toán thứ nhất, phân đoạn văn bản, ta có thể giải quyết bằng cách sử dụng cấu trúc sẵn có của văn bản (chương, mục, mục con,…) hoặc sử dụng một phương pháp phân đoạn văn bản tự động []. Trong luận văn này, tôi sử dụng hướng tiếp cận thứ hai vì thực tế cho thấy, nếu một văn bản đã được chia thành các chương, mục (hướng tiếp cận thứ nhất) thì bản thân tác giả của văn bản cũng đã xác định tiêu đề cho các phần và do đó việc sinh mục lục sẽ vô cùng đơn giản. Ngoài ra, bài toán phân đoạn văn bản cũng được chia làm hai loại là phân đoạn văn bản một cấp và phân đoạn văn bản đa cấp.
II. Thách Thức Vấn Đề Khi Xây Dựng Mục Lục Tự Động
Các nghiên cứu hiện tại về tóm tắt văn bản thường tập trung vào văn bản ngắn, đặc biệt là tin tức. Các phương pháp cũng thường chỉ áp dụng cho một lĩnh vực cụ thể, bỏ ngỏ văn bản cỡ trung bình và dài như tài liệu kỹ thuật, sách. Một vấn đề nữa là chất lượng tóm tắt bị ảnh hưởng bởi nhiều yếu tố như phong cách viết, thể loại văn bản, từ vựng, cấu trúc câu. Do đó, công cụ tóm tắt thường chỉ tập trung vào một mục tiêu cụ thể. Thách thức lớn nhất trong xây dựng mục lục tự động là làm sao để tự động hóa quá trình tóm tắt văn bản dựa trên nội dung sẵn có. Trên thế giới đã có rất nhiều công trình nghiên cứu về vấn đề này và cũng nghiên cứu cách thức tóm tắt theo nhiều hướng khác nhau, từ rút trích một đoạn văn, rút trích một vài câu quan trọng cho tới rút trích các cụm từ có ý nghĩa; rồi từ tóm tắt trên một văn bản tới tóm tắt trên phạm vi nhiều văn bản;… Tuy nhiên hầu hết các phương pháp hiện tại đều áp dụng cho các văn bản tương đối ngắn như tin tức, bài hướng dẫn, bài trình bày,… và không có tính chất định vị thông tin. Đối với các văn bản cỡ lớn hơn như tài liệu nghiên cứu, sách,… thì có rất ít các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản. Cơ sở của bài toán này là bản thân mục lục của một tài liệu dài không những chứa một lượng lớn thông tin về nội dung của văn bản mà còn có khả năng định vị thông tin bên trong văn bản.
2.1. Hạn Chế Của Tóm Tắt Văn Bản Truyền Thống
Tóm tắt văn bản tự động để đạt được mức như con người là một bài toán khó vì việc hiểu ngôn ngữ tự nhiên là một bài toán khó. Việc xây dựng một công cụ tóm tắt tổng quát là rất khó khăn do các yếu tố ảnh hưởng đến việc tóm tắt rất đa dạng, như phong cách viết, thể loại văn bản, từ vựng, cấu trúc câu,… Do vậy, các công cụ tóm tắt văn bản thường chỉ tập trung theo một mục tiêu nào đó như theo thể loại văn bản, theo mục đích sử dụng,… Có thể kể ra một vài bài toán tóm tắt văn bản theo các hướng khác nhau như sau [Gol]: - Các thức xây dựng: Một đoạn tóm tắt kiểu ngôn ngữ tự nhiên được tạo ra bằng việc sử dụng các biểu diễn ngữ nghĩa để phản anh cấu trúc và các ý chính của văn bản, trong khi tóm tắt kiểu trích dẫn chứa một vài đoạn văn bản trong văn bản gốc. - Kiểu: Tóm tắt tổng quát sẽ đưa ra những ý chung của văn bản, trong khi tóm tắt hướng truy vấn sẽ đưa ra những nội dung có liên quan truy vấn của người dùng.
2.2. Thiếu Nghiên Cứu Về Xây Dựng Mục Lục Cho Văn Bản Dài
Đối với các văn bản cỡ lớn hơn như tài liệu nghiên cứu, sách,… thì có rất ít 2 các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản. Cơ sở của bài toán này là bản thân mục lục của một tài liệu dài không những chứa một lượng lớn thông tin về nội dung của văn bản mà còn có khả năng định vị thông tin bên trong văn bản. Ngoài ra các tiêu đề nằm ở mục lục còn manh tính súc tích cao. Với thực tế như đã trình bày ở trên, luận văn tiến hành nghiên cứu và đề xuất phương pháp xây dựng mục lục cho văn bản thông qua đề tài “Xây dựng mục lục cho văn bản”. Mục tiêu của luận văn là nghiên cứu, giải quyết và đề xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡ trung bình và lớn thông qua các công trình nghiên cứu hiện tại trên thế giới. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán phân đoạn văn bản và bài toán sinh tiêu đề cho văn bản.
III. Các Phương Pháp Phân Đoạn Văn Bản Tự Động Hiệu Quả
Bài toán phân đoạn văn bản có thể được hiểu là bài toán với một văn bản cho trước, hãy xác định những vị trí mà ở đó chủ đề thay đổi. Đối với các văn bản ngắn như bài báo hay bản tin thì chỉ có một chủ đề xuyên suốt toàn văn bản, sự phân lập về mặt chủ đề giữa các đoạn hầu như không có. Tuy nhiên trong các văn bản dài hơn, như tài liệu khảo cứu khoa học thì có rất nhiều phần khác nhau, mỗi phần nói về một vấn đề riêng biệt tuy cùng chung một mục đích là giải quyết mục tiêu của văn bản. Bài toán này đã được giải quyết theo một vài hướng khác nhau []. Trong phần tiếp theo, luận văn sẽ trình bày một vài trong số các phương pháp này để làm tiền đề cho các thử nghiệm của luận văn. Bài toán phân đoạn văn bản không chỉ có ý nghĩa với các văn bản thông thường, nó còn có ý nghĩa lớn với các bài toán liên quan đến văn bản dạng nói hay hình ảnh []. Ví dụ, trong bài phát biểu chào mừng năm học mới của hiệu trưởng, có rất nhiều phần khác nhau như: chào mừng học sinh mới, sơ kết năm học cũ và phương hướng năm học mới.
3.1. Sử Dụng Mối Liên Kết Từ Vựng Phương Pháp TextTiling
Một số cách tiếp cận giải quyết bài toán phân đoạn văn bản đã được công bố dựa trên độ đo về sự khác nhau trong việc sử dụng từ của hai phân đoạn ở hai phía của đường biên phân đoạn: nếu có sự khác biệt lớn trong việc sử dụng từ ở hai phía của một vị trí phân tác thì đó được coi là đường biên. Điển hình cho phương pháp này là hệ thống TextTiling của Hearst (1994). Hearst đã sử dụng ý tưởng về mỗi quan hệ liên kết từ vựng trong văn bản trong [Halliday] để tìm ra những vị trí mà ở đó diễn ra sự thay đổi đồng thời của rất nhiều yếu tố như không gian, thời gian, cấu trúc, sự kiện,… và sự thay đổi này là đạt cực đại tại điểm đó. Trong TextTiling, Heart chia văn bản thành các “tile”. Các tile mang ý nghĩa tương đương với các đoạn bị phân lập do quá trình phân đoạn văn bản. Sau đây, luận văn sẽ trình bày tóm tắt thuật toán của Hearst dùng để tìm ra cấu trúc chủ đề nhỏ cho văn bản (mỗi đoạn được coi là 1 chủ đề). Các nghiên cứu trước đây của [Halliday, Tannen, Walker] cho thấy rằng sự lặp lại của các khái niệm chỉ ra mối liên kết chặt chẽ về mặt ngữ nghĩa. Điều đó đã chỉ ra rằng sự lặp lại của các khái niệm sẽ rất có ích trong việc xác định cấu trúc phân đoạn của văn bản và chúng ta sẽ sử dụng yếu tố lặp lại của các khái niệm với vai trò là yếu tố chỉ ra mối liên kết từ vựng.
3.2. Mô Hình Nhát Cắt Cực Tiểu Tiếp Cận Dựa Trên Lý Thuyết Đồ Thị
Ngoài việc sử dụng các mối liên kết từ vựng, chúng ta còn có thể ứng dụng lí thuyết đồ thị để giải quyết bài toán phân đoạn văn bản. Tiêu biểu cho phương pháp này là mô hình nhát cắt cực tiểu được trình bày trong [Malioutov, Regina 2006]. Mô hình này sử dụng phép phân hoạch đồ thị thoả mãn điều kiện nhát cắt chuẩn hoá (normalized-cut criterion) [Shi, Malik 2000]. Trong khi các các tiếp cận trước đây sử dụng độ đo tương tự để phân đoạn thì trong mô hình này, các tác giả mô hình hoá đối tượng của bài toán thông qua các nhát cắt trên đồ thị. Mô hình này sẽ tìm cách cực đại độ tương tự trong mỗi phân đoạn và cực tiểu độ tương tự giữa các phân đoạn khác nhau. Mô hình nhát cắt cực tiểu Cho đồ thị G = {V , E} là một đồ thị vô hướng có trọng số trong đó V là tập hợp các đỉnh tương ứng với các câu trong văn bản và E là tập hợp các cạnh có trọng số. Trọng số w ( u, v ) định nghĩa độ tương tự giữa hai đỉnh u và v, trong đó trọng số cao hơn chỉ ra rằng độ tương tự cao hơn. Chi tiết về cách thức xây dựng đồ thị sẽ được trình bày ở phần xây dựng đồ thị.
IV. Bí Quyết Sinh Tiêu Đề Tự Động Tạo Tiêu Đề Hấp Dẫn
So với toàn bộ văn bản, tiêu đề sẽ biểu diễn ngắn gọn thông tin trong văn bản và do đó giúp người đọc nhanh chóng nắm bắt được đại ý của toàn văn bản. Tự động sinh tiêu đề cho văn bản là một bài toán phức tạp, nó không chỉ đòi hỏi lựa chọn những từ có khả năng xuất hiện trong tiêu đề mà còn phải được sắp xếp theo một thứ tự phù hợp, đúng thứ tự và dễ hiểu. Bài toán này có nhiều khác biệt so với bài toán tóm tắt văn bản thông thường. Ở bài toán tóm tắt văn bản thông thường, độ dài của đoạn tóm tắt thường là 50, 100, 200 hay 400 từ (theo chuẩn của DUC), nhưng với bài toán sinh tiêu đề thì độ dài đó chỉ là từ 1 đến 12 từ [Banko] (Hình 2). Cũng vì lí do độ dài ngắn như vậy cho nên trong bài toán này, người ta thường dùng các phương pháp trích chọn ra các từ hoặc cụm từ mang ý nghĩa chính trong văn bản mà cụ thể là các danh từ/cụm danh từ hoặc động từ/cụm động từ [Roxana 2002].
4.1. Phương Pháp Trích Chọn Cụm Từ Tìm Kiếm Tiêu Đề Ngắn Gọn
Phương pháp trích chọn cụm từ sẽ tiến hành phân tích các câu trong văn bản để tìm ra từ/cụm từ mang ý nghĩa tiêu biểu cho văn bản. Phương pháp này thường dựa vào các đặc trưng như: vị trí của cụm từ và sự phổ biến của cụm từ đó trong văn bản. Trong [Roxana, 2002], các tác giả đã phân tích và sử dụng cụm danh từ để làm tiêu đề cho từng đoạn văn bản. Theo đó, phương pháp này bao gồm các bước sau: - Phân đoạn văn bản thành các câu rời rạc. - Gán nhãn từ loại cho các từ trong câu (POS Tagging). - Tìm các danh từ/cụm danh từ trong câu. - Tìm ra câu quan trọng nhất trong văn bản. - Tìm ra chủ đề của câu quan trọng nhất ở bước trên và coi đó là tiêu đề của đoạn văn bản.
4.2. Phương Pháp Hai Pha Kết Hợp Chọn Lọc Và Sắp Xếp Từ
Trong phương pháp này, việc sinh tiêu đề cho văn bản được chia làm hai pha [Witbrock 1999, Hauptmann 2000-2001]: - Pha 1: Chọn ra các từ có trọng số cao nhất trong văn bản và coi đó là các từ có ý nghĩa nhất trong văn bản. Các trọng số này thông thường được tính theo TF * IDF mà trong trường hợp này thì là TF do chỉ có một văn bản/đoạn văn bản. - Pha 2: Các từ được chọn sẽ được sắp xếp lại theo các thức hợp lí nhất. Có 2 cách sắp xếp: cách thứ nhất dựa trên thứ tự nội tại trong văn bản; cách thứ hai là dựa trên thống kê sử dụng mô hình n-gram. Tuy nhiên phương pháp này tồn tại 2 vấn đề cơ bản liên quan đến cả 2 pha ở trên: - Pha 1: Các từ loại như giới từ, tính từ, mạo từ thường không mang mấy ý nghĩa trong việc chỉ ra ý chính của văn bản. Do đó các từ này thường phải bị loại đi. Để giải quyết vấn đề này thì ta có thể loại bỏ từ dừng, sử dụng nhãn từ loại để chỉ giữ lại danh từ, động từ hoặc cụm danh từ, cụm động từ.
V. Xây Dựng Mục Lục Mô Hình Tích Hợp Phân Đoạn Tiêu Đề
Như đã phân tích ở chương 1, bài toán xây dựng mục lục cho văn bản là một bài toán tóm tắt văn bản loại chỉ dẫn, theo đó trong “tóm tắt” sẽ có thông tin ngắn gọn cho từng đoạn văn bản và vị trí của đoạn văn bản tương ứng. Để có thể giải quyết bài toán này thì luận văn chọn hướng tiếp cận chia bài toán ra làm hai bài toán con là bài toán phân đoạn văn bản và bài toán sinh tiêu đề cho đoạn văn bản. Các bài toán này đã lần lượt được trình bày trong chương 2. Về mặt nguyên tắc thì hai bài toán này có thể được giải quyết một cách độc lập, theo đó, sau khi văn bản được phân thành các đoạn độc lập với nhau thì ta sẽ áp dụng thuật toán sinh tiêu đề cho từng đoạn một. Tuy nhiên điều này sẽ gây lãng phí những thông tin đã thu thập được ở bước phân đoạn văn bản đồng thời có thể sẽ tạo ra những tiêu đề giống nhau. Để giải quyết vấn đề trên, luận văn đề xuất một phương pháp để có thể sử dụng lại các đặc trưng đã thu thập được ở bước phân đoạn văn bản và sử dụng cho bước tiếp theo.
5.1. Sử Dụng Đặc Trưng Từ Vựng Tái Sử Dụng Thông Tin Phân Đoạn
Cơ sở của đề xuất này dựa trên nhận xét là khi ta phân đoạn văn bản thì đã dựa trên sự thay đổi chủ đề của các đoạn văn bản, điều đó có nghĩa là tiêu đề của văn bản đã ít nhiều được xác định tuy còn ở dạng “ẩn”. Các đặc trưng được sử dụng ở đây là các đặc trưng về từ vựng. Cụ thể như sau: - Tại bước phân đoạn văn bản, thay vì sử dụng tất cả các từ có trong mỗi câu, ta chỉ sử dụng các cụm danh từ, cụm động từ và do đó chuỗi từ vựng cho từng câu sẽ là các từ trong cụm danh từ và cụm động từ của câu đó. - Với các chuỗi từ vựng (các vectơ biều diễn câu) như trên, ta sẽ xác định được câu quan trọng nhất trong văn bản dựa trên đồ thị được xây dựng như mô tả như sau: Mỗi đỉnh tương ứng với một chuỗi từ vựng. Trọng số của các cạnh nối giữa các đỉnh là độ đo tương tự (cosin) giữa các chuỗi từ vựng tương ứng.
5.2. Thuật Toán Sinh Mục Lục Đảm Bảo Tính Hợp Lý Giữa Các Tiêu Đề
Như đã trình bày ở phần trước, trong mục lục chúng ta sẽ đưa ra tiêu đề và vị trí của các đoạn văn bản tương ứng. Tiêu đề này sẽ là cụm từ ngắn gọn mô tả mục đích chính của toàn đoạn văn. Tuy nhiên có rất nhiều trường hợp mà mục lục sinh ra sẽ có sự trùng lặp giữa các phân đoạn khác nhau, nghĩa là tiêu đề giống nhau cho hai đoạn văn bản khác nhau [Branavan 2007]. Hơn nữa, suy luận một cách “kinh nghiệm” cho thấy rằng, đối với các mục lục đa cấp thì tiêu đề của các mục con phải có sự liên hệ nào đó với mục cha và liên hệ đó có thể là một quan hệ toàn thể - bộ phận trên một ontology cho lĩnh vực tương ứng với văn bản. Để giải quyết vấn đề này, luận văn đề xuất một thuật toán trung gian để sinh mục lục dựa trên thuật toán được nêu trong [Branavan 2007]. Cụ thể như sau: - Mỗi đoạn văn bản thay vì đưa ra chỉ một tiêu đề thì sẽ đưa ra một danh sách k tiêu đề và được sắp xếp có thứ tự theo mức độ quan trọng của nó trong đoạn văn bản.
VI. Thử Nghiệm Đánh Giá Kết Quả Phương Hướng Cải Tiến SEO
Luận văn đã tiến hành nghiên cứu và tìm hiểu bài toán xây dựng mục lục cho văn bản. Đây là một bài toán mới trong lĩnh vực xử lí ngôn ngữ tự nhiên và có liên hệ mật thiết với bài toán tóm tắt văn bản. Phương pháp giải quyết của luận văn là chia quá trình xây dựng mục lục thành hai quá trình nhỏ hơn là phân đoạn văn bản và sinh tiêu đề cho đoạn văn bản. Với mỗi quá trình này, luận văn đã tiến hành nghiên cứu, tìm hiểu và giới thiệu các phương pháp chính để giải quyết vấn đề đồng thời đánh giá ưu điểm cũng như khuyết điểm của các phương pháp. Luận văn đã tiến hành thử nghiệm trên một văn bản khoa học cụ thể để chứng minh tính khả thi của bài toán. Các kết quả thu được tương đối khả quan cho thấy triển vọng phát triển của bài toán. Luận văn cũng đã đưa ra một số đề xuất về phương án tích hợp hai quá trình để giảm thiểu dư thừa dữ liệu cũng như thời gian tính toán.
6.1. Đánh Giá Thuật Toán Phân Đoạn Độ Đo Pk và WindowDiff
Trong bài báo năm 1994, Hearst sử dụng hai độ đo phổ biến trong học máy để đánh giá thuật toán là độ chính xác (precision) và độ hồi tưởng (recall) được định nghĩa như sau: - Độ chính xác là tỉ lệ số đường biên mà mô hình chọn chính xác trên tổng số các đường biên được mô hình xác định trong văn bản. - Độ hồi tưởng là tỉ lệ số đường biên mà mô hình chọn chính xác trên tổng số đường biên thực của văn bản. Hai độ đo này cũng được sử dụng khá nhiều trong các công trình khác, tuy nhiên hai độ đo này gặp phải hai vấn đề lớn: - Sự tác động qua lại vốn có của hai độ đo này, nghĩa là khi một độ đo tăng lên sẽ có khuynh hướng làm giảm độ đo còn lại. Ví dụ, khi ta đặt thêm nhiều đường biên hơn thì sẽ làm tăng độ hồi tưởng trong khi độ chính xác lại giảm đi. Một số công trình khác sử dụng độ đo F [Baeza, 1999] hoặc sử dụng đồ thị biểu diễn độ chính xác tương ứng với các mức khác nhau của độ hồi tưởng.
6.2. Đánh Giá Thuật Toán Tiêu Đề So Sánh Với Tiêu Đề Gốc
Hiện nay, cách đánh giá thuật toán sinh tiêu đề phổ biến là so sánh tiêu đề sinh ra tự động với tiêu đề có sẵn của văn bản mẫu. Việc so sánh được thực hiện sau khi cả hai tiêu đề đã trải qua các bước tiền xử lý bao gồm: - Loại bỏ từ dừng. - Đưa từ về từ gốc (stemming). Sau đó, việc đánh giá thuật toán sinh tiêu đề sẽ được tính dựa trên ba độ đo phổ biến trong lĩnh vực học máy là độ chính xác P (precision), độ hồi tưởng R (recall) và độ đo F1 ( Fβ với β = 1). Nếu gọi tập hợp các từ trong tiêu đề do thuật toán sinh ra là Tgen và tập hợp các từ trong tiêu đề gốc do con tác giả đặt là Torg thì các độ đo được tính lần lượt như sau: