Luận Văn: Xây Dựng Mục Lục Tự Động Cho Văn Bản Điểm Cao (ĐH Công Nghệ - ĐHQGHN)

Tối ưu văn bản với mục lục tự động! Khám phá phương pháp xây dựng mục lục hiệu quả, giúp văn bản điểm cao, dễ đọc, tăng trải nghiệm người dùng.

2007

47
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Giới Thiệu Bài Toán Xây Dựng Mục Lục Tự Động Tổng Quan

Trong kỷ nguyên số, lượng thông tin bùng nổ đặt ra thách thức lớn về khả năng tiếp cận và xử lý thông tin hiệu quả. Các hệ thống thu nhận thông tin (Information Retrieval) như Yahoo!, Google đã hỗ trợ tìm kiếm thông tin, nhưng việc nắm bắt nhanh chóng và chính xác nội dung cốt lõi vẫn còn hạn chế. Bài toán tóm tắt văn bản ra đời nhằm giải quyết vấn đề này, giúp người dùng dễ dàng nắm bắt ý chính của văn bản dưới dạng cô đọng. Ví dụ điển hình là thẻ tóm tắt sách trong thư viện, hoặc đoạn tóm tắt ở đầu bài báo. Tuy nhiên, việc tóm tắt thủ công tốn kém và không phải lúc nào cũng có sẵn. Do đó, tự động hóa quá trình tóm tắt văn bản trở thành yêu cầu cấp thiết. Các nghiên cứu về tóm tắt văn bản đã phát triển theo nhiều hướng, từ trích đoạn văn, câu quan trọng đến cụm từ ý nghĩa, và từ tóm tắt đơn văn bản đến đa văn bản. Tuy nhiên, hầu hết các phương pháp hiện tại tập trung vào văn bản ngắn như tin tức, bỏ ngỏ các văn bản cỡ lớn như tài liệu nghiên cứu, sách. Trong số đó, bài toán xây dựng mục lục cho văn bản đang thu hút sự quan tâm đặc biệt. Mục lục không chỉ chứa thông tin về nội dung mà còn định vị thông tin, với các tiêu đề súc tích. Luận văn này nghiên cứu và đề xuất phương pháp xây dựng mục lục tự động, hướng tới giải quyết bài toán cho văn bản cỡ trung bình và lớn, dựa trên các nghiên cứu về phân đoạn văn bản và sinh tiêu đề. Mục tiêu là nghiên cứu, giải quyết và đề xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡ trung bình và lớn thông qua các công trình nghiên cứu hiện tại trên thế giới. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán phân đoạn văn bản và bài toán sinh tiêu đề cho văn bản. Luận văn cũng tiến hành thử nghiệm trên một vài văn bản với sự đánh giá của các chuyên gia là các nhà ngôn ngữ học để đánh giá về tính chính xác của kết quả đạt được. Các kết quả bước đầu đạt được cho thấy hướng nghiên cứu của luận văn là có triển vọng và có khả năng phát triển tiếp thành một bài toán tổng thể cỡ lớn hơn.

1.1. Tóm Tắt Văn Bản Giải Pháp Tiếp Cận Thông Tin Nhanh Chóng

Bài toán tóm tắt văn bản đã có một lịch sử từ lâu đời, ví dụ như công việc của một người thư kí, có trách nhiệm tóm tắt lại những ý chính của tài liệu (tóm tắt đơn văn bản) hoặc tổng hợp thông tin trên nhiều tài liệu (tóm tắt đa văn bản). Hay trong các thư viện, người thủ thư phải đọc qua tài liệu để tóm tắt ý chính hoặc đưa ra các từ khoá trên các thẻ bài để người đọc có thể tìm thấy tài liệu dễ dàng. Trong thời kì thông tin được số hoá, bài toán tóm tắt văn bản số (sau đây gọi chung là văn bản) được giải quyết lần đầu tiên trong bài báo của Luhn năm 1958. Trong bài báo này, Luhn giải quyết bài toán tạo ra một đoạn tóm tắt (abstract) cho các tài liệu kĩ thuật. Những năm sau đó, bài toán được tiếp tục phát triển với nhiều cải tiến mới [Paice 1990, Tait 1983]. Và khi Internet thực sự đi vào cuộc sống con người (từ những năm 90) thì bài toán được quan tâm nhiều hơn. Một vài hướng tiếp cận đã được triển khai: tiếp cận theo hướng ngôn ngữ học [], và tiếp cận theo hướng thống kê [] hoặc kết hợp cả hai []. Tóm tắt văn bản tự động để đạt được mức như con người là một bài toán khó vì việc hiểu ngôn ngữ tự nhiên là một bài toán khó. Việc xây dựng một công cụ tóm tắt tổng quát là rất khó khăn do các yếu tố ảnh hưởng đến việc tóm tắt rất đa dạng, như phong cách viết, thể loại văn bản, từ vựng, cấu trúc câu,…

1.2. Xây Dựng Mục Lục Tự Động Hướng Tiếp Cận Mới Cho Văn Bản Dài

Các nghiên cứu giải quyết bài toán tóm tắt văn bản hầu hết chỉ tập trung vào việc xử lí các văn bản ngắn, đặc biệt là các mẩu tin tức hoặc bài viết nhỏ []. Hơn thế nữa, các phương pháp được đề ra cũng thường chỉ tập trung cho các văn bản thuộc một lĩnh vực cụ thể nào đó []. Điều này đã làm bỏ ngỏ một lĩnh vực nghiên cứu tóm tắt văn bản cho các văn bản cỡ trung bình và dài như tài liệu kĩ thuật hoặc các cuốn sách. Hiện tại cũng đã có một vài công trình được công bố nhằm giải quyết bài toán này nhưng hầu như cũng vẫn chỉ dùng các cách thức cũ để áp dụng cho bài toán lớn hơn []. Luận văn này sẽ tiến hành nghiên cứu một bài toán khá mới mẻ, đó là bài toán xây dựng mục lục cho văn bản []. Đây là một kiểu tóm tắt chỉ dẫn rất thích hợp cho việc truy cập thông tin trong những văn bản dài. Mục lục là nơi liệt kê ra danh sách các chủ đề trong tài liệu và vị trí tương ứng của từng chủ đề. Danh sách các chủ đề trong một văn bản, xét theo một khía cạnh nào đó cũng là một dạng tóm tắt giàu thông tin vì nó thường có độ dài vừa phải và chứa được tất cả những ý cốt lỗi nhất trong văn bản.

1.3. Phương Hướng Tiếp Cận Phân Đoạn Văn Bản Và Sinh Tiêu Đề

Có thể phát biểu một cách ngắn gọn bài toán xây dựng mục lục cho văn bản như sau: Cho trước một văn bản, cần phải sinh ra một cây, trong đó mỗi nút là một đoạn văn bản và tiêu đề của đoạn văn bản tương ứng. Quá trình này liên quan đến hai bài toán khác: - Phân đoạn văn bản (Text Segmentation): phân văn bản thành các đoạn độc lập và liên tục với nội dung các phần có sự tách biệt về mặt ngữ nghĩa. - Sinh tiêu đề (Title Generation): sinh ra các tiêu đề ngắn gọn, giàu thông tin cho đoạn văn bản tương ứng. Đối với bài toán thứ nhất, phân đoạn văn bản, ta có thể giải quyết bằng cách sử dụng cấu trúc sẵn có của văn bản (chương, mục, mục con,…) hoặc sử dụng một phương pháp phân đoạn văn bản tự động []. Trong luận văn này, tôi sử dụng hướng tiếp cận thứ hai vì thực tế cho thấy, nếu một văn bản đã được chia thành các chương, mục (hướng tiếp cận thứ nhất) thì bản thân tác giả của văn bản cũng đã xác định tiêu đề cho các phần và do đó việc sinh mục lục sẽ vô cùng đơn giản. Ngoài ra, bài toán phân đoạn văn bản cũng được chia làm hai loại là phân đoạn văn bản một cấp và phân đoạn văn bản đa cấp.

II. Thách Thức Vấn Đề Khi Xây Dựng Mục Lục Tự Động

Các nghiên cứu hiện tại về tóm tắt văn bản thường tập trung vào văn bản ngắn, đặc biệt là tin tức. Các phương pháp cũng thường chỉ áp dụng cho một lĩnh vực cụ thể, bỏ ngỏ văn bản cỡ trung bình và dài như tài liệu kỹ thuật, sách. Một vấn đề nữa là chất lượng tóm tắt bị ảnh hưởng bởi nhiều yếu tố như phong cách viết, thể loại văn bản, từ vựng, cấu trúc câu. Do đó, công cụ tóm tắt thường chỉ tập trung vào một mục tiêu cụ thể. Thách thức lớn nhất trong xây dựng mục lục tự động là làm sao để tự động hóa quá trình tóm tắt văn bản dựa trên nội dung sẵn có. Trên thế giới đã có rất nhiều công trình nghiên cứu về vấn đề này và cũng nghiên cứu cách thức tóm tắt theo nhiều hướng khác nhau, từ rút trích một đoạn văn, rút trích một vài câu quan trọng cho tới rút trích các cụm từ có ý nghĩa; rồi từ tóm tắt trên một văn bản tới tóm tắt trên phạm vi nhiều văn bản;… Tuy nhiên hầu hết các phương pháp hiện tại đều áp dụng cho các văn bản tương đối ngắn như tin tức, bài hướng dẫn, bài trình bày,… và không có tính chất định vị thông tin. Đối với các văn bản cỡ lớn hơn như tài liệu nghiên cứu, sách,… thì có rất ít các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản. Cơ sở của bài toán này là bản thân mục lục của một tài liệu dài không những chứa một lượng lớn thông tin về nội dung của văn bản mà còn có khả năng định vị thông tin bên trong văn bản.

2.1. Hạn Chế Của Tóm Tắt Văn Bản Truyền Thống

Tóm tắt văn bản tự động để đạt được mức như con người là một bài toán khó vì việc hiểu ngôn ngữ tự nhiên là một bài toán khó. Việc xây dựng một công cụ tóm tắt tổng quát là rất khó khăn do các yếu tố ảnh hưởng đến việc tóm tắt rất đa dạng, như phong cách viết, thể loại văn bản, từ vựng, cấu trúc câu,… Do vậy, các công cụ tóm tắt văn bản thường chỉ tập trung theo một mục tiêu nào đó như theo thể loại văn bản, theo mục đích sử dụng,… Có thể kể ra một vài bài toán tóm tắt văn bản theo các hướng khác nhau như sau [Gol]: - Các thức xây dựng: Một đoạn tóm tắt kiểu ngôn ngữ tự nhiên được tạo ra bằng việc sử dụng các biểu diễn ngữ nghĩa để phản anh cấu trúc và các ý chính của văn bản, trong khi tóm tắt kiểu trích dẫn chứa một vài đoạn văn bản trong văn bản gốc. - Kiểu: Tóm tắt tổng quát sẽ đưa ra những ý chung của văn bản, trong khi tóm tắt hướng truy vấn sẽ đưa ra những nội dung có liên quan truy vấn của người dùng.

2.2. Thiếu Nghiên Cứu Về Xây Dựng Mục Lục Cho Văn Bản Dài

Đối với các văn bản cỡ lớn hơn như tài liệu nghiên cứu, sách,… thì có rất ít 2 các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản. Cơ sở của bài toán này là bản thân mục lục của một tài liệu dài không những chứa một lượng lớn thông tin về nội dung của văn bản mà còn có khả năng định vị thông tin bên trong văn bản. Ngoài ra các tiêu đề nằm ở mục lục còn manh tính súc tích cao. Với thực tế như đã trình bày ở trên, luận văn tiến hành nghiên cứu và đề xuất phương pháp xây dựng mục lục cho văn bản thông qua đề tài “Xây dựng mục lục cho văn bản”. Mục tiêu của luận văn là nghiên cứu, giải quyết và đề xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡ trung bình và lớn thông qua các công trình nghiên cứu hiện tại trên thế giới. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán phân đoạn văn bản và bài toán sinh tiêu đề cho văn bản.

III. Các Phương Pháp Phân Đoạn Văn Bản Tự Động Hiệu Quả

Bài toán phân đoạn văn bản có thể được hiểu là bài toán với một văn bản cho trước, hãy xác định những vị trí mà ở đó chủ đề thay đổi. Đối với các văn bản ngắn như bài báo hay bản tin thì chỉ có một chủ đề xuyên suốt toàn văn bản, sự phân lập về mặt chủ đề giữa các đoạn hầu như không có. Tuy nhiên trong các văn bản dài hơn, như tài liệu khảo cứu khoa học thì có rất nhiều phần khác nhau, mỗi phần nói về một vấn đề riêng biệt tuy cùng chung một mục đích là giải quyết mục tiêu của văn bản. Bài toán này đã được giải quyết theo một vài hướng khác nhau []. Trong phần tiếp theo, luận văn sẽ trình bày một vài trong số các phương pháp này để làm tiền đề cho các thử nghiệm của luận văn. Bài toán phân đoạn văn bản không chỉ có ý nghĩa với các văn bản thông thường, nó còn có ý nghĩa lớn với các bài toán liên quan đến văn bản dạng nói hay hình ảnh []. Ví dụ, trong bài phát biểu chào mừng năm học mới của hiệu trưởng, có rất nhiều phần khác nhau như: chào mừng học sinh mới, sơ kết năm học cũ và phương hướng năm học mới.

3.1. Sử Dụng Mối Liên Kết Từ Vựng Phương Pháp TextTiling

Một số cách tiếp cận giải quyết bài toán phân đoạn văn bản đã được công bố dựa trên độ đo về sự khác nhau trong việc sử dụng từ của hai phân đoạn ở hai phía của đường biên phân đoạn: nếu có sự khác biệt lớn trong việc sử dụng từ ở hai phía của một vị trí phân tác thì đó được coi là đường biên. Điển hình cho phương pháp này là hệ thống TextTiling của Hearst (1994). Hearst đã sử dụng ý tưởng về mỗi quan hệ liên kết từ vựng trong văn bản trong [Halliday] để tìm ra những vị trí mà ở đó diễn ra sự thay đổi đồng thời của rất nhiều yếu tố như không gian, thời gian, cấu trúc, sự kiện,… và sự thay đổi này là đạt cực đại tại điểm đó. Trong TextTiling, Heart chia văn bản thành các “tile”. Các tile mang ý nghĩa tương đương với các đoạn bị phân lập do quá trình phân đoạn văn bản. Sau đây, luận văn sẽ trình bày tóm tắt thuật toán của Hearst dùng để tìm ra cấu trúc chủ đề nhỏ cho văn bản (mỗi đoạn được coi là 1 chủ đề). Các nghiên cứu trước đây của [Halliday, Tannen, Walker] cho thấy rằng sự lặp lại của các khái niệm chỉ ra mối liên kết chặt chẽ về mặt ngữ nghĩa. Điều đó đã chỉ ra rằng sự lặp lại của các khái niệm sẽ rất có ích trong việc xác định cấu trúc phân đoạn của văn bản và chúng ta sẽ sử dụng yếu tố lặp lại của các khái niệm với vai trò là yếu tố chỉ ra mối liên kết từ vựng.

3.2. Mô Hình Nhát Cắt Cực Tiểu Tiếp Cận Dựa Trên Lý Thuyết Đồ Thị

Ngoài việc sử dụng các mối liên kết từ vựng, chúng ta còn có thể ứng dụng lí thuyết đồ thị để giải quyết bài toán phân đoạn văn bản. Tiêu biểu cho phương pháp này là mô hình nhát cắt cực tiểu được trình bày trong [Malioutov, Regina 2006]. Mô hình này sử dụng phép phân hoạch đồ thị thoả mãn điều kiện nhát cắt chuẩn hoá (normalized-cut criterion) [Shi, Malik 2000]. Trong khi các các tiếp cận trước đây sử dụng độ đo tương tự để phân đoạn thì trong mô hình này, các tác giả mô hình hoá đối tượng của bài toán thông qua các nhát cắt trên đồ thị. Mô hình này sẽ tìm cách cực đại độ tương tự trong mỗi phân đoạn và cực tiểu độ tương tự giữa các phân đoạn khác nhau. Mô hình nhát cắt cực tiểu Cho đồ thị G = {V , E} là một đồ thị vô hướng có trọng số trong đó V là tập hợp các đỉnh tương ứng với các câu trong văn bản và E là tập hợp các cạnh có trọng số. Trọng số w ( u, v ) định nghĩa độ tương tự giữa hai đỉnh u và v, trong đó trọng số cao hơn chỉ ra rằng độ tương tự cao hơn. Chi tiết về cách thức xây dựng đồ thị sẽ được trình bày ở phần xây dựng đồ thị.

IV. Bí Quyết Sinh Tiêu Đề Tự Động Tạo Tiêu Đề Hấp Dẫn

So với toàn bộ văn bản, tiêu đề sẽ biểu diễn ngắn gọn thông tin trong văn bản và do đó giúp người đọc nhanh chóng nắm bắt được đại ý của toàn văn bản. Tự động sinh tiêu đề cho văn bản là một bài toán phức tạp, nó không chỉ đòi hỏi lựa chọn những từ có khả năng xuất hiện trong tiêu đề mà còn phải được sắp xếp theo một thứ tự phù hợp, đúng thứ tự và dễ hiểu. Bài toán này có nhiều khác biệt so với bài toán tóm tắt văn bản thông thường. Ở bài toán tóm tắt văn bản thông thường, độ dài của đoạn tóm tắt thường là 50, 100, 200 hay 400 từ (theo chuẩn của DUC), nhưng với bài toán sinh tiêu đề thì độ dài đó chỉ là từ 1 đến 12 từ [Banko] (Hình 2). Cũng vì lí do độ dài ngắn như vậy cho nên trong bài toán này, người ta thường dùng các phương pháp trích chọn ra các từ hoặc cụm từ mang ý nghĩa chính trong văn bản mà cụ thể là các danh từ/cụm danh từ hoặc động từ/cụm động từ [Roxana 2002].

4.1. Phương Pháp Trích Chọn Cụm Từ Tìm Kiếm Tiêu Đề Ngắn Gọn

Phương pháp trích chọn cụm từ sẽ tiến hành phân tích các câu trong văn bản để tìm ra từ/cụm từ mang ý nghĩa tiêu biểu cho văn bản. Phương pháp này thường dựa vào các đặc trưng như: vị trí của cụm từ và sự phổ biến của cụm từ đó trong văn bản. Trong [Roxana, 2002], các tác giả đã phân tích và sử dụng cụm danh từ để làm tiêu đề cho từng đoạn văn bản. Theo đó, phương pháp này bao gồm các bước sau: - Phân đoạn văn bản thành các câu rời rạc. - Gán nhãn từ loại cho các từ trong câu (POS Tagging). - Tìm các danh từ/cụm danh từ trong câu. - Tìm ra câu quan trọng nhất trong văn bản. - Tìm ra chủ đề của câu quan trọng nhất ở bước trên và coi đó là tiêu đề của đoạn văn bản.

4.2. Phương Pháp Hai Pha Kết Hợp Chọn Lọc Và Sắp Xếp Từ

Trong phương pháp này, việc sinh tiêu đề cho văn bản được chia làm hai pha [Witbrock 1999, Hauptmann 2000-2001]: - Pha 1: Chọn ra các từ có trọng số cao nhất trong văn bản và coi đó là các từ có ý nghĩa nhất trong văn bản. Các trọng số này thông thường được tính theo TF * IDF mà trong trường hợp này thì là TF do chỉ có một văn bản/đoạn văn bản. - Pha 2: Các từ được chọn sẽ được sắp xếp lại theo các thức hợp lí nhất. Có 2 cách sắp xếp: cách thứ nhất dựa trên thứ tự nội tại trong văn bản; cách thứ hai là dựa trên thống kê sử dụng mô hình n-gram. Tuy nhiên phương pháp này tồn tại 2 vấn đề cơ bản liên quan đến cả 2 pha ở trên: - Pha 1: Các từ loại như giới từ, tính từ, mạo từ thường không mang mấy ý nghĩa trong việc chỉ ra ý chính của văn bản. Do đó các từ này thường phải bị loại đi. Để giải quyết vấn đề này thì ta có thể loại bỏ từ dừng, sử dụng nhãn từ loại để chỉ giữ lại danh từ, động từ hoặc cụm danh từ, cụm động từ.

V. Xây Dựng Mục Lục Mô Hình Tích Hợp Phân Đoạn Tiêu Đề

Như đã phân tích ở chương 1, bài toán xây dựng mục lục cho văn bản là một bài toán tóm tắt văn bản loại chỉ dẫn, theo đó trong “tóm tắt” sẽ có thông tin ngắn gọn cho từng đoạn văn bản và vị trí của đoạn văn bản tương ứng. Để có thể giải quyết bài toán này thì luận văn chọn hướng tiếp cận chia bài toán ra làm hai bài toán con là bài toán phân đoạn văn bản và bài toán sinh tiêu đề cho đoạn văn bản. Các bài toán này đã lần lượt được trình bày trong chương 2. Về mặt nguyên tắc thì hai bài toán này có thể được giải quyết một cách độc lập, theo đó, sau khi văn bản được phân thành các đoạn độc lập với nhau thì ta sẽ áp dụng thuật toán sinh tiêu đề cho từng đoạn một. Tuy nhiên điều này sẽ gây lãng phí những thông tin đã thu thập được ở bước phân đoạn văn bản đồng thời có thể sẽ tạo ra những tiêu đề giống nhau. Để giải quyết vấn đề trên, luận văn đề xuất một phương pháp để có thể sử dụng lại các đặc trưng đã thu thập được ở bước phân đoạn văn bản và sử dụng cho bước tiếp theo.

5.1. Sử Dụng Đặc Trưng Từ Vựng Tái Sử Dụng Thông Tin Phân Đoạn

Cơ sở của đề xuất này dựa trên nhận xét là khi ta phân đoạn văn bản thì đã dựa trên sự thay đổi chủ đề của các đoạn văn bản, điều đó có nghĩa là tiêu đề của văn bản đã ít nhiều được xác định tuy còn ở dạng “ẩn”. Các đặc trưng được sử dụng ở đây là các đặc trưng về từ vựng. Cụ thể như sau: - Tại bước phân đoạn văn bản, thay vì sử dụng tất cả các từ có trong mỗi câu, ta chỉ sử dụng các cụm danh từ, cụm động từ và do đó chuỗi từ vựng cho từng câu sẽ là các từ trong cụm danh từ và cụm động từ của câu đó. - Với các chuỗi từ vựng (các vectơ biều diễn câu) như trên, ta sẽ xác định được câu quan trọng nhất trong văn bản dựa trên đồ thị được xây dựng như mô tả như sau: Mỗi đỉnh tương ứng với một chuỗi từ vựng. Trọng số của các cạnh nối giữa các đỉnh là độ đo tương tự (cosin) giữa các chuỗi từ vựng tương ứng.

5.2. Thuật Toán Sinh Mục Lục Đảm Bảo Tính Hợp Lý Giữa Các Tiêu Đề

Như đã trình bày ở phần trước, trong mục lục chúng ta sẽ đưa ra tiêu đề và vị trí của các đoạn văn bản tương ứng. Tiêu đề này sẽ là cụm từ ngắn gọn mô tả mục đích chính của toàn đoạn văn. Tuy nhiên có rất nhiều trường hợp mà mục lục sinh ra sẽ có sự trùng lặp giữa các phân đoạn khác nhau, nghĩa là tiêu đề giống nhau cho hai đoạn văn bản khác nhau [Branavan 2007]. Hơn nữa, suy luận một cách “kinh nghiệm” cho thấy rằng, đối với các mục lục đa cấp thì tiêu đề của các mục con phải có sự liên hệ nào đó với mục cha và liên hệ đó có thể là một quan hệ toàn thể - bộ phận trên một ontology cho lĩnh vực tương ứng với văn bản. Để giải quyết vấn đề này, luận văn đề xuất một thuật toán trung gian để sinh mục lục dựa trên thuật toán được nêu trong [Branavan 2007]. Cụ thể như sau: - Mỗi đoạn văn bản thay vì đưa ra chỉ một tiêu đề thì sẽ đưa ra một danh sách k tiêu đề và được sắp xếp có thứ tự theo mức độ quan trọng của nó trong đoạn văn bản.

VI. Thử Nghiệm Đánh Giá Kết Quả Phương Hướng Cải Tiến SEO

Luận văn đã tiến hành nghiên cứu và tìm hiểu bài toán xây dựng mục lục cho văn bản. Đây là một bài toán mới trong lĩnh vực xử lí ngôn ngữ tự nhiên và có liên hệ mật thiết với bài toán tóm tắt văn bản. Phương pháp giải quyết của luận văn là chia quá trình xây dựng mục lục thành hai quá trình nhỏ hơn là phân đoạn văn bản và sinh tiêu đề cho đoạn văn bản. Với mỗi quá trình này, luận văn đã tiến hành nghiên cứu, tìm hiểu và giới thiệu các phương pháp chính để giải quyết vấn đề đồng thời đánh giá ưu điểm cũng như khuyết điểm của các phương pháp. Luận văn đã tiến hành thử nghiệm trên một văn bản khoa học cụ thể để chứng minh tính khả thi của bài toán. Các kết quả thu được tương đối khả quan cho thấy triển vọng phát triển của bài toán. Luận văn cũng đã đưa ra một số đề xuất về phương án tích hợp hai quá trình để giảm thiểu dư thừa dữ liệu cũng như thời gian tính toán.

6.1. Đánh Giá Thuật Toán Phân Đoạn Độ Đo Pk và WindowDiff

Trong bài báo năm 1994, Hearst sử dụng hai độ đo phổ biến trong học máy để đánh giá thuật toán là độ chính xác (precision) và độ hồi tưởng (recall) được định nghĩa như sau: - Độ chính xác là tỉ lệ số đường biên mà mô hình chọn chính xác trên tổng số các đường biên được mô hình xác định trong văn bản. - Độ hồi tưởng là tỉ lệ số đường biên mà mô hình chọn chính xác trên tổng số đường biên thực của văn bản. Hai độ đo này cũng được sử dụng khá nhiều trong các công trình khác, tuy nhiên hai độ đo này gặp phải hai vấn đề lớn: - Sự tác động qua lại vốn có của hai độ đo này, nghĩa là khi một độ đo tăng lên sẽ có khuynh hướng làm giảm độ đo còn lại. Ví dụ, khi ta đặt thêm nhiều đường biên hơn thì sẽ làm tăng độ hồi tưởng trong khi độ chính xác lại giảm đi. Một số công trình khác sử dụng độ đo F [Baeza, 1999] hoặc sử dụng đồ thị biểu diễn độ chính xác tương ứng với các mức khác nhau của độ hồi tưởng.

6.2. Đánh Giá Thuật Toán Tiêu Đề So Sánh Với Tiêu Đề Gốc

Hiện nay, cách đánh giá thuật toán sinh tiêu đề phổ biến là so sánh tiêu đề sinh ra tự động với tiêu đề có sẵn của văn bản mẫu. Việc so sánh được thực hiện sau khi cả hai tiêu đề đã trải qua các bước tiền xử lý bao gồm: - Loại bỏ từ dừng. - Đưa từ về từ gốc (stemming). Sau đó, việc đánh giá thuật toán sinh tiêu đề sẽ được tính dựa trên ba độ đo phổ biến trong lĩnh vực học máy là độ chính xác P (precision), độ hồi tưởng R (recall) và độ đo F1 ( Fβ với β = 1). Nếu gọi tập hợp các từ trong tiêu đề do thuật toán sinh ra là Tgen và tập hợp các từ trong tiêu đề gốc do con tác giả đặt là Torg thì các độ đo được tính lần lượt như sau:

20/09/2025

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Việt Cường XÂY DỰNG MỤC LỤC CHO VĂN BẢN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. HÀ QUANG THUỴ HÀ NỘI – 2007 i LỜI CẢM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS. Hà Quang Thuỵ, người thầy đã dìu dắt tôi suốt bao năm qua trên bước đường nghiên cứu khoa học. Tôi xin chân thành cảm ơn sự giúp đỡ và góp ý rất nhiệt tình của TS.

Nguyễn Lê Minh và TS. Phan Xuân Hiếu trong suốt quá trình nghiên cứu và hoàn thành luận văn này. Tôi xin chân thành cảm ơn sự giúp đỡ, tạo điều kiện và khuyến khích tôi trong quá trình làm việc và nghiên cứu của tập thể các thầy cô và anh chị em trong Bộ môn Các hệ thống thông tin và Phòng thí nghiệm Công nghệ tri thức và Tương tác người máy. Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè – những người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộc sống và trong công việc.

Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2007 Tác giả Nguyễn Việt Cường ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và phát triển các kĩ thuật trong tóm tắt văn bản trong nước và trên thế giới do tôi thực hiện. Luận văn này là mới và không sao chép nguyên bản từ bất kì một nguồn tài liệu nào khác. iii MỤC LỤC LỜI CẢM ƠN. i LỜI CAM ĐOAN.

ii MỤC LỤC.iii DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT. v DANH MỤC CÁC BẢNG. vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .vii MỞ ĐẦU. GIỚI THIỆU BÀI TOÁN.

Bài toán tóm tắt văn bản. Bài toán xây dựng mục lục cho văn bản. Phương hướng giải quyết bài toán. Các công trình liên quan.

PHÂN ĐOẠN VĂN BẢN VÀ SINH TIÊU ĐỀ. Phân đoạn văn bản. Các phương pháp phân đoạn văn bản. Sử dụng mối liên kết từ vựng.

Sử dụng mô hình nhát cắt cực tiểu. Sinh tiêu đề cho văn bản. Các phương pháp sinh tiêu đề cho văn bản. Phương pháp trích chọn cụm từ.

Phương pháp hai pha. Tóm tắt chương hai. XÂY DỰNG MỤC LỤC CHO VĂN BẢN. Mô hình tích hợp thuật toán.

Đảm bảo tính hợp lí của mục lục. Các phương pháp đánh giá. Đánh giá thuật toán phân đoạn. Đánh giá thuật toán sinh tiêu đề.

Tóm tắt chương ba. 27 iv Chương 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ. Môi trường thử nghiệm.

Dữ liệu thử nghiệm. Quá trình thử nghiệm. Kết quả thử nghiệm. Kết quả phân đoạn văn bản.

Kết quả sinh tiêu đề. Đánh giá thử nghiệm. Phương hướng cải tiến. Tóm tắt chương bốn.

37 TÀI LIỆU THAM KHẢO. 38 v DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT STT Kí hiệu/Viết tắt Diễn giải 1 TF Term Frequency – Tần suất của khái niệm 2 TF * IDF Term Frequency * Inverse Document Frequency 3 vi DANH MỤC CÁC BẢNG Bảng 1. Ví dụ về độ tương tự giữa 2 khối văn bản. Danh sách các công cụ phần mềm sử dụng để thử nghiệm.

Cấu trúc văn bản thử nghiệm. Danh sách từ dừng. Tập nhãn từ loại (tập mở). Tập nhãn từ loại (tập đóng).

Kết quả phân đoạn văn bản. Sinh tiêu đề cho phân đoạn gốc. Sinh tiêu đề cho phân đoạn của C99. Sinh tiêu đề cho phân đoạn của TextTiling.

34 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1. Đồ thị dotplotting cho một văn bản. Phân bố độ dài tiêu đề văn bản theo Reuters-1997. Ví dụ đánh giá thuật toán phân đoạn.

Cách xác định tham số cho độ đo Pk. Kết quả phân đoạn văn bản. 33 1 MỞ ĐẦU Trong vài thập kỉ qua, lượng thông tin được số hoá ngày càng nhiều. Ban đầu là các thư viện với các cuốn sách được lưu trữ số hoá, tiếp đến là các nội dung thông tin được đưa lên Internet dưới nhiều hình thức khác nhau.

Hơn thế nữa, với sự ra đời của World Wide Web thì thông tin đã thực sự bùng nổ, con người ngày càng muốn có nhiều thông tin hơn và muốn tìm cách để có thể nắm bắt được thông tin nhanh, chính xác và cô đọng. Rất nhiều bài toán trong xử lí ngôn ngữ tự nhiên đã được đặt ra và giải quyết nhằm giúp máy tính có thể hiểu được phần nào các văn bản số hoá rồi từ đó trình bày lại theo một hình thức nào đó để giúp con người tìm kiếm và thu thập thông tin nhanh hơn. Các bài toán có thể kể đến như: thu nhận thông tin, phân cụm văn bản, phân lớp văn bản, rút trích thông tin, hệ thống hỏi đáp, tóm tắt văn bản,… Những bài toán này đã phần nào được giải quyết và đã thể hiện phần nào ý nghĩa đối với người sử dụng. Ví dụ như các hệ thống máy tìm kiếm Yahoo!, Google,… đã có thể giúp người dùng thu thập thông tin theo truy vấn, trả lại trang thông tin và tóm tắt nội dung của trang thông tin để giúp con người có thể nhanh chóng tìm ra được thông tin mình cần.

Bài toán tóm tắt văn bản ra đời với vai trò giúp người truy cập thông tin có thể dễ dàng nắm bắt được những nội dung chính của văn bản ở một dạng cô đọng hơn. Một ví dụ điển hình là tủ chứa các thẻ trình bày tóm tắt thông tin về cuốn sách ở các thư viện, nó giúp người đọc có thể tìm kiếm nhanh tới cuốn sách mình cần. Hay trong thời đại thông tin được số hoá hiện nay, ở đầu mỗi bài báo hay một bài trình bày hoặc một bài viết dài về một vấn đề nào đó, người ta thường đưa thêm vào một đoạn tóm tắt ngắn của toàn bộ nội dung. Tuy nhiên, không phải lúc nào thông tin tóm tắt đó cũng có sẵn, một phần vì các tóm tắt đó được thực hiện theo phương pháp thủ công và đôi khi không phải do chính tác giả viết ra.

Từ đó đặt ra vấn đề là làm sao để có thể tự động hoá quá trình tóm tắt văn bản dựa trên nội dung sẵn có. Trên thế giới đã có rất nhiều công trình nghiên cứu về vấn đề này và cũng nghiên cứu cách thức tóm tắt theo nhiều hướng khác nhau, từ rút trích một đoạn văn, rút trích một vài câu quan trọng cho tới rút trích các cụm từ có ý nghĩa; rồi từ tóm tắt trên một văn bản tới tóm tắt trên phạm vi nhiều văn bản;… Tuy nhiên hầu hết các phương pháp hiện tại đều áp dụng cho các văn bản tương đối ngắn như tin tức, bài hướng dẫn, bài trình bày,… và không có tính chất định vị thông tin. Đối với các văn bản cỡ lớn hơn như tài liệu nghiên cứu, sách,… thì có rất ít 2 các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản.

Cơ sở của bài toán này là bản thân mục lục của một tài liệu dài không những chứa một lượng lớn thông tin về nội dung của văn bản mà còn có khả năng định vị thông tin bên trong văn bản. Ngoài ra các tiêu đề nằm ở mục lục còn manh tính súc tích cao. Với thực tế như đã trình bày ở trên, luận văn tiến hành nghiên cứu và đề xuất phương pháp xây dựng mục lục cho văn bản thông qua đề tài “Xây dựng mục lục cho văn bản”. Mục tiêu của luận văn là nghiên cứu, giải quyết và đề xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡ trung bình và lớn thông qua các công trình nghiên cứu hiện tại trên thế giới.

Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán phân đoạn văn bản và bài toán sinh tiêu đề cho văn bản. Luận văn cũng tiến hành thử nghiệm trên một vài văn bản với sự đánh giá của các chuyên gia là các nhà ngôn ngữ học để đánh giá về tính chính xác của kết quả đạt được. Các kết quả bước đầu đạt được cho thấy hướng nghiên cứu của luận văn là có triển vọng và có khả năng phát triển tiếp thành một bài toán tổng thể cỡ lớn hơn. Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương: - Chương 1 “Giới thiệu bài toán” tóm tắt một số bài toán trong lĩnh vực tóm tắt văn bản, phát biểu bài toán xây dựng mục cho văn bản, đồng thời phần tích các công trình có liên quan và đưa ra phương hướng giải quyết.

- Chương 2 “Các phương pháp giải quyết bài toán” trình bày các phương pháp dùng trong quá trình xây dựng mục lục, phân tích điểm mạnh và yếu của mỗi phương pháp. - Chương 3 “Xây dựng mục lục cho văn bản” sẽ đi sâu vào việc tích hợp các thuật toán để giải quyết bài toán chính của luận văn, đồng thời đề xuất một số hướng cải tiến và cơ sở lí luận của các cải tiến đó. - Chương 4 “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả đạt được.

3 Chương 1 GIỚI THIỆU BÀI TOÁN 1. Bài toán tóm tắt văn bản Lượng thông tin trên Internet, trong các tài liệu và trong các cơ sở dữ liệu đang không từng tăng lên dẫn đến nhu cầu tìm kiếm và biểu diễn thông tin hiệu quả. Các hệ thống thu nhận thông tin (Information Retrieval) đã cho phép tìm kiếm và sắp xếp thông tin nhận được theo mức độ liên quan đến câu hỏi truy vấn của người dùng []. Gần đây, các hệ thu nhận thông tin còn đưa ra các đoạn tóm tắt của thông tin trả về để giúp người dùng dễ dàng chọn lựa có xem thông tin đó hay không, các đoạn tóm tắt này thường đưa ra các ý chính trong văn bản tương ứng và một đoạn tóm tắt lí tưởng là đoạn tóm tắt đưa ra được tất cả các ý chính của văn bản, đặc biệt là đưa ra được những ý mà người dùng mong muốn.

Điều này thực sự có ý nghĩa khi số lượng tài liệu có liên quan đến câu truy vấn là rất lớn trong khi ta chỉ có đủ thời gian để xem những tài liệu liên quan nhiều đến vấn đề cần tìm hiểu.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ