Luận văn thạc sĩ khoa học máy tính rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản

Luận văn thạc sĩ khoa học máy tính nghiên cứu phương pháp rút trích cụm từ khóa dựa trên vai trò và đặc điểm trong văn bản, ứng dụng hiệu quả.

Trường đại học

Đại học Bách Khoa - Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2013

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: XÁC ĐỊNH BÀI TOÁN VÀ MỤC TIÊU

1.1. Xác định bài toán

1.2. Mục tiêu và phạm vi

2. CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Tổng quát

2.2. Các đặc điểm của cụm từ khóa

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Định lượng mối quan hệ ngữ nghĩa và phân giải nhập nhằng

3.2. Nhóm theo chủ đề (Community)

4. CHƯƠNG 4: PHƯƠNG PHÁP ĐỀ XUẤT

4.1. SemiRank

4.2. Phương pháp cụm từ trọng tâm

4.3. Phương pháp sử dụng đặc điểm thông tin của cụm từ khóa

4.4. Tiền xử lý dữ liệu đầu vào

5. CHƯƠNG 5: PHƯƠNG PHÁP ĐÁNH GIÁ

5.1. Hiện thực các phương pháp

5.1.1. Hiện thực SemiRank

5.1.2. Hiện thực tiền xử lý dữ liệu

5.1.3. Hiện thực phương pháp cụm từ trọng tâm

5.1.4. Hiện thực phương pháp sử dụng đặc điểm thông tin của cụm từ khóa

5.2. Đánh giá hiệu quả

5.2.1. Xác định số lượng cụm từ khóa ban đầu

5.2.2. Hiệu quả khi kết hợp với mối quan hệ ngữ nghĩa trong SemiRank

5.2.3. So sánh với các phương pháp khác

5.2.4. Sử dụng phương pháp phân nhóm Walktrap

6. CHƯƠNG 6: HƯỚNG PHÁT TRIỂN

THAM KHẢO

DANH MỤC HÌNH

DANH MỤC BẢNG

Tóm tắt

I. Giới thiệu về rút trích cụm từ khóa

Rút trích cụm từ khóa là một quá trình quan trọng trong việc tóm tắt nội dung tài liệu. Cụm từ khóa không chỉ giúp người đọc nhanh chóng nắm bắt nội dung chính mà còn hỗ trợ trong việc tìm kiếm thông tin. Có hai hướng tiếp cận chính trong rút trích cụm từ khóa: học máy giám sát và học máy không giám sát. Tuy nhiên, mối quan hệ ngữ nghĩa giữa các cụm từ vẫn chưa được khai thác đầy đủ. Đề tài này tập trung vào việc cải tiến hiệu suất của phương pháp SemiRank thông qua việc đánh giá vai trò của các cụm từ dựa trên mối quan hệ ngữ nghĩa giữa chúng.

1.1. Tầm quan trọng của cụm từ khóa

Cụm từ khóa là những từ hoặc cụm từ có nghĩa đại diện cho nội dung tóm tắt của tài liệu. Chúng có thể được sử dụng trong các công cụ tìm kiếm như một dạng siêu dữ liệu, giúp người dùng dự đoán nội dung của tài liệu. Việc gán cụm từ khóa bằng tay là một công việc tốn thời gian, do đó, các công cụ tự động trở thành một lựa chọn hứa hẹn. Đề tài này sẽ nghiên cứu các phương pháp rút trích cụm từ khóa từ nội dung văn bản, nhằm cải thiện hiệu suất và độ chính xác của quá trình này.

II. Các phương pháp rút trích cụm từ khóa

Đề tài đề xuất hai phương pháp chính để cải tiến tập các cụm từ khóa ban đầu: phương pháp cụm từ trọng tâm và phương pháp đặc điểm thông tin. Phương pháp cụm từ trọng tâm tập trung vào việc xác định các cụm từ có vai trò trung tâm trong văn bản, trong khi phương pháp đặc điểm thông tin đánh giá vai trò của các cụm từ dựa trên thông tin mà chúng cung cấp cho tài liệu. Cả hai phương pháp đều sử dụng mối quan hệ ngữ nghĩa giữa các cụm từ để cải thiện độ chính xác của việc rút trích.

2.1. Phương pháp cụm từ trọng tâm

Phương pháp cụm từ trọng tâm sử dụng các từ trong tiếng Anh để xác định các cụm từ có vai trò quan trọng trong văn bản. Các cụm từ này được đánh giá dựa trên khả năng xuất hiện cùng nhau trong một khoảng thời gian nhất định. Điều này giúp xác định các cụm từ có độ kết dính cao, từ đó nâng cao khả năng trở thành cụm từ khóa. Phương pháp này chỉ áp dụng cho các tài liệu có ngôn ngữ là tiếng Anh, nhưng có thể mở rộng cho các ngôn ngữ khác trong tương lai.

2.2. Phương pháp đặc điểm thông tin

Phương pháp đặc điểm thông tin tập trung vào việc đánh giá vai trò của các cụm từ dựa trên thông tin mà chúng cung cấp cho tài liệu. Các đặc điểm như tần suất xuất hiện (TF), vị trí lần đầu xuất hiện (FOC) và chiều dài của cụm từ được sử dụng để xác định mức độ quan trọng của các cụm từ. Phương pháp này giúp cải thiện độ chính xác của việc rút trích cụm từ khóa bằng cách xem xét các yếu tố ngữ nghĩa và thông tin liên quan.

III. Kết quả thực nghiệm và đánh giá

Kết quả thực nghiệm cho thấy rằng các phương pháp đề xuất đều cải thiện hiệu suất của SemiRank. Việc đánh giá lại tập các cụm từ khóa ban đầu thông qua mối quan hệ ngữ nghĩa giữa chúng đã cho thấy sự cải thiện rõ rệt. Các phương pháp này không chỉ vượt trội hơn so với các phương pháp rút trích cụm từ khóa đã có mà còn mở ra hướng đi mới cho nghiên cứu trong lĩnh vực này.

3.1. Đánh giá hiệu suất

Đánh giá hiệu suất của các phương pháp được thực hiện trên tập dữ liệu Wiki-20. Kết quả cho thấy rằng các phương pháp đề xuất có khả năng rút trích các cụm từ khóa chính xác hơn so với các phương pháp truyền thống. Điều này chứng tỏ rằng việc sử dụng mối quan hệ ngữ nghĩa giữa các cụm từ là một yếu tố quan trọng trong việc nâng cao chất lượng của quá trình rút trích.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ thông tin và sự phát triển nhanh chóng của các tài liệu điện tử, việc trích xuất cụm từ khóa (keyphrases) đóng vai trò quan trọng trong việc tóm tắt nội dung, hỗ trợ tìm kiếm và phân loại tài liệu. Theo ước tính, Wikipedia hiện có hơn 30 triệu bài viết trên 286 ngôn ngữ, trong đó tiếng Anh chiếm hơn 4 triệu bài, tạo thành một kho tri thức khổng lồ phục vụ cho việc khai thác ngữ nghĩa. Tuy nhiên, việc gán cụm từ khóa thủ công cho tài liệu là công việc tốn nhiều thời gian và công sức, đồng thời các phương pháp tự động hiện nay vẫn chưa khai thác triệt để mối quan hệ ngữ nghĩa giữa các cụm từ khóa.

Luận văn tập trung nghiên cứu cải tiến hiệu suất của phương pháp SemiRank – một kỹ thuật rút trích cụm từ khóa dựa trên mối quan hệ ngữ nghĩa giữa các cụm từ trong tài liệu và tập các cụm từ khóa ban đầu. Mục tiêu chính là đề xuất hai phương pháp mới để mở rộng và nâng cao chất lượng tập các cụm từ khóa ban đầu, gồm phương pháp cụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tin của cụm từ khóa. Nghiên cứu được thực hiện trên tập dữ liệu Wiki-20 gồm 20 báo cáo nghiên cứu kỹ thuật trong lĩnh vực khoa học máy tính, với mỗi tài liệu được đánh giá bởi 15 nhóm sinh viên chuyên ngành.

Phạm vi nghiên cứu tập trung vào tài liệu tiếng Anh, sử dụng dữ liệu Wikipedia phiên bản công bố ngày 22/07/2011 làm nguồn tham chiếu ngữ nghĩa. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc nâng cao độ chính xác và tính đồng nhất của các hệ thống rút trích cụm từ khóa tự động, góp phần cải thiện hiệu quả tìm kiếm và phân loại tài liệu trong các hệ thống quản lý tri thức và công cụ tìm kiếm hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Khái niệm cụm từ khóa (Keyphrases): Là các từ hoặc cụm từ đại diện cho nội dung chính của tài liệu, có thể là từ đơn hoặc nhiều từ ghép lại, đóng vai trò siêu dữ liệu giúp người dùng dự đoán nội dung tài liệu.
Mô hình SemiRank: Là phương pháp rút trích cụm từ khóa bán giám sát (semi-supervised) dựa trên tập các cụm từ khóa ban đầu và mối quan hệ ngữ nghĩa giữa các cụm từ trong tài liệu. SemiRank sử dụng giải thuật lan truyền giá trị (PhraseRank) trên siêu đồ thị biểu diễn mối quan hệ ngữ nghĩa giữa các cụm từ.
Đặc điểm ngữ nghĩa và siêu đồ thị: Mối quan hệ ngữ nghĩa giữa các cụm từ được định lượng dựa trên các liên kết trong Wikipedia, bao gồm liên kết trong phần "Xem thêm", liên kết hai chiều, liên kết cùng thể loại, v.v. Các mối quan hệ này được biểu diễn dưới dạng siêu đồ thị có trọng số, trong đó các cạnh bậc cao thể hiện nhóm các cụm từ có quan hệ ngữ nghĩa mật thiết.
Phân nhóm theo chủ đề (Community Detection): Áp dụng phương pháp phân nhóm dựa trên modularity để gom nhóm các cụm từ có mối quan hệ ngữ nghĩa chặt chẽ, giúp phát hiện các chủ đề chính trong tài liệu.
Đặc điểm từ và đặc điểm thông tin của cụm từ khóa: Bao gồm các chỉ số như TF (tần suất xuất hiện), FOC (vị trí xuất hiện lần đầu), chiều dài cụm từ, keyphraseness và Wiki-keyphraseness, được sử dụng để đánh giá tầm quan trọng của cụm từ khóa.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng tập Wiki-20 gồm 20 báo cáo nghiên cứu kỹ thuật trong lĩnh vực khoa học máy tính, mỗi tài liệu được gán cụm từ khóa thủ công bởi 15 nhóm sinh viên chuyên ngành. Wikipedia phiên bản ngày 22/07/2011 được dùng làm nguồn tham chiếu ngữ nghĩa.
Phương pháp phân tích:
- Tiền xử lý dữ liệu bao gồm cắt đoạn, tách cụm từ theo n-gram (1 đến 5 từ), gán bài viết Wikipedia tương ứng cho các cụm từ, và lọc cụm từ dựa trên chỉ số keyphraseness (>0.02) và chiều dài cụm từ.
- Áp dụng phương pháp SemiRank để xây dựng siêu đồ thị ngữ nghĩa và thực hiện giải thuật lan truyền giá trị PhraseRank để đánh giá tầm quan trọng của các cụm từ.
- Đề xuất hai phương pháp cải tiến tập cụm từ khóa ban đầu:
  - Phương pháp cụm từ trọng tâm: Lấy các cụm từ từ các câu trọng tâm trong phần tóm tắt, giới thiệu và kết luận của tài liệu, kết hợp với tiêu đề để tạo tập khóa ban đầu.
  - Phương pháp đặc điểm thông tin: Lọc trực tiếp các cụm từ trong tài liệu dựa trên chỉ số TF và FOC để chọn tập khóa ban đầu.
- Sử dụng phần mềm Wikipedia Miner để khai thác thông tin Wikipedia, Maui để phân tích cú pháp, igraph để phân nhóm cộng đồng, và Sweble để phân tích cấu trúc Wikipedia.
Timeline nghiên cứu:
- Giao nhiệm vụ: 02/07/2012
- Hoàn thành nghiên cứu và bảo vệ luận văn: 21/06/2013
- Thực hiện các bước tiền xử lý, hiện thực phương pháp và đánh giá trên tập Wiki-20 trong khoảng thời gian này.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất cải tiến của phương pháp cụm từ trọng tâm:
- Khi chọn 4 câu trọng tâm và 7 cụm từ khóa ban đầu, phương pháp đạt hiệu suất F1 cao nhất trên tập Wiki-20.
- Hiệu suất F1 dao động trong khoảng 0.25 đến 0.35 tùy số lượng câu và cụm từ khóa ban đầu, với sự ổn định khi số câu từ 5 đến 8.
- So với việc chỉ sử dụng tiêu đề làm tập khóa ban đầu, phương pháp này cải thiện rõ rệt độ chính xác và độ phủ.
Hiệu quả của phương pháp đặc điểm thông tin:
- Sử dụng chỉ số TF và FOC để chọn cụm từ khóa ban đầu giúp mở rộng tập khóa ban đầu, tăng khả năng bao phủ nội dung tài liệu.
- Phương pháp này cho kết quả tốt hơn so với SemiRank gốc khi chỉ dùng tiêu đề, đặc biệt trong trường hợp tài liệu có tiêu đề ngắn hoặc không đầy đủ.
Tác động của việc đánh giá lại tập khóa ban đầu dựa trên mối quan hệ ngữ nghĩa:
- Việc tái đánh giá và sắp xếp lại các cụm từ khóa ban đầu dựa trên mối quan hệ ngữ nghĩa giữa chúng giúp tăng hiệu suất của SemiRank.
- Các cụm từ khóa có mối quan hệ ngữ nghĩa mật thiết với nhau có khả năng trở thành khóa chính của tài liệu cao hơn.
So sánh với các phương pháp khác:
- Hai phương pháp đề xuất đều vượt trội hơn các phương pháp rút trích cụm từ khóa truyền thống như KEA, KEA++ về chỉ số F1 trên tập Wiki-20.
- Đặc biệt, phương pháp cụm từ trọng tâm kết hợp với SemiRank cho kết quả tốt nhất trong các thử nghiệm.

Thảo luận kết quả

Nguyên nhân chính của sự cải tiến là do việc mở rộng và làm giàu tập các cụm từ khóa ban đầu, không chỉ dựa vào tiêu đề mà còn khai thác các câu trọng tâm trong tài liệu hoặc các đặc điểm thông tin của cụm từ. Điều này giúp SemiRank có nhiều điểm neo hơn để lan truyền giá trị và đánh giá vai trò của các cụm từ khóa trong siêu đồ thị ngữ nghĩa.

So với các nghiên cứu trước đây chỉ tập trung vào việc rút trích cụm từ khóa dựa trên tần suất hoặc vị trí xuất hiện, nghiên cứu này đã khai thác sâu hơn mối quan hệ ngữ nghĩa giữa các cụm từ, sử dụng dữ liệu Wikipedia làm nguồn tri thức phong phú. Việc áp dụng phân nhóm cộng đồng giúp phát hiện các chủ đề chính trong tài liệu, từ đó nâng cao tính chính xác của việc lựa chọn cụm từ khóa.

Kết quả có thể được minh họa qua biểu đồ thể hiện sự thay đổi giá trị F1 theo số lượng câu trọng tâm và số lượng cụm từ khóa ban đầu, cũng như bảng so sánh hiệu suất giữa các phương pháp. Điều này cho thấy sự ổn định và hiệu quả của các phương pháp đề xuất trong việc cải thiện chất lượng rút trích cụm từ khóa.

Đề xuất và khuyến nghị

Áp dụng phương pháp cụm từ trọng tâm trong hệ thống rút trích cụm từ khóa tự động:
- Động từ hành động: Lọc và chọn câu trọng tâm từ các phần tóm tắt, giới thiệu và kết luận.
- Target metric: Tăng chỉ số F1 của tập cụm từ khóa lên ít nhất 10% so với phương pháp chỉ dùng tiêu đề.
- Timeline: Triển khai trong vòng 3 tháng cho các hệ thống quản lý tài liệu khoa học.
- Chủ thể thực hiện: Các nhà phát triển phần mềm quản lý tri thức và công cụ tìm kiếm học thuật.
Sử dụng đặc điểm thông tin (TF và FOC) để mở rộng tập khóa ban đầu:
- Động từ hành động: Tính toán và chuẩn hóa TF, FOC cho các cụm từ trong tài liệu.
- Target metric: Cải thiện độ phủ (recall) của cụm từ khóa lên khoảng 15%.
- Timeline: Áp dụng song song với phương pháp cụm từ trọng tâm trong 3-6 tháng.
- Chủ thể thực hiện: Các nhóm nghiên cứu về xử lý ngôn ngữ tự nhiên và khai thác thông tin.
Tích hợp đánh giá mối quan hệ ngữ nghĩa giữa các cụm từ khóa ban đầu:
- Động từ hành động: Xây dựng siêu đồ thị ngữ nghĩa và áp dụng giải thuật lan truyền giá trị.
- Target metric: Tăng tính đồng nhất (consistency) và độ chính xác (precision) của tập khóa.
- Timeline: Triển khai trong 6 tháng, cập nhật định kỳ theo phiên bản Wikipedia mới.
- Chủ thể thực hiện: Các nhà nghiên cứu và phát triển hệ thống học máy bán giám sát.
Phát triển công cụ hỗ trợ phân tích cấu trúc tài liệu để xác định câu trọng tâm chính xác hơn:
- Động từ hành động: Xây dựng bộ luật và thuật toán nhận diện các phần tóm tắt, giới thiệu, kết luận trong tài liệu.
- Target metric: Giảm thiểu sai sót trong việc chọn câu trọng tâm, nâng cao hiệu quả rút trích cụm từ khóa.
- Timeline: Nghiên cứu và phát triển trong 12 tháng.
- Chủ thể thực hiện: Các nhóm nghiên cứu về xử lý ngôn ngữ tự nhiên và khai thác văn bản.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý Ngôn ngữ Tự nhiên:
- Lợi ích: Hiểu sâu về phương pháp bán giám sát SemiRank và các kỹ thuật khai thác ngữ nghĩa từ Wikipedia.
- Use case: Áp dụng trong các đề tài nghiên cứu về rút trích thông tin và trích xuất cụm từ khóa.
Phát triển phần mềm quản lý tri thức và công cụ tìm kiếm học thuật:
- Lợi ích: Nâng cao hiệu quả tìm kiếm và phân loại tài liệu thông qua việc cải tiến rút trích cụm từ khóa.
- Use case: Tích hợp các phương pháp đề xuất để cải thiện trải nghiệm người dùng.
Chuyên gia về khai thác dữ liệu và học máy:
- Lợi ích: Tham khảo mô hình bán giám sát kết hợp với dữ liệu ngữ nghĩa phong phú từ Wikipedia.
- Use case: Phát triển các hệ thống học máy có khả năng hiểu và xử lý ngôn ngữ tự nhiên tốt hơn.
Nhà xuất bản và biên tập viên tài liệu khoa học:
- Lợi ích: Tự động gán cụm từ khóa chính xác cho các bài báo, báo cáo nghiên cứu, giúp tăng khả năng tiếp cận và trích dẫn.
- Use case: Tối ưu hóa quy trình biên tập và xuất bản tài liệu.

Câu hỏi thường gặp

SemiRank là gì và tại sao cần cải tiến?
SemiRank là phương pháp rút trích cụm từ khóa dựa trên mối quan hệ ngữ nghĩa giữa các cụm từ trong tài liệu và tập khóa ban đầu. Cải tiến là cần thiết vì tập khóa ban đầu chỉ lấy từ tiêu đề thường không đủ đại diện, dẫn đến hiệu suất thấp. Hai phương pháp đề xuất giúp mở rộng và nâng cao chất lượng tập khóa ban đầu, cải thiện độ chính xác và độ phủ.
Phương pháp cụm từ trọng tâm hoạt động như thế nào?
Phương pháp này chọn các câu trọng tâm trong phần tóm tắt, giới thiệu và kết luận của tài liệu dựa trên sự trùng lặp từ với tiêu đề và các từ khóa nhấn mạnh. Các cụm từ trong những câu này được coi là khóa ban đầu, giúp SemiRank có nhiều điểm neo hơn để lan truyền giá trị.
Tại sao sử dụng Wikipedia làm nguồn tham chiếu ngữ nghĩa?
Wikipedia là kho tri thức lớn, có cấu trúc liên kết phong phú giữa các bài viết, giúp định lượng mối quan hệ ngữ nghĩa giữa các cụm từ một cách chính xác. Việc gán cụm từ vào bài viết Wikipedia tương ứng giúp giải quyết nhập nhằng nghĩa và nâng cao chất lượng rút trích.
Phương pháp đặc điểm thông tin dựa trên những chỉ số nào?
Phương pháp này sử dụng TF (tần suất xuất hiện) và FOC (vị trí xuất hiện lần đầu) của cụm từ trong tài liệu để đánh giá tầm quan trọng. Cụm từ xuất hiện nhiều lần và sớm trong văn bản có khả năng là cụm từ khóa quan trọng.
Làm thế nào để đánh giá hiệu quả của các phương pháp rút trích cụm từ khóa?
Hiệu quả được đánh giá bằng các chỉ số precision, recall và F1 so sánh tập cụm từ khóa tự động với tập khóa chuẩn do con người gán. Ngoài ra, độ đồng nhất (consistency) giữa các tập khóa cũng được xem xét để đảm bảo tính ổn định và tin cậy của kết quả.

Kết luận

Đề tài đã thành công trong việc cải tiến phương pháp SemiRank bằng hai phương pháp rút trích cụm từ khóa ban đầu: cụm từ trọng tâm và đặc điểm thông tin, giúp nâng cao hiệu suất rút trích cụm từ khóa trên tập Wiki-20.
Việc khai thác mối quan hệ ngữ nghĩa giữa các cụm từ dựa trên dữ liệu Wikipedia là yếu tố then chốt giúp tăng tính chính xác và đồng nhất của tập khóa.
Phương pháp cụm từ trọng tâm cho phép mở rộng tập khóa ban đầu hiệu quả hơn so với chỉ sử dụng tiêu đề, đồng thời phương pháp đặc điểm thông tin giúp đánh giá tầm quan trọng cụm từ dựa trên đặc điểm xuất hiện trong văn bản.
Kết quả thực nghiệm cho thấy sự ổn định và cải tiến rõ rệt về chỉ số F1, góp phần nâng cao chất lượng các hệ thống rút trích cụm từ khóa tự động.
Các bước tiếp theo bao gồm phát triển công cụ tự động xác định cấu trúc tài liệu để chọn câu trọng tâm chính xác hơn và mở rộng nghiên cứu sang các ngôn ngữ khác ngoài tiếng Anh.

Các nhà nghiên cứu và phát triển phần mềm quản lý tri thức nên áp dụng và tiếp tục hoàn thiện các phương pháp này để nâng cao hiệu quả khai thác thông tin trong kỷ nguyên dữ liệu lớn.

Trích đoạn nội dung tài liệu

Chương 1.1 Xác định bài tOán.2 Mục tiêu và phạm VI. -- + c + 930101010 10 11111111111 11 1n nhà 2 Chương 2. CÁC CÔNG TRÌNH LIÊN QUAN. Các đặc điểm của cum từ khóa nói ChUnØ.

CO SỞ LÝ THUYET .-- ¿2522252 E+E*E£E££ESE*EE£E£zEzEeErxrxrecee 10 Ma —=. Định lượng mối quan hệ ngữ nghĩa và phân giải nhập nhăng. Nhóm theo chủ đề (COMMUNILY). 2222211121211 11112 111118111 kreg 17 Chương 4.

PHƯƠNG PHAP DE XUAT .---- 5-5522 E2 SE £E£2EzEcErszxrecee 18 Al SemilRankK.2 Phuong pháp cụm từ trong fâm. 1 1 1 vế 25 43 Phuong pháp sử dụng đặc điểm thông tin của cụm từ khóa. 28 AA Tiền xử lý dữ liệu đầu vàO.- ----- + k1 TT HT HT ky 29 Chương 5. Phương pháp đánh giá.

Hiện thực các phương pháp). 35 ° Hiện thực SemiRanK. - - - - - 1 111111111 S 1S 11111 15111111211 11111111111 k khen ra 36 © Hiện thực tiền xử lý dữ liệu.- 52 52s E 2212 He uyn 38 ° Hiện thực phương pháp cum từ trọng tâm.--- - -- 52-2 22222222222 zessss2 38 ° Hiện thực phương pháp sử dụng đặc điểm thông tin của cụm từ khóa. Đánh giá hiệu QUẢ.

2 2 25 5 5 1103001501010 010 re 39 ° Xác định số lượng cụm từ khóa ban đầu. S22 2212 2 Hy 39 ° Hiệu quả khi kết hợp với mối quan hệ ngữ nghĩa trong SemiRank. 42 ° So sánh với các phương pháp khác.-- - 1 2122221123213 Esrxed 43 ° Sử dụng phương pháp phân nhóm Walktrap.-- cece eee 44 Chương 6. Or: Leak 6 on ae .2 Hướng phat triỂn.

46 THAM KHẢO coscecccccccccccccssceseccsssssesscecsscecsssessccsssecssssesssscusscessssessssesssseesssestaseesess 48 DANH MỤC HINH Hình 3. Ví dụ về các thành phan trong Wikipedia. Ví dụ về biểu diễn siêu đồ thi G1. Quy trình rút trích cụm từ khóa trong SemiRank.

Giải thuật PhraseRank trong SemiRank .---- 5c ẶcSSssssssss+ss2 22 Hình 4. Minh họa một số bước lặp trong giải thuật PhraseRank. Quá trình rút trích tập các cụm từ khóa ban dau trong phương pháp cụm tỪ TONG TÂ. - -GGG G9 nọkh 25 Hình 5.

Đồ thị biểu diễn hiệu suất thu được khi sử dụng phương pháp cụm từ 00:58 0202217. 40 DANH MỤC BẢNG Bang 2-1. Các đặc điểm được sử dụng trong một số hệ thong rut trích cum từ khóa 9 Bang 3-1. Trọng lượng của các kiểu liên kết khác nhau.

Hiệu suất của SemiRank khi sử dung tiêu dé và sử dung phương pháp cụm CU trọng {Âm. - - + - -- cọ nọ ni ky 4] Bảng 5-2. Hiệu suất của SemiRank khi sử dung tiêu dé và sử dung phương pháp đặc điểm thông tin .----¿ ¿E22 SE E121 3 5 515151 51511111115 5 111101010 11101110100 11111 re 42 Bảng 5-3. Hiệu suat của tập các cụm từ khóa ban dau so với tập các cum từ khóa sau khi đánh giá ngữ nghĩa.

Hiệu suất của các phương pháp rút trích cụm từ khóa khác nhau trên tập ð008)1900)4740/2011118—. Hiệu suất đạt được khi sử dụng giải thuật phân nhóm Walktrap.1 Xác định bai toán Cum từ khóa là những từ hay cụm từ có nghĩa đại diện cho nội dung tóm tat của tài liệu. Vì diễn tả nội dung chính của tài liệu, những cụm từ khóa này có thể được sử dụng trong các công cụ tìm kiếm như 1a trở thành siêu dữ liệu (metadata) để giúp người sử dụng dự đoán nội dung của tài liệu và từ đó tìm kiếm được bài viết có nội dung phù hợp [9]. Các cum từ khóa này cũng có thé được dùng để gom nhóm và phân loại các tài liệu vào các chủ đề khác nhau [6].

Chúng cũng có thé được dùng để xây dựng các bộ từ điển đồng nghĩa (thesaurus) [19]. Cùng với sự phát triển của công nghệ thông tin, số lượng các tài liệu điện tử ngay càng nhiều nhưng ít trong số chúng được tác giả gan các cụm từ khóa. Thêm vào đó việc gan các cum từ khóa băng tay là một công việc đòi hỏi nhiều thời gian và công sức, vì thế, các công cụ gán tự động trở thành một lựa chọn mang lại nhiều hứa hẹn. Có hai hướng tiếp cận chính để giải quyết bài toán này: hướng sử dụng các cụm từ thuộc một bộ từ vựng được kiểm soát (controlled vocabulary) làm khóa và hướng rút trích các cụm từ khóa từ trong nội dung của văn bản.

Trong hướng tiếp cận thứ nhất, các cụm từ khóa là các từ vựng trong bộ từ vựng được kiểm soát. Bộ từ vựng kiểm soát bao gồm những cụm từ được chọn lựa kỹ lưỡng, mỗi cụm từ diễn tả một khái niệm duy nhất nào đó. Khi chọn khóa cho tài liệu, những cụm từ này sẽ được xem xét. Bộ từ vựng kiểm soát giúp bảo toàn tính đồng nhất giữa các cụm từ khóa của các tài liệu khác nhau.

Bộ từ vựng kiểm soát thường được tạo ra cho một lĩnh vực (domain) cụ thể nào đó và có kích thước giới hạn. Ví dụ như MeSH! là một “http://www. gov/mesh dạng của bộ từ vựng kiểm soát, MeSH cung cấp những cụm từ và những mô tả cho lĩnh vực y khoa. Hướng tiếp cận thứ hai là rút trích các cụm từ khóa từ trong nội dung của văn bản.

So với hướng tiếp cận thứ nhất những cụm từ được chọn làm khóa không bị giới hạn. Nhưng như vậy không có sự đồng nhất giữa các cụm từ khóa được chọn giữa các tài liệu khác nhau. Ở đây dé tai quan tâm đến những phương pháp rút trích các cụm từ khóa từ trong nội dung của tài liệu.2 Mục tiêu và phạm vi Dé xác định được tập các cụm từ khóa đại diện cho nội dung tóm tắt của tài liệu, đề tài đã kết hợp những đặc trưng của những cụm từ khóa với ngữ nghĩa. Cụ thể, đề tài xây dựng một tập các cụm từ khóa ban đầu dựa vào các đặc trưng của khóa, sau đó tiến hành đánh giá vai trò cụm từ khóa của chúng bằng cách xem xét mối quan hệ ngữ nghĩa của chúng với nhau.

Bằng cách sử dụng lại phương pháp đánh giá ngữ nghĩa trong SemiRank, trong phạm vi của minh, đề tài xây dựng lại tập các cụm từ khóa ban đầu cho nó dựa vào các đặc trưng khác nhau của cụm từ khóa. Hai phương pháp được đề xuất là: phương pháp cụm từ trọng tâm và phương pháp sử dụng đặc điểm thông tin của cụm từ khóa. SemiRank rút trích các cụm từ trong tiêu đề và coi chúng là các cụm từ khóa ban đầu cũng như là cụm từ khóa sau cùng, sau đó tìm kiếm thêm những cụm từ khóa còn lại từ trong văn bản mà những cụm từ khóa này có mối quan hệ ngữ nghĩa phù hợp với các cụm từ khóa ban đầu đã cho. Trong khi đó, dé tài mở rộng tập từ khóa ban đầu và đánh giá lại vai trò của các cụm từ khóa ban đầu này thông qua mối quan hệ ngữ nghĩa của chúng với nhau.

Như thế tập các cụm từ khóa sau cùng đại diện cho văn bản vừa có đặc trưng của việc là cụm từ khóa ban đầu và vừa có đặc trưng ngữ nghĩa. Khi xử lý tiên dữ liệu, các cụm từ đi qua một bước lọc liên quan dén việc gan cụm từ vào các bài viet Wikipedia tương ứng với chúng. Nên ở đây, có sự ràng buộc vào Wikipedia. Mặc dù Wikipedia có kích thước lớn nhưng nó vân nhỏ hơn sô lượng cụm từ có trong ngôn ngữ tự nhiên.

Trong phương pháp cụm từ trọng tâm, đề tài sử dụng một số mẫu là các từ trong tiếng Anh, nên phương pháp này chỉ áp dụng được cho các tải liệu có ngôn ngữ là tiếng Anh. CÁC CÔNG TRÌNH LIÊN QUAN Dé rút trích các cum từ khóa thích hop, các hệ thông thường tiễn hành qua hai bước sau: rút trích các cụm từ có trong văn bản làm khóa tiềm năng và lọc ra từ các cụm từ khóa tiém năng này những cụm từ thích hợp làm khóa. Chương này trình bày khái quát về các hệ thống rút trích cum từ khóa.1 mô ta tổng quát về các hệ thong nói chung.2 nêu lên các đặc điểm được sử dụng để lọc ra các cụm từ khóa. Tổng quát Như đã nói ở trên, các hệ thông rút trích các cụm từ khóa thường trải qua hai bước: rút trích các cụm từ khóa tiềm năng và lọc lấy các cụm từ khóa.

Có nhiều phương pháp khác nhau để tìm kiếm các cụm từ khóa tiềm năng trong nội dung văn bản. Cách đơn giản và phổ biến nhất là n-gram [3,5, 11, 23], cat tuần tự n từ don đứng kế tiếp nhau và coi nó là khóa tiềm năng. Nhược điểm của phương pháp này là các từ đơn đứng kế nhau không phải lúc nào cũng tạo thành cụm từ có nghĩa. Đề khắc phụ nhược điểm trên, phương pháp lay theo mẫu (POS pattern) được sử dụng [5, I8], các cầu trong văn bản được đưa qua một bộ phân tích cú pháp dé xác định từ loại của nó va chỉ những cum từ nào trong câu thỏa mãn các mẫu từ loại mới được chọn làm cụm từ khóa tiêm năng.

Trong những năm gan đây, cùng với sự lớn mạnh của Wikipedia, các cụm từ trong văn bản còn được gán với các bài viết trong Wikipedia (article) |4, 8, 14], các bài viết này đại diện cho ngữ nghĩa của cụm từ. Chỉ những cụm từ có khả năng tìm thay một hay nhiều bài viết tương ứng với nó mới được chọn làm cụm từ khóa tiềm năng. Một khi đã có được tập các cụm từ khóa tiềm năng, để có thể chọn ra được các cụm từ thích hợp làm khóa, các hệ thống tự động thường sử dụng những đặc điểm được cho là nên có ở một cụm từ khóa dé xây dựng nên bộ lọc. Những đặc điêm này có được do sự đúc kết từ những quan sát trên các tập khóa được thực hiện bang tay.

Tuy theo từng hệ thông khác nhau mà việc khai thác các đặc điểm này là khác nhau, mỗi hệ thống sẽ chú trọng một số đặc điểm được cho là nồi bật hơn cả va bỏ qua những đặc điểm khác. Có thể chia các hệ thống này thành hai nhóm chính: nhóm sử dụng phương pháp học có giám sát (marchine learning) và nhóm sử dụng phương pháp hoc không có giám sát (unsupervised learning). Nhóm sử dụng phương pháp học có giám sát [5, 11, 14, 23] sử dụng một tập dữ liệu huấn luyện (training data) để xây dựng nên mô hình học máy. Tập dữ liệu huấn luyện này bao gôm các tài liệu đã có sẵn các cum từ khóa được gan bang tay.

Những mô hình học máy thường được áp dụng là mô hình Naive Bayes [18, 23] hay cây ra quyết định (decision tree) [11, 14, 18]. Nhược điểm của phương pháp nay là đòi hỏi tập dữ liệu huấn luyện phải lớn [14].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

"Rút trích cụm từ khóa trong văn bản dựa trên vai trò và đặc điểm - Luận văn thạc sĩ khoa học máy tính" là một nghiên cứu chuyên sâu về phương pháp trích xuất từ khóa từ văn bản, tập trung vào vai trò và đặc điểm của các cụm từ. Tài liệu này cung cấp cái nhìn chi tiết về các thuật toán và kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để tối ưu hóa việc nhận diện từ khóa, hỗ trợ hiệu quả trong các ứng dụng như SEO, phân tích dữ liệu và tìm kiếm thông tin. Đây là nguồn tài liệu hữu ích cho những ai quan tâm đến lĩnh vực máy tính và xử lý ngôn ngữ.

Để mở rộng kiến thức về các phương pháp phân tích ngôn ngữ, bạn có thể tham khảo Luận văn thạc sĩ khảo sát hiện tượng tỉnh lược ngữ dụng trong các bài phóng sự trên báo hoa học trò trong 2 năm 2008 2009, nghiên cứu này tập trung vào hiện tượng tỉnh lược trong ngôn ngữ báo chí. Ngoài ra, nếu bạn quan tâm đến các phương pháp tổ chức dữ liệu, Luận văn thạc sĩ phương pháp tổ chức cơ sở dữ liệu cho đối tượng chuyển động sẽ là tài liệu bổ ích để khám phá thêm.

#Luận văn Thạc sĩ

#khoa học máy tính

#phân tích văn bản

#tối ưu hóa từ khóa

#rút trích cụm từ khóa

#vai trò trong văn bản

Chủ đề

phân tích ngữ nghĩa trong văn bản

Ứng dụng trong khoa học máy tính

Nghiên cứu về rút trích thông tin

Phương pháp và kỹ thuật rút trích

Luận văn thạc sĩ khoa học máy tính rút trích các cụm từ khóa dựa trên vai trò và đặc điểm của các cụm từ trong văn bản

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: XÁC ĐỊNH BÀI TOÁN VÀ MỤC TIÊU

1.1. Xác định bài toán

1.2. Mục tiêu và phạm vi

2. CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Tổng quát

2.2. Các đặc điểm của cụm từ khóa

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Định lượng mối quan hệ ngữ nghĩa và phân giải nhập nhằng

3.2. Nhóm theo chủ đề (Community)

4. CHƯƠNG 4: PHƯƠNG PHÁP ĐỀ XUẤT

4.1. SemiRank

4.2. Phương pháp cụm từ trọng tâm

4.3. Phương pháp sử dụng đặc điểm thông tin của cụm từ khóa

4.4. Tiền xử lý dữ liệu đầu vào

5. CHƯƠNG 5: PHƯƠNG PHÁP ĐÁNH GIÁ

5.1. Hiện thực các phương pháp

5.1.1. Hiện thực SemiRank

5.1.2. Hiện thực tiền xử lý dữ liệu

5.1.3. Hiện thực phương pháp cụm từ trọng tâm

5.1.4. Hiện thực phương pháp sử dụng đặc điểm thông tin của cụm từ khóa

5.2. Đánh giá hiệu quả

5.2.1. Xác định số lượng cụm từ khóa ban đầu

5.2.2. Hiệu quả khi kết hợp với mối quan hệ ngữ nghĩa trong SemiRank

5.2.3. So sánh với các phương pháp khác

5.2.4. Sử dụng phương pháp phân nhóm Walktrap

6. CHƯƠNG 6: HƯỚNG PHÁT TRIỂN

THAM KHẢO

DANH MỤC HÌNH

DANH MỤC BẢNG

I. Giới thiệu về rút trích cụm từ khóa

1.1. Tầm quan trọng của cụm từ khóa

II. Các phương pháp rút trích cụm từ khóa

2.1. Phương pháp cụm từ trọng tâm

2.2. Phương pháp đặc điểm thông tin

III. Kết quả thực nghiệm và đánh giá

3.1. Đánh giá hiệu suất

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyen Kim Huyen

Người hướng dẫn: GS. Cao Hoang Tru

Trường học: Đại học Bách Khoa - Đại học Quốc gia TP. HCM

Chuyên ngành: Khoa học máy tính

Đề tài: Rút trích cụm từ khóa trong văn bản dựa trên vai trò và đặc điểm

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2013

Địa điểm: TP. Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm