Nghiên cứu về Tóm tắt Tự động và Tương đồng giữa các Câu

Chuyên khảo phân tích Indexation al´eatoire et similarit´e inter phrases appliqu´ees au r´esum´e automatique, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Université de Bretagne-Sud

Chuyên ngành

Informatique

Người đăng

Ẩn danh

Thể loại

thesis

2016

111

Phí lưu trữ

35 Point

Mục lục chi tiết

RÉSUMÉ

REMERCIEMENTS

TABLE DES MATIÈRES

1. CHAPITRE 1: INTRODUCTION

2. CHAPITRE 2: REPRÉSENTATION SÉMANTIQUE D’UN TERME

2.1. Quelques approches de la sémantique lexicale

2.1.1. Modèles graphiques

2.1.2. Modèles d’espaces vectoriels et modèles neuronaux

2.1.3. Modèles géométriques

2.1.4. Modèles logico-algébriques

2.2. Les espaces vectoriels sémantiques

2.2.1. Différentes représentations sémantiques

2.2.1.1. Matrice terme-document et similarité entre documents

2.2.1.2. Matrice mot-contexte et similarité entre mots

2.2.1.3. Matrice paire-patron et similarité relationnelle

2.2.1.4. Autres représentations

2.2.2. VSM et types de similarité

2.2.3. Traitements mathématiques des VSM

2.2.3.1. Construction de la matrice des fréquences brutes

2.2.3.2. Pondération des fréquences brutes

2.2.3.3. Lissage de la matrice

2.2.3.4. Comparaison des vecteurs

2.2.3.5. Algorithmes aléatoires

2.4. Notre approche pour la représentation des mots

2.4.1. Wikipédia comme ressource linguistique

2.4.2. Random Indexing pondéré

3. ESPACE SÉMANTIQUE ET SÉLECTION AUTOMATIQUE DES ARTICLES WIKIPÉDIA

3.2. Construction du Web crawler

3.3. Calcul de la relation entre concepts Wikipédia

4. CALCULS DE SIMILARITÉ ENTRE PHRASES

4.2. Similarité par définition d’un vecteur sémantique de phrase

4.2.1. Expérimentations concernant les groupes de deux termes et modification des pondérations

4.2.1.1. Introduction du paramètre α

4.2.1.2. Introduction de deux paramètres : α et

4.2.1.3. Similarité par optimisation des similarités entre termes

5. WIKIRI ET SIMILARITÉ ENTRE PHRASES : ÉVALUATIONS

5.1. Évaluations du calcul de similarités entre phrases : langue anglaise

5.1.1. Les corpus SemEval

5.1.2. Étude des paramètres α et (WikiRI1)

5.1.2.1. Introduction du paramètre

5.1.3. Résultats obtenus par les différentes versions de WikiRI sur les corpus de SemEval 2014

5.2. Évaluations du calcul de similarités entre phrases : langue française

5.2.1. Les corpus d’évaluation

5.2.2. Résultats obtenus par les différentes versions de WikiRI sur les corpus de langue française

5.2.2.1. WikiRI sur sélection d’articles

5.2.2.2. Comparaison entre WikiRI1 et WikiRI2

6. APPLICATION DE WIKIRI À UNE TÂCHE DE RÉSUMÉ MULTI-DOCUMENTS

6.1. Principes généraux

6.2. Description de l’algorithme DivRank

6.3. Expérimentations en langue française

6.3.1. Le corpus de tests

6.3.2. Les résultats

6.4. Expérimentations en langue anglaise

6.4.1. Les données de test

6.4.2. Les résultats de WikiRI1

7. BILAN ET PERSPECTIVES

7.1. Objectifs initiaux et déroulement des travaux

7.3. Pistes d’amélioration et perspectives

A LISTE DES PUBLICATIONS

BIBLIOGRAPHIE

TABLE DES FIGURES

LISTE DES TABLEAUX

Tóm tắt

I. Tổng Quan Về Tóm Tắt Tự Động Khái Niệm Ứng Dụng

Trong bối cảnh bùng nổ thông tin trên internet, tóm tắt tự động trở thành một lĩnh vực nghiên cứu quan trọng của Xử lý Ngôn ngữ Tự nhiên (NLP). Mục tiêu chính là tạo ra các bản tóm tắt cô đọng, chính xác từ một hoặc nhiều văn bản gốc. Bài toán này không chỉ đơn thuần là rút gọn văn bản mà còn đòi hỏi khả năng hiểu ngữ nghĩa, phân tích cấu trúc và chọn lọc thông tin quan trọng. Ứng dụng của tóm tắt tự động rất đa dạng, từ giúp người dùng nhanh chóng nắm bắt nội dung tin tức, báo cáo, đến hỗ trợ các công cụ tìm kiếm, phân tích dữ liệu lớn. Semantic similarity đóng vai trò then chốt trong quá trình này, giúp xác định các câu văn mang thông tin tương đồng và loại bỏ những chi tiết thừa.

1.1. Giới Thiệu Về Các Phương Pháp Tóm Tắt Văn Bản Hiện Nay

Hiện nay, có hai phương pháp chính để thực hiện tóm tắt văn bản: tóm tắt trích ly (Extractive summarization) và tóm tắt tạo sinh (Abstractive summarization). Tóm tắt trích ly hoạt động bằng cách chọn ra các câu quan trọng nhất từ văn bản gốc và ghép chúng lại thành bản tóm tắt. Phương pháp này đơn giản, dễ thực hiện nhưng đôi khi bản tóm tắt thiếu tính mạch lạc. Ngược lại, Tóm tắt tạo sinh tạo ra bản tóm tắt mới bằng cách diễn giải lại nội dung của văn bản gốc, tương tự như cách con người thực hiện. Phương pháp này phức tạp hơn, đòi hỏi khả năng Natural Language Understanding (NLU) và Natural Language Generation (NLG) cao, nhưng cho ra kết quả tự nhiên, mạch lạc hơn.

1.2. Tầm Quan Trọng Của Xử Lý Ngôn Ngữ Tự Nhiên NLP Trong Tóm Tắt

Xử lý Ngôn ngữ Tự nhiên (NLP) đóng vai trò then chốt trong cả hai phương pháp tóm tắt văn bản. Các kỹ thuật NLP như phân tích cú pháp, phân tích ngữ nghĩa, nhận dạng thực thể có tên, giải quyết tham chiếu, v.v. được sử dụng để hiểu sâu sắc nội dung văn bản gốc. Đặc biệt, các mô hình học sâu (Deep Learning) như mạng nơ-ron (Neural Networks), biến áp (Transformers) (ví dụ như BERT, GPT) đã mang lại những bước tiến vượt bậc trong lĩnh vực này, giúp cải thiện đáng kể độ chính xác và tính tự nhiên của bản tóm tắt.

1.3. Các Bài Toán Liên Quan Đến Tóm Tắt Tự Động Tổng Hợp

Ngoài việc chọn lựa thông tin quan trọng, tóm tắt tự động còn phải đối mặt với nhiều thách thức khác. Một trong số đó là xử lý tương đồng câu, tức là xác định các câu văn có ý nghĩa tương tự nhau, dù cách diễn đạt khác nhau. Bài toán này đòi hỏi phải sử dụng các kỹ thuật semantic similarity, sentence embeddings, và các mô hình word embeddings như Word2Vec, GloVe, FastText để biểu diễn câu dưới dạng vector và tính toán độ tương đồng giữa chúng.

II. Thách Thức Trong Đánh Giá Tương Đồng Câu và Tóm Tắt

Một trong những thách thức lớn nhất trong tóm tắt tự động là đánh giá tóm tắt tự động. Các phương pháp đánh giá truyền thống như ROUGE, BLEU, METEOR dựa trên việc so sánh bản tóm tắt được tạo ra với bản tóm tắt chuẩn do con người tạo. Tuy nhiên, các phương pháp này có nhiều hạn chế, đặc biệt là không đánh giá được tính mạch lạc, tính tự nhiên và khả năng nắm bắt ý chính của bản tóm tắt. Việc xây dựng bộ dữ liệu đánh giá chất lượng cao cũng là một khó khăn lớn. Ngoài ra, việc đánh giá độ tương đồng ngữ nghĩa giữa các câu cũng gặp nhiều thách thức do sự đa dạng trong cách diễn đạt và sự phức tạp của ngôn ngữ tự nhiên.

2.1. Hạn Chế Của Các Phương Pháp Đánh Giá Tóm Tắt Tự Động Truyền Thống

Các phương pháp đánh giá tóm tắt tự động truyền thống, như ROUGE, tập trung vào việc so sánh số lượng từ hoặc n-gram trùng khớp giữa bản tóm tắt tự động và bản tóm tắt chuẩn. Điều này có nghĩa là một bản tóm tắt có thể đạt điểm cao mặc dù không thực sự truyền tải được ý chính của văn bản gốc hoặc có cấu trúc lủng củng. Hơn nữa, những phương pháp này thường không phù hợp với các phương pháp tóm tắt tạo sinh vì có sự khác biệt lớn về từ vựng và cách diễn đạt so với bản tóm tắt chuẩn.

2.2. Khó Khăn Trong Xây Dựng Bộ Dữ Liệu Đánh Giá Chất Lượng Cao

Việc tạo ra bộ dữ liệu đánh giá tóm tắt tự động đòi hỏi nhiều công sức và chuyên môn. Cần có đội ngũ chuyên gia ngôn ngữ để tạo ra các bản tóm tắt chuẩn, đồng thời đánh giá chất lượng của các bản tóm tắt tự động một cách khách quan. Tuy nhiên, việc đánh giá này mang tính chủ quan cao và có thể có sự khác biệt lớn giữa các người đánh giá. Do đó, cần có các quy trình đánh giá chặt chẽ để đảm bảo tính tin cậy của bộ dữ liệu đánh giá.

2.3. Vấn Đề Tương Đồng Ngữ Nghĩa Các Khía Cạnh Cần Xem Xét

Xác định độ tương đồng ngữ nghĩa giữa các câu là một bài toán phức tạp do sự đa dạng của ngôn ngữ tự nhiên. Các câu có thể diễn đạt cùng một ý tưởng bằng nhiều cách khác nhau, sử dụng các từ đồng nghĩa, cấu trúc câu khác nhau, hoặc thậm chí sử dụng ẩn dụ. Để giải quyết vấn đề này, cần phải sử dụng các kỹ thuật NLP tiên tiến để hiểu sâu sắc ý nghĩa của các câu và loại bỏ các yếu tố nhiễu như sự khác biệt về cú pháp.

III. Phương Pháp Dựa Trên Vector Space Model VSM Wikipédia

Một trong những phương pháp tiếp cận hiệu quả để đánh giá tương đồng câu là sử dụng Vector Space Model (VSM), trong đó mỗi câu được biểu diễn dưới dạng một vector trong không gian vector. Các phần tử của vector thường là tần suất xuất hiện của các từ trong câu hoặc các trọng số được tính toán bằng các phương pháp như TF-IDF. Wikipédia có thể được sử dụng làm nguồn tri thức để cải thiện khả năng biểu diễn của VSM, bằng cách sử dụng các khái niệm và mối quan hệ được định nghĩa trong Wikipédia để mở rộng vector biểu diễn của câu. Luận án này sử dụng WikiRI, một hệ thống dựa trên Random Indexing (RI) và Wikipédia.

3.1. Ứng Dụng Vector Space Model VSM Trong Bài Toán Tương Đồng Câu

Vector Space Model (VSM) là một phương pháp biểu diễn văn bản phổ biến trong Information retrieval và Text mining. Trong bài toán tương đồng câu, mỗi câu được biểu diễn như một vector trong không gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ hoặc một khái niệm. Độ tương đồng ngữ nghĩa giữa hai câu được tính toán bằng cách sử dụng các độ đo khoảng cách như cosine similarity hoặc Euclidean distance giữa các vector biểu diễn của chúng.

3.2. Sử Dụng Wikipédia Như Một Nguồn Tri Thức Bổ Sung Cho VSM

Wikipédia là một nguồn tri thức khổng lồ chứa đựng thông tin về nhiều lĩnh vực khác nhau. Thông tin này có thể được sử dụng để cải thiện khả năng biểu diễn của VSM bằng cách mở rộng vector biểu diễn của câu với các khái niệm và mối quan hệ được định nghĩa trong Wikipédia. Ví dụ, nếu một câu chứa từ "Apple", vector biểu diễn của câu có thể được mở rộng với các khái niệm liên quan đến "Apple" như "Công ty công nghệ", "iPhone", v.v.

3.3. Giới Thiệu Về Phương Pháp Random Indexing RI Và Vai Trò

Random Indexing (RI) là một phương pháp giảm chiều dữ liệu hiệu quả, thường được sử dụng để xây dựng word embeddings. Trong phương pháp này, mỗi từ được gán một vector ngẫu nhiên có số chiều cố định. Vector biểu diễn của một câu được tính toán bằng cách cộng các vector của các từ trong câu. Phương pháp này giúp giảm kích thước của vector biểu diễn và tăng tốc độ tính toán độ tương đồng ngữ nghĩa.

IV. Cải Tiến Tính Tương Đồng Bằng Phương Pháp Học Sâu Deep Learning

Sự phát triển của học sâu (Deep Learning) đã mang lại những đột phá lớn trong lĩnh vực tương đồng câu. Các mô hình mạng nơ-ron (Neural Networks) như BERT và GPT có khả năng học được các biểu diễn ngữ nghĩa phong phú của câu, vượt trội so với các phương pháp truyền thống. Các mô hình này có thể được sử dụng để trích xuất câu biểu diễn (Sentence embeddings), sau đó được sử dụng để tính toán độ tương đồng ngữ nghĩa. Các mô hình này được huấn luyện trên lượng lớn dữ liệu văn bản, cho phép chúng học được các mối quan hệ phức tạp giữa các từ và câu.

4.1. Ứng Dụng Các Mô Hình Mạng Nơ ron Neural Networks Trong Tương Đồng

Các mô hình mạng nơ-ron (Neural Networks), đặc biệt là các mô hình dựa trên kiến trúc biến áp (Transformers), đã chứng minh được hiệu quả vượt trội trong bài toán tương đồng câu. Các mô hình này có khả năng học được các biểu diễn ngữ nghĩa phức tạp của câu, nắm bắt được các mối quan hệ ngữ nghĩa tinh tế mà các phương pháp truyền thống bỏ qua. Ví dụ, các mô hình mạng nơ-ron có thể hiểu được sự khác biệt nhỏ trong ý nghĩa giữa các câu có cấu trúc tương tự nhau.

4.2. BERT và GPT Những Bước Tiến Mới Trong Xử Lý Ngôn Ngữ

BERT (Bidirectional Encoder Representations from Transformers) và GPT (Generative Pre-trained Transformer) là hai mô hình ngôn ngữ lớn dựa trên kiến trúc biến áp (Transformers), đã đạt được những kết quả ấn tượng trong nhiều bài toán NLP, bao gồm tương đồng câu. BERT được huấn luyện để dự đoán các từ bị che giấu trong câu, trong khi GPT được huấn luyện để dự đoán từ tiếp theo trong một chuỗi văn bản. Cả hai mô hình này đều có khả năng học được các biểu diễn ngữ nghĩa phong phú và được sử dụng rộng rãi trong các ứng dụng NLP.

4.3. Tầm Quan Trọng Của Câu Biểu Diễn Sentence Embeddings

Câu biểu diễn (Sentence embeddings) là các vector biểu diễn ngữ nghĩa của câu, được trích xuất từ các mô hình học sâu (Deep Learning). Các vector này có thể được sử dụng để tính toán độ tương đồng ngữ nghĩa giữa các câu. Một câu biểu diễn tốt phải có khả năng nắm bắt được ý chính của câu và phản ánh được các mối quan hệ ngữ nghĩa giữa các từ trong câu. Các phương pháp huấn luyện câu biểu diễn ngày càng được cải thiện, cho phép tạo ra các vector biểu diễn chất lượng cao, góp phần nâng cao hiệu quả của các ứng dụng NLP.

V. Ứng Dụng Thực Tế Của Tóm Tắt Tự Động Các Ví Dụ Điển Hình

Tóm tắt tự động có nhiều ứng dụng thực tế trong các lĩnh vực khác nhau. Trong lĩnh vực báo chí, tóm tắt tự động có thể giúp người dùng nhanh chóng nắm bắt nội dung chính của các bài báo. Trong lĩnh vực nghiên cứu khoa học, tóm tắt tự động có thể giúp các nhà nghiên cứu tìm kiếm và tổng hợp thông tin từ hàng ngàn bài báo khoa học. Trong lĩnh vực dịch vụ khách hàng, tóm tắt tự động có thể giúp các nhân viên hỗ trợ khách hàng nhanh chóng hiểu được vấn đề của khách hàng và đưa ra giải pháp phù hợp. Các hệ thống tóm tắt này giúp text mining, information retrieval hiệu quả hơn.

5.1. Tóm Tắt Trong Lĩnh Vực Báo Chí Và Truyền Thông Tổng Hợp Tin Tức

Trong lĩnh vực báo chí và truyền thông, tóm tắt tự động được sử dụng để tổng hợp tin tức từ nhiều nguồn khác nhau. Các hệ thống tóm tắt có thể tự động tạo ra các bản tóm tắt ngắn gọn về các sự kiện nóng hổi, giúp người dùng nhanh chóng nắm bắt được thông tin chính mà không cần phải đọc toàn bộ các bài báo. Điều này đặc biệt hữu ích trong bối cảnh thông tin ngày càng bùng nổ và người dùng không có đủ thời gian để đọc hết mọi thứ.

5.2. Tóm Tắt Hỗ Trợ Nghiên Cứu Khoa Học Tìm Kiếm và Tổng Hợp Thông Tin

Trong lĩnh vực nghiên cứu khoa học, tóm tắt tự động có thể giúp các nhà nghiên cứu tìm kiếm và tổng hợp thông tin từ hàng ngàn bài báo khoa học một cách nhanh chóng và hiệu quả. Các hệ thống tóm tắt có thể tự động trích xuất các thông tin quan trọng từ các bài báo, giúp các nhà nghiên cứu tiết kiệm thời gian và tập trung vào việc phân tích và diễn giải các kết quả nghiên cứu. Điều này đặc biệt quan trọng trong các lĩnh vực khoa học đòi hỏi phải xử lý lượng lớn thông tin như y sinh học và hóa học.

5.3. Tóm Tắt Trong Dịch Vụ Khách Hàng Nâng Cao Hiệu Quả Hỗ Trợ

Trong lĩnh vực dịch vụ khách hàng, tóm tắt tự động có thể giúp các nhân viên hỗ trợ khách hàng nhanh chóng hiểu được vấn đề của khách hàng và đưa ra giải pháp phù hợp. Các hệ thống tóm tắt có thể tự động tóm tắt các cuộc trò chuyện giữa khách hàng và nhân viên hỗ trợ, giúp các nhân viên khác nắm bắt được tình hình một cách nhanh chóng khi tiếp nhận các yêu cầu hỗ trợ tiếp theo. Điều này giúp nâng cao hiệu quả và chất lượng dịch vụ khách hàng.

VI. Triển Vọng Phát Triển Của Tóm Tắt Tự Động Xu Hướng Tương Lai

Lĩnh vực tóm tắt tự động đang phát triển mạnh mẽ với nhiều hướng nghiên cứu tiềm năng. Một trong những hướng đi quan trọng là cải thiện khả năng hiểu ngữ nghĩa của các mô hình tóm tắt, đặc biệt là khả năng xử lý các ngôn ngữ có cấu trúc phức tạp và các biểu đạt ẩn dụ. Một hướng đi khác là phát triển các mô hình tóm tắt có khả năng tạo ra các bản tóm tắt đa dạng, phù hợp với nhu cầu của từng người dùng. Các thuật toán Summarization techniques cũng đang được nghiên cứu để đạt được tóm tắt trích ly và tóm tắt tạo sinh hiệu quả.

6.1. Cải Thiện Khả Năng Hiểu Ngữ Nghĩa Của Các Mô Hình Tóm Tắt

Để tạo ra các bản tóm tắt chất lượng cao, các mô hình tóm tắt cần có khả năng hiểu ngữ nghĩa sâu sắc của văn bản gốc. Điều này đòi hỏi phải phát triển các kỹ thuật NLP tiên tiến có thể xử lý các ngôn ngữ có cấu trúc phức tạp và các biểu đạt ẩn dụ. Các nghiên cứu hiện nay tập trung vào việc sử dụng các mô hình học sâu (Deep Learning) để học được các biểu diễn ngữ nghĩa phong phú của văn bản.

6.2. Phát Triển Các Mô Hình Tóm Tắt Đa Dạng Cá Nhân Hóa Tóm Tắt

Một xu hướng quan trọng trong tóm tắt tự động là phát triển các mô hình có khả năng tạo ra các bản tóm tắt đa dạng, phù hợp với nhu cầu của từng người dùng. Ví dụ, một người dùng có thể quan tâm đến các thông tin chi tiết về một sự kiện, trong khi một người dùng khác chỉ quan tâm đến các thông tin tổng quan. Các mô hình tóm tắt cần có khả năng điều chỉnh nội dung và độ dài của bản tóm tắt để đáp ứng các nhu cầu khác nhau của người dùng. Query-focused summarization là một hướng đi để đạt được điều này.

6.3. Hướng Nghiên Cứu Mới Tóm Tắt Dựa Trên Tri Thức Bên Ngoài

Một hướng nghiên cứu mới trong tóm tắt tự động là sử dụng tri thức bên ngoài để cải thiện chất lượng của bản tóm tắt. Tri thức bên ngoài có thể bao gồm các thông tin từ các cơ sở dữ liệu tri thức, các bách khoa toàn thư, hoặc các trang web. Các mô hình tóm tắt có thể sử dụng tri thức bên ngoài để bổ sung thông tin bị thiếu trong văn bản gốc, làm cho bản tóm tắt đầy đủ và chính xác hơn. Latent Semantic Analysis (LSA) có thể được sử dụng để tìm kiếm thông tin liên quan.

24/05/2025

Bạn đang xem trước tài liệu:

Indexation al´eatoire et similarit´e inter phrases appliqu´ees au r´esum´e automatique

Tải đầy đủ

Trích đoạn nội dung tài liệu

THESE / UNIVERSITE DE BRETAGNE-SUD sous le sceau de l’Université Bretagne Loire Présentée par pour obtenir le titre de VU Hai Hieu DOCTEUR DE L’UNIVERSITE DE BRETAGNE-SUD Préparée dans l’équipe EXPRESSION Mention : Informatique Laboratoire IRISA Ecole doctorale SICMA Thèse soutenue le 29 janvier 2016 devant le jury composé de : Indexation aléatoire et Pierre-François MARTEAU Professeur, université de Bretagne Sud / directeur de thèse Jeanne VILLANEAU similarité inter-phrases MCF, université de Bretagne Sud / co-directrice de thèse Farida SAÏD appliquées au résumé MCF, université de Bretagne Sud / co-directrice de thèse Sophie ROSSET Chercheuse, LIMSI – CNRS / rapporteuse automatique Emmanuel MORIN Professeur, université de Nantes / rapporteur Gwénolé LECORVÉ MCF, université de Rennes 1 / examinateur UNIVERSITE DE BRETANGE-SUD Résumé IRISA EXPRESSION Docteur en informatique Indexation aléatoire et similarité inter-phrases appliquées au résumé automatique par VU Hai Hieu Face à la masse grandissante des données textuelles présentes sur le Web, le résumé automatique d’une collection de documents traitant d’un sujet particulier est de- venu un champ de recherche important du Traitement Automatique des Langues. Les expérimentations décrites dans cette thèse s’inscrivent dans cette perspec- tive. L’évaluation de la similarité sémantique entre phrases est l’élément central des travaux réalisés. Notre approche repose sur la similarité distributionnelle et une vectorisation des termes qui utilise l’encyclopédie Wikipédia comme corpus de référence.

Sur la base de cette représentation, nous avons proposé, évalué et comparé plusieurs mesures de similarité textuelle ; les données de tests utilisées sont celles du défi SemEval 2014 pour la langue anglaise et des ressources que nous avons construites pour la langue française. Les bonnes performances des mesures proposées nous ont amenés à les utiliser dans une tâche de résumé multi- documents, qui met en oeuvre un algorithme de type PageRank. Le système a été évalué sur les données de DUC 2007 pour l’anglais et le corpus RPM2 pour le français. Les résultats obtenus par cette approche simple, robuste et basée sur une ressource aisément disponible dans de nombreuses langues, se sont avérés très encourageants.

Remerciements Je tiens à remercier, en tout premier lieu, mon directeur et mes co-directeurs de thèse, Monsieur le Professeur Pierre-François MARTEAU, Mesdames Jeanne VIL- LANEAU et Farida SAÏD pour m’avoir accueilli, guidé et mis dans les meilleures conditions pour préparer ma thèse au sein de l’équipe EXPRESSION du Labora- toire IRISA, l’Université de Bretagne-Sud. Je tiens à leur exprimer ma gratitude pour leurs qualités pédagogiques et scientifiques, leur franchise, leur sympathie, leur confiance. J’ai appris beaucoup auprès d’eux. Je leur suis également recon- naissant pour leur écoute, leur partage et leur soutien dans les moments difficiles.

J’ai pris un grand plaisir à travailler sous leur direction. Je voudrais aussi remercier les rapporteurs de cette thèse : Madame Sophie ROS- SET, Directrice de Recherche du Laboratoire LIMSI, CNRS et Monsieur le Pro- fesseur Emmanuel MORIN au Laboratoire d’Informatique de Nantes-Atlantique, l’Université de Nantes pour l’intérêt qu’ils ont porté à mon travail. Mes remerciements s’adressent également à Monsieur Gwénolé LECORVÉ de l’Université de Rennes 1 pour avoir accepté d’examiner mon travail et de par- ticiper au jury. Je souhaite remercier tous les membres du laboratoire IRISA, Lab-STICC, EN- SIBS : les enseignants, techniciens, administratifs et doctorants qui m’ont aidé et accompagné dans mon travail durant ces quatre années en France.

Je n’oublie pas non plus tous les amis de France qui nous ont aidés, ma famille et moi : Brigitte ENQUEHARD, Evelyne BOUDOU, Alain BOUDOU, Lucien MOREL, Gildas TRÉGUIER, Sylvain CAILLIBOT., les étudiants vietnamiens et les familles vietnamiennes de Lorient. Pour terminer, je remercie du fond du cœur mes beaux-parents NONG Quoc Chinh - TRAN Thi Doan, mes parents VU The Huan - LE Thi Nhi et tous les membres de ma famille qui m’ont toujours soutenu, tout au long de ma vie, de mes études, sans lesquels je n’en serais pas là aujourd’hui. Ma reconnaissance va surtout à mon épouse NONG Thi Quynh Tram et à nos deux enfants VU Quynh Maı̈ et VU Haı̈ Minh qui sont toujours à mes côtés et me donnent la force de relever les défis. iii Table des matières Résumé ii Remerciements iii Table des matières iv Liste des figures ix Liste des tableaux xi 1 Introduction 1 2 Représentation sémantique d’un terme 5 2.1 Quelques approches de la sémantique lexicale .1 Modèles graphiques .2 Modèles d’espaces vectoriels et modèles neuronaux .3 Modèles géométriques .4 Modèles logico-algébriques .2 Les espaces vectoriels sémantiques .1 Di↵érentes représentations sémantiques .1 Matrice terme-document et similarité entre docu- ments .2 Matrice mot-contexte et similarité entre mots .3 Matrice paire-patron et similarité relationnelle .4 Autres représentations .2 VSM et types de similarité .3 Traitements mathématiques des VSM .1 Construction de la matrice des fréquences brutes .2 Pondération des fréquences brutes .3 Lissage de la matrice .4 Comparaison des vecteurs .5 Algorithmes aléatoires .4 Notre approche pour la représentation des mots.

29 v Table des matières vi 2.1 Wikipédia comme ressource linguistique .2 Random Indexing pondéré. 32 3 Espace sémantique et sélection automatique des articles Wikipédia 35 3.2 Construction du Web crawler .3 Calcul de la relation entre concepts Wikipédia. 38 4 Calculs de similarité entre phrases 43 4.2 Similarité par définition d’un vecteur sémantique de phrase .1 Expérimentations concernant les groupes de deux termes et modification des pondérations .1 Introduction du paramètre ↵ .2 Introduction de deux paramètres : ↵ et .3 Similarité par optimisation des similarités entre termes. 51 5 WikiRI et similarité entre phrases : évaluations 55 5.1 Évaluations du calcul de similarités entre phrases : langue anglaise .1 Les corpus SemEval .2 Étude des paramètres ↵ et (WikiRI1 ) .1 Introduction du paramètre .3 Résultats obtenus par les di↵érentes versions de WikiRI sur les corpus de SemEval 2014 .2 Évaluations du calcul de similarités entre phrases : langue française 61 5.1 Les corpus d’évaluation .2 Résultats obtenus par les di↵érentes versions de WikiRI sur les corpus de langue française .1 WikiRI sur sélection d’articles .2 Comparaison entre WikiRI1 et WikiRI2.

66 6 Application de WikiRI à une tâche de résumé multi-documents 69 6.1 Principes généraux .2 Description de l’algorithme DivRank .3 Expérimentations en langue française .1 Le corpus de tests .2 Les résultats .4 Expérimentations en langue anglaise .1 Les données de test .2 Les résultats de WikiRI1. 78 7 Bilan et perspectives 79 7.1 Objectifs initiaux et déroulement des travaux. 79 Table des matières vii 7.3 Pistes d’amélioration et perspectives. 81 A Liste des publications 85 Bibliographie 87 Table des figures 2.2 Pondération BM 25 .3 Pondération IDF .4 Normalisation pivot de la longueur des documents .5 Structure en noeud-papillon de Wikipédia .1 Valeur de log nNi+1 +1 en fonction du taux de documents qui contiennent le terme pour di↵érentes valeurs de ↵.2 Logarithme décimal du nombre de termes en fonction de leur taux d’apparition dans les articles du Wikipédia français .3 Logarithme décimal du nombre de termes en fonction de leur taux d’apparition dans les articles du Wikipédia anglais .4 Valeurs de l’icf↵, en fonction du taux de documents qui contiennent le terme pour di↵érentes valeurs de avec ↵ = 3.

64 ix Liste des tableaux 2.1 Quelques pondérations tf, idf et normalisations .1 Les 20 articles les plus proches du concept initial épidémie.2 Les 20 articles les plus proches du concept initial conquête spatiale.1 Paires de termes : icf des termes et score de similarité WikiRI.2 Scores de similarité WikiRI entre paires de termes associés.1 Analyse comparative des di↵érents corpus de tests de SemEval.2 Résultats du système avec di↵érentes valeurs du paramètre .3 Résultats obtenus sur les données de SemEval 2014 : corrélations obtenus par WikiRI comparées aux systèmes participants.4 Résultats obtenus sur les données de SemEval 2014 : inter-classement de WikiRI par rapport aux 38 systèmes participants.5 Comparaison des corpus de tests épidémies et conquête spatiale.6 Les scores de similarité d’une phrase de référence avec ses six phrases associées.7 Les scores de similarité de la phrase de référence de la table 5.6 avec ses six phrases associées.8 Les instructions d’annotation pour le choix du score de similarité entre phrases .9 Les coefficients de corrélation entre les scores de chaque annotateur et la moyenne des scores des six autres.10 Résultats de WikiRI avec sélection d’articles sur les corpus français (WikiRIsel ).11 Résultats comparés de WikiRI1 et WikiRIsel sur les deux corpus en langue française, suivant di↵érentes valeurs du paramètre ↵.12 Résultats comparés des di↵érentes versions de WikiRI sur les corpus en langue française.1 Évaluation Rouge-SU2 du résumé de chaque annotateur en fonc- tion des résumés des trois autres.2 Scores rendus par Rouge-SU2 pour les résumés du corpus RPM2 à partir des similarités rendues par WikiRI1 et WikiRI2 et en utilisant DivRank.3 Données concernant le corpus DUC 2007.4 Résultats du système sur les données DUC 2007. 78 xi Chapitre 1 Introduction Actuellement très présente dans de nombreux domaines du Traitement Auto- matique des Langues (TAL), l’utilisation de modèles vectoriels statistiques pour étudier la sémantique repose sur l’hypothèse de la sémantique statistique, selon la- quelle “the statistical patterns of human word usage can be used to figure out what people mean, at least to a level sufficient for information access” (les modèles sta- tistiques de l’usage qui est fait des mots peuvent être utilisés pour comprendre ce que les gens disent, tout au moins suffisamment pour accéder à l’information) 1. Les travaux qui ont été menés au cours de ce doctorat avaient pour objectif initial la réalisation d’un système de résumé automatique concernant un sujet donné à partir d’un ensemble de textes en langue française. Cet objectif a été e↵ectivement atteint comme le montrent les expérimentations décrites à la fin de ce document (cf.

page 69) ; cependant, l’essentiel des travaux a été consacré à la conception d’un sous-module du système consacré à l’évaluation de la similarité entre phrases. En l’occurrence, il s’est agi de mesurer jusqu’à quel point ces phrases ⌧ parlent de la même chose et relatent les mêmes faits ou actes. Nous avons choisi de référencer ce sous-module sous l’appellation WikiRI en référence aux modèles et ressources, introduites ci-après, sur lesquels il est fondé. La tâche qui consiste à mesurer la similarité entre deux phrases ou textes courts (STS : Semantic Textual Similarity) est utilisée, avec des acceptions du mot même de similarité qui peuvent varier sensiblement, dans plusieurs domaines importants du Traitement Automatique des Langues (TAL), au nombre desquels on peut citer la recherche d’informations (Balasubramanian et al.

[2007]), la catégorisation de 1. Cité par Turney et al. (2010) 1 Chapter 1 Introduction 2 textes (Ko et al. [2002]), le résumé de texte (Erkan and Radev [2004]), la traduction automatique, etc.

Comparer les mots ou n-grammes communs entre deux textes constitue une première approche pour mesurer leur similarité (Hirao et al. Cependant, elle ne tient compte, ni des relations sémantiques entre les mots ou groupes de mots d’un même texte, ni de la similarité sémantique entre mots dis- tincts des deux textes (synonymie, paraphrase, etc. Pour pallier ce manque, le TAL peut s’appuyer sur l’hypothèse distributionnelle avancée par des linguistes tels que Harris [1954] et Firth [1957] selon laquelle les mots qui apparaissent dans des contextes similaires ont potentiellement des significations similaires et “You shall know a word by the company it keeps” (on peut connaı̂tre un mot à partir de ses fréquentations). Ainsi, beaucoup d’approches, comme par exemple LSA (Deer- wester et al.

[1990]), s’appuient sur l’étude statistique de gros corpus de la langue. En analyse distributionnelle, le modèle initial consiste à construire des matrices termes⇥contextes dont les éléments sont une mesure de co-occurrence. Les détails de ces représentations sont décrits dans le chapitre 2. Le système global de résumé automatique de textes que nous voulons construire doit être robuste, générique et aisément portable et il doit être utilisable pour la langue française.

Le choix a donc été fait de faire reposer le système WikiRI sur le modèle vectoriel du Generalized Vector Space Model (GVSM) (Wong et al. [1985]) et d’utiliser l’encyclopédie Wikipédia comme ressource linguistique (cf.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu về Tóm tắt Tự động và Tương đồng giữa các Câu trong Xử lý Ngôn ngữ Tự nhiên" cung cấp cái nhìn sâu sắc về các phương pháp tóm tắt tự động và cách đánh giá sự tương đồng giữa các câu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về các kỹ thuật hiện đại trong việc xử lý ngôn ngữ mà còn chỉ ra những ứng dụng thực tiễn của chúng trong việc cải thiện hiệu suất của các hệ thống thông tin.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính application of large language model in texttosql, nơi khám phá ứng dụng của mô hình ngôn ngữ lớn trong việc chuyển đổi văn bản thành SQL. Bên cạnh đó, tài liệu Luận văn thạc sĩ khoa học máy tính xây dựng và đánh giá hiệu suất chương trình phân tích cảm xúc tiếng việt kết hợp khía cạnh bằng vietnamese treebank cũng sẽ giúp bạn hiểu rõ hơn về phân tích cảm xúc trong ngôn ngữ tiếng Việt. Cuối cùng, tài liệu Luận án đánh giá mức độ giống nhau của văn bản tiếng việt sẽ cung cấp thêm thông tin về cách đánh giá sự tương đồng giữa các văn bản, một khía cạnh quan trọng trong nghiên cứu này. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các khía cạnh khác nhau của xử lý ngôn ngữ tự nhiên.

#xử lý ngôn ngữ tự nhiên