Phương Pháp Xác Định Độ Tương Tự Giữa Hai Văn Bản

Người đăng

Ẩn danh
85
0
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

DANH MỤC TỪ VIẾT TẮT

DANH MỤC HÌNH ẢNH

1. CHƯƠNG 1: TỔNG QUAN VỀ ĐỘ TƯƠNG TỰ GIỮA HAI VĂN BẢN

1.1. Giới thiệu về ngôn ngữ tự nhiên

1.1.1. Ngôn ngữ tự nhiên (NLP)

1.1.2. Tầm quan trọng và một số ứng dụng của xử lý ngôn ngữ tự nhiên

1.1.3. Một số thuật ngữ phổ biến trong NLP

1.1.4. Vấn đề về độ tương tự trong văn bản

1.2. Các bài toán xử lý học lý trong tiếng Việt

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP XÁC ĐỊNH MỨC ĐỘ TƯƠNG TỰ GIỮA HAI VĂN BẢN

2.1. Bài toán so sánh văn bản học tiếng Việt

2.2. Phát biểu về bài toán học

2.3. Đặc điểm của ngôn ngữ tiếng Việt

2.3.1. Cấu tạo từ tiếng Việt

2.3.2. Từ đồng nghĩa

2.3.3. Từ đồng âm khác nghĩa

2.3.4. Đặc điểm chính tả

2.4. Tiền xử lý văn bản

2.5. Biểu diễn văn bản

2.5.1. Độ tương đồng văn bản về mặt từ ngữ (Text Similarity)

2.5.2. Các thuật toán và chuyển đổi văn bản sang Embedding

2.5.2.1. Bag of Words (BoW)
2.5.2.2. Word2vec
2.5.2.3. Doc2Vec

2.5.3. Các thước đo khoảng cách, độ tương tự trong Machine Learning

2.5.3.1. Độ tương đồng văn bản dựa trên tập từ chung. Contrast model
2.5.3.2. Độ tương đồng văn bản dựa trên vector biểu diễn
2.5.3.2.1. Cosine Similarity
2.5.3.2.2. Euclidean distance
2.5.3.2.3. Manhattan distance

3. CHƯƠNG 3: ĐỘ TƯƠNG ĐỒNG VĂN BẢN VỀ MẶT NGỮ NGHĨA VÀ ỨNG DỤNG

3.1. Độ tương đồng văn bản về ngữ nghĩa (Semantic Similarity Methodologies)

3.1.1. Topological/Knowledge-based Methods

3.1.2. Statistical-Based Similarity

3.1.3. Language Model-Based Similarity: BERT Model

3.1.4. Ứng dụng của BERT vào độ tương tự giữa hai văn bản

3.2. Quá trình xây dựng hệ thống

3.2.1. Thiết lập hệ thống