Luận văn thạc sĩ về nhận dạng thực thể với phương pháp weak supervision trong văn bản tiếng Việt

Khám phá luận văn thạc sĩ về nhận dạng thực thể trong văn bản tiếng Việt sử dụng phương pháp weak supervision, ứng dụng trong khoa học máy tính.

Trường đại học

Đại học Bách Khoa - ĐHQG TP.HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF DISSERTATION

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu đề tài

1.2. Mục tiêu của luận văn

1.3. Giới hạn đề tài

1.4. Ý nghĩa của luận văn

1.5. Tóm tắt nội dung

2. CHƯƠNG 2: CƠ SỞ KIẾN THỨC

2.1. Mô hình Artificial Neural Network - ANN

2.2. Mô hình Hidden Markov Models - HMM

2.3. Phương pháp Weak Supervision

3. CHƯƠNG 3: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Hướng tiếp cận rule based

3.2. Hướng tiếp cận feature based

3.3. Hướng tiếp cận học sâu

3.4. Hướng tiếp cận Weak Supervision

3.5. Một số hướng tiếp cận khác

4. CHƯƠNG 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN KẾT QUẢ

4.1. Tiền xử lý dữ liệu

4.2. Phương pháp đánh giá

4.3. Xây dựng các label function

4.4. Mô hình tổng hợp nhãn

4.5. Mô hình cuối

4.6. Bảng tham số pre-trained PhoBERT

4.7. Kết quả thực nghiệm

4.8. Thảo luận kết quả

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG MỞ RỘNG ĐỀ TÀI

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu đề tài

Nghiên cứu về nhận dạng thực thể trong văn bản tiếng Việt sử dụng phương pháp weak supervision đang trở thành một chủ đề quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nhận dạng thực thể (Named Entity Recognition - NER) là một tác vụ nhằm xác định và phân loại các thực thể như tên người, tổ chức, và địa điểm trong văn bản. Các phương pháp truyền thống thường yêu cầu dữ liệu đã được gán nhãn, điều này gây khó khăn và tốn kém trong việc thu thập và gán nhãn dữ liệu. Do đó, phương pháp weak supervision được đề xuất như một giải pháp hiệu quả để giảm chi phí và thời gian gán nhãn. Phương pháp này cho phép sử dụng thông tin tri thức từ các chuyên gia để gán nhãn cho toàn bộ tập huấn luyện, từ đó cải thiện hiệu suất của mô hình mà không phụ thuộc hoàn toàn vào việc gán nhãn thủ công từng mẫu dữ liệu.

1.1 Mục tiêu của luận văn

Mục tiêu chính của nghiên cứu này là áp dụng phương pháp weak supervision để xây dựng một mô hình nhận dạng thực thể chính xác và hiệu quả trong văn bản tiếng Việt. Các mục tiêu cụ thể bao gồm tìm hiểu về bài toán nhận dạng thực thể, nghiên cứu và phân tích các phương pháp weak supervision, triển khai ứng dụng phương pháp này vào bài toán nhận diện thực thể trong tiếng Việt, và đánh giá hiệu suất của mô hình. Việc áp dụng phương pháp này không chỉ giúp tiết kiệm chi phí mà còn nâng cao khả năng xử lý ngôn ngữ tự nhiên trong các lĩnh vực đặc thù như bất động sản.

II. Cơ sở kiến thức

Chương này cung cấp nền tảng lý thuyết cho việc áp dụng phương pháp weak supervision trong nhận dạng thực thể. Mô hình Artificial Neural Network (ANN) và Hidden Markov Models (HMM) là hai mô hình quan trọng trong việc xây dựng các hệ thống NER. Mô hình ANN mô phỏng cách thức hoạt động của nơ-ron sinh học, với các tầng đầu vào, đầu ra và ẩn, cho phép xử lý dữ liệu phức tạp. Trong khi đó, HMM là một mô hình thống kê giúp dự đoán các trạng thái không quan sát được dựa trên chuỗi quan sát. Việc hiểu rõ các mô hình này sẽ giúp cải thiện khả năng áp dụng phương pháp weak supervision trong việc nhận dạng thực thể trong văn bản tiếng Việt.

2.1 Mô hình Artificial Neural Network ANN

Mô hình ANN là một cấu trúc toán học dựa trên hoạt động của nơ-ron sinh học. Nó bao gồm các tầng nơ-ron, trong đó mỗi nơ-ron nhận đầu vào và cho ra đầu ra thông qua một hàm kích hoạt. Kiến trúc của ANN cho phép mô hình học từ dữ liệu và phát hiện các mẫu phức tạp, rất hữu ích trong các tác vụ như nhận dạng thực thể. Sự kết hợp giữa các tầng nơ-ron giúp mô hình cải thiện khả năng nhận diện và phân loại các thực thể trong văn bản, từ đó nâng cao hiệu suất của hệ thống.

III. Công trình nghiên cứu liên quan

Nghiên cứu về nhận dạng thực thể đã có nhiều hướng tiếp cận khác nhau, từ các phương pháp thủ công đến các mô hình học sâu. Các nghiên cứu trước đây chủ yếu tập trung vào việc xây dựng các mô hình dựa trên luật (rule-based) và các phương pháp học có giám sát (supervised learning). Tuy nhiên, những phương pháp này thường gặp khó khăn trong việc áp dụng cho các ngôn ngữ khác nhau, đặc biệt là tiếng Việt, nơi mà việc gán nhãn dữ liệu tốn nhiều công sức. Phương pháp weak supervision đã được phát triển để giải quyết những vấn đề này, cho phép sử dụng thông tin từ các chuyên gia để gán nhãn cho tập dữ liệu mà không cần phải gán nhãn từng mẫu một cách thủ công. Điều này không chỉ giúp tiết kiệm thời gian mà còn tăng cường hiệu suất của mô hình.

3.1 Hướng tiếp cận Weak Supervision

Hướng tiếp cận weak supervision cho phép khai thác thông tin từ các chuyên gia để xây dựng các nhãn cho tập dữ liệu mà không cần gán nhãn từng mẫu. Điều này giúp giảm thiểu chi phí và thời gian cần thiết để thu thập dữ liệu nhãn. Nghiên cứu đã chỉ ra rằng việc áp dụng phương pháp này có thể cải thiện đáng kể hiệu suất của các mô hình nhận dạng thực thể trong ngữ cảnh tiếng Việt, nơi mà việc gán nhãn thủ công thường gặp nhiều khó khăn và phức tạp.

IV. Trình bày đánh giá bàn luận kết quả

Chương này trình bày chi tiết về các thí nghiệm đã được thực hiện để đánh giá hiệu suất của mô hình nhận dạng thực thể sử dụng phương pháp weak supervision. Các kết quả thực nghiệm cho thấy rằng mô hình có thể đạt được độ chính xác cao trong việc nhận diện các thực thể trong văn bản tiếng Việt. Việc sử dụng các chỉ số như precision, recall và F1-score giúp đánh giá hiệu quả của mô hình một cách toàn diện. Kết quả cho thấy rằng phương pháp weak supervision không chỉ cải thiện hiệu suất mà còn giảm thiểu chi phí gán nhãn, tạo điều kiện thuận lợi cho việc áp dụng mô hình trong thực tế.

4.1 Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng mô hình nhận dạng thực thể đạt được độ chính xác cao, với các chỉ số precision, recall và F1-score đều nằm trong khoảng chấp nhận được. Việc áp dụng phương pháp weak supervision đã giúp giảm thiểu chi phí gán nhãn mà vẫn đảm bảo hiệu suất của mô hình. Các thí nghiệm cho thấy rằng với việc tối ưu hóa các chức năng nhãn (label functions), mô hình có thể hoạt động hiệu quả hơn trong việc nhận diện các thực thể trong văn bản tiếng Việt, từ đó mở ra hướng nghiên cứu mới trong lĩnh vực xử lý ngôn ngữ tự nhiên.

V. Kết luận và hướng mở rộng đề tài

Luận văn đã trình bày một phương pháp tiếp cận mới trong việc nhận dạng thực thể trong văn bản tiếng Việt bằng cách sử dụng weak supervision. Kết quả nghiên cứu cho thấy rằng phương pháp này không chỉ giúp cải thiện hiệu suất mà còn giảm thiểu chi phí gán nhãn, điều này rất quan trọng trong bối cảnh thực tế hiện nay. Hướng nghiên cứu trong tương lai có thể mở rộng ra các lĩnh vực khác như phân tích cảm xúc hay trích xuất thông tin từ văn bản, từ đó nâng cao khả năng ứng dụng của các mô hình xử lý ngôn ngữ tự nhiên trong nhiều lĩnh vực khác nhau.

5.1 Hướng nghiên cứu trong tương lai

Hướng nghiên cứu tiếp theo có thể tập trung vào việc mở rộng ứng dụng của phương pháp weak supervision trong các lĩnh vực khác nhau của xử lý ngôn ngữ tự nhiên. Việc áp dụng phương pháp này không chỉ giới hạn trong nhận dạng thực thể mà còn có thể mở rộng ra các tác vụ khác như phân tích cảm xúc hay trích xuất thông tin. Điều này sẽ giúp nâng cao khả năng xử lý ngôn ngữ tự nhiên, đồng thời tạo ra các ứng dụng thực tiễn có giá trị trong các lĩnh vực như marketing, chăm sóc khách hàng và nghiên cứu thị trường.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính nhận dạng thực thể với phương pháp weak supervision trong văn bản tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng thực thể trong văn bản (Named Entity Recognition - NER) là một trong những tác vụ quan trọng của xử lý ngôn ngữ tự nhiên, nhằm xác định và phân loại các thực thể như tên người, tổ chức, địa điểm trong văn bản. Theo ước tính, các mô hình học sâu hiện đại đã đạt mức bão hòa về hiệu suất trên các tập dữ liệu lớn, tuy nhiên, việc áp dụng các mô hình này cho tiếng Việt gặp nhiều thách thức do thiếu dữ liệu gán nhãn chất lượng cao và chi phí gán nhãn thủ công rất lớn. Đặc biệt, trong các lĩnh vực chuyên biệt như bất động sản, việc xây dựng tập dữ liệu gán nhãn đầy đủ càng trở nên khó khăn.

Luận văn tập trung nghiên cứu và ứng dụng phương pháp Weak Supervision nhằm giảm thiểu chi phí gán nhãn thủ công, đồng thời nâng cao hiệu suất nhận dạng thực thể trong văn bản tiếng Việt. Phạm vi nghiên cứu được giới hạn trong lĩnh vực bất động sản với tập dữ liệu khoảng 40.000 mẫu văn bản tiếng Việt. Mục tiêu cụ thể là xây dựng mô hình nhận dạng thực thể hiệu quả dựa trên weak supervision, đánh giá hiệu năng mô hình trên các chỉ số Precision, Recall và F1, đồng thời so sánh với mô hình huấn luyện trên dữ liệu gán nhãn thủ công.

Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt, giảm chi phí và thời gian gán nhãn, đồng thời hỗ trợ khai thác thông tin trong lĩnh vực bất động sản, góp phần nâng cao chất lượng các hệ thống tìm kiếm, phân tích dữ liệu chuyên ngành.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba nền tảng lý thuyết chính:

Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN): Mô hình toán học mô phỏng cấu trúc và hoạt động của nơ-ron sinh học, gồm các thành phần như tầng đầu vào, tầng ẩn và tầng đầu ra. Hàm kích hoạt phi tuyến như sigmoid, tanh, ReLU được sử dụng để tạo ra kết quả đầu ra. ANN là nền tảng cho các mô hình học sâu hiện đại.
Mô hình Markov ẩn (Hidden Markov Models - HMM): Mô hình thống kê dựa trên chuỗi Markov, trong đó trạng thái ẩn không quan sát được trực tiếp mà được suy ra từ chuỗi quan sát. HMM được sử dụng để tổng hợp nhãn yếu từ nhiều nguồn label function, ước lượng độ chính xác và mối quan hệ giữa các nhãn.
Phương pháp Weak Supervision: Là kỹ thuật học máy sử dụng các nguồn nhãn yếu, không chính xác hoặc nhiễu để gán nhãn cho tập dữ liệu lớn mà không cần gán nhãn thủ công từng mẫu. Data programming là một phương pháp nổi bật trong weak supervision, sử dụng các label function (hàm gán nhãn) dựa trên luật, heuristic hoặc từ điển để tự động gán nhãn. Mô hình tổng hợp nhãn (label model) như HMM được dùng để kết hợp các nhãn yếu thành nhãn cuối cùng, sau đó huấn luyện mô hình cuối (end model) như PhoBERT để dự đoán thực thể.

Các khái niệm chính bao gồm: label function, label model, end model, precision, recall, F1 score, overlap, conflict.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là tập văn bản tiếng Việt trong lĩnh vực bất động sản, gồm khoảng 40.000 mẫu, được thu thập và xử lý dưới dạng file JSON. Dữ liệu được tiền xử lý bằng thư viện Spacy để chuẩn hóa, gom cụm từ và loại bỏ nhãn lỗi.

Phương pháp nghiên cứu gồm hai giai đoạn chính:

Giai đoạn sinh nhãn: Xây dựng 17 label function dựa trên hai phương pháp chính là gazetteer (từ điển địa danh, tên quận, phường) và luật thủ công (heuristic dựa trên đặc điểm ngôn ngữ). Các label function được thực thi trên tập dữ liệu để tạo ra nhãn yếu. Mô hình HMM được sử dụng để tổng hợp các nhãn yếu thành nhãn cuối cùng cho tập huấn luyện.
Giai đoạn huấn luyện mô hình cuối: Sử dụng mô hình PhoBERT, một mô hình học sâu pre-trained trên tiếng Việt, được huấn luyện lại (fine-tuning) trên tập dữ liệu có nhãn tổng hợp từ weak supervision. Các tham số huấn luyện gồm batch size 32, epoch 4, learning rate 5e-5, chuỗi token tối đa 256.

Phương pháp đánh giá sử dụng các chỉ số Precision, Recall và F1 macro-averaged, đánh giá trên tập kiểm thử có nhãn ground truth. Các thí nghiệm được thiết kế với các kích thước tập huấn luyện và kiểm thử khác nhau để so sánh hiệu quả của phương pháp weak supervision so với huấn luyện trên nhãn thủ công.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình với nhãn weak supervision: Mô hình PhoBERT huấn luyện trên tập dữ liệu 22.400 mẫu với nhãn tổng hợp từ weak supervision đạt Precision 77.8%, Recall 74.3%, F1 76.0% trên tập kiểm thử 8.000 mẫu. Đây là kết quả khả quan trong bối cảnh thiếu nhãn thủ công.
So sánh với mô hình huấn luyện trên nhãn thủ công: Khi giảm số lượng nhãn thủ công xuống còn 14.933 mẫu, mô hình đạt F1 khoảng 74.5% trên tập kiểm thử 5.333 mẫu. Khi tăng số mẫu kiểm thử lên 8.000, F1 giảm còn khoảng 72.1%, cho thấy hiệu suất suy giảm khi dữ liệu kiểm thử đa dạng hơn.
Phân tích theo loại thực thể: Các nhãn như area, real_estate_type đạt F1 trên 80%, trong khi các nhãn direction, street, surrounding, ward có F1 thấp hơn đáng kể (dưới 60%). Điều này phản ánh chất lượng các label function cho các nhãn này còn hạn chế.
Ảnh hưởng của chất lượng label function: Các chỉ số overlap và conflict cho thấy một số label function có độ chồng chéo và xung đột cao, đặc biệt với các nhãn địa danh trùng tên (ví dụ Sa Pa vừa là tên thị xã, vừa là tên phường). Điều này ảnh hưởng đến chất lượng nhãn tổng hợp và hiệu suất mô hình cuối.

Thảo luận kết quả

Kết quả cho thấy phương pháp weak supervision có thể tạo ra nhãn chất lượng đủ tốt để huấn luyện mô hình nhận dạng thực thể tiếng Việt trong lĩnh vực bất động sản, giảm đáng kể chi phí gán nhãn thủ công. Việc sử dụng mô hình HMM để tổng hợp nhãn yếu giúp ước lượng độ tin cậy của từng label function, từ đó cải thiện chất lượng nhãn đầu vào cho mô hình cuối.

So với các nghiên cứu trước đây, kết quả F1 đạt khoảng 76% là phù hợp với mức độ phức tạp của bài toán và đặc thù ngôn ngữ tiếng Việt. Việc giảm hiệu suất khi tăng kích thước tập kiểm thử phản ánh thách thức trong việc tổng quát hóa mô hình trên dữ liệu thực tế đa dạng.

Phân tích chi tiết theo loại thực thể cho thấy cần cải thiện chất lượng label function, đặc biệt cho các nhãn có tính đa nghĩa hoặc trùng tên. Việc bổ sung thêm nguồn weak supervision hoặc áp dụng các mô hình tổng hợp nhãn tiên tiến hơn có thể nâng cao hiệu quả.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ cột so sánh Precision, Recall, F1 giữa các thí nghiệm, bảng chi tiết hiệu suất theo loại thực thể, cũng như biểu đồ thể hiện mức độ overlap và conflict giữa các label function.

Đề xuất và khuyến nghị

Mở rộng và đa dạng hóa label function: Tăng số lượng và chất lượng các label function bằng cách bổ sung nguồn weak supervision từ các mô hình pre-trained khác hoặc từ các chuyên gia lĩnh vực. Điều này giúp giảm xung đột và tăng độ bao phủ nhãn.
Nâng cấp mô hình tổng hợp nhãn: Thay thế mô hình HMM bằng các mô hình generative hoặc discriminative tiên tiến hơn để học được cấu trúc phức tạp giữa các label function, từ đó cải thiện độ chính xác nhãn tổng hợp.
Tinh chỉnh mô hình cuối và hàm mất mát: Phát triển phương pháp huấn luyện đồng thời mô hình tổng hợp nhãn và mô hình cuối trong một giai đoạn duy nhất, tận dụng thông tin về độ nhiễu nhãn để tăng khả năng kháng nhiễu và nâng cao hiệu suất.
Mở rộng phạm vi ứng dụng: Áp dụng phương pháp weak supervision cho các lĩnh vực khác ngoài bất động sản, đặc biệt các lĩnh vực có dữ liệu nhãn hạn chế, nhằm đánh giá tính tổng quát và hiệu quả của phương pháp.
Xây dựng bộ dữ liệu chuẩn và công cụ hỗ trợ: Phát triển bộ dữ liệu benchmark tiếng Việt có gán nhãn chất lượng cao và công cụ hỗ trợ viết label function để thúc đẩy nghiên cứu và ứng dụng weak supervision trong cộng đồng.

Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới, phối hợp giữa các nhà nghiên cứu, chuyên gia lĩnh vực và doanh nghiệp để đảm bảo tính thực tiễn và hiệu quả.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý Ngôn ngữ Tự nhiên: Luận văn cung cấp kiến thức nền tảng và phương pháp ứng dụng weak supervision trong bài toán NER tiếng Việt, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển sản phẩm AI và NLP: Các kỹ sư và nhà phát triển có thể áp dụng phương pháp weak supervision để xây dựng hệ thống nhận dạng thực thể trong các ứng dụng thực tế, đặc biệt khi dữ liệu gán nhãn hạn chế.
Doanh nghiệp trong lĩnh vực bất động sản và phân tích dữ liệu: Các công ty có thể tận dụng mô hình và phương pháp trong luận văn để tự động trích xuất thông tin từ văn bản, nâng cao hiệu quả quản lý và phân tích thị trường.
Cơ quan quản lý và tổ chức đào tạo: Các tổ chức có thể sử dụng kết quả nghiên cứu để xây dựng chương trình đào tạo, chính sách phát triển công nghệ xử lý ngôn ngữ tiếng Việt, thúc đẩy ứng dụng AI trong các lĩnh vực chuyên ngành.

Câu hỏi thường gặp

Weak supervision là gì và khác gì so với supervised learning?
Weak supervision là phương pháp sử dụng các nguồn nhãn không chính xác hoặc nhiễu để gán nhãn cho dữ liệu thay vì nhãn thủ công chính xác trong supervised learning. Điều này giúp giảm chi phí và thời gian gán nhãn.
Tại sao lại chọn mô hình PhoBERT làm mô hình cuối?
PhoBERT là mô hình pre-trained trên dữ liệu tiếng Việt lớn, có khả năng tổng quát hóa tốt và hiệu quả trong các tác vụ NLP tiếng Việt, phù hợp để fine-tune cho bài toán nhận dạng thực thể.
Các label function được xây dựng như thế nào?
Label function được xây dựng dựa trên từ điển (gazetteer) và luật thủ công (heuristic) dựa trên đặc điểm ngôn ngữ và kiến thức chuyên môn, ví dụ như nhận dạng tên địa danh, tên đường, loại giao dịch bất động sản.
Mô hình HMM được sử dụng để làm gì trong nghiên cứu?
HMM được dùng làm mô hình tổng hợp nhãn, ước lượng độ tin cậy của từng label function và kết hợp các nhãn yếu thành nhãn cuối cùng cho tập huấn luyện, giúp giảm nhiễu và xung đột nhãn.
Phương pháp weak supervision có thể áp dụng cho các lĩnh vực khác không?
Có, weak supervision là phương pháp linh hoạt có thể áp dụng cho nhiều lĩnh vực khác nhau, đặc biệt khi dữ liệu gán nhãn thủ công khó khăn hoặc tốn kém, như y tế, tài chính, pháp lý.

Kết luận

Luận văn đã nghiên cứu và ứng dụng thành công phương pháp weak supervision trong bài toán nhận dạng thực thể tiếng Việt lĩnh vực bất động sản, giảm chi phí gán nhãn thủ công.
Mô hình PhoBERT được fine-tune trên nhãn tổng hợp từ mô hình HMM đạt hiệu suất F1 khoảng 76%, tương đương hoặc vượt mô hình huấn luyện trên nhãn thủ công với số lượng hạn chế.
Chất lượng các label function ảnh hưởng lớn đến hiệu quả của phương pháp, đặc biệt với các nhãn có tính đa nghĩa hoặc trùng tên.
Nghiên cứu mở ra hướng phát triển mới cho xử lý ngôn ngữ tự nhiên tiếng Việt trong điều kiện thiếu dữ liệu gán nhãn chính xác.
Các bước tiếp theo bao gồm mở rộng nguồn label function, nâng cấp mô hình tổng hợp nhãn, tinh chỉnh mô hình cuối và mở rộng ứng dụng sang các lĩnh vực khác.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng và cải tiến phương pháp weak supervision, đồng thời chia sẻ dữ liệu và công cụ hỗ trợ nhằm thúc đẩy cộng đồng xử lý ngôn ngữ tiếng Việt.

Trích đoạn nội dung tài liệu

Chương 1: GIỚI THIỆU ĐỀ TÀI: Giới thiệu về bài toán, những vấn đề còn tồn đọng và mục tiêu, giới hạn, ý nghĩa của luận văn. • Chương 2: CƠ SỞ KIẾN THỨC: Nói về cơ sở kiến thức cơ bản đã được sử dụng trong luận văn như ANN, HMM, phương pháp weak supervision. • Chương 3: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Phân tích, đánh giá các công trình nghiên cứu đã có của các tác giả liên quan mật thiết đến bài toán nhận diện thực thể trong văn bản và phương pháp weak supervision. • Chương 4: TRÌNH BÀY, ĐÁNH GIÁ, BÀN LUẬN KẾT QUẢ: Trình bày về thí nghiệm đã tiến hành với phương pháp weak supervision trong văn bản tiếng Việt với bài toán nhận diện thực thể.

• Chương 5: KẾT LUẬN VÀ HƯỚNG MỞ RỘNG ĐỀ TÀI: Tổng kết các đóng góp của luận văn, các vấn đề còn tồn tại và nói về hướng nghiên cứu trong tương lai. 5 Chương 2 Cơ sở kiến thức 2.1 Mô hình Artificial Neural Network - ANN Mô hình Artificial Neural Network[2] hay còn gọi là mạng nơ-ron nhân tạo là một mô hình toán học hay mô hình tính toán dựa trên cấu trúc và cách hoạt động của mạng nơ-ron sinh học ở người và động vật.1: Nơ-ron sinh học Một tế bào nơ-ron thường sẽ bao gồm các thành phần chính: • Dendrite: giúp tế bào nhận tín hiệu từ các tế bào thần kinh khác. • Soma (thân tế bào): làm nhiệm vụ tổng hợp tất cả các tín hiệu từ các đầu vào. • Axon: khi tín hiệu tổng hợp đạt đến giá trị ngưỡng, nơ-ron kích hoạt và tín hiệu được truyền xuống sợi trục đến các nơ-ron khác.

6 • Axon terminals: Điểm kết nối của một tế bào thần kinh với các tế bào thần kinh khác. Lượng tín hiệu được truyền phụ thuộc vào cường độ (trọng số của khớp thần kinh) của các kết nối. Mô phỏng theo cấu tạo của tế bào thần kinh, perceptron là một thành phần cơ bản trong mạng ANN, nhận các giá trị đầu vào và cho ra một kết quả duy nhất. Các giá trị đầu vào x1 , x2 , x3.

có tính quan trọng khác nhau, sẽ lần lượt được nhân với các trọng số tương ứng w1 , w2 , w3. Sau đó được cộng lại ra một kết quả z. Và cuối cùng z được đưa vào một hàm kích hoạt (activation function) để tạo ra kết quả cuối cùng y cho perceptron.2: Perceptron Chi tiết hơn, công thức tính toán kết quả z: d z = ∑ wi xi = wT x (2.1) i=0 Để tính được một kết quả cuối cùng, z phải được đưa vào một hàm kích hoạt, hàm này là một hàm phi tuyến như hàm sigmoid, tanh, ReLU.3: Một số hàm kích hoạt Mạng nơ-ron nhân tạo là sự kết hợp các tầng perceptron tạo thành mạng nhiều đa tầng perceptron (multiple-layer perceptron). Một kiến trúc cơ bản của mô hình ANN bao gồm: • Tầng đầu vào (input layer): là tầng nhậ dữ liệu đầu vào của mạng.

• Tầng đầu ra (output layer): là tầng sẽ trả về kết quả sau khi tính toán của mạng. • Tầng ẩn (hidden layer): là tầng nằm giữa tầng đầu vào và tầng đầu ra thể hiện cho việc suy luận logic của mạng. Một mạng nơ-ron nhân tạo chỉ có 1 tầng đầu vào và 1 tầng đầu ra nhưng có thể có nhiều tầng ẩn. Trong mô hình ANN, ở mỗi nút mạng có thể sử dụng các hàm kích hoạt khác nhau, tuy nhiên trong thực tế thường chỉ sử dụng một hàm kích hoạt.

Ở mỗi tầng, số lượng nút mạng là bất kỳ, và không có giới hạn đối với số lượng tầng trong mạng.4: Kiến trúc cơ bản mô hình ANN 8 2.2 Mô hình Hidden Markov Models - HMM Hidden Markov Models hay còn gọi mô hình Markov ẩn là một mô hình thống kê dựa trên chuỗi Markov. Một chuỗi Markov là một mô hình cho biết thông tin về xác suất của một chuỗi các biến ngẫu nhiên mà các biến này với giá trị là các trạng thái, ví dụ như trạng thái thời tiết của mỗi ngày như: mưa, nắng, có mây. Chuỗi Markov mang lại khả năng dự đoán giá trị trạng thái tương lai trong chuỗi, tất cả những gì quan trọng là trạng thái hiện tại. Các trạng thái trước trạng thái hiện tại không có tác động đến tương lai ngoại trừ thông qua trạng thái hiện tại.

Chẳng hạn như để dự đoán thời tiết ngày mai, ta có thể kiểm tra thời tiết của ngày hôm nay nhưng ta không được phép xem thời tiết của ngày hôm qua.5: Ví dụ về chuỗi markov và ma trận chuyển đổi trạng thái Một chuỗi Markov sẽ bao gồm 3 thành phần: • Không gian trạng thái: là một tập hợp S các trạng thái của một chuỗi Markov. Ví dụ như S = {mưa, nắng, có mây} • Ma trận chuyển xác suất (transition probability matrix): là một ma trận A thể hiện cho xác suất chuyển giữa các trạng thái trong chuỗi Markov. • Phân phối ban đầu (initial probability distribution): tập hợp xác suất của từng trạng thái, πi là xác suất mà chuỗi Markov có thể bắt đầu với trạng thái i. 9 Mô hình Markov ẩn không trực tiếp tính toán trên các trạng thái như chuỗi Markov, mà tính toán thông qua các chuỗi các sự kiện quan sát được.

Ví dụ như trong thực tế ta thường không thể nhìn thấy trực tiếp các thực thể trong câu, mà ta chỉ thấy thể hiện qua các từ. Một mô hình Markov ẩn sẽ bao gồm các thành phần: • Các quan sát: là một chuỗi các quan sát O = (o1 , o2 , ., on ) thu thập dựa trên quan sát thực tế. • Chuỗi Markov ẩn: là một chuỗi Markov nhưng không quan sát được trong thực tế. • Xác suất phụ thuộc trạng thái (emission probability): biểu diễn cho xác suất một quan sát ot đến từ trạng thái ẩn st , tập hợp tất cả các xác suất này là B = bi (oi ).6: Ví dụ về mô hình HMM Thông thường, mô hình Markov ẩn được phân loại thành ba vấn đề cơ bản: likelihood, decoding và learning.

Decoding: Nhận vào chuỗi quan sát O và một mô hình HMM λ = (A, B), tìm ra chuỗi trạng thái ẩn tốt nhất Q Learning: Nhận vào chuỗi quan sát O và một tập các trạng thái trong HMM, học các thông số của mô hình HMM A và B.3 Phương pháp Weak Supervision Học giám sát yếu (Weak Supervision) là một nhánh của học máy trong đó các nguồn nhiễu, hạn chế hoặc không chính xác được sử dụng để cung cấp thông tin giám sát nhằm gắn nhãn một lượng lớn dữ liệu huấn luyện trong việc cài đặt học có giám sát. Cách tiếp cận này giảm bớt gánh nặng của việc thu thập các tập dữ liệu được gắn nhãn bằng tay, vốn có thể tốn kém hoặc không thực tế. Thay vào đó, các nhãn yếu rẻ tiền được sử dụng với sự hiểu biết rằng chúng không hoàn hảo, nhưng vẫn có thể được sử dụng để tạo ra một mô hình dự đoán có hiệu suất tốt. Một trong những kết quả chính của học giám sát yếu đó việc tạo ra các nhãn yếu.

Và data programming[3] là một phương pháp nổi tiếng đã được đề xuất để hỗ trợ việc tạo ra nhãn yếu. Bằng việc sử dụng kết hợp giữa lập trình và các heuristic, data programming có thể gán nhãn cho toàn bộ tập dữ liệu. Sau khi có được nhãn từ các nguồn heuristic khác nhau, label model (aggregation model) là mô hình được sử dụng nhằm tổng hợp ra nhãn yếu. Cuối cùng, dựa vào tập dữ liệu với nhãn yếu này, một mô hình với sức mạnh tổng quát hóa - end model, được huấn luyện trên các nhãn yếu với mục tiêu có thể ứng dụng trong các tác vụ thực tế.

Tóm lại, có ba bước chính để hiện thực weak supervision trên một tập dữ liệu: 1. Viết các label function (lf): một label function có thể là một function bất kỳ được viết bằng một ngôn ngữ lập trình, nhận vào một mẫu dữ liệu và sử dụng một luật, heuristic, logic. để sinh ra nhãn cho mẫu dữ liệu đó. Tổng hợp các nhãn yếu với label model: giả sử ta có m dòng dữ liệu và n label function, khi thực thi thì tất cả có m × n nhãn được sinh ra (với điều kiện một label function sẽ sinh ra duy nhất một nhãn cho một mẫu dữ liệu).

Như vậy, cần phải tổng hợp kết quả của n label function để cuối cùng chỉ có một nhãn cho một mẫu dữ liệu. Mô hình Majority Voting là một trong những cách tổng hợp nhãn đơn giản nhất. Tuy nhiên, có một số mô hình khác tốt hơn được đề xuất để học được các cấu trúc ẩn giữa các label function mà không cần đến 11 nhãn như hidden markov model. Huấn luyện end model: kết quả của label model được sử dụng như là tập huấn luyện nhằm để tinh chỉnh các mô hình cuối.

Những mô hình này thường sử dụng các mô hình học sâu như LSTM, GRU, BERT. với sức mạnh tổng quát hóa vốn rất hiệu quả trên các dữ liệu nhiễu, sẽ được huấn luyện và được sử dụng cho các tác vụ thực tế.7: Phương pháp Weak Supervision 12 Chương 3 Công trình nghiên cứu liên quan Nhận dạng thực thể trong văn bản là một tác vụ đã xuất hiện từ lâu và đạt được rất nhiều thành tựu trong những công trình nghiên cứu đến từ các hướng tiếp cận khác nhau: Hình 3.1: Sự phát triển của các phương pháp từ Expert System (Rule base) cho đến Machine Learning Representation Learning 3.1 Hướng tiếp cận rule based Các hệ thống NER dựa trên knowledge based hay rule based không cần các dữ liệu huấn luyện do những hệ thống này sử dụng nguồn về từ vựng và các 13 tri thức hay tập luật được thu thập của một lĩnh vực. Chẳng hạn như KNOW- ITALL[1] là một hệ thống tự động hóa quá trình trích xuất thông tin từ các tập hợp lớn trên Web một cách không giám sát, độc lập với lĩnh vực và có khả năng mở rộng. KNOWITALL tập trung vào một vấn đề con của việc trích xuất thông tin, đó là xây dựng danh sách các thực thể được đặt tên được tìm thấy trên Web, chẳng hạn như các trường hợp của lớp City hoặc lớp Film.

Một trong những kỹ thuật được sử dụng trong hệ thống này là pattern matching, dựa trên những pattern được định nghĩa trước, hệ thống sẽ tự động trích xuất ra thực thể tương ứng. Ví dụ như pattern “NP1 such as NPList2” chỉ ra rằng với mỗi một phần tử cụm danh từ (NP) nằm trong NPList2 sẽ thuộc về cùng một loại thực thể của NP1. Khi thực thi pattern trên câu "We provide tours to cities such as Paris, London, and Berlin”, KNOWITALL sẽ trích xuất ra được 3 thực thể thành phố gồm Paris, London và Berlin.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ về nhận dạng thực thể với phương pháp weak supervision trong văn bản tiếng Việt của tác giả Hoàng Đăng Khoa, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ, được thực hiện tại Đại học Bách Khoa - ĐHQG TP.HCM vào năm 2023. Bài viết khám phá phương pháp weak supervision trong việc nhận dạng thực thể trong văn bản tiếng Việt, mở ra những hướng đi mới cho việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên. Phương pháp này không chỉ giúp giảm thiểu chi phí trong việc gán nhãn dữ liệu mà còn nâng cao độ chính xác trong việc nhận diện các thực thể quan trọng trong văn bản.

Độc giả có thể tìm hiểu thêm về các khía cạnh liên quan đến công nghệ thông tin và ứng dụng trong giáo dục qua bài viết Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng điều khiển thiết bị thông minh qua điện thoại Android, nơi cũng bàn về các ứng dụng công nghệ trong lĩnh vực ngôn ngữ. Bên cạnh đó, bài viết Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt sẽ cung cấp thêm thông tin về việc ứng dụng công nghệ trong việc xử lý văn bản. Cuối cùng, bài viết Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính cũng là một nguồn tài liệu quý giá cho những ai quan tâm đến các phương pháp học máy trong xử lý ngôn ngữ.

Những liên kết này không chỉ mở rộng kiến thức của bạn về các chủ đề liên quan mà còn cung cấp những góc nhìn sâu sắc hơn về công nghệ thông tin trong lĩnh vực ngôn ngữ và giáo dục.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#văn bản tiếng Việt

#AI trong ngôn ngữ

#nhận dạng thực thể

#phương pháp học bán giám sát

Chủ đề

Công nghệ nhận dạng thực thể

Phương pháp học máy trong xử lý ngôn ngữ

Ứng dụng AI trong ngôn ngữ tiếng Việt

Nghiên cứu và phát triển trong lĩnh vực ngôn ngữ tự nhiên