TRÍCH CHỌN QUAN HỆ THỰC THỂ TỪ VĂN BẢN PHÁP LUẬT VÀ ỨNG DỤNG TRONG HỆ THỐNG C-KMS

Nghiên cứu trích chọn quan hệ thực thể từ văn bản pháp luật tiếng Việt, ứng dụng công nghệ BERT trong hệ thống C-KMS. Giải pháp xây dựng tri thức số pháp luật.

Trường đại học

Trường Đại Học Khoa Học Tự Nhiên, Đại Học Quốc Gia Hà Nội

Chuyên ngành

Khoa Học Dữ Liệu

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT NỘI DUNG LUẬN VĂN

1. CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH CHỌN QUAN HỆ THỰC THỂ

1.1. Quy trình khai phá dữ liệu

1.2. Bài toán trích chọn quan hệ

1.3. Phương pháp đánh giá mô hình

1.4. Các nghiên cứu liên quan

1.5. Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

1.6. Xây dựng bộ dữ liệu định danh tiếng Việt

1.7. Tổng kết chương

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY LIÊN QUAN

2.1. Mô hình CRF

2.2. Định nghĩa CRF

2.3. Huấn luyện CRF

2.4. Suy diễn CRF

2.5. Mô hình Long Short-Term Memory (LSTM) kết hợp với CRFs

2.6. Cấu trúc Transformer

2.7. Cơ chế self-attention và multi-head attention

2.8. Mạng truyền xuôi theo vị trí

2.9. Cộng và Chuẩn hóa

2.10. Sự quan trọng của BERT trong trích chọn quan hệ

2.11. Ý tưởng của BERT

2.12. Cách thức hoạt động của BERT

2.13. Dự đoán câu tiếp theo (NSP)

2.14. Cấu trúc của BERT

2.15. Biến thể, mở rộng nâng cấp của BERT

2.16. Kết hợp BERT với BiLSTM và CRF

2.17. Tổng kết chương

3. CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP BERT KẾT HỢP VỚI BILSTM VÀ CRF CHO BÀI TOÁN TRÍCH RÚT QUAN HỆ TRONG VĂN BẢN PHÁP LUẬT TIẾNG VIỆT

3.1. Xây dựng dữ liệu bài toán

3.2. Thực hiện mô hình BERT cho bài toán

3.3. Xử lý dữ liệu đầu vào tập đặc trưng dữ liệu

3.4. Xử lý dữ liệu đầu vào

3.5. Tập đặc trưng dữ liệu

3.6. Các phương pháp cải tiến mô hình BERT

3.7. Kết hợp BERT với BiLSTM và CRF

3.8. Tinh chỉnh với mô hình BERT kết hợp với BiLSTM và CRF

3.9. Lựa chọn vectơ nhúng từ khác nhau của BERT

3.10. Sử dụng các biến thể của BERT

3.11. Môi trường thực nghiệm

3.12. Tổng kết chương

4. KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN

4.1. Kết quả thực nghiệm

4.2. Mô hình BERT

4.3. Mô hình kết hợp với lớp BiLSTM và CRF

4.4. Kết quả tinh chỉnh theo các lớp của BERT

4.5. Kết quả của các mô hình điều chỉnh siêu tham số

4.6. Kết quả của các mô hình biến thể của BERT

4.7. Nhận xét và thảo luận

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Trích Chọn Quan Hệ Thực Thể Pháp Luật

Pháp luật là lĩnh vực có ảnh hưởng sâu rộng đến mọi mặt của đời sống kinh tế xã hội. Việc khai phá tri thức từ cơ sở dữ liệu văn bản pháp luật trở nên cấp thiết, tạo nền tảng xây dựng các hệ tri thức phục vụ cho nhu cầu đa dạng. Nghiên cứu thành công các mô hình trích chọn quan hệ mang lại kết quả tích cực, giúp xây dựng hệ tri thức số thông minh. Điều này hỗ trợ điều hành, nghiên cứu, dự thảo và ban hành văn bản pháp luật của Nhà nước. Đồng thời, nó là cơ sở để thực hiện các trợ lý ảo pháp luật cho người dân trong tương lai. Tuy nhiên, do hạn chế về dữ liệu, tính chất đặc thù chuyên ngành, và công nghệ, hiện chưa có nhiều công trình nghiên cứu và ứng dụng khai phá dữ liệu trong lĩnh vực này.

1.1. Tầm Quan Trọng của Khai Phá Dữ Liệu Pháp Luật

Khai phá dữ liệu pháp luật vô cùng quan trọng đối với tổ chức, cá nhân và chính phủ trong bối cảnh phát triển kinh tế xã hội hiện nay. Từ dữ liệu pháp luật đã được khai phá sẽ tạo nền tảng để xây dựng các hệ tri thức phục vụ cho nhu cầu đa dạng của xã hội. Việc này không chỉ là xây dựng nền tảng tri thức đơn thuần mà còn góp phần hình thành các hệ thống thông minh phục vụ cho điều hành, nghiên cứu, dự thảo và ban hành văn bản pháp luật một cách hiệu quả.

1.2. Hạn Chế Hiện Tại của Nghiên Cứu và Ứng Dụng

Hiện nay, việc khai phá dữ liệu và xây dựng hệ tri thức từ văn bản pháp luật vẫn còn hạn chế. Sự hạn chế này xuất phát từ nhiều yếu tố, bao gồm: Sự khan hiếm về dữ liệu chất lượng cao đã được gán nhãn, tính chất đặc thù và phức tạp của ngôn ngữ pháp luật và những giới hạn về công nghệ hiện có. Vì vậy, cần có những nghiên cứu và ứng dụng đột phá để khắc phục những khó khăn này, mở ra tiềm năng to lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên và trích chọn quan hệ trong bối cảnh pháp luật.

II. Thách Thức Trích Chọn Quan Hệ Thực Thể Tiếng Việt

Việc xây dựng và ứng dụng phần mềm ứng dụng công nghệ trí tuệ nhân tạo giúp giảm thiểu gánh nặng về thời gian và chi phí quản lý. Với công nghệ mới, nhà quản lý có một công cụ hỗ trợ trong quá trình thực hiện nhiệm vụ đảm bảo được sự đúng đắn và cập nhật của văn bản. Theo thống kê, số lượng văn bản thuế gia tăng nhanh chóng, thể hiện sự phức tạp của hệ thống pháp luật. Các hệ thống lưu trữ đơn thuần không thể đáp ứng nhu cầu ngày càng cao của người dùng. Vì vậy, cần xây dựng công cụ trích chọn thông tin, trích chọn mối quan hệ thực thể trong văn bản pháp luật Việt Nam.

2.1. Quản Lý và Cập Nhật Văn Bản Pháp Luật Thủ Công

Việc quản lý và cập nhật nội dung pháp luật hiện nay chủ yếu được thực hiện thủ công. Điều này dẫn đến việc tốn nhiều thời gian, công sức và tiền bạc của chính phủ. Một sai sót nhỏ trong văn bản pháp luật có thể gây ra hậu quả tiêu cực cho xã hội trong thời gian dài. Việc ứng dụng công nghệ trí tuệ nhân tạo để tự động hóa và hỗ trợ quá trình quản lý văn bản pháp luật là vô cùng cần thiết.

2.2. Nhu Cầu Tìm Kiếm Tri Thức Pháp Luật Hệ Thống

Người thi hành pháp luật và người thực hiện nghĩa vụ pháp luật cần dễ dàng tìm kiếm tri thức pháp luật cần thiết một cách hệ thống. Thay vì tìm kiếm và đối chiếu văn bản đơn thuần, người dùng cần tiếp cận những cách tìm kiếm thông minh hơn, dựa trên ngữ cảnh và bối cảnh sử dụng. Vì thế, việc xây dựng công cụ trích chọn thông tin và quan hệ thực thể trong văn bản pháp luật Việt Nam là vô cùng cấp thiết.

III. BERT Giải Pháp Trích Chọn Quan Hệ Thực Thể Hiệu Quả

Công nghệ xử lý ngôn ngữ tự nhiên, một nhánh của trí tuệ nhân tạo, có thể trích chọn thông tin từ văn bản tiếng Việt đặc thù như văn bản pháp luật. Các loại thông tin có thể trích chọn gồm các từ khóa và các mối quan hệ của từ khóa. Từ đó, người dùng có thể tìm kiếm sát thực hơn, đơn giản hơn. Người quản lý hệ thống có thể tìm ra các vấn đề tiềm ẩn của hệ thống pháp luật. Mô hình BERT là một trong những mô hình học sâu tiên tiến nhất hiện nay, có khả năng hiểu ngữ cảnh và trích xuất thông tin chính xác từ văn bản.

3.1. Ưu Điểm của Xử Lý Ngôn Ngữ Tự Nhiên NLP

Xử lý ngôn ngữ tự nhiên (NLP) cung cấp các công cụ và kỹ thuật để trích chọn thông tin từ văn bản tiếng Việt, bao gồm các từ khóa và quan hệ giữa chúng. Các từ khóa là các thực thể quan trọng trong văn bản, ví dụ như người nộp thuế, đối tượng chịu thuế, đối tượng không chịu thuế,... Các quan hệ có thể có như quan hệ sở hữu, quan hệ đồng sở hữu, quan hệ lao động, quan hệ huyết thống,...

3.2. Vai Trò của BERT Trong Trích Chọn Quan Hệ

BERT (Bidirectional Encoder Representations from Transformers) là một mô hình học sâu mạnh mẽ, có khả năng hiểu ngữ cảnh và trích xuất thông tin chính xác từ văn bản. BERT được huấn luyện trên một lượng lớn dữ liệu văn bản và có thể được tinh chỉnh (fine-tune) cho các tác vụ cụ thể, như trích chọn quan hệ thực thể từ văn bản pháp luật. Ưu điểm vượt trội của BERT so với các mô hình truyền thống là khả năng nắm bắt ngữ nghĩa sâu sắc và xử lý hiệu quả các văn bản phức tạp.

IV. Ứng Dụng Hệ Thống C KMS Trong Quản Lý Tri Thức Pháp Luật

Hệ thống C-KMS (CMC Knowledge Management System) là hệ thống quản trị tri thức trong lĩnh vực thuế do công ty cổ phần Tập đoàn Công nghệ CMC phát triển. Hệ thống có các chức năng chính là hút dữ liệu, lưu trữ cơ sở dữ liệu, hỗ trợ tìm kiếm và hệ thống trả lời tự động. Việc trích chọn quan hệ giúp thực hiện hai nhiệm vụ chính của quản lý tri thức: tự động đánh giá và chỉ ra các thực thể pháp luật quan trọng, và đưa ra đề xuất các mối quan hệ của các thực thể.

4.1. Chức Năng Chính của Hệ Thống C KMS

Hệ thống C-KMS được thiết kế để quản lý tri thức trong lĩnh vực thuế. Chức năng chính của hệ thống bao gồm hút dữ liệu từ nhiều nguồn khác nhau (web, pdf, doc), lưu trữ dữ liệu trong cơ sở dữ liệu quan hệ, hỗ trợ tìm kiếm thông tin nhanh chóng và hiệu quả, và cung cấp hệ thống trả lời tự động dựa trên tri thức đã được trích xuất. Hệ thống cho phép người dùng tìm kiếm xấp xỉ thời gian thực trên tập dữ liệu lớn, chi tiết theo ngữ cảnh và các từ khóa quan trọng.

4.2. Tầm Quan Trọng của Trích Chọn Quan Hệ Trong C KMS

Trích chọn quan hệ đóng vai trò then chốt trong hệ thống C-KMS. Nó cho phép hệ thống tự động đánh giá và xác định các thực thể pháp luật quan trọng trong văn bản pháp luật, như người nộp thuế, hình thức nộp thuế,... Đồng thời, hệ thống có thể đề xuất các mối quan hệ giữa các thực thể (tổ chức, cá nhân) trong mối quan hệ về thuế. Thông tin này là nền tảng để xây dựng hệ thống tri thức thuế trong các ứng dụng chuyên sâu về thuế trong tương lai.

V. Kết Quả Nghiên Cứu và Thảo Luận Ứng Dụng BERT C KMS

Luận văn trình bày các nghiên cứu mới về công nghệ xử lý ngôn ngữ tự nhiên, đề ra phương pháp luận áp dụng công nghệ học máy, học sâu tận dụng những tiến bộ mới để huấn luyện mô hình phù hợp với dữ liệu văn bản pháp luật để trích chọn các thực thể và mối quan hệ thiết yếu. Mục tiêu của luận văn đạt được các kết quả như sau: Đưa ra kiến trúc mô hình học sâu trong xử lý ngôn ngữ tự nhiên như BERT với dữ liệu văn bản pháp luật tiếng Việt, chứng minh tính hiệu quả của mô hình trích chọn mối quan hệ.

5.1. Kiến Trúc Mô Hình Học Sâu với Văn Bản Pháp Luật

Luận văn tập trung vào việc xây dựng kiến trúc mô hình học sâu, đặc biệt là ứng dụng mô hình BERT, cho dữ liệu văn bản pháp luật tiếng Việt. Mục tiêu là chứng minh tính hiệu quả của mô hình trong việc trích chọn quan hệ thực thể. Việc này đòi hỏi sự điều chỉnh và tối ưu hóa mô hình BERT để phù hợp với đặc thù của ngôn ngữ pháp luật Việt Nam, từ đó đạt được độ chính xác cao trong việc trích xuất thông tin và các mối quan hệ quan trọng.

5.2. Đánh Giá và Thảo Luận Về Tính Hiệu Quả

Kết quả thực nghiệm cho thấy mô hình BERT có tiềm năng lớn trong việc trích chọn quan hệ thực thể từ văn bản pháp luật tiếng Việt. Tuy nhiên, cần tiếp tục nghiên cứu và phát triển để cải thiện độ chính xác và khả năng ứng dụng của mô hình trong thực tế. Các hướng nghiên cứu tiềm năng bao gồm việc kết hợp BERT với các kỹ thuật khác, như BiLSTM và CRF, để tăng cường khả năng nhận diện thực thể và quan hệ. Ngoài ra, việc xây dựng bộ dữ liệu huấn luyện lớn và chất lượng cao cũng là yếu tố quan trọng để nâng cao hiệu suất của mô hình.

VI. Tương Lai Trích Chọn Quan Hệ Thực Thể và Ứng Dụng AI

Việc xây dựng công cụ trích chọn thông tin, trích chọn mối quan hệ thực thể trong văn bản pháp luật Việt Nam là vô cùng cấp thiết. Do thời gian nghiên cứu có hạn, tác giả đã lựa chọn chủ đề về thuế - phí - lệ phí để nghiên cứu. Thuế là một lĩnh vực có ảnh hưởng đến tất cả các ngành nghề, đối tượng xã hội. Hệ thống cần xử lý được các cách đặt câu hỏi, mô tả vấn đề và từ vựng khác nhau. Nên hệ thống cần tận dụng các lợi thế từ công nghệ trí tuệ nhân tạo để giải quyết vấn đề này.

6.1. Tiềm Năng Mở Rộng Nghiên Cứu và Ứng Dụng

Nghiên cứu về trích chọn quan hệ thực thể từ văn bản pháp luật tiếng Việt còn rất nhiều tiềm năng để phát triển và mở rộng. Có thể mở rộng phạm vi nghiên cứu sang các lĩnh vực pháp luật khác, như luật dân sự, luật hình sự,... Bên cạnh đó, cần tập trung vào việc xây dựng các ứng dụng thực tế, giúp cán bộ pháp luật, luật sư, và người dân dễ dàng tiếp cận và sử dụng thông tin pháp luật.

6.2. Hướng Phát Triển Của Hệ Thống C KMS

Hệ thống C-KMS có thể được phát triển theo nhiều hướng khác nhau. Ví dụ, có thể tích hợp thêm các chức năng mới, như phân tích văn bản pháp luật, dự đoán các vấn đề pháp lý tiềm ẩn,... Ngoài ra, cần tập trung vào việc cải thiện giao diện người dùng, giúp người dùng dễ dàng thao tác và tìm kiếm thông tin. Quan trọng hơn cả, cần liên tục cập nhật và mở rộng cơ sở dữ liệu tri thức, đảm bảo hệ thống luôn cung cấp thông tin pháp luật chính xác và đầy đủ nhất.

27/04/2025

Bạn đang xem trước tài liệu:

Trích chọn quan hệ thực thể từ văn bản pháp luật và ứng dụng trong hệ thống c kms

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển kinh tế xã hội hiện đại, tri thức pháp luật đóng vai trò then chốt trong việc điều chỉnh các quan hệ xã hội và bảo vệ quyền lợi của các chủ thể. Tại Việt Nam, hệ thống văn bản pháp luật ngày càng đa dạng và phức tạp với số lượng văn bản thuế tăng gần 300% trong vòng 10 năm, từ khoảng 30.928 văn bản năm 2011 lên đến 89.450 văn bản năm 2021. Điều này đặt ra thách thức lớn trong việc quản lý, khai thác và ứng dụng hiệu quả nguồn dữ liệu pháp luật đồ sộ này. Mục tiêu nghiên cứu của luận văn là phát triển phương pháp trích chọn quan hệ thực thể từ văn bản pháp luật tiếng Việt, đặc biệt trong lĩnh vực thuế giá trị gia tăng, nhằm xây dựng hệ thống quản lý tri thức thông minh, hỗ trợ công tác soạn thảo, quản lý và tra cứu pháp luật.

Phạm vi nghiên cứu tập trung vào các văn bản pháp luật liên quan đến thuế giá trị gia tăng tại Việt Nam, bao gồm luật, nghị định, thông tư và công văn, với dữ liệu thu thập từ hơn 3.000 văn bản, trong đó chọn lọc 120 văn bản tiêu biểu. Nghiên cứu ứng dụng các mô hình học máy và học sâu tiên tiến như BERT, BiLSTM và CRF để trích xuất thực thể và mối quan hệ giữa các thực thể trong văn bản pháp luật. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trong trích xuất thông tin, giảm thiểu thời gian và chi phí quản lý văn bản pháp luật, đồng thời tạo nền tảng cho các ứng dụng trí tuệ nhân tạo trong lĩnh vực pháp luật như trợ lý ảo và hệ thống trả lời tự động.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy, học sâu trong xử lý ngôn ngữ tự nhiên (NLP) để giải quyết bài toán trích chọn quan hệ thực thể trong văn bản pháp luật. Hai mô hình chính được áp dụng là:

Mô hình Conditional Random Field (CRF): Là mô hình thống kê dùng để gán nhãn chuỗi, phù hợp với bài toán nhận dạng thực thể và trích xuất quan hệ trong chuỗi văn bản. CRF cho phép mô hình hóa sự phụ thuộc giữa các nhãn liền kề, giúp cải thiện độ chính xác trong việc xác định biên và loại thực thể.
Mô hình Bidirectional Long Short-Term Memory (BiLSTM): Là mạng nơ-ron hồi tiếp hai chiều, có khả năng học các phụ thuộc dài hạn trong chuỗi dữ liệu. BiLSTM kết hợp với CRF tận dụng ưu điểm của cả hai mô hình, giúp trích xuất đặc trưng ngữ cảnh hiệu quả và dự đoán nhãn chuỗi chính xác hơn.

Ngoài ra, nghiên cứu sử dụng BERT (Bidirectional Encoder Representations from Transformers), một mô hình ngôn ngữ dựa trên kiến trúc Transformer, được huấn luyện trên tập dữ liệu lớn, có khả năng biểu diễn ngữ cảnh hai chiều của từ trong câu. BERT giúp nâng cao hiệu quả trích xuất thực thể và quan hệ nhờ khả năng hiểu sâu sắc ngữ cảnh và mối quan hệ giữa các từ trong văn bản.

Ba khái niệm chính trong nghiên cứu bao gồm:

Thực thể (Entity): Các đối tượng như tổ chức, cá nhân, hàng hóa, dịch vụ, tài sản, địa điểm, mục đích, quá trình, hình thức, nhà nước trong văn bản pháp luật.
Quan hệ thực thể (Entity Relation): Mối liên hệ giữa các thực thể, ví dụ quan hệ sở hữu, quan hệ lao động, quan hệ đại diện pháp luật.
Trích chọn quan hệ (Relation Extraction): Quá trình xác định và phân loại các quan hệ giữa các thực thể đã được nhận dạng trong văn bản.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ các trang web chính thức của Bộ Tài chính, Tổng cục Thuế, các cục thuế địa phương và trang cơ sở dữ liệu quốc gia về văn bản pháp luật (vbpl). Bộ dữ liệu gồm 120 văn bản pháp luật liên quan đến thuế giá trị gia tăng, với tổng cộng 3.089 câu và 137.221 từ sau tiền xử lý.

Phương pháp phân tích bao gồm:

Tiền xử lý dữ liệu: Loại bỏ dấu câu không cần thiết, chuyển đổi chữ viết thường, tách câu, loại bỏ các đoạn trùng lặp và thông tin không liên quan như số hiệu văn bản, ngày phát hành.
Gán nhãn dữ liệu: Áp dụng chuẩn CONLL 2003 với 10 loại nhãn thực thể đặc thù cho lĩnh vực thuế như tổ chức, cá nhân, hàng hóa, dịch vụ, tài sản, nhà nước, mục đích, quá trình, hình thức, địa điểm. Các từ trong thực thể được gán nhãn B- (bắt đầu) hoặc I- (bên trong), từ không thuộc thực thể gán nhãn O.
Huấn luyện mô hình: Sử dụng mô hình BERT kết hợp BiLSTM và CRF để trích xuất thực thể và quan hệ. Cỡ mẫu huấn luyện là toàn bộ bộ dữ liệu đã gán nhãn, với phương pháp chọn mẫu toàn bộ dữ liệu có tính đại diện cao.
Đánh giá mô hình: Sử dụng các chỉ số độ chính xác (Precision), độ hồi tưởng (Recall) và F1-score để đánh giá hiệu quả trích chọn thực thể và quan hệ. Quá trình huấn luyện và đánh giá được thực hiện trên môi trường GPU để tăng tốc độ xử lý.

Thời gian nghiên cứu kéo dài từ năm 2018 đến 2020, với các giai đoạn thu thập dữ liệu, tiền xử lý, xây dựng mô hình, huấn luyện và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình BERT kết hợp BiLSTM và CRF:
Mô hình này đạt độ chính xác F1 trung bình trên 85% trong việc trích chọn thực thể và quan hệ từ văn bản pháp luật thuế giá trị gia tăng. So với mô hình chỉ sử dụng BiLSTM-CRF, BERT giúp cải thiện khoảng 7-10% điểm F1, thể hiện qua bảng so sánh kết quả các mô hình tinh chỉnh.
Phân bố thực thể trong dữ liệu:
Nhãn tổ chức chiếm tỷ lệ lớn nhất với khoảng 20% số lượng nhãn, tiếp theo là dịch vụ chiếm 13,4%. Các nhãn cá nhân và mục đích sản xuất tạo lập chiếm khoảng 5% mỗi loại, phản ánh đặc thù ngữ cảnh văn bản pháp luật thuế, nơi tổ chức và dịch vụ là các thực thể chủ đạo.
Tác động của việc tinh chỉnh mô hình BERT:
Việc lựa chọn vectơ nhúng từ các lớp khác nhau của BERT và sử dụng các biến thể như RoBERTa, ALBERT giúp tăng cường độ chính xác trích chọn quan hệ. Mô hình tinh chỉnh theo lớp đầu ra của BERT đạt điểm F1 cao hơn khoảng 3-5% so với mô hình cơ bản.
Tốc độ học và tối ưu hóa:
Sử dụng thuật toán tối ưu Adam và điều chỉnh siêu tham số giúp mô hình hội tụ nhanh hơn, giảm thiểu hàm mất mát hiệu quả. Tốc độ học của BiLSTM được cải thiện đáng kể khi kết hợp với BERT, giảm thời gian huấn luyện xuống còn khoảng 70% so với mô hình truyền thống.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc ứng dụng mô hình học sâu BERT kết hợp BiLSTM và CRF là phù hợp và hiệu quả trong việc trích chọn thực thể và quan hệ từ văn bản pháp luật tiếng Việt, đặc biệt trong lĩnh vực thuế giá trị gia tăng. Việc sử dụng BERT giúp mô hình hiểu sâu sắc ngữ cảnh hai chiều, khắc phục hạn chế của các mô hình học máy truyền thống chỉ dựa vào ngữ cảnh một chiều.

So sánh với các nghiên cứu trước đây trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt, điểm F1 đạt được vượt trội hơn khoảng 5-10%, minh chứng cho sự phù hợp của kiến trúc kết hợp này với đặc thù dữ liệu pháp luật. Các biểu đồ hàm mất mát và ma trận đánh giá cho thấy mô hình có khả năng phân loại chính xác các nhãn thực thể và quan hệ, đồng thời giảm thiểu sai sót trong gán nhãn chuỗi.

Ngoài ra, việc lựa chọn lĩnh vực thuế giá trị gia tăng làm phạm vi nghiên cứu giúp đảm bảo tính bao quát và đa dạng của dữ liệu, đồng thời phù hợp với nhu cầu thực tiễn của các cơ quan quản lý nhà nước. Kết quả nghiên cứu có thể được trình bày qua các biểu đồ phân bố nhãn, bảng so sánh kết quả các mô hình và đồ thị hàm mất mát trong quá trình huấn luyện.

Đề xuất và khuyến nghị

Phát triển hệ thống quản lý tri thức pháp luật tự động:
Triển khai ứng dụng mô hình BERT-BiLSTM-CRF vào hệ thống C-KMS để tự động trích xuất thực thể và quan hệ từ văn bản pháp luật, nâng cao hiệu quả tìm kiếm và tra cứu thông tin pháp luật. Mục tiêu đạt độ chính xác trên 85% trong vòng 12 tháng, do các đơn vị công nghệ và cơ quan quản lý phối hợp thực hiện.
Mở rộng phạm vi dữ liệu và lĩnh vực áp dụng:
Tiếp tục thu thập và xử lý dữ liệu từ các lĩnh vực pháp luật khác như lao động, đất đai, dân sự để xây dựng bộ dữ liệu đa ngành, tăng tính tổng quát của mô hình. Thời gian thực hiện dự kiến 18-24 tháng, do các nhóm nghiên cứu và cơ quan pháp luật phối hợp.
Phát triển trợ lý ảo pháp luật thông minh:
Sử dụng kết quả trích chọn quan hệ để xây dựng hệ thống trả lời tự động bằng văn bản và giọng nói, hỗ trợ người dân và cán bộ hành chính trong việc tra cứu và giải đáp các vấn đề pháp luật. Mục tiêu triển khai thử nghiệm trong 12 tháng, do các công ty công nghệ và cơ quan hành chính phối hợp.
Nâng cao chất lượng dữ liệu và mô hình:
Tiến hành cập nhật, làm sạch dữ liệu thường xuyên, đồng thời nghiên cứu các biến thể mới của BERT và các kỹ thuật học sâu khác để cải thiện độ chính xác và tốc độ xử lý. Thời gian nghiên cứu liên tục, do các nhóm nghiên cứu chuyên sâu đảm nhiệm.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Khoa học dữ liệu, Xử lý ngôn ngữ tự nhiên:
Luận văn cung cấp kiến thức nền tảng và ứng dụng thực tiễn về mô hình học sâu trong trích chọn thông tin từ văn bản pháp luật tiếng Việt, giúp phát triển các nghiên cứu tiếp theo.
Cơ quan quản lý nhà nước và các đơn vị soạn thảo văn bản pháp luật:
Hỗ trợ trong việc rà soát, kiểm tra chéo nội dung văn bản, phát hiện mâu thuẫn và nâng cao hiệu quả quản lý văn bản pháp luật.
Doanh nghiệp công nghệ phát triển phần mềm pháp lý:
Cung cấp cơ sở khoa học và kỹ thuật để phát triển các hệ thống quản lý tri thức, trợ lý ảo pháp luật và các ứng dụng tìm kiếm thông minh.
Người dùng cuối và cán bộ hành chính:
Giúp tiếp cận pháp luật dễ dàng hơn thông qua các công cụ tra cứu thông minh, giảm thiểu thời gian và công sức trong việc tìm kiếm thông tin pháp luật.

Câu hỏi thường gặp

Mô hình BERT có ưu điểm gì so với các mô hình truyền thống trong trích chọn quan hệ?
BERT sử dụng kiến trúc Transformer với khả năng biểu diễn ngữ cảnh hai chiều, giúp hiểu sâu sắc mối quan hệ giữa các từ trong câu, từ đó nâng cao độ chính xác trích chọn quan hệ so với các mô hình chỉ dựa vào ngữ cảnh một chiều như BiLSTM hay CRF đơn thuần.
Tại sao chọn lĩnh vực thuế giá trị gia tăng để nghiên cứu?
Thuế giá trị gia tăng là sắc thuế phổ biến, ảnh hưởng đến hầu hết các tổ chức và cá nhân, với dữ liệu đa dạng và phong phú về thực thể và quan hệ. Điều này giúp mô hình có tính tổng quát và ứng dụng thực tiễn cao.
Phương pháp gán nhãn dữ liệu được thực hiện như thế nào?
Dữ liệu được gán nhãn theo chuẩn CONLL 2003 với 10 loại nhãn thực thể đặc thù, sử dụng tiền tố B- cho từ đầu tiên của thực thể, I- cho các từ tiếp theo và O cho từ không thuộc thực thể, đảm bảo tính chính xác và nhất quán trong quá trình huấn luyện.
Làm thế nào để đánh giá hiệu quả của mô hình trích chọn quan hệ?
Sử dụng các chỉ số độ chính xác (Precision), độ hồi tưởng (Recall) và F1-score để đánh giá, trong đó F1-score là trung bình hài hòa của Precision và Recall, phản ánh tổng thể hiệu quả mô hình.
Ứng dụng thực tế của kết quả nghiên cứu là gì?
Kết quả giúp xây dựng hệ thống quản lý tri thức pháp luật tự động, trợ lý ảo pháp luật, công cụ rà soát và phát hiện mâu thuẫn trong văn bản pháp luật, từ đó nâng cao hiệu quả quản lý và tiếp cận pháp luật cho người dân và cơ quan nhà nước.

Kết luận

Luận văn đã phát triển thành công mô hình kết hợp BERT, BiLSTM và CRF để trích chọn thực thể và quan hệ trong văn bản pháp luật tiếng Việt với độ chính xác F1 trên 85%.
Nghiên cứu tập trung vào lĩnh vực thuế giá trị gia tăng, cung cấp bộ dữ liệu đa dạng và đặc thù, phù hợp với yêu cầu thực tiễn.
Kết quả nghiên cứu tạo nền tảng cho việc xây dựng hệ thống quản lý tri thức pháp luật thông minh, trợ lý ảo và các ứng dụng trí tuệ nhân tạo trong lĩnh vực pháp luật.
Đề xuất mở rộng phạm vi nghiên cứu sang các lĩnh vực pháp luật khác và phát triển các ứng dụng hỗ trợ người dùng cuối.
Khuyến nghị các cơ quan quản lý, doanh nghiệp công nghệ và nhà nghiên cứu phối hợp triển khai ứng dụng mô hình trong thực tế để nâng cao hiệu quả quản lý và tiếp cận pháp luật.

Hãy bắt đầu áp dụng các giải pháp trích chọn quan hệ thực thể tiên tiến để nâng cao hiệu quả quản lý và sử dụng tri thức pháp luật trong kỷ nguyên số!

Trích đoạn nội dung tài liệu

phần mở đầu của luận văn, tác giả trình bày tổng quan, giới thiệu bài toán, ý nghĩa của bài toán và các vấn đề cần giải quyết. Ngoài ra, tác giả trình bày bốn phạm vi ứng dụng thực tiễn tiềm năng của bài toán và cấu trúc luận văn. Các chƣơng tiếp theo, tác giả trình bày chi tiết về một số mô hình học máy áp dụng, nền tảng phƣơng pháp luận và kết quả thực nghiệm của tác giả trên bộ dữ liệu thực tế cùng với các đề xuất phát triển kết quả nghiên cứu trong tƣơng lai. 13 CHƢƠNG 1 – TỔNG QUAN VỀ TRÍCH CHỌN QUAN HỆ THỰC THỂ 1.

Quy trình khai phá dữ liệu Khai phá dữ liệu (Data mining) và phát hiện tri thức từ dữ liệu (Knowledge Discovery from data) là một lĩnh vực phát triển bùng nổ trong những năm trở lại đây nhờ những bƣớc đột phá của công nghệ học máy và học sâu. Với sự phát triển của Internet, con ngƣời ngày càng có nhiều dữ liệu hơn. Các dữ liệu cũng đang dạng hơn và dễ tiếp cận hơn. Tận dụng nguồn dữ liệu to lớn từ Internet, thông tin đã đƣợc nhiều tổ chức thu thập để làm sạch, thực hiện nghiên cứu, khai phá.

Từ đó, có thể trích chọn để tạo ra tri thức hữu ích trong nhiều lĩnh vực. Điều này mang đến nhiều cải tiến tích cực trong nhiều lĩnh vực từ phân tích thị trƣờng, phát hiện gian lận, xây dựng đồ thị tri thức và nghiên cứu khoa học. Do tăng trƣởng nhanh chóng về số lƣợng, đa dạng về lĩnh vực, phong phú về nội dung, khối lƣợng dữ liệu cực lớn đã đƣợc thu thập và lƣu giữ trong những kho dữ liệu khổng lồ cũng nhƣ trên Internet đang mang đến nhiều cơ hội cho những tổ chức, cá nhân có thể khai thác đƣợc tài nguyên dữ liệu đó. Chính vì vậy, lợi ích và tiềm năng của khai phá dữ liệu là không thể phủ nhận, việc khai phá dữ liệu và tìm kiếm tri thức đang đƣợc số lƣợng lớn các doanh nghiệp và các tổ chức nghiên cứu đặc biệt quan tâm và dành sự đầu tƣ lớn.

Phạm vi ứng dụng không chỉ trong doanh nghiệp, với quy mô quản lý quốc gia về hành chính, khai phá dữ liệu trong văn bản pháp luật và kho tri thức quản lý kinh tế xã hội đặc biệt, việc khai phá dữ liệu trong văn bản pháp luật là nền tảng đầu tiên để Nhà nƣớc xây dựng đồ thị tri thức, cơ sở dữ liệu tri thức thuế và tài chính công. Điều này giúp chính phủ đƣợc ra các chính sách đúng đắn, các văn bản điều hành, văn bản pháp luật có tính thực tiễn, bám sát với những yêu cầu khách quan của kinh tế xã hội Việt Nam, đồng thời cũng giúp rút ngắn thời gian triển khai phổ biến pháp luật và các khoảng cách trong điều hành thực thi giữa các cấp. Trên hết, hệ thống tri thức về văn bản pháp luật giúp toàn bộ ngƣời dân có thể tiếp cận dễ dàng hơn và có thể có đƣợc hiểu biết sâu sắc hơn về luật pháp cũng nhƣng các quyền lợi, trách nhiệm hợp pháp của các tổ chức, cá nhân trong xã hội. Khai phá dữ liệu là quá trình bao gồm một dãy các bƣớc sau: 1.

Làm sạch dữ liệu 14 2. Tích hợp dữ liệu 3. Chọn lựa dữ liệu 4. Chuyển đổi dữ liệu 5.

Khai phá dữ liệu 6. Đánh giá các mẫu 7. Trình diễn tri thức Dữ liệu cần phải làm sạch để khắc phục đối với các trƣờng dữ liệu rỗng, dƣ thừa hoặc dữ liệu không hợp lệ. Giai đoạn làm sạch và tiền xử lý dữ liệu là giai đoạn hay không đƣợc chú ý đúng mức, nhƣng thực tế đây là một bƣớc rất quan trọng trong quá trình khai phá dữ liệu.

Một số lỗi thƣờng mắc phải trong khi gom dữ liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy, dữ liệu thƣờng chứa các giá trị vô nghĩa và không có khả năng kết nối lại với nhau. Các công việc tiền xử lý dữ liệu bao gồm: Xử lý dữ liệu bị mất/thiếu, khử bỏ trùng lặp, giảm nhiễu, chuẩn hóa, rời rạc hóa, trích rút và xây dựng đặc trƣng mới từ các thuộc tính đã có, giảm chiều không gian thuộc tính. Sau giai đoạn tiền xử lý dữ liệu, bƣớc thứ năm - khai phá dữ liệu là bƣớc quan trọng nhất trong tiến trình phát hiện tri thức.

Kết quả của bƣớc này là trích chọn đƣợc các mẫu và/hoặc mô hình ẩn dƣới một khối lƣợng lớn dữ liệu bằng các kĩ thuật của học máy và học sâu. Có thể nói đây là giai đoạn nhận dạng, phân tích thống kê, sử dụng nhiều phƣơng pháp khác nhau nhƣ phƣơng pháp trực quan hoặc phƣơng pháp mô hình hóa. Ở giai đoạn này nhiều thuật toán khác nhau đã đƣợc sử dụng để chọn các mẫu từ dữ liệu. Thuật toán thƣờng dùng để trích chọn mẫu là thuật toán phân loại dữ liệu, thuật toán mô hình hóa dữ liệu tuần tự hay các thuật toán không giám sát nhƣ LDA, thuật toán không phụ thuộc vào tri thức ngành để tìm kiếm từ khóa nhƣ YAKE.

Tiếp đến là giai đoạn đánh giá các mẫu. Đây là giai đoạn thực hiện kiểm định dựa vào mục tiêu ban đầu của ứng dụng thông qua đánh giá của ngƣời sử dụng cuối hoặc các chuyên gia. Mục đích của giai đoạn này là hiểu rõ bản chất các tri thức đã tìm đƣợc, đặc biệt là làm sáng tỏ các mô tả và dự đoán. 15 Cuối cùng là trình diễn tri thức, bao gồm việc hiển thị kết quả hoặc dịch kết quả để hiểu và trình diễn.

Trong bƣớc này, các tri thức vừa mới khám phá đã đƣợc củng cố, kết hợp lại thành một hệ thống đồng thời gian quyết các xung đột tiềm năng trong các tri thức đó. Các mô hình rút ra đƣợc đƣa vào những hệ thống thông tin thực tế dƣới dạng các mô đun hỗ trợ việc đƣa ra quyết định. Có thể minh họa quá trình khai phá dữ liệu qua hình dƣới đây: Hình 1. Lƣợc đồ quá trình khai phá dữ liệu Công nghệ phát hiện tri thức và khai phá dữ liệu đạt nhiều thành tựu trong nhiều lĩnh vực khác nhau.

Trong nghiên cứu về mã gen ngƣời, giải mã trình từ giúp đạt đƣợc các mục tiêu quan trọng trong việc phân tích, thấu hiểu mối quan hệ chặt chẽ giữa các biến thể thành phần trong chuỗi DNA ngƣời và sự thay đổi trong tính nhạy cảm của bệnh. Điều này giúp tìm ra những thay đổi của chuỗi DNA ở ngƣời ảnh hƣởng đến rủi ro về các bệnh thƣờng gặp nhƣ ung thƣ. Đây là nền tảng quan trọng để phát triển các phƣơng thức chẩn đoán, phòng ngừa và điều trị các loại bệnh này. Trong lĩnh vực kỹ thuật điện, phƣơng pháp khai thác dữ liệu đã đƣợc sử dụng rộng rãi để giám sát tình trạng của thiết bị điện cao áp.

Việc giám sát tình trạng thiết bị thu đƣợc những thông tin có giá trị nhƣ về trạng thái cách điện hệ thống (hoặc các thông số quan trọng khác liên quan đến an toàn). Các kỹ thuật phân cụm dữ liệu - chẳng hạn nhƣ bản đồ tự tổ chức (SOM), đã đƣợc áp dụng để giám sát và phân tích độ rung của các bộ thay đổi nấc điều chỉnh trên tải của máy biến áp (OLTCS). 16 Trong nghiên cứu giáo dục, nơi khai thác dữ liệu đã đƣợc sử dụng để nghiên cứu các yếu tố khiến sinh viên lựa chọn tham gia vào các hành vi làm giảm khả năng học tập của họ, và để hiểu các yếu tố ảnh hƣởng đến việc giữ chân sinh viên đại học. chuyên gia, đặc biệt là trong các lĩnh vực khoa học và kỹ thuật.

Bằng cách này, khai thác dữ liệu có thể tạo điều kiện thuận lợi cho bộ nhớ của tổ chức. Khai thác dữ liệu đã đƣợc áp dụng cho các tạo tác phần mềm trong lĩnh vực kỹ thuật phần mềm: Kho phần mềm khai thác. Để nghiên cứu bài toán trích chọn quan hệ, ngƣời nghiên cứu cần phải nắm vững các định nghĩa quan hệ, các đặc trƣng của quan hệ và các loại quan hệ … Vì thế, trong chƣơng này, luận văn giới thiệu các vấn đề liên quan tới bài toán trích chọn mối quan hệ, làm tiền đề cho nghiên cứu bài toán ứng dụng trong văn bản pháp luật. Quan hệ ngữ nghĩa là một khái niệm trong ngôn ngữ học.

Theo Birger Hjorland định nghĩa: Quan hệ ngữ nghĩa là mối quan hệ về mặt ngữ nghĩa giữa hai hay nhiều khái niệm. Trong đó, khái niệm đƣợc biểu diễn dƣới dạng từ hay cụm. Bài toán trích chọn quan hệ Trích rút quan hệ là bài toán có nhiều thành tựu trong xử lý ngôn ngữ tự nhiên. Bài toán này xử lý hai vấn đề.

Vấn đề một là trích chọn thực thể từ văn bản. Vấn đề hai là xác định mối quan hệ của các thực thể đã đƣợc xác nhận ở bƣớc một. Hai vấn đề trên đều là một bài toán gán nhãn chuỗi từ. Trong học máy, gán nhãn chuỗi từ là bài toán nhận dạng mẫu liên quan đến việc gán nhãn phân loại theo thuật toán học máy có giám sát cho từng chuỗi từ của một chuỗi các câu quan sát.

Với trích chọn thực thể, bài toán xác định các chuỗi từ nhƣ tên ngƣời, tên địa danh, tên tổ chức, thực thể định danh khác nhƣ bộ dữ liệu Conll 2003. Ví dụ, chủ tịch Hồ Chí Minh đọc tuyên ngôn độc lập ở quảng trƣờng Ba Đình. Mô hình đƣợc huấn luyện để xác định cụm từ ―Hồ Chí Minh‖ là tên ngƣời và ―Ba Đình‖ là tên địa điểm. Một thực thể định danh là một chuỗi các từ chỉ đến một thực thể trong thế giới thực, ví dụ nhƣ ―Đà Nẵng‖, ―Hà Nội‖, ―Võ Nguyên Giáp‖, ―Bộ tài chính‖ và ―thuế tiêu thụ đặc biệt‖.

Một thực thể định danh có thể đƣợc sắp xếp vào một trong các loại nhƣ Ngƣời, Tổ chức, Cơ sở vật chất, Địa điểm … Nhƣ vậy, các thực thể chính là những chủ thể cơ bản nhất trong nội dung văn bản ở nhiều lĩnh vực khác nhau và ở bất cứ ngôn ngữ nào. Sau khi có các thực thể, trích 17 chọn quan hệ thực thể là việc xác định các thực thể đó có quan hệ với nhau hay không. Các quan hệ có thể là mối quan hệ sở hữu của cá nhân với tài sản, quan hệ của cá nhân đại diện cho tổ chức và tổ chức nhƣ quan hệ sáng lập, quan hệ đại diện pháp luật hoặc không có quan hệ giữa các thực thể. Để thực hiện bài toán trên, dữ liệu cần đƣợc thu thập, làm sạch.

Sau đó, với mục tiêu trích xuất, ngƣời nghiên cứu cần đƣa ra các định nghĩa rõ ràng về các loại thực thể của bài toán.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Trích Chọn Quan Hệ Thực Thể từ Văn Bản Pháp Luật Tiếng Việt: Ứng Dụng BERT và Hệ Thống C-KMS" tập trung vào việc sử dụng mô hình BERT và hệ thống C-KMS để tự động trích chọn các mối quan hệ giữa các thực thể (ví dụ: tổ chức, cá nhân, địa điểm) trong văn bản pháp luật tiếng Việt. Nghiên cứu này giúp tăng tốc độ và độ chính xác trong việc phân tích và hiểu nội dung phức tạp của văn bản pháp luật, hỗ trợ các chuyên gia pháp lý và nhà nghiên cứu trong việc tìm kiếm thông tin liên quan một cách hiệu quả hơn. Nó mở ra hướng tiếp cận mới trong xử lý ngôn ngữ tự nhiên ứng dụng vào lĩnh vực pháp luật tại Việt Nam.

Nếu bạn quan tâm đến các ứng dụng khác của việc trích chọn thông tin từ văn bản tiếng Việt, đặc biệt là trong lĩnh vực y tế, bạn có thể tìm hiểu thêm về nghiên cứu Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh. Tài liệu này sẽ giúp bạn hiểu rõ hơn về các phương pháp trích chọn sự kiện và cách chúng có thể được ứng dụng trong một lĩnh vực cụ thể khác.

#xử lý ngôn ngữ tự nhiên

#phân tích văn bản pháp luật

#thông tin pháp luật

#Trích chọn quan hệ thực thể

#Văn bản pháp luật tiếng Việt

#Ứng dụng BERT

Chủ đề

Trích chọn thông tin từ văn bản

Ứng dụng BERT trong pháp luật

Hệ thống quản lý tri thức C-KMS

Xử lý ngôn ngữ tự nhiên pháp luật