Tổng quan nghiên cứu
Trong bối cảnh phát triển kinh tế xã hội hiện đại, tri thức pháp luật đóng vai trò then chốt trong việc điều chỉnh các quan hệ xã hội và bảo vệ quyền lợi của các chủ thể. Tại Việt Nam, hệ thống văn bản pháp luật ngày càng đa dạng và phức tạp với số lượng văn bản thuế tăng gần 300% trong vòng 10 năm, từ khoảng 30.928 văn bản năm 2011 lên đến 89.450 văn bản năm 2021. Điều này đặt ra thách thức lớn trong việc quản lý, khai thác và ứng dụng hiệu quả nguồn dữ liệu pháp luật đồ sộ này. Mục tiêu nghiên cứu của luận văn là phát triển phương pháp trích chọn quan hệ thực thể từ văn bản pháp luật tiếng Việt, đặc biệt trong lĩnh vực thuế giá trị gia tăng, nhằm xây dựng hệ thống quản lý tri thức thông minh, hỗ trợ công tác soạn thảo, quản lý và tra cứu pháp luật.
Phạm vi nghiên cứu tập trung vào các văn bản pháp luật liên quan đến thuế giá trị gia tăng tại Việt Nam, bao gồm luật, nghị định, thông tư và công văn, với dữ liệu thu thập từ hơn 3.000 văn bản, trong đó chọn lọc 120 văn bản tiêu biểu. Nghiên cứu ứng dụng các mô hình học máy và học sâu tiên tiến như BERT, BiLSTM và CRF để trích xuất thực thể và mối quan hệ giữa các thực thể trong văn bản pháp luật. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trong trích xuất thông tin, giảm thiểu thời gian và chi phí quản lý văn bản pháp luật, đồng thời tạo nền tảng cho các ứng dụng trí tuệ nhân tạo trong lĩnh vực pháp luật như trợ lý ảo và hệ thống trả lời tự động.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình học máy, học sâu trong xử lý ngôn ngữ tự nhiên (NLP) để giải quyết bài toán trích chọn quan hệ thực thể trong văn bản pháp luật. Hai mô hình chính được áp dụng là:
Mô hình Conditional Random Field (CRF): Là mô hình thống kê dùng để gán nhãn chuỗi, phù hợp với bài toán nhận dạng thực thể và trích xuất quan hệ trong chuỗi văn bản. CRF cho phép mô hình hóa sự phụ thuộc giữa các nhãn liền kề, giúp cải thiện độ chính xác trong việc xác định biên và loại thực thể.
Mô hình Bidirectional Long Short-Term Memory (BiLSTM): Là mạng nơ-ron hồi tiếp hai chiều, có khả năng học các phụ thuộc dài hạn trong chuỗi dữ liệu. BiLSTM kết hợp với CRF tận dụng ưu điểm của cả hai mô hình, giúp trích xuất đặc trưng ngữ cảnh hiệu quả và dự đoán nhãn chuỗi chính xác hơn.
Ngoài ra, nghiên cứu sử dụng BERT (Bidirectional Encoder Representations from Transformers), một mô hình ngôn ngữ dựa trên kiến trúc Transformer, được huấn luyện trên tập dữ liệu lớn, có khả năng biểu diễn ngữ cảnh hai chiều của từ trong câu. BERT giúp nâng cao hiệu quả trích xuất thực thể và quan hệ nhờ khả năng hiểu sâu sắc ngữ cảnh và mối quan hệ giữa các từ trong văn bản.
Ba khái niệm chính trong nghiên cứu bao gồm:
- Thực thể (Entity): Các đối tượng như tổ chức, cá nhân, hàng hóa, dịch vụ, tài sản, địa điểm, mục đích, quá trình, hình thức, nhà nước trong văn bản pháp luật.
- Quan hệ thực thể (Entity Relation): Mối liên hệ giữa các thực thể, ví dụ quan hệ sở hữu, quan hệ lao động, quan hệ đại diện pháp luật.
- Trích chọn quan hệ (Relation Extraction): Quá trình xác định và phân loại các quan hệ giữa các thực thể đã được nhận dạng trong văn bản.
Phương pháp nghiên cứu
Nguồn dữ liệu chính được thu thập từ các trang web chính thức của Bộ Tài chính, Tổng cục Thuế, các cục thuế địa phương và trang cơ sở dữ liệu quốc gia về văn bản pháp luật (vbpl). Bộ dữ liệu gồm 120 văn bản pháp luật liên quan đến thuế giá trị gia tăng, với tổng cộng 3.089 câu và 137.221 từ sau tiền xử lý.
Phương pháp phân tích bao gồm:
- Tiền xử lý dữ liệu: Loại bỏ dấu câu không cần thiết, chuyển đổi chữ viết thường, tách câu, loại bỏ các đoạn trùng lặp và thông tin không liên quan như số hiệu văn bản, ngày phát hành.
- Gán nhãn dữ liệu: Áp dụng chuẩn CONLL 2003 với 10 loại nhãn thực thể đặc thù cho lĩnh vực thuế như tổ chức, cá nhân, hàng hóa, dịch vụ, tài sản, nhà nước, mục đích, quá trình, hình thức, địa điểm. Các từ trong thực thể được gán nhãn B- (bắt đầu) hoặc I- (bên trong), từ không thuộc thực thể gán nhãn O.
- Huấn luyện mô hình: Sử dụng mô hình BERT kết hợp BiLSTM và CRF để trích xuất thực thể và quan hệ. Cỡ mẫu huấn luyện là toàn bộ bộ dữ liệu đã gán nhãn, với phương pháp chọn mẫu toàn bộ dữ liệu có tính đại diện cao.
- Đánh giá mô hình: Sử dụng các chỉ số độ chính xác (Precision), độ hồi tưởng (Recall) và F1-score để đánh giá hiệu quả trích chọn thực thể và quan hệ. Quá trình huấn luyện và đánh giá được thực hiện trên môi trường GPU để tăng tốc độ xử lý.
Thời gian nghiên cứu kéo dài từ năm 2018 đến 2020, với các giai đoạn thu thập dữ liệu, tiền xử lý, xây dựng mô hình, huấn luyện và đánh giá kết quả.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả mô hình BERT kết hợp BiLSTM và CRF:
Mô hình này đạt độ chính xác F1 trung bình trên 85% trong việc trích chọn thực thể và quan hệ từ văn bản pháp luật thuế giá trị gia tăng. So với mô hình chỉ sử dụng BiLSTM-CRF, BERT giúp cải thiện khoảng 7-10% điểm F1, thể hiện qua bảng so sánh kết quả các mô hình tinh chỉnh.Phân bố thực thể trong dữ liệu:
Nhãn tổ chức chiếm tỷ lệ lớn nhất với khoảng 20% số lượng nhãn, tiếp theo là dịch vụ chiếm 13,4%. Các nhãn cá nhân và mục đích sản xuất tạo lập chiếm khoảng 5% mỗi loại, phản ánh đặc thù ngữ cảnh văn bản pháp luật thuế, nơi tổ chức và dịch vụ là các thực thể chủ đạo.Tác động của việc tinh chỉnh mô hình BERT:
Việc lựa chọn vectơ nhúng từ các lớp khác nhau của BERT và sử dụng các biến thể như RoBERTa, ALBERT giúp tăng cường độ chính xác trích chọn quan hệ. Mô hình tinh chỉnh theo lớp đầu ra của BERT đạt điểm F1 cao hơn khoảng 3-5% so với mô hình cơ bản.Tốc độ học và tối ưu hóa:
Sử dụng thuật toán tối ưu Adam và điều chỉnh siêu tham số giúp mô hình hội tụ nhanh hơn, giảm thiểu hàm mất mát hiệu quả. Tốc độ học của BiLSTM được cải thiện đáng kể khi kết hợp với BERT, giảm thời gian huấn luyện xuống còn khoảng 70% so với mô hình truyền thống.
Thảo luận kết quả
Kết quả nghiên cứu cho thấy việc ứng dụng mô hình học sâu BERT kết hợp BiLSTM và CRF là phù hợp và hiệu quả trong việc trích chọn thực thể và quan hệ từ văn bản pháp luật tiếng Việt, đặc biệt trong lĩnh vực thuế giá trị gia tăng. Việc sử dụng BERT giúp mô hình hiểu sâu sắc ngữ cảnh hai chiều, khắc phục hạn chế của các mô hình học máy truyền thống chỉ dựa vào ngữ cảnh một chiều.
So sánh với các nghiên cứu trước đây trong lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt, điểm F1 đạt được vượt trội hơn khoảng 5-10%, minh chứng cho sự phù hợp của kiến trúc kết hợp này với đặc thù dữ liệu pháp luật. Các biểu đồ hàm mất mát và ma trận đánh giá cho thấy mô hình có khả năng phân loại chính xác các nhãn thực thể và quan hệ, đồng thời giảm thiểu sai sót trong gán nhãn chuỗi.
Ngoài ra, việc lựa chọn lĩnh vực thuế giá trị gia tăng làm phạm vi nghiên cứu giúp đảm bảo tính bao quát và đa dạng của dữ liệu, đồng thời phù hợp với nhu cầu thực tiễn của các cơ quan quản lý nhà nước. Kết quả nghiên cứu có thể được trình bày qua các biểu đồ phân bố nhãn, bảng so sánh kết quả các mô hình và đồ thị hàm mất mát trong quá trình huấn luyện.
Đề xuất và khuyến nghị
Phát triển hệ thống quản lý tri thức pháp luật tự động:
Triển khai ứng dụng mô hình BERT-BiLSTM-CRF vào hệ thống C-KMS để tự động trích xuất thực thể và quan hệ từ văn bản pháp luật, nâng cao hiệu quả tìm kiếm và tra cứu thông tin pháp luật. Mục tiêu đạt độ chính xác trên 85% trong vòng 12 tháng, do các đơn vị công nghệ và cơ quan quản lý phối hợp thực hiện.Mở rộng phạm vi dữ liệu và lĩnh vực áp dụng:
Tiếp tục thu thập và xử lý dữ liệu từ các lĩnh vực pháp luật khác như lao động, đất đai, dân sự để xây dựng bộ dữ liệu đa ngành, tăng tính tổng quát của mô hình. Thời gian thực hiện dự kiến 18-24 tháng, do các nhóm nghiên cứu và cơ quan pháp luật phối hợp.Phát triển trợ lý ảo pháp luật thông minh:
Sử dụng kết quả trích chọn quan hệ để xây dựng hệ thống trả lời tự động bằng văn bản và giọng nói, hỗ trợ người dân và cán bộ hành chính trong việc tra cứu và giải đáp các vấn đề pháp luật. Mục tiêu triển khai thử nghiệm trong 12 tháng, do các công ty công nghệ và cơ quan hành chính phối hợp.Nâng cao chất lượng dữ liệu và mô hình:
Tiến hành cập nhật, làm sạch dữ liệu thường xuyên, đồng thời nghiên cứu các biến thể mới của BERT và các kỹ thuật học sâu khác để cải thiện độ chính xác và tốc độ xử lý. Thời gian nghiên cứu liên tục, do các nhóm nghiên cứu chuyên sâu đảm nhiệm.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Khoa học dữ liệu, Xử lý ngôn ngữ tự nhiên:
Luận văn cung cấp kiến thức nền tảng và ứng dụng thực tiễn về mô hình học sâu trong trích chọn thông tin từ văn bản pháp luật tiếng Việt, giúp phát triển các nghiên cứu tiếp theo.Cơ quan quản lý nhà nước và các đơn vị soạn thảo văn bản pháp luật:
Hỗ trợ trong việc rà soát, kiểm tra chéo nội dung văn bản, phát hiện mâu thuẫn và nâng cao hiệu quả quản lý văn bản pháp luật.Doanh nghiệp công nghệ phát triển phần mềm pháp lý:
Cung cấp cơ sở khoa học và kỹ thuật để phát triển các hệ thống quản lý tri thức, trợ lý ảo pháp luật và các ứng dụng tìm kiếm thông minh.Người dùng cuối và cán bộ hành chính:
Giúp tiếp cận pháp luật dễ dàng hơn thông qua các công cụ tra cứu thông minh, giảm thiểu thời gian và công sức trong việc tìm kiếm thông tin pháp luật.
Câu hỏi thường gặp
Mô hình BERT có ưu điểm gì so với các mô hình truyền thống trong trích chọn quan hệ?
BERT sử dụng kiến trúc Transformer với khả năng biểu diễn ngữ cảnh hai chiều, giúp hiểu sâu sắc mối quan hệ giữa các từ trong câu, từ đó nâng cao độ chính xác trích chọn quan hệ so với các mô hình chỉ dựa vào ngữ cảnh một chiều như BiLSTM hay CRF đơn thuần.Tại sao chọn lĩnh vực thuế giá trị gia tăng để nghiên cứu?
Thuế giá trị gia tăng là sắc thuế phổ biến, ảnh hưởng đến hầu hết các tổ chức và cá nhân, với dữ liệu đa dạng và phong phú về thực thể và quan hệ. Điều này giúp mô hình có tính tổng quát và ứng dụng thực tiễn cao.Phương pháp gán nhãn dữ liệu được thực hiện như thế nào?
Dữ liệu được gán nhãn theo chuẩn CONLL 2003 với 10 loại nhãn thực thể đặc thù, sử dụng tiền tố B- cho từ đầu tiên của thực thể, I- cho các từ tiếp theo và O cho từ không thuộc thực thể, đảm bảo tính chính xác và nhất quán trong quá trình huấn luyện.Làm thế nào để đánh giá hiệu quả của mô hình trích chọn quan hệ?
Sử dụng các chỉ số độ chính xác (Precision), độ hồi tưởng (Recall) và F1-score để đánh giá, trong đó F1-score là trung bình hài hòa của Precision và Recall, phản ánh tổng thể hiệu quả mô hình.Ứng dụng thực tế của kết quả nghiên cứu là gì?
Kết quả giúp xây dựng hệ thống quản lý tri thức pháp luật tự động, trợ lý ảo pháp luật, công cụ rà soát và phát hiện mâu thuẫn trong văn bản pháp luật, từ đó nâng cao hiệu quả quản lý và tiếp cận pháp luật cho người dân và cơ quan nhà nước.
Kết luận
- Luận văn đã phát triển thành công mô hình kết hợp BERT, BiLSTM và CRF để trích chọn thực thể và quan hệ trong văn bản pháp luật tiếng Việt với độ chính xác F1 trên 85%.
- Nghiên cứu tập trung vào lĩnh vực thuế giá trị gia tăng, cung cấp bộ dữ liệu đa dạng và đặc thù, phù hợp với yêu cầu thực tiễn.
- Kết quả nghiên cứu tạo nền tảng cho việc xây dựng hệ thống quản lý tri thức pháp luật thông minh, trợ lý ảo và các ứng dụng trí tuệ nhân tạo trong lĩnh vực pháp luật.
- Đề xuất mở rộng phạm vi nghiên cứu sang các lĩnh vực pháp luật khác và phát triển các ứng dụng hỗ trợ người dùng cuối.
- Khuyến nghị các cơ quan quản lý, doanh nghiệp công nghệ và nhà nghiên cứu phối hợp triển khai ứng dụng mô hình trong thực tế để nâng cao hiệu quả quản lý và tiếp cận pháp luật.
Hãy bắt đầu áp dụng các giải pháp trích chọn quan hệ thực thể tiên tiến để nâng cao hiệu quả quản lý và sử dụng tri thức pháp luật trong kỷ nguyên số!