## Tổng quan nghiên cứu
Trong bối cảnh hệ thống pháp luật ngày càng phức tạp và khối lượng văn bản pháp lý tăng nhanh, việc truy xuất và áp dụng các quy định pháp luật trở nên khó khăn và tốn thời gian. Tại Việt Nam, các dịch vụ pháp lý thông minh dựa trên trí tuệ nhân tạo (AI) vẫn chưa phát triển mạnh do thiếu các nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt trong lĩnh vực pháp luật. Luận văn này tập trung xây dựng một hệ thống chatbot có khả năng trả lời tự động các câu hỏi pháp lý liên quan đến lĩnh vực bất động sản, với trọng tâm là mô-đun Xác định Căn cứ Pháp lý (Legal Statutes Identification - LSI). Mô-đun này giúp xác định các điều luật phù hợp dựa trên mô tả sự kiện hoặc câu hỏi pháp lý.
Tác giả đã xây dựng bộ dữ liệu LSI gồm hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam, tập trung vào Luật Đất đai 2013. Mục tiêu nghiên cứu là phát triển và đánh giá ba mô hình: mô hình máy học sử dụng Support Vector Machine (SVM) với nhúng từ TF-IDF, mô hình học sâu dựa trên LegarBERT - một biến thể BERT được huấn luyện chuyên biệt cho lĩnh vực pháp luật Việt Nam, và mô hình học máy đồ thị sử dụng đồ thị tri thức dị thể (LegarHKB). Nghiên cứu được thực hiện trong phạm vi dữ liệu pháp lý Việt Nam, đặc biệt là Luật Đất đai 2013, với ý nghĩa nâng cao hiệu quả truy xuất thông tin pháp luật, hỗ trợ chuyên gia và người dân tiếp cận pháp luật nhanh chóng và chính xác hơn.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Xác định Căn cứ Pháp lý (LSI):** Quá trình xác định các điều luật, điều khoản phù hợp với tình huống pháp lý dựa trên mô tả sự kiện hoặc câu hỏi.
- **Mô hình nhúng từ (Word Embedding):** Sử dụng TF-IDF và LegarBERT để biểu diễn câu hỏi pháp lý dưới dạng vector số, giúp máy tính hiểu ngữ nghĩa.
- **Học máy đồ thị (Graph Machine Learning):** Mã hóa các thực thể pháp lý (điều luật, thuật ngữ, truy vấn) thành các nút và mối quan hệ thành các cạnh trong đồ thị tri thức dị thể, hỗ trợ truy vấn và suy luận.
- **Mô hình Support Vector Machine (SVM):** Phân loại đa nhãn dựa trên đặc trưng TF-IDF.
- **Mô hình LegarBERT:** Biến thể BERT được huấn luyện trên dữ liệu pháp luật tiếng Việt, sử dụng kỹ thuật Masked Language Modeling (MLM) để nâng cao khả năng hiểu ngữ cảnh pháp lý.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Bộ dữ liệu VN-LandLaw-2013 gồm 5910 mẫu câu hỏi và câu trả lời được gán nhãn chi tiết, hơn 300.000 câu hỏi pháp lý, và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam.
- **Phương pháp thu thập và xử lý dữ liệu:** Thu thập dữ liệu từ các diễn đàn pháp luật, trang web các bộ ngành, và sách luật được số hóa bằng OCR. Dữ liệu được nhóm sinh viên luật chuyên môn cao gán nhãn chi tiết các thực thể pháp lý như điều luật, khoản, điểm.
- **Phân tích dữ liệu:** Sử dụng kỹ thuật TF-IDF để xây dựng ma trận đặc trưng từ các điều luật, phân tích mối quan hệ ngữ nghĩa và đồng xuất hiện giữa các điều luật.
- **Phương pháp phân tích:** So sánh hiệu quả của ba mô hình LSI: SVM với TF-IDF, LegarBERT, và LegarHKB (học máy đồ thị). Đánh giá dựa trên các chỉ số Precision, Recall, F1 và chỉ số KU mới phù hợp với sản phẩm thương mại.
- **Timeline nghiên cứu:** Nghiên cứu và phát triển trong khoảng thời gian từ năm 2022 đến giữa năm 2023, với các giai đoạn thu thập dữ liệu, gán nhãn, huấn luyện mô hình, và đánh giá kết quả.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Hiệu quả mô hình LegarBERT:** Mô hình học sâu LegarBERT đạt độ chính xác cao hơn 15% so với mô hình SVM truyền thống trong việc xác định căn cứ pháp lý phù hợp với câu hỏi.
- **Mô hình học máy đồ thị LegarHKB:** Sử dụng đồ thị tri thức dị thể giúp cải thiện khả năng suy luận và liên kết các điều luật, tăng 10% độ chính xác so với LegarBERT trong các trường hợp phức tạp.
- **Phân bố dữ liệu không cân bằng:** Khoảng 70% câu hỏi tập trung vào một số điều luật phổ biến, trong khi nhiều điều luật khác có rất ít dữ liệu, ảnh hưởng đến hiệu quả huấn luyện mô hình.
- **Chỉ số KU:** Được phát triển để đánh giá hiệu quả mô hình theo cách dễ hiểu hơn cho người dùng thương mại, chỉ số này phản ánh tốt hơn mức độ phù hợp của kết quả trả lời so với các chỉ số truyền thống.
### Thảo luận kết quả
Nguyên nhân chính của sự cải thiện hiệu quả mô hình LegarBERT và LegarHKB là do khả năng hiểu ngữ cảnh và mối quan hệ phức tạp giữa các thực thể pháp lý trong văn bản. Việc sử dụng dữ liệu lớn và kỹ thuật huấn luyện chuyên biệt giúp mô hình nắm bắt được các đặc trưng ngôn ngữ pháp lý tiếng Việt. So với các nghiên cứu trước đây chỉ sử dụng phương pháp máy học truyền thống hoặc mô hình ngôn ngữ tổng quát, nghiên cứu này đã nâng cao đáng kể độ chính xác và khả năng ứng dụng thực tế. Dữ liệu không cân bằng là thách thức lớn, cần có các giải pháp bổ sung dữ liệu hoặc áp dụng kỹ thuật học chuyển giao để cải thiện. Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác các mô hình và bảng phân bố dữ liệu theo điều luật.
## Đề xuất và khuyến nghị
- **Mở rộng và cân bằng dữ liệu:** Tổ chức các nhóm chuyên gia pháp lý để tạo thêm dữ liệu câu hỏi - trả lời cho các điều luật ít được quan tâm, nhằm cải thiện độ bao phủ và cân bằng dữ liệu trong vòng 12 tháng tới.
- **Phát triển mô hình học chuyển giao (Transfer Learning):** Áp dụng kỹ thuật few-shot learning để mô hình có thể thích nghi nhanh với các điều luật mới hoặc ít dữ liệu, giảm thiểu thời gian huấn luyện.
- **Tích hợp hệ thống chatbot vào nền tảng pháp lý:** Triển khai hệ thống chatbot LSI vào các cổng thông tin pháp luật và dịch vụ công trực tuyến nhằm nâng cao khả năng tiếp cận pháp luật cho người dân và doanh nghiệp trong 6-9 tháng.
- **Đào tạo và nâng cao nhận thức người dùng:** Tổ chức các khóa đào tạo cho luật sư, cán bộ pháp lý và người dân về cách sử dụng hệ thống chatbot để khai thác hiệu quả thông tin pháp luật.
- **Nghiên cứu phát triển chỉ số đánh giá KU:** Tiếp tục hoàn thiện và phổ biến chỉ số KU như một tiêu chuẩn đánh giá hiệu quả các sản phẩm AI trong lĩnh vực pháp luật, giúp người dùng dễ dàng hiểu và tin tưởng kết quả.
## Đối tượng nên tham khảo luận văn
- **Luật sư và chuyên gia pháp lý:** Hỗ trợ tra cứu nhanh các điều luật liên quan, giảm thiểu sai sót trong tư vấn và soạn thảo hồ sơ pháp lý.
- **Cơ quan quản lý nhà nước:** Ứng dụng trong tự động hóa xử lý hồ sơ, nâng cao hiệu quả công tác quản lý và giải quyết thủ tục hành chính.
- **Doanh nghiệp bất động sản:** Giúp hiểu rõ các quy định pháp luật liên quan đến giao dịch đất đai, giảm thiểu rủi ro pháp lý trong kinh doanh.
- **Nhà nghiên cứu và phát triển AI:** Cung cấp dữ liệu, mô hình và phương pháp nghiên cứu về xử lý ngôn ngữ tự nhiên trong lĩnh vực pháp luật tiếng Việt, làm nền tảng cho các nghiên cứu tiếp theo.
## Câu hỏi thường gặp
1. **Hệ thống chatbot này có thể trả lời những loại câu hỏi pháp lý nào?**
Hệ thống tập trung vào các câu hỏi liên quan đến Luật Đất đai 2013, bao gồm các vấn đề về chuyển nhượng, quyền sử dụng đất, tranh chấp đất đai, với khả năng mở rộng sang các lĩnh vực pháp luật khác trong tương lai.
2. **Mô hình LegarBERT khác gì so với các mô hình BERT thông thường?**
LegarBERT được huấn luyện chuyên biệt trên dữ liệu pháp luật tiếng Việt, giúp hiểu sâu sắc ngữ cảnh và thuật ngữ pháp lý, nâng cao độ chính xác trong việc xác định căn cứ pháp luật.
3. **Chỉ số KU là gì và tại sao cần thiết?**
KU là chỉ số đánh giá hiệu quả mô hình LSI theo cách dễ hiểu và phù hợp với người dùng thương mại, giúp đo lường mức độ phù hợp của kết quả trả lời so với yêu cầu thực tế.
4. **Làm thế nào để xử lý vấn đề dữ liệu không cân bằng trong nghiên cứu?**
Có thể bổ sung dữ liệu từ các nguồn khác, sử dụng kỹ thuật học chuyển giao hoặc học tăng cường để cải thiện khả năng học của mô hình với các điều luật ít dữ liệu.
5. **Hệ thống có thể áp dụng cho các lĩnh vực pháp luật khác ngoài bất động sản không?**
Có thể, với việc mở rộng bộ dữ liệu và huấn luyện lại mô hình, hệ thống có thể được tùy chỉnh để phục vụ các lĩnh vực pháp luật khác như dân sự, hình sự, thương mại.
## Kết luận
- Đã xây dựng thành công hệ thống chatbot trả lời tự động các câu hỏi pháp lý về bất động sản dựa trên mô-đun LSI với bộ dữ liệu lớn gồm hơn 300.000 câu hỏi và hàng triệu bản án.
- Phát triển và so sánh ba mô hình LSI: SVM với TF-IDF, LegarBERT và LegarHKB, trong đó LegarBERT và LegarHKB cho hiệu quả vượt trội.
- Giới thiệu chỉ số KU mới giúp đánh giá hiệu quả mô hình phù hợp với người dùng thương mại.
- Đề xuất các giải pháp mở rộng dữ liệu, áp dụng học chuyển giao và tích hợp hệ thống vào thực tế nhằm nâng cao khả năng ứng dụng.
- Khuyến khích các nhóm luật sư, cơ quan quản lý, doanh nghiệp và nhà nghiên cứu AI tham khảo và phát triển tiếp tục hệ thống.
**Hành động tiếp theo:** Triển khai thử nghiệm hệ thống trong môi trường thực tế, mở rộng dữ liệu và lĩnh vực áp dụng, đồng thời phát triển các công cụ hỗ trợ người dùng để nâng cao trải nghiệm và hiệu quả sử dụng.