## Tổng quan nghiên cứu

Trong bối cảnh hệ thống pháp luật ngày càng phức tạp và khối lượng văn bản pháp lý tăng nhanh, việc truy xuất và áp dụng các quy định pháp luật trở nên khó khăn và tốn thời gian. Tại Việt Nam, lĩnh vực trí tuệ nhân tạo (AI) trong pháp luật còn khá mới mẻ, đặc biệt là các hệ thống xử lý ngôn ngữ tự nhiên (NLP) cho tiếng Việt chưa được phát triển đầy đủ. Luận văn thạc sĩ này tập trung nghiên cứu và phát triển hệ thống hỏi đáp tự động về luật bất động sản Việt Nam, nhằm hỗ trợ người dùng tra cứu và giải đáp các thắc mắc pháp lý một cách nhanh chóng và chính xác.

Mục tiêu chính của nghiên cứu là xây dựng một chatbot có khả năng trả lời tự động các câu hỏi pháp lý liên quan đến bất động sản, dựa trên mô-đun Xác định Căn cứ Pháp lý (Legal Statutes Identification - LSI). Bộ dữ liệu LSI được xây dựng với hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam, tập trung vào Luật Đất đai 2013. Nghiên cứu triển khai ba mô hình chính: mô hình máy học sử dụng Support Vector Machine (SVM) với nhúng từ TF-IDF, mô hình học sâu dựa trên LegarBERT - một biến thể BERT được huấn luyện chuyên biệt cho lĩnh vực luật Việt Nam, và mô hình học máy đồ thị sử dụng đồ thị tri thức dị thể (Heterogeneous Knowledge Graph).

Phạm vi nghiên cứu tập trung vào dữ liệu pháp lý Việt Nam trong giai đoạn từ năm 2013 đến 2023, với trọng tâm là luật đất đai và các văn bản liên quan. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả truy xuất thông tin pháp lý, giảm thiểu sai sót trong việc áp dụng luật, đồng thời mở rộng khả năng tiếp cận pháp luật cho cả chuyên gia và người dân thông qua công nghệ AI.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Xử lý ngôn ngữ tự nhiên (NLP)**: Áp dụng các kỹ thuật nhúng từ như TF-IDF và mô hình ngôn ngữ BERT để biểu diễn câu hỏi pháp lý dưới dạng vector số, giúp máy tính hiểu và xử lý ngôn ngữ tự nhiên tiếng Việt.
- **Học máy (Machine Learning)**: Sử dụng Support Vector Machine (SVM) cho bài toán phân loại đa nhãn, xác định các điều khoản pháp luật phù hợp với câu hỏi.
- **Học sâu (Deep Learning)**: Phát triển mô hình LegarBERT, một biến thể BERT được huấn luyện trên dữ liệu pháp luật tiếng Việt, nhằm nâng cao khả năng nhận diện ngữ cảnh và mối quan hệ phức tạp trong văn bản pháp lý.
- **Học máy đồ thị (Graph Machine Learning)**: Xây dựng đồ thị tri thức dị thể (LegarHKB) mô tả các thực thể pháp lý (điều luật, thuật ngữ, chủ thể) và mối quan hệ giữa chúng, hỗ trợ truy xuất và suy luận pháp lý hiệu quả.
- **Khái niệm chính**: Legal Statutes Identification (LSI), Knowledge Graph, Multi-label Classification, Masked Language Modeling (MLM), TF-IDF Embedding.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Thu thập dữ liệu từ Luật Đất đai 2013, các diễn đàn hỏi đáp pháp lý, và hơn 1 triệu bản án của Tòa án Nhân dân Tối cao Việt Nam. Bộ dữ liệu LSI gồm khoảng 300.000 câu hỏi pháp lý được gán nhãn bởi đội ngũ chuyên gia pháp luật.
- **Phương pháp phân tích**: 
  - Tiền xử lý dữ liệu bao gồm tách từ, loại bỏ từ dừng, và chuẩn hóa văn bản.
  - Xây dựng ma trận TF-IDF cho các điều khoản luật.
  - Huấn luyện mô hình SVM với nhúng TF-IDF để phân loại điều khoản pháp luật.
  - Huấn luyện LegarBERT bằng kỹ thuật Masked Language Modeling trên dữ liệu pháp luật tiếng Việt.
  - Xây dựng đồ thị tri thức dị thể và áp dụng Graph Convolutional Network (GCN) và Graph Attention Network (GAT) để khai thác mối quan hệ pháp lý.
- **Timeline nghiên cứu**: 
  - Thu thập và gán nhãn dữ liệu trong 3 tháng với sự tham gia của 50 sinh viên luật.
  - Huấn luyện và đánh giá các mô hình trong 6 tháng.
  - Tích hợp và thử nghiệm hệ thống chatbot trong 3 tháng cuối.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình SVM với nhúng TF-IDF đạt độ chính xác F1 khoảng 75%, cho thấy hiệu quả trong việc phân loại các điều khoản pháp luật dựa trên câu hỏi.
- LegarBERT cải thiện đáng kể hiệu suất với F1 tăng lên khoảng 85%, nhờ khả năng hiểu ngữ cảnh và mối quan hệ phức tạp trong văn bản pháp lý.
- Mô hình học máy đồ thị LegarHKB đạt hiệu quả cao nhất với F1 khoảng 88%, nhờ khai thác được cấu trúc tri thức và mối liên hệ giữa các điều khoản, thuật ngữ pháp lý.
- Phân tích ma trận đồng xuất hiện và ma trận tương quan ngữ nghĩa của các điều khoản luật cho thấy các điều khoản trong cùng chương thường có mối quan hệ chặt chẽ, hỗ trợ cho việc xây dựng đồ thị tri thức.
- Hiện tượng dữ liệu không cân bằng được phát hiện rõ, với một số điều khoản có rất nhiều câu hỏi, trong khi nhiều điều khoản khác thiếu dữ liệu, ảnh hưởng đến hiệu quả huấn luyện mô hình.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất khi sử dụng LegarBERT và LegarHKB là do khả năng biểu diễn ngữ nghĩa sâu sắc và khai thác mối quan hệ phức tạp trong dữ liệu pháp luật. So với các nghiên cứu trước đây chỉ sử dụng các phương pháp máy học truyền thống hoặc mô hình ngôn ngữ tổng quát, việc phát triển mô hình chuyên biệt cho lĩnh vực luật Việt Nam giúp tăng độ chính xác và tính ứng dụng thực tiễn. Kết quả cũng cho thấy việc xây dựng đồ thị tri thức dị thể là hướng đi tiềm năng trong tự động hóa xử lý văn bản pháp luật, hỗ trợ các ứng dụng như chatbot pháp lý, dự đoán phán quyết, và tìm kiếm thông tin pháp lý. Tuy nhiên, vấn đề dữ liệu không cân bằng cần được giải quyết bằng cách bổ sung dữ liệu hoặc áp dụng các kỹ thuật học máy nâng cao như học chuyển giao hoặc học meta.

## Đề xuất và khuyến nghị

- **Mở rộng và làm giàu dữ liệu**: Tổ chức các nhóm chuyên gia pháp luật để tạo thêm dữ liệu hỏi đáp cho các điều khoản ít được quan tâm, nhằm cân bằng dữ liệu và nâng cao hiệu quả mô hình.
- **Áp dụng học chuyển giao và học meta**: Sử dụng các kỹ thuật học máy tiên tiến để cải thiện khả năng học từ dữ liệu ít, giúp mô hình thích nghi nhanh với các điều khoản mới hoặc thay đổi pháp luật.
- **Phát triển hệ thống chatbot đa ngôn ngữ và đa lĩnh vực**: Mở rộng phạm vi ứng dụng chatbot sang các lĩnh vực pháp luật khác và hỗ trợ đa ngôn ngữ để phục vụ đa dạng người dùng.
- **Tích hợp hệ thống vào nền tảng pháp lý hiện có**: Kết nối chatbot với các hệ thống quản lý hợp đồng, tư vấn pháp lý trực tuyến để tạo thành hệ sinh thái pháp lý thông minh.
- **Đào tạo và nâng cao nhận thức người dùng**: Tổ chức các khóa đào tạo, hội thảo để phổ biến và hướng dẫn sử dụng hệ thống, giúp người dân và chuyên gia pháp lý khai thác hiệu quả công nghệ mới.

## Đối tượng nên tham khảo luận văn

- **Chuyên gia pháp lý và luật sư**: Hỗ trợ tra cứu nhanh các điều khoản pháp luật, giảm thiểu sai sót trong tư vấn và soạn thảo hồ sơ.
- **Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, luật**: Cung cấp tài liệu tham khảo về ứng dụng AI trong xử lý ngôn ngữ tự nhiên và pháp luật.
- **Doanh nghiệp bất động sản và các tổ chức liên quan**: Tăng cường hiểu biết pháp lý, hỗ trợ giải quyết các vấn đề pháp lý trong giao dịch bất động sản.
- **Cơ quan quản lý nhà nước**: Ứng dụng công nghệ để nâng cao hiệu quả quản lý, xử lý hồ sơ và cung cấp dịch vụ công trực tuyến.

## Câu hỏi thường gặp

1. **Hệ thống hỏi đáp pháp lý này có thể áp dụng cho các lĩnh vực luật khác không?**  
   Có thể, với việc mở rộng dữ liệu và huấn luyện lại mô hình, hệ thống có thể được tùy chỉnh cho các lĩnh vực luật khác như lao động, hình sự, thương mại.

2. **Mô hình LegarBERT khác gì so với BERT thông thường?**  
   LegarBERT được huấn luyện chuyên biệt trên dữ liệu pháp luật tiếng Việt, giúp hiểu sâu sắc ngữ cảnh và thuật ngữ pháp lý đặc thù, nâng cao độ chính xác so với BERT tổng quát.

3. **Làm thế nào để xử lý vấn đề dữ liệu không cân bằng trong nghiên cứu?**  
   Có thể bổ sung dữ liệu cho các điều khoản ít xuất hiện hoặc áp dụng kỹ thuật học máy như học chuyển giao, học meta để cải thiện khả năng học từ dữ liệu ít.

4. **Hệ thống có thể trả lời các câu hỏi phức tạp, nhiều điều khoản cùng lúc không?**  
   Có, hệ thống sử dụng phân loại đa nhãn để xác định nhiều điều khoản pháp luật liên quan đến một câu hỏi, giúp trả lời chính xác hơn.

5. **Người dùng không có kiến thức pháp luật có thể sử dụng hệ thống này hiệu quả không?**  
   Hệ thống được thiết kế thân thiện, cung cấp câu trả lời dễ hiểu và có thể tích hợp thêm các chức năng hỗ trợ như tóm tắt, giải thích thuật ngữ để người dùng phổ thông dễ dàng tiếp cận.

## Kết luận

- Đã xây dựng thành công hệ thống hỏi đáp tự động về luật bất động sản Việt Nam với bộ dữ liệu hơn 300.000 câu hỏi và hàng triệu bản án.
- Phát triển ba mô hình LSI gồm máy học truyền thống, học sâu với LegarBERT và học máy đồ thị với LegarHKB, trong đó mô hình đồ thị cho hiệu quả cao nhất.
- Giải quyết được các thách thức về xử lý ngôn ngữ tự nhiên tiếng Việt trong lĩnh vực pháp luật, đặc biệt là vấn đề dữ liệu không cân bằng.
- Đề xuất các giải pháp mở rộng dữ liệu, áp dụng kỹ thuật học máy tiên tiến và tích hợp hệ thống vào thực tiễn.
- Hướng tới phát triển hệ thống pháp lý thông minh, nâng cao khả năng tiếp cận và áp dụng pháp luật cho người dân và chuyên gia.

**Hành động tiếp theo**: Triển khai thử nghiệm thực tế hệ thống chatbot, mở rộng phạm vi dữ liệu và lĩnh vực pháp luật, đồng thời phát triển giao diện người dùng thân thiện hơn để tăng cường ứng dụng trong cộng đồng.