Hệ Thống Chatbot Hỏi Đáp Pháp Luật Bất Động Sản Tại Việt Nam

Tài liệu nghiên cứu Qa system for real estate law in vietnam, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về luật học.

Trường đại học

Ho Chi Minh City University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Master’s Thesis

2023

122

Phí lưu trữ

35 Point

Mục lục chi tiết

Acknowledgment

Abstract

TÓM TẮT LUẬN VĂN THẠC SĨ

Declaration of Authenticity

1. CHƯƠNG 1: INTRODUCTION

1.1. Motivation

1.2. Ojectives and Scope

1.3. Contributions of the Thesis

1.4. Organization of the Thesis

2. CHƯƠNG 2: LEGAL DOCUMENT STRUCTURE AND DATA

2.1. VN-LandLaw-2013 Corpus

2.2. Formal Structure of a Legal Document

2.3. Legal Data Sourcing

2.4. Legal Entity Extration

2.5. Legal Relation Extraction

2.6. The TF-IDF Matrix of Vietnam Land Law

2.7. Legal Data Summary Statistics

2.7.1. Legal Data Classification

2.7.2. Basic Legal Data Statistics

2.7.3. Unbalanced Legal Data

2.8. Vietnam Land Law Article Semantic Relations Matrix

2.9. Vietnam Land Law Article Co-occurrence Matrix in LSI Dataset

3. CHƯƠNG 3: QAS RESEARCH IN NLP

3.1. Law-related Global QAS Research

3.2. Vietnamese Law-related QAS Research

4. CHƯƠNG 4: BACKGROUND

4.1. Term Fequency-Inverse Document Frequency (TF-IDF)

4.2. Support Vector Machine (SVM)

4.3. Legal Domain Background

5. CHƯƠNG 5: THE PROPOSED SYSTEM

5.1. Overall System Architecture

5.2. The Main User Cases

5.3. The Evaluation/Acceptance Criteria

5.3.1. Chatbot System Acceptance Criteria

5.3.2. LSI Model Metrics

6. CHƯƠNG 6: LSI BY LINEAR SUPPORT VECTOR CLASSIFICATION WITH TF-IDF EMBEDDING

6.1. Results and Conclusions

7. CHƯƠNG 7: LSI BY MULTI LABEL CLASSIFICATION WITH LEGARBERT

7.1. LegarBert Training from PhoBert

7.2. Legal-Masked Strategy

7.3. Legar Answering Engine

7.4. Results and Conclusions

8. CHƯƠNG 8: LEGARHKB: A LSI RETRIEVAL MODEL USING HETEROGENEOUS KNOWLEDGE GRAPH FOR THE VIETNAMESE LAW DOMAIN

8.1. Results and Conclusions

List of Deliverables

List of Publications

References

Tóm tắt

I. Tổng Quan Về Hệ Thống Chatbot Pháp Luật Bất Động Sản VN

Trong bối cảnh hệ thống pháp luật ngày càng phức tạp, việc tiếp cận thông tin pháp lý về bất động sản trở nên khó khăn. Hệ thống chatbot pháp luật bất động sản ra đời như một giải pháp đột phá, ứng dụng trí tuệ nhân tạo (AI) để cung cấp thông tin nhanh chóng, chính xác và dễ dàng. Các dịch vụ pháp lý thông minh nhờ AI chưa được phát triển mạnh ở Việt Nam do thiếu nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt. Luận văn này đề xuất xây dựng chatbot có khả năng trả lời hiệu quả các câu hỏi pháp lý liên quan đến bất động sản. Chức năng quan trọng nhất là Hệ thống Xác định Căn cứ Pháp lý (LSI). Mục tiêu là cung cấp một công cụ hiệu quả, giúp người dân và doanh nghiệp dễ dàng tra cứu, tìm hiểu và áp dụng các quy định pháp luật về bất động sản trong thực tiễn.

1.1. Lợi Ích Của Chatbot Tư Vấn Pháp Luật Nhà Đất Tự Động

Chatbot cung cấp khả năng tư vấn luật bất động sản online 24/7, giúp tiết kiệm thời gian và chi phí so với tư vấn truyền thống. Người dùng có thể dễ dàng đặt câu hỏi và nhận được câu trả lời ngay lập tức, không cần phải chờ đợi hay đến văn phòng luật sư. Hệ thống chatbot giúp giảm tải công việc cho các luật sư và chuyên gia pháp lý, cho phép họ tập trung vào những vụ việc phức tạp hơn. Ứng dụng này còn giúp nâng cao nhận thức pháp luật của người dân, từ đó giảm thiểu các tranh chấp và rủi ro pháp lý liên quan đến giao dịch bất động sản.

1.2. Các Thành Phần Chính Của Hệ Thống Chatbot Pháp Luật BĐS

Hệ thống bao gồm các thành phần chính: Mô-đun xử lý ngôn ngữ tự nhiên (NLP) để hiểu câu hỏi của người dùng; cơ sở dữ liệu chứa các quy định pháp luật về bất động sản; mô-đun LSI để xác định các điều luật liên quan; mô-đun trả lời để tạo ra câu trả lời phù hợp. Luận văn xây dựng tập dữ liệu LSI gồm hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao. Các mô hình AI được sử dụng bao gồm máy học (ML), học sâu (Deep Learning) và học máy đồ thị. Tất cả đều nhằm mục đích cung cấp thông tin chính xác và dễ hiểu cho người dùng.

II. Vấn Đề Thách Thức Tư Vấn Pháp Lý Bất Động Sản Tại VN

Việc tiếp cận thông tin pháp lý bất động sản Việt Nam còn nhiều hạn chế, đặc biệt đối với người dân không có kiến thức chuyên môn. Các văn bản pháp luật thường phức tạp, khó hiểu và rải rác ở nhiều nguồn khác nhau. Tìm kiếm và trích xuất thông tin từ các văn bản pháp luật là một thách thức lớn. Các phương pháp truyền thống như tra cứu sách luật, tìm kiếm trên internet tốn nhiều thời gian và công sức. Nhiều người dân gặp khó khăn trong việc tự bảo vệ quyền sở hữu bất động sản của mình do thiếu thông tin và kiến thức pháp lý. Điều này dẫn đến các tranh chấp bất động sản kéo dài và tốn kém.

2.1. Sự Phức Tạp Của Pháp Luật Bất Động Sản Việt Nam Hiện Nay

Pháp luật bất động sản Việt Nam bao gồm nhiều luật, nghị định, thông tư và các văn bản hướng dẫn khác, tạo nên một hệ thống phức tạp và đồ sộ. Các quy định thường xuyên thay đổi và cập nhật, đòi hỏi người dùng phải liên tục theo dõi và nắm bắt thông tin mới. Sự chồng chéo và mâu thuẫn giữa các văn bản pháp luật cũng gây khó khăn cho việc áp dụng và giải thích. Điều này tạo ra rào cản lớn đối với người dân và doanh nghiệp trong việc tuân thủ và thực thi quy định pháp luật về bất động sản.

2.2. Khó Khăn Trong Tiếp Cận Thông Tin Pháp Lý Bất Động Sản

Nguồn thông tin pháp lý bất động sản thường phân tán trên nhiều trang web, cơ quan nhà nước và tổ chức khác nhau. Việc tìm kiếm và tổng hợp thông tin từ các nguồn này đòi hỏi nhiều thời gian và công sức. Ngôn ngữ pháp lý thường khô khan, khó hiểu và chứa nhiều thuật ngữ chuyên môn, gây khó khăn cho người không có kiến thức chuyên môn. Do đó, nhiều người dân không thể tự mình tìm hiểu và áp dụng các quy định pháp luật để bảo vệ quyền lợi của mình trong các giao dịch bất động sản.

III. Phương Pháp Xây Dựng Hệ Thống Chatbot Hỏi Đáp Luật BĐS

Việc xây dựng hệ thống chatbot hiệu quả đòi hỏi sự kết hợp của nhiều kỹ thuật AI và NLP tiên tiến. Đầu tiên, cần xây dựng một cơ sở dữ liệu lớn chứa các quy định pháp luật về bất động sản, các bản án và các tài liệu pháp lý liên quan. Tiếp theo, sử dụng các kỹ thuật NLP để phân tích và hiểu ngôn ngữ tự nhiên, cho phép chatbot hiểu được ý định của người dùng. Áp dụng các mô hình học máy để giải đáp thắc mắc pháp luật bất động sản tự động và cung cấp thông tin chính xác và phù hợp. Cuối cùng, thiết kế giao diện người dùng thân thiện và dễ sử dụng, giúp người dùng dễ dàng tương tác với chatbot.

3.1. Ứng Dụng NLP Để Hiểu Câu Hỏi Pháp Lý Bất Động Sản

Các kỹ thuật NLP như phân tích cú pháp, phân tích ngữ nghĩa và nhận dạng thực thể được sử dụng để hiểu cấu trúc và ý nghĩa của câu hỏi pháp lý. Chatbot cần có khả năng nhận diện các thực thể quan trọng như loại hình bất động sản, quyền sở hữu, giao dịch, và các thuật ngữ pháp lý liên quan. Các mô hình ngôn ngữ lớn (LLM) như PhoBERT và LegarBERT được sử dụng để xây dựng biểu diễn ngữ nghĩa của câu hỏi, cho phép chatbot hiểu được ý định của người dùng ngay cả khi câu hỏi được diễn đạt theo nhiều cách khác nhau.

3.2. Xây Dựng Mô Hình LSI Cho Chatbot Pháp Luật Bất Động Sản

Mô hình LSI là thành phần quan trọng nhất của chatbot, có nhiệm vụ xác định các điều luật và văn bản pháp lý liên quan đến câu hỏi của người dùng. Các mô hình học máy như SVM, Deep Learning và Graph Machine Learning được sử dụng để xây dựng mô hình LSI. Mô hình cần được huấn luyện trên một tập dữ liệu lớn các câu hỏi pháp lý và các văn bản pháp luật liên quan. Luận văn này trình bày ba mô hình LSI khác nhau, mỗi mô hình sử dụng một kỹ thuật AI khác nhau.

IV. Các Mô Hình AI Cho Hệ Thống Chatbot Tư Vấn Luật BĐS VN

Luận văn này trình bày ba mô hình AI khác nhau để xây dựng hệ thống chatbot pháp luật bất động sản. Mô hình đầu tiên sử dụng máy học (ML) với thuật toán Support Vector Machine (SVM) và biểu diễn văn bản bằng TF-IDF Embedding. Mô hình thứ hai sử dụng học sâu (Deep Learning) với mô hình LegarBERT để xây dựng biểu diễn văn bản. Mô hình thứ ba sử dụng học máy đồ thị (Graph Machine Learning) để mã hóa lý luận pháp lý thành các nút và cạnh trong đồ thị tri thức. Mỗi mô hình có ưu và nhược điểm riêng, phù hợp với các yêu cầu khác nhau của hệ thống.

4.1. LSI Bằng SVM Với TF IDF Embedding Ưu Nhược Điểm

Mô hình SVM với TF-IDF Embedding là một phương pháp đơn giản và hiệu quả để xây dựng mô hình LSI. Ưu điểm của mô hình này là dễ triển khai và có hiệu suất tốt trên các tập dữ liệu nhỏ. Tuy nhiên, mô hình này có nhược điểm là không thể nắm bắt được ngữ cảnh và quan hệ ngữ nghĩa giữa các từ trong câu hỏi. Do đó, hiệu suất của mô hình có thể bị hạn chế trên các câu hỏi phức tạp.

4.2. LSI Bằng Multi Label Classification Với LegarBERT Cải Tiến

Mô hình LegarBERT là một mô hình ngôn ngữ được huấn luyện trước trên một tập dữ liệu lớn các văn bản pháp luật Việt Nam. Mô hình này có khả năng nắm bắt được ngữ cảnh và quan hệ ngữ nghĩa giữa các từ trong câu hỏi, giúp cải thiện hiệu suất của mô hình LSI. Mô hình LegarBERT có thể được sử dụng để xây dựng một mô hình Multi Label Classification, cho phép chatbot trả lời nhiều câu hỏi pháp lý liên quan đến một câu hỏi đầu vào.

4.3. LSI Bằng Knowledge Graph Cách Tiếp Cận Mới Trong Pháp Luật

Mô hình Knowledge Graph mã hóa lý luận pháp lý thành các nút và cạnh trong đồ thị tri thức. Mô hình này cho phép chatbot suy luận và tìm kiếm thông tin một cách hiệu quả. Mô hình Knowledge Graph có thể được sử dụng để xây dựng một hệ thống hỗ trợ pháp lý thông minh, giúp người dùng tìm kiếm thông tin pháp lý một cách dễ dàng và nhanh chóng.

V. Ứng Dụng Kết Quả Hệ Thống Chatbot Pháp Luật BĐS VN

Hệ thống chatbot pháp luật bất động sản có thể được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau. Nó có thể được sử dụng để cung cấp thông tin pháp lý cho người dân và doanh nghiệp, giúp họ hiểu rõ hơn về quyền và nghĩa vụ của mình trong các giao dịch bất động sản. Chatbot cũng có thể được sử dụng để hỗ trợ các luật sư và chuyên gia pháp lý trong việc nghiên cứu và tư vấn pháp luật. Kết quả thử nghiệm cho thấy hệ thống chatbot có khả năng trả lời chính xác và nhanh chóng các câu hỏi pháp lý liên quan đến bất động sản.

5.1. Ứng Dụng Chatbot Hỗ Trợ Pháp Lý Trong Giao Dịch Bất Động Sản

Trong các giao dịch bất động sản, chatbot có thể giúp người mua và người bán hiểu rõ các quy định pháp luật, kiểm tra tính hợp lệ của các giấy tờ và hợp đồng, và giải quyết các tranh chấp phát sinh. Chatbot cũng có thể cung cấp thông tin về thuế bất động sản và các chi phí liên quan đến giao dịch.

5.2. Chatbot Tư Vấn Pháp Luật Cho Người Dân Doanh Nghiệp

Chatbot cung cấp thông tin về quyền sở hữu, quyền sử dụng đất, và các quy định về xây dựng và quy hoạch. Chatbot cũng có thể giúp doanh nghiệp tuân thủ các quy định pháp luật liên quan đến bất động sản và giảm thiểu rủi ro pháp lý.

VI. Kết Luận Triển Vọng Hệ Thống Chatbot Pháp Luật Bất Động Sản

Hệ thống chatbot pháp luật bất động sản là một giải pháp tiềm năng để cải thiện khả năng tiếp cận thông tin pháp lý và nâng cao nhận thức pháp luật của người dân. Việc phát triển và hoàn thiện hệ thống chatbot này sẽ góp phần xây dựng một xã hội pháp quyền và thúc đẩy sự phát triển bền vững của thị trường bất động sản Việt Nam. Các hướng nghiên cứu tiếp theo bao gồm cải thiện độ chính xác của mô hình LSI, mở rộng cơ sở dữ liệu và phát triển các tính năng mới như tư vấn pháp luật trực tuyến và hỗ trợ soạn thảo văn bản pháp lý.

6.1. Hướng Phát Triển Chatbot Tư Vấn Luật Đất Đai Trong Tương Lai

Trong tương lai, hệ thống chatbot có thể được tích hợp với các công nghệ khác như blockchain và smart contract để tạo ra một nền tảng giao dịch bất động sản an toàn và minh bạch. Chatbot cũng có thể được cá nhân hóa để đáp ứng nhu cầu của từng người dùng, cung cấp thông tin và tư vấn pháp luật phù hợp với tình huống cụ thể của họ.

6.2. Tác Động Của AI Đến Ngành Luật Bất Động Sản Tại Việt Nam

Việc ứng dụng AI trong ngành luật bất động sản sẽ mang lại nhiều lợi ích, bao gồm tăng cường hiệu quả hoạt động, giảm chi phí, nâng cao chất lượng dịch vụ và cải thiện khả năng tiếp cận thông tin pháp lý. Tuy nhiên, cần có các quy định và chính sách phù hợp để đảm bảo rằng AI được sử dụng một cách có trách nhiệm và không gây ra các tác động tiêu cực đến xã hội.

24/05/2025

Bạn đang xem trước tài liệu:

Qa system for real estate law in vietnam

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh hệ thống pháp luật ngày càng phức tạp và khối lượng văn bản pháp lý tăng nhanh, việc truy xuất và áp dụng các quy định pháp luật trở nên khó khăn và tốn thời gian. Tại Việt Nam, lĩnh vực trí tuệ nhân tạo (AI) trong pháp luật còn khá mới mẻ, đặc biệt là các hệ thống xử lý ngôn ngữ tự nhiên (NLP) cho tiếng Việt chưa được phát triển đầy đủ. Luận văn thạc sĩ này tập trung nghiên cứu và phát triển hệ thống hỏi đáp tự động về luật bất động sản Việt Nam, nhằm hỗ trợ người dùng tra cứu và giải đáp các thắc mắc pháp lý một cách nhanh chóng và chính xác.

Mục tiêu chính của nghiên cứu là xây dựng một chatbot có khả năng trả lời tự động các câu hỏi pháp lý liên quan đến bất động sản, dựa trên mô-đun Xác định Căn cứ Pháp lý (Legal Statutes Identification - LSI). Bộ dữ liệu LSI được xây dựng với hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam, tập trung vào Luật Đất đai 2013. Nghiên cứu triển khai ba mô hình chính: mô hình máy học sử dụng Support Vector Machine (SVM) với nhúng từ TF-IDF, mô hình học sâu dựa trên LegarBERT - một biến thể BERT được huấn luyện chuyên biệt cho lĩnh vực luật Việt Nam, và mô hình học máy đồ thị sử dụng đồ thị tri thức dị thể (Heterogeneous Knowledge Graph).

Phạm vi nghiên cứu tập trung vào dữ liệu pháp lý Việt Nam trong giai đoạn từ năm 2013 đến 2023, với trọng tâm là luật đất đai và các văn bản liên quan. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả truy xuất thông tin pháp lý, giảm thiểu sai sót trong việc áp dụng luật, đồng thời mở rộng khả năng tiếp cận pháp luật cho cả chuyên gia và người dân thông qua công nghệ AI.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Xử lý ngôn ngữ tự nhiên (NLP)**: Áp dụng các kỹ thuật nhúng từ như TF-IDF và mô hình ngôn ngữ BERT để biểu diễn câu hỏi pháp lý dưới dạng vector số, giúp máy tính hiểu và xử lý ngôn ngữ tự nhiên tiếng Việt.
- **Học máy (Machine Learning)**: Sử dụng Support Vector Machine (SVM) cho bài toán phân loại đa nhãn, xác định các điều khoản pháp luật phù hợp với câu hỏi.
- **Học sâu (Deep Learning)**: Phát triển mô hình LegarBERT, một biến thể BERT được huấn luyện trên dữ liệu pháp luật tiếng Việt, nhằm nâng cao khả năng nhận diện ngữ cảnh và mối quan hệ phức tạp trong văn bản pháp lý.
- **Học máy đồ thị (Graph Machine Learning)**: Xây dựng đồ thị tri thức dị thể (LegarHKB) mô tả các thực thể pháp lý (điều luật, thuật ngữ, chủ thể) và mối quan hệ giữa chúng, hỗ trợ truy xuất và suy luận pháp lý hiệu quả.
- **Khái niệm chính**: Legal Statutes Identification (LSI), Knowledge Graph, Multi-label Classification, Masked Language Modeling (MLM), TF-IDF Embedding.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Thu thập dữ liệu từ Luật Đất đai 2013, các diễn đàn hỏi đáp pháp lý, và hơn 1 triệu bản án của Tòa án Nhân dân Tối cao Việt Nam. Bộ dữ liệu LSI gồm khoảng 300.000 câu hỏi pháp lý được gán nhãn bởi đội ngũ chuyên gia pháp luật.
- **Phương pháp phân tích**: 
  - Tiền xử lý dữ liệu bao gồm tách từ, loại bỏ từ dừng, và chuẩn hóa văn bản.
  - Xây dựng ma trận TF-IDF cho các điều khoản luật.
  - Huấn luyện mô hình SVM với nhúng TF-IDF để phân loại điều khoản pháp luật.
  - Huấn luyện LegarBERT bằng kỹ thuật Masked Language Modeling trên dữ liệu pháp luật tiếng Việt.
  - Xây dựng đồ thị tri thức dị thể và áp dụng Graph Convolutional Network (GCN) và Graph Attention Network (GAT) để khai thác mối quan hệ pháp lý.
- **Timeline nghiên cứu**: 
  - Thu thập và gán nhãn dữ liệu trong 3 tháng với sự tham gia của 50 sinh viên luật.
  - Huấn luyện và đánh giá các mô hình trong 6 tháng.
  - Tích hợp và thử nghiệm hệ thống chatbot trong 3 tháng cuối.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình SVM với nhúng TF-IDF đạt độ chính xác F1 khoảng 75%, cho thấy hiệu quả trong việc phân loại các điều khoản pháp luật dựa trên câu hỏi.
- LegarBERT cải thiện đáng kể hiệu suất với F1 tăng lên khoảng 85%, nhờ khả năng hiểu ngữ cảnh và mối quan hệ phức tạp trong văn bản pháp lý.
- Mô hình học máy đồ thị LegarHKB đạt hiệu quả cao nhất với F1 khoảng 88%, nhờ khai thác được cấu trúc tri thức và mối liên hệ giữa các điều khoản, thuật ngữ pháp lý.
- Phân tích ma trận đồng xuất hiện và ma trận tương quan ngữ nghĩa của các điều khoản luật cho thấy các điều khoản trong cùng chương thường có mối quan hệ chặt chẽ, hỗ trợ cho việc xây dựng đồ thị tri thức.
- Hiện tượng dữ liệu không cân bằng được phát hiện rõ, với một số điều khoản có rất nhiều câu hỏi, trong khi nhiều điều khoản khác thiếu dữ liệu, ảnh hưởng đến hiệu quả huấn luyện mô hình.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất khi sử dụng LegarBERT và LegarHKB là do khả năng biểu diễn ngữ nghĩa sâu sắc và khai thác mối quan hệ phức tạp trong dữ liệu pháp luật. So với các nghiên cứu trước đây chỉ sử dụng các phương pháp máy học truyền thống hoặc mô hình ngôn ngữ tổng quát, việc phát triển mô hình chuyên biệt cho lĩnh vực luật Việt Nam giúp tăng độ chính xác và tính ứng dụng thực tiễn. Kết quả cũng cho thấy việc xây dựng đồ thị tri thức dị thể là hướng đi tiềm năng trong tự động hóa xử lý văn bản pháp luật, hỗ trợ các ứng dụng như chatbot pháp lý, dự đoán phán quyết, và tìm kiếm thông tin pháp lý. Tuy nhiên, vấn đề dữ liệu không cân bằng cần được giải quyết bằng cách bổ sung dữ liệu hoặc áp dụng các kỹ thuật học máy nâng cao như học chuyển giao hoặc học meta.

## Đề xuất và khuyến nghị

- **Mở rộng và làm giàu dữ liệu**: Tổ chức các nhóm chuyên gia pháp luật để tạo thêm dữ liệu hỏi đáp cho các điều khoản ít được quan tâm, nhằm cân bằng dữ liệu và nâng cao hiệu quả mô hình.
- **Áp dụng học chuyển giao và học meta**: Sử dụng các kỹ thuật học máy tiên tiến để cải thiện khả năng học từ dữ liệu ít, giúp mô hình thích nghi nhanh với các điều khoản mới hoặc thay đổi pháp luật.
- **Phát triển hệ thống chatbot đa ngôn ngữ và đa lĩnh vực**: Mở rộng phạm vi ứng dụng chatbot sang các lĩnh vực pháp luật khác và hỗ trợ đa ngôn ngữ để phục vụ đa dạng người dùng.
- **Tích hợp hệ thống vào nền tảng pháp lý hiện có**: Kết nối chatbot với các hệ thống quản lý hợp đồng, tư vấn pháp lý trực tuyến để tạo thành hệ sinh thái pháp lý thông minh.
- **Đào tạo và nâng cao nhận thức người dùng**: Tổ chức các khóa đào tạo, hội thảo để phổ biến và hướng dẫn sử dụng hệ thống, giúp người dân và chuyên gia pháp lý khai thác hiệu quả công nghệ mới.

## Đối tượng nên tham khảo luận văn

- **Chuyên gia pháp lý và luật sư**: Hỗ trợ tra cứu nhanh các điều khoản pháp luật, giảm thiểu sai sót trong tư vấn và soạn thảo hồ sơ.
- **Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, luật**: Cung cấp tài liệu tham khảo về ứng dụng AI trong xử lý ngôn ngữ tự nhiên và pháp luật.
- **Doanh nghiệp bất động sản và các tổ chức liên quan**: Tăng cường hiểu biết pháp lý, hỗ trợ giải quyết các vấn đề pháp lý trong giao dịch bất động sản.
- **Cơ quan quản lý nhà nước**: Ứng dụng công nghệ để nâng cao hiệu quả quản lý, xử lý hồ sơ và cung cấp dịch vụ công trực tuyến.

## Câu hỏi thường gặp

1. **Hệ thống hỏi đáp pháp lý này có thể áp dụng cho các lĩnh vực luật khác không?**  
   Có thể, với việc mở rộng dữ liệu và huấn luyện lại mô hình, hệ thống có thể được tùy chỉnh cho các lĩnh vực luật khác như lao động, hình sự, thương mại.

2. **Mô hình LegarBERT khác gì so với BERT thông thường?**  
   LegarBERT được huấn luyện chuyên biệt trên dữ liệu pháp luật tiếng Việt, giúp hiểu sâu sắc ngữ cảnh và thuật ngữ pháp lý đặc thù, nâng cao độ chính xác so với BERT tổng quát.

3. **Làm thế nào để xử lý vấn đề dữ liệu không cân bằng trong nghiên cứu?**  
   Có thể bổ sung dữ liệu cho các điều khoản ít xuất hiện hoặc áp dụng kỹ thuật học máy như học chuyển giao, học meta để cải thiện khả năng học từ dữ liệu ít.

4. **Hệ thống có thể trả lời các câu hỏi phức tạp, nhiều điều khoản cùng lúc không?**  
   Có, hệ thống sử dụng phân loại đa nhãn để xác định nhiều điều khoản pháp luật liên quan đến một câu hỏi, giúp trả lời chính xác hơn.

5. **Người dùng không có kiến thức pháp luật có thể sử dụng hệ thống này hiệu quả không?**  
   Hệ thống được thiết kế thân thiện, cung cấp câu trả lời dễ hiểu và có thể tích hợp thêm các chức năng hỗ trợ như tóm tắt, giải thích thuật ngữ để người dùng phổ thông dễ dàng tiếp cận.

## Kết luận

- Đã xây dựng thành công hệ thống hỏi đáp tự động về luật bất động sản Việt Nam với bộ dữ liệu hơn 300.000 câu hỏi và hàng triệu bản án.
- Phát triển ba mô hình LSI gồm máy học truyền thống, học sâu với LegarBERT và học máy đồ thị với LegarHKB, trong đó mô hình đồ thị cho hiệu quả cao nhất.
- Giải quyết được các thách thức về xử lý ngôn ngữ tự nhiên tiếng Việt trong lĩnh vực pháp luật, đặc biệt là vấn đề dữ liệu không cân bằng.
- Đề xuất các giải pháp mở rộng dữ liệu, áp dụng kỹ thuật học máy tiên tiến và tích hợp hệ thống vào thực tiễn.
- Hướng tới phát triển hệ thống pháp lý thông minh, nâng cao khả năng tiếp cận và áp dụng pháp luật cho người dân và chuyên gia.

**Hành động tiếp theo**: Triển khai thử nghiệm thực tế hệ thống chatbot, mở rộng phạm vi dữ liệu và lĩnh vực pháp luật, đồng thời phát triển giao diện người dùng thân thiện hơn để tăng cường ứng dụng trong cộng đồng.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY PHẠM THANH HỮU QA SYSTEM FOR REAL ESTATE LAW IN VIETNAM Major : Computer Science Major code : 8480101 MASTER’S THESIS HO CHI MINH CITY, July 2023 THIS RESEARCH IS COMPLETED AT HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY – VNU – HCM Supervisor 1: ASSOC. QUAN THANH THO, PhD. NGUYEN TIEN THINH, PhD. TRAN TUAN ANH, PhD.

BUI THANH HUNG, PhD. Master’s thesis is defended at HCM City University of Technology, VNU- HCM City on 13/07/2023 Master’s Thesis Committee: 1. VO THI NGOC CHAU 2. PHAN TRONG NHAN 3.

TRAN TUAN ANH 4. BUI THANH HUNG 5. BUI CONG GIAO Approval of the Chairman of Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis is corrected (If any). CHAIRMAN OF THESIS COMMITTEE DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING VIETNAM NATIONAL SOCIALIST REPUBLIC OF VIETNAM UNIVERSITY HO CHI MINH CITY Independence – Freedom - Happiness HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY THE TASK SHEET OF MASTER’S THESIS Full name: PHAM THANH HUU Student code: 2171066 Date of birth: 03.1978 Place of birth: QuangNgai Major: Computer Science Major code : 8480101 I.

THESIS TITLE (In Vietnamese): HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG LUẬT BẤT ĐỘNG SẢN VIỆT NAM. THESIS TITLE (In English) : QA SYSTEM FOR REAL ESTATE LAW IN VIETNAM. TASKS AND CONTENTS: Developing a chatbot capable of responding to legal real estate queries. THESIS START DATE : 22.

THESIS COMPLETION DATE: 09. QUAN THANH THO, PhD and DR. NGUYEN TIEN THINH, PhD. INSTRUCTOR INSTRUCTOR HCM City, 09/06/2023 CHAIRMAN OF DEAN OF PROGRAM COMMITTEE COMPUTER SCIENCE AND ENGINEERING i Acknowledgment I would like to express my deepest gratitude to my advisors - Assoc.

Quan Thanh Tho, for his valuable and constructive suggestions during the planning and development of this research work. His willingness to give his time so generously has been very much appreciated. Moreover, his advice on algorithms and his recommendations on solutions when I had to deal with problems during doing this research. Finally, I wish to thank IVS JSC for funding this study.

ii Abstract Intelligent legal services have emerged in recent years due to the application of AI technology to the law industry; however, these have yet to be developed in Vietnam since there is a lack of research into automatic processing in the Vietnamese language. In this thesis, the author proposes to build a chatbot that can effectively and automatically answer legal questions, especially those related to real estate. The most important module of the chatbot is the Legal Statutes Identification (LSI), which identifies the legal statutes relevant to a given description of facts or evidence of a legal document (such as a legal question or a description of a legal fact). To deploy the LSI model, the author has built an LSI dataset including more than 300,000 legal questions and millions of judgments of the Supreme People’s Court of Vietnam.

Three models are presented in this thesis. The first is an ML-based model in which the LSI is performed by the Support Vector Machine after the input questions have been word-embedded with TF-IDF Embedding. The second model, based on deep learning, will implement LSI downstream tasks after using a new model called LegarBERT to construct word embedding for the input question. Finally, the author attempts to build LSI using graph machine learning by encoding legal reasoning as nodes and edges, representing by queries, a legal articles, and legal key word (legal terminology).

TÓM TẮT LUẬN VĂN THẠC SĨ Các dịch vụ pháp lý thông minh đã xuất hiện trong những năm gần đây nhờ sự áp dụng của công nghệ Trí tuệ Nhân tạo vào ngành luật; tuy nhiên, tại Việt Nam, chúng vẫn chưa được phát triển do thiếu nghiên cứu về xử lý tự động trong tiếng Việt. Trong luận văn này, tác giả đề xuất xây dựng một chatbot có khả năng trả lời tự động và hiệu quả các câu hỏi pháp lý, đặc biệt là các câu hỏi liên quan đến bất động sản. Mô-đun quan trọng nhất của chatbot là Hệ thống Xác định Căn cứ Pháp lý (Legal Statutes Identification - LSI), được sử dụng để xác định các căn cứ pháp lý liên quan đến một mô tả cụ thể về sự kiện hoặc bằng chứng từ một văn bản pháp lý (như một câu hỏi pháp lý hoặc một mô tả về sự kiện pháp lý). Để triển khai mô hình LSI, tác giả đã xây dựng một tập dữ liệu LSI gồm hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam.

Luận văn này trình bày ba mô hình. Mô hình đầu tiên dựa trên máy học (ML), trong đó LSI được thực hiện bằng Máy Vector Hỗ trợ sau khi câu hỏi đầu vào được biểu diễn bằng phương pháp Nhúng TF-IDF. Mô hình thứ hai, dựa trên học sâu, sẽ thực hiện các tác vụ LSI sau khi sử dụng một mô hình mới được gọi là LegarBERT để xây dựng việc nhúng từ cho câu hỏi đầu vào. Cuối cùng, tác giả cố gắng xây dựng LSI bằng cách sử dụng học máy đồ thị bằng cách mã hóa lý luận pháp lý thành các nút và cạnh, biểu thị bằng các truy vấn, các điều khoản pháp lý và thuật ngữ pháp lý.

Keywords: LSI, Law Graph, Intelligence Law Service, Vietnamese Law Questions and Answers, Vietnamese Embedded Word, Law Prediction. iii Declaration of Authenticity I guarantee this research is my own, conducted under the supervision of Assoc. Quan Thanh Tho. The contents and results of this research are legitimate and have not been published in any forms prior to this.

The data and materials used for the analysis and feedback are derived from various resources and which are appropriately listed in the References section. The data and results of several other authors and organizations have been used and have been aptly cited. If there is any plagiarism, I stand by our actions and are to be held responsible for it. Ho Chi Minh City University of Technology is not responsible for any copyright infringement relating to this dis- sertation.

Ho Chi Minh City, June 2023 Author Pham Thanh Huu iv Contents 1 Introduction 1 1.2 Ojectives and Scope .3 Contributions of the Thesis .4 Organization of the Thesis. 5 2 Legal Document Structure and Data 7 2.1 VN-LandLaw-2013 Corpus .2 Formal Structure of a Legal Document .3 Legal Data Sourcing .2 Legal Entity Extration .3 Legal Relation Extraction .4 The TF-IDF Matrix of Vietnam Land Law .5 Legal Data Summary Statistics .1 Legal Data Classification .2 Basic Legal Data Statistics .3 Unbalanced Legal Data .4 Vietnam Land Law Article Semantic Relations Matrix .5 Vietnam Land Law Article Co-occurrence Matrix in LSI Dataset .1 QAS Research in NLP .2 Law-related Global QAS Research .3 Vietnamese Law-related QAS Research. 37 CONTENTS CONTENTS 4 Background 40 4.1 Term Fequency-Inverse Document Frequency (TF-IDF) .2 Support Vector Machine (SVM) .7 Masked Language Modeling (MLM) .8 Fine-tune a Pretrained Model .9 Graph Convolution Neural Network (GCN) and Graph Attention Netowrk(GAT) 46 4.3 Legal Domain Background. 47 5 The Proposed System 51 5.2 Overall System Architecture .3 The Main User Cases .5 The Evaluation/Acceptance Criteria .1 Chatbot System Acceptance Criteria .2 LSI Model Metrics.

62 6 LSI by Linear Support Vector Classification with TF-IDF Embedding 63 6.5 Results and Conclusions. 65 7 LSI by Multi Label Classification with LegarBert 67 7.3 Legar Answering Engine. 69 vi CONTENTS CONTENTS 7.1 LegarBert Training from PhoBert .6 Legal-Masked Strategy .7 Results and Conclusions. 75 8 LegarHKB: A LSI Retrieval Model using Heterogeneous Knowledge Graph for the Viet- namese Law Domain 76 8.5 Results and Conclusions.

85 10 List of Deliverables 87 List of Publications 88 References 103 vii List of Figures 1.1 LSI ChatBot’s response .1 Data collection procedure .2 Data labeling application screenshot - Login Page .3 Data labeling application screenshot - Home Page .4 Data labeling application screenshot - Labeling Page .5 The tree of ”Chủ thể.” Subjects of legal relations .6 The tree of ”Hành vi” or ”Quan hệ pháp lý.” Acts/ Legal relations.7 The TF-IDF Matrix of Vietnam Land Law.8 Legal data categories.9 Supervised LSI training data statistics per legal category.10 Supervised LSI training data statistics per legal category (Distribution).11 Semi-supervised LegarBert (MLM) training data statistics per legal category(From books).12 Semi-supervised LegarBert (MLM) training data statistics per legal category(From books) (Distribution).13 Semi-supervised LegarBert (MLM) training data statistics per legal category(From Supreme People’s Court).14 Semi-supervised LegarBert (MLM) training data statistics per legal category(From Supreme People’s Court) (Distribution).15 Unbalanced legal data phenomenon.16 Heatmap of 212 legal documents’ TF-IDF vectors’ cosine similarity .17 Semantic relations of articles 35-51 of chapter IV(Land use master plans and plans).18 Heatmap of Vietnam Land Law articles co-occurrence in LSI dataset.20 High concurrency, high semantic similarity.21 High concurrency, low semantic similarity.1 Timeline of automated law research .1 Architecture of attention Model .2 Architecture of auto encoder. 43 LIST OF FIGURES LIST OF FIGURES 4.3 Architecture of BiLSTM .4 Architecture of PhoBERT .5 Graph Attention Neural Network.6 IVS JSC overview.7 Vietnamese legal structure.8 Vietnam real estate law structure.2 Overall system architecture.3 The main user cases.4 Main screens of the chatbot.5 Legal quick lookup popup.6 Example of KU calculation.7 Vietnam Land Law 2013 Long-tail dataset.1 LSI by Support Vector Machine with TF-IDF Embedding model.1 The Answering Engine of the Legar System.2 LegarBert embedding model training by MLM tasks.3 LSI by Multi Label Classification with LegarBert.1 LSI by Heterogeneous Knowledge Graph.2 Data transformation process.3 Nodes and Edges Definition.5 Graph Demo with some nodes and edges.1 The directions for future work. 86 ix List of Tables 1.1 NLP techniques used in legal domain.1 S, O, R, TO, T legal question analysis.2 Entity extraction example.3 Top 100 single-word TF-IDF values from 212 Vietnamese Land Law.4 Top 200 single-word TF-IDF values from 212 Vietnamese Land Law.5 Legal Document Sentences and Words Statistics .6 Most-paired articles .1 QAS research in NLP .2 Law-related global QAS research .3 Vietnamese Law-related QAS research .2 Long-tail dataset .1 Train/Val/Test Dataset .3 LSI by Support Vector Machine with TF-IDF Embedding results .1 Hyperparameter of LegarBert training.2 Hyperparameter of LSI by LegarBert.3 Perplexity comparing with MLM task .4 LSI by Multi Label Classification with LegarBert results.5 LSI by Multi Label Classification with LegarBert K-Utility .1 Hyperparameter of LSI by Heterogeneous Knowledge Graph .2 LSI by Heterogeneous Knowledge Graph results .3 LSI by Heterogeneous Knowledge Graph K-Utility .1 Comparing 3 models by Precision/Recall/F1 .2 Comparing 2 models by KU. 85 LIST OF TABLES LIST OF TABLES 9.3 Summary the embedding capability of 3 models.

85 xi Chapter 1 Introduction 1.1 Motivation In most nations, the legal system is overburdened by a backlog of cases, particularly in low-level judiciaries. Though speedy justice acts exist, the process in the legal domain is extremely laborious. The legislation to which businesses and citizens have to abide is growing at a constant rate both in complexity and volume. The data present in legislation is mostly in an unstructured format in legal documents [2].

This makes the task of retrieving information highly inefficient and time- consuming, particularly when there are huge quantities of data involved. Further, the utility of such data differs broadly and relies on its representation and structure. In this scenario, legal professionals and users might find it highly problematic to explore the legal data while investigating a specific case or dealing with particular circumstances, even when the data is accessible [3]. These problems have resulted in the necessity of devising better methods for structuring and searching across huge amounts of legal data [4].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Hệ Thống Chatbot Hỏi Đáp Pháp Luật Bất Động Sản Tại Việt Nam" cung cấp một cái nhìn tổng quan về việc ứng dụng công nghệ chatbot trong lĩnh vực pháp luật bất động sản. Hệ thống này không chỉ giúp người dùng dễ dàng tiếp cận thông tin pháp lý mà còn nâng cao hiệu quả trong việc giải đáp các thắc mắc liên quan đến luật pháp. Một trong những lợi ích nổi bật của hệ thống là khả năng cung cấp thông tin nhanh chóng và chính xác, giúp người dùng tiết kiệm thời gian và công sức trong việc tìm kiếm thông tin.

Ngoài ra, tài liệu còn mở ra cơ hội cho người đọc khám phá thêm về các khía cạnh khác của pháp luật thông qua các tài liệu liên quan. Bạn có thể tìm hiểu thêm về Luận văn thạc sĩ luật học tống đạt văn bản tố tụng dân sự bằng phương tiện điện tử, nơi trình bày về việc sử dụng công nghệ trong tố tụng dân sự. Bên cạnh đó, tài liệu Xét xử trực tuyến vụ án hình sự trong tố tụng hình sự cũng sẽ giúp bạn hiểu rõ hơn về quy trình xét xử hiện đại tại Việt Nam. Những tài liệu này không chỉ mở rộng kiến thức của bạn mà còn giúp bạn nắm bắt được những xu hướng mới trong lĩnh vực pháp luật.

#pháp luật bất động sản

#bất động sản Việt Nam

#hệ thống hỏi đáp

#chatbot pháp luật

#công nghệ AI trong pháp luật

#tư vấn pháp lý trực tuyến

Chủ đề

Công nghệ trong pháp luật

Ứng dụng chatbot trong doanh nghiệp

Bất động sản và pháp lý

Tương lai của tư vấn pháp lý