Luận Văn Thạc Sĩ: Hệ Thống QA Trong Luật Bất Động Sản Việt Nam

Luận văn thạc sĩ luật học phân tích máy tính qa system for real estate law in vietnam, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Ho Chi Minh City University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

master’s thesis

2023

121

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: INTRODUCTION

1.1. Motivation

1.2. Ojectives and Scope

1.3. Contributions of the Thesis

1.4. Organization of the Thesis

2. LEGAL DOCUMENT STRUCTURE AND DATA

2.1. VN-LandLaw-2013 Corpus

2.2. Formal Structure of a Legal Document

2.3. Legal Data Sourcing

2.4. Legal Entity Extration

2.5. Legal Relation Extraction

2.6. The TF-IDF Matrix of Vietnam Land Law

2.7. Legal Data Summary Statistics

2.7.1. Legal Data Classification

2.7.2. Basic Legal Data Statistics

2.7.3. Unbalanced Legal Data

2.8. Vietnam Land Law Article Semantic Relations Matrix

2.9. Vietnam Land Law Article Co-occurrence Matrix in LSI Dataset

3. QAS RESEARCH IN NLP

3.1. Law-related Global QAS Research

3.2. Vietnamese Law-related QAS Research

4. BACKGROUND

4.1. Term Fequency-Inverse Document Frequency (TF-IDF)

4.2. Support Vector Machine (SVM)

4.3. Legal Domain Background

5. THE PROPOSED SYSTEM

5.1. Overall System Architecture

5.2. The Main User Cases

5.3. The Evaluation/Acceptance Criteria

5.3.1. Chatbot System Acceptance Criteria

5.3.2. LSI Model Metrics

6. LSI BY LINEAR SUPPORT VECTOR CLASSIFICATION WITH TF-IDF EMBEDDING

6.1. Results and Conclusions

7. LSI BY MULTI LABEL CLASSIFICATION WITH LEGARBERT

7.1. LegarBert Training from PhoBert

7.2. Legal-Masked Strategy

7.3. Legar Answering Engine

7.4. Results and Conclusions

8. LEGARHKB: A LSI RETRIEVAL MODEL USING HETEROGENEOUS KNOWLEDGE GRAPH FOR THE VIETNAMESE LAW DOMAIN

8.1. Results and Conclusions

10. LIST OF DELIVERABLES

11. LIST OF PUBLICATIONS

REFERENCES

Tóm tắt

I. Giới thiệu về Hệ thống QA cho Luật Bất Động Sản tại Việt Nam

Hệ thống QA cho Luật Bất Động Sản tại Việt Nam là một nghiên cứu quan trọng nhằm cải thiện khả năng truy cập thông tin pháp lý cho người dùng và các chuyên gia trong lĩnh vực bất động sản. Nghiên cứu này tập trung vào việc ứng dụng công nghệ trí tuệ nhân tạo (AI) và xử lý ngôn ngữ tự nhiên (NLP) để phát triển một chatbot có khả năng trả lời tự động các câu hỏi pháp lý liên quan đến bất động sản. Mô-đun chính của hệ thống là Hệ thống Xác định Căn cứ Pháp lý (LSI), cho phép xác định các quy định pháp lý có liên quan đến các tình huống cụ thể. Việc tự động hóa quá trình LSI không chỉ nâng cao hiệu quả công việc của các chuyên gia pháp lý mà còn giúp người dân dễ dàng tiếp cận thông tin pháp lý cần thiết.

1.1. Tầm quan trọng của việc kiểm soát chất lượng trong lĩnh vực bất động sản

Kiểm soát chất lượng trong lĩnh vực bất động sản là yếu tố then chốt để đảm bảo tính hợp pháp và tính minh bạch trong các giao dịch. Chất lượng dịch vụ bất động sản không chỉ ảnh hưởng đến sự hài lòng của khách hàng mà còn quyết định đến sự phát triển bền vững của thị trường. Các quy định pháp lý như quy định pháp lý bất động sản cần được áp dụng chặt chẽ để bảo vệ quyền lợi của người tiêu dùng và ngăn chặn các hành vi gian lận. Hệ thống QA giúp người dùng dễ dàng tra cứu và hiểu rõ các quy định này, từ đó nâng cao khả năng tự bảo vệ quyền lợi của mình trong các giao dịch bất động sản.

II. Quy trình QA trong lĩnh vực bất động sản

Quy trình QA cho Luật Bất Động Sản tại Việt Nam bao gồm nhiều bước quan trọng từ việc thu thập dữ liệu đến việc triển khai mô hình LSI. Đầu tiên, việc kiểm tra chất lượng bất động sản được thực hiện thông qua việc phân tích các văn bản pháp lý hiện có. Sau đó, dữ liệu được xử lý để xây dựng một tập dữ liệu LSI, bao gồm hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam. Các mô hình LSI được phát triển dựa trên công nghệ máy học và học sâu, cho phép chatbot cung cấp câu trả lời chính xác và nhanh chóng cho các câu hỏi pháp lý. Việc áp dụng các tiêu chuẩn chất lượng trong quy trình này không chỉ đảm bảo tính chính xác của thông tin mà còn nâng cao độ tin cậy của hệ thống.

2.1. Các tiêu chuẩn chất lượng trong kiểm tra pháp lý

Các tiêu chuẩn chất lượng trong kiểm tra pháp lý bao gồm việc đảm bảo thông tin cung cấp là chính xác, đầy đủ và kịp thời. Trong lĩnh vực bất động sản, việc đánh giá chất lượng bất động sản cần dựa trên các tiêu chí như tính hợp pháp của giấy tờ, tình trạng pháp lý của tài sản và thông tin liên quan đến quy hoạch. Hệ thống QA được thiết kế để tự động hóa quy trình này, giúp người dùng dễ dàng tiếp cận thông tin cần thiết mà không gặp phải các rào cản pháp lý phức tạp. Điều này không chỉ giúp tiết kiệm thời gian mà còn giảm thiểu rủi ro trong các giao dịch bất động sản.

III. Tính ứng dụng thực tiễn của hệ thống QA

Hệ thống QA cho Luật Bất Động Sản tại Việt Nam có tính ứng dụng cao trong việc cải thiện khả năng tiếp cận thông tin pháp lý cho cả người dân và các chuyên gia. Việc ứng dụng AI và NLP trong việc phát triển chatbot giúp tự động hóa quá trình tra cứu thông tin, từ đó nâng cao hiệu quả làm việc. Hệ thống không chỉ giúp người dùng tìm kiếm thông tin một cách nhanh chóng mà còn cung cấp các câu trả lời chính xác dựa trên các quy định pháp lý hiện hành. Điều này đặc biệt quan trọng trong bối cảnh pháp luật Việt Nam đang ngày càng phức tạp, và người dân cần có sự hỗ trợ để hiểu rõ hơn về quyền lợi và nghĩa vụ của mình trong các giao dịch bất động sản.

3.1. Lợi ích của việc áp dụng công nghệ trong lĩnh vực pháp lý

Việc áp dụng công nghệ trong lĩnh vực pháp lý mang lại nhiều lợi ích, bao gồm việc giảm thiểu thời gian xử lý thông tin, tăng cường độ chính xác và nâng cao khả năng tiếp cận thông tin pháp lý cho người dân. Hệ thống QA không chỉ giúp nâng cao sự hiểu biết về chính sách bất động sản mà còn hỗ trợ trong việc giải quyết các tranh chấp pháp lý một cách hiệu quả hơn. Đặc biệt, trong bối cảnh dịch vụ pháp lý truyền thống còn nhiều hạn chế, việc sử dụng công nghệ thông tin trong lĩnh vực này là một bước tiến quan trọng để hiện đại hóa hệ thống pháp luật tại Việt Nam.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính qa system for real estate law in vietnam

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh hệ thống pháp luật ngày càng phức tạp và khối lượng văn bản pháp lý tăng nhanh, việc truy xuất và áp dụng các quy định pháp luật trở nên khó khăn và tốn thời gian. Tại Việt Nam, các dịch vụ pháp lý thông minh dựa trên trí tuệ nhân tạo (AI) vẫn chưa phát triển mạnh do thiếu các nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt trong lĩnh vực pháp luật. Luận văn này tập trung xây dựng một hệ thống chatbot có khả năng trả lời tự động các câu hỏi pháp lý liên quan đến lĩnh vực bất động sản, với trọng tâm là mô-đun Xác định Căn cứ Pháp lý (Legal Statutes Identification - LSI). Mô-đun này giúp xác định các điều luật phù hợp dựa trên mô tả sự kiện hoặc câu hỏi pháp lý.

Tác giả đã xây dựng bộ dữ liệu LSI gồm hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam, tập trung vào Luật Đất đai 2013. Mục tiêu nghiên cứu là phát triển và đánh giá ba mô hình: mô hình máy học sử dụng Support Vector Machine (SVM) với nhúng từ TF-IDF, mô hình học sâu dựa trên LegarBERT - một biến thể BERT được huấn luyện chuyên biệt cho lĩnh vực pháp luật Việt Nam, và mô hình học máy đồ thị sử dụng đồ thị tri thức dị thể (LegarHKB). Nghiên cứu được thực hiện trong phạm vi dữ liệu pháp lý Việt Nam, đặc biệt là Luật Đất đai 2013, với ý nghĩa nâng cao hiệu quả truy xuất thông tin pháp luật, hỗ trợ chuyên gia và người dân tiếp cận pháp luật nhanh chóng và chính xác hơn.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Xác định Căn cứ Pháp lý (LSI):** Quá trình xác định các điều luật, điều khoản phù hợp với tình huống pháp lý dựa trên mô tả sự kiện hoặc câu hỏi.
- **Mô hình nhúng từ (Word Embedding):** Sử dụng TF-IDF và LegarBERT để biểu diễn câu hỏi pháp lý dưới dạng vector số, giúp máy tính hiểu ngữ nghĩa.
- **Học máy đồ thị (Graph Machine Learning):** Mã hóa các thực thể pháp lý (điều luật, thuật ngữ, truy vấn) thành các nút và mối quan hệ thành các cạnh trong đồ thị tri thức dị thể, hỗ trợ truy vấn và suy luận.
- **Mô hình Support Vector Machine (SVM):** Phân loại đa nhãn dựa trên đặc trưng TF-IDF.
- **Mô hình LegarBERT:** Biến thể BERT được huấn luyện trên dữ liệu pháp luật tiếng Việt, sử dụng kỹ thuật Masked Language Modeling (MLM) để nâng cao khả năng hiểu ngữ cảnh pháp lý.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Bộ dữ liệu VN-LandLaw-2013 gồm 5910 mẫu câu hỏi và câu trả lời được gán nhãn chi tiết, hơn 300.000 câu hỏi pháp lý, và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam.
- **Phương pháp thu thập và xử lý dữ liệu:** Thu thập dữ liệu từ các diễn đàn pháp luật, trang web các bộ ngành, và sách luật được số hóa bằng OCR. Dữ liệu được nhóm sinh viên luật chuyên môn cao gán nhãn chi tiết các thực thể pháp lý như điều luật, khoản, điểm.
- **Phân tích dữ liệu:** Sử dụng kỹ thuật TF-IDF để xây dựng ma trận đặc trưng từ các điều luật, phân tích mối quan hệ ngữ nghĩa và đồng xuất hiện giữa các điều luật.
- **Phương pháp phân tích:** So sánh hiệu quả của ba mô hình LSI: SVM với TF-IDF, LegarBERT, và LegarHKB (học máy đồ thị). Đánh giá dựa trên các chỉ số Precision, Recall, F1 và chỉ số KU mới phù hợp với sản phẩm thương mại.
- **Timeline nghiên cứu:** Nghiên cứu và phát triển trong khoảng thời gian từ năm 2022 đến giữa năm 2023, với các giai đoạn thu thập dữ liệu, gán nhãn, huấn luyện mô hình, và đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả mô hình LegarBERT:** Mô hình học sâu LegarBERT đạt độ chính xác cao hơn 15% so với mô hình SVM truyền thống trong việc xác định căn cứ pháp lý phù hợp với câu hỏi.
- **Mô hình học máy đồ thị LegarHKB:** Sử dụng đồ thị tri thức dị thể giúp cải thiện khả năng suy luận và liên kết các điều luật, tăng 10% độ chính xác so với LegarBERT trong các trường hợp phức tạp.
- **Phân bố dữ liệu không cân bằng:** Khoảng 70% câu hỏi tập trung vào một số điều luật phổ biến, trong khi nhiều điều luật khác có rất ít dữ liệu, ảnh hưởng đến hiệu quả huấn luyện mô hình.
- **Chỉ số KU:** Được phát triển để đánh giá hiệu quả mô hình theo cách dễ hiểu hơn cho người dùng thương mại, chỉ số này phản ánh tốt hơn mức độ phù hợp của kết quả trả lời so với các chỉ số truyền thống.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu quả mô hình LegarBERT và LegarHKB là do khả năng hiểu ngữ cảnh và mối quan hệ phức tạp giữa các thực thể pháp lý trong văn bản. Việc sử dụng dữ liệu lớn và kỹ thuật huấn luyện chuyên biệt giúp mô hình nắm bắt được các đặc trưng ngôn ngữ pháp lý tiếng Việt. So với các nghiên cứu trước đây chỉ sử dụng phương pháp máy học truyền thống hoặc mô hình ngôn ngữ tổng quát, nghiên cứu này đã nâng cao đáng kể độ chính xác và khả năng ứng dụng thực tế. Dữ liệu không cân bằng là thách thức lớn, cần có các giải pháp bổ sung dữ liệu hoặc áp dụng kỹ thuật học chuyển giao để cải thiện. Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác các mô hình và bảng phân bố dữ liệu theo điều luật.

## Đề xuất và khuyến nghị

- **Mở rộng và cân bằng dữ liệu:** Tổ chức các nhóm chuyên gia pháp lý để tạo thêm dữ liệu câu hỏi - trả lời cho các điều luật ít được quan tâm, nhằm cải thiện độ bao phủ và cân bằng dữ liệu trong vòng 12 tháng tới.
- **Phát triển mô hình học chuyển giao (Transfer Learning):** Áp dụng kỹ thuật few-shot learning để mô hình có thể thích nghi nhanh với các điều luật mới hoặc ít dữ liệu, giảm thiểu thời gian huấn luyện.
- **Tích hợp hệ thống chatbot vào nền tảng pháp lý:** Triển khai hệ thống chatbot LSI vào các cổng thông tin pháp luật và dịch vụ công trực tuyến nhằm nâng cao khả năng tiếp cận pháp luật cho người dân và doanh nghiệp trong 6-9 tháng.
- **Đào tạo và nâng cao nhận thức người dùng:** Tổ chức các khóa đào tạo cho luật sư, cán bộ pháp lý và người dân về cách sử dụng hệ thống chatbot để khai thác hiệu quả thông tin pháp luật.
- **Nghiên cứu phát triển chỉ số đánh giá KU:** Tiếp tục hoàn thiện và phổ biến chỉ số KU như một tiêu chuẩn đánh giá hiệu quả các sản phẩm AI trong lĩnh vực pháp luật, giúp người dùng dễ dàng hiểu và tin tưởng kết quả.

## Đối tượng nên tham khảo luận văn

- **Luật sư và chuyên gia pháp lý:** Hỗ trợ tra cứu nhanh các điều luật liên quan, giảm thiểu sai sót trong tư vấn và soạn thảo hồ sơ pháp lý.
- **Cơ quan quản lý nhà nước:** Ứng dụng trong tự động hóa xử lý hồ sơ, nâng cao hiệu quả công tác quản lý và giải quyết thủ tục hành chính.
- **Doanh nghiệp bất động sản:** Giúp hiểu rõ các quy định pháp luật liên quan đến giao dịch đất đai, giảm thiểu rủi ro pháp lý trong kinh doanh.
- **Nhà nghiên cứu và phát triển AI:** Cung cấp dữ liệu, mô hình và phương pháp nghiên cứu về xử lý ngôn ngữ tự nhiên trong lĩnh vực pháp luật tiếng Việt, làm nền tảng cho các nghiên cứu tiếp theo.

## Câu hỏi thường gặp

1. **Hệ thống chatbot này có thể trả lời những loại câu hỏi pháp lý nào?**  
   Hệ thống tập trung vào các câu hỏi liên quan đến Luật Đất đai 2013, bao gồm các vấn đề về chuyển nhượng, quyền sử dụng đất, tranh chấp đất đai, với khả năng mở rộng sang các lĩnh vực pháp luật khác trong tương lai.

2. **Mô hình LegarBERT khác gì so với các mô hình BERT thông thường?**  
   LegarBERT được huấn luyện chuyên biệt trên dữ liệu pháp luật tiếng Việt, giúp hiểu sâu sắc ngữ cảnh và thuật ngữ pháp lý, nâng cao độ chính xác trong việc xác định căn cứ pháp luật.

3. **Chỉ số KU là gì và tại sao cần thiết?**  
   KU là chỉ số đánh giá hiệu quả mô hình LSI theo cách dễ hiểu và phù hợp với người dùng thương mại, giúp đo lường mức độ phù hợp của kết quả trả lời so với yêu cầu thực tế.

4. **Làm thế nào để xử lý vấn đề dữ liệu không cân bằng trong nghiên cứu?**  
   Có thể bổ sung dữ liệu từ các nguồn khác, sử dụng kỹ thuật học chuyển giao hoặc học tăng cường để cải thiện khả năng học của mô hình với các điều luật ít dữ liệu.

5. **Hệ thống có thể áp dụng cho các lĩnh vực pháp luật khác ngoài bất động sản không?**  
   Có thể, với việc mở rộng bộ dữ liệu và huấn luyện lại mô hình, hệ thống có thể được tùy chỉnh để phục vụ các lĩnh vực pháp luật khác như dân sự, hình sự, thương mại.

## Kết luận

- Đã xây dựng thành công hệ thống chatbot trả lời tự động các câu hỏi pháp lý về bất động sản dựa trên mô-đun LSI với bộ dữ liệu lớn gồm hơn 300.000 câu hỏi và hàng triệu bản án.  
- Phát triển và so sánh ba mô hình LSI: SVM với TF-IDF, LegarBERT và LegarHKB, trong đó LegarBERT và LegarHKB cho hiệu quả vượt trội.  
- Giới thiệu chỉ số KU mới giúp đánh giá hiệu quả mô hình phù hợp với người dùng thương mại.  
- Đề xuất các giải pháp mở rộng dữ liệu, áp dụng học chuyển giao và tích hợp hệ thống vào thực tế nhằm nâng cao khả năng ứng dụng.  
- Khuyến khích các nhóm luật sư, cơ quan quản lý, doanh nghiệp và nhà nghiên cứu AI tham khảo và phát triển tiếp tục hệ thống.

Triển khai thử nghiệm hệ thống trong môi trường thực tế, mở rộng dữ liệu và lĩnh vực áp dụng, đồng thời phát triển các công cụ hỗ trợ người dùng để nâng cao trải nghiệm và hiệu quả sử dụng.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY PHẠM THANH HỮU QA SYSTEM FOR REAL ESTATE LAW IN VIETNAM Major : Computer Science Major code : 8480101 MASTER’S THESIS HO CHI MINH CITY, July 2023 THIS RESEARCH IS COMPLETED AT HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY – VNU – HCM Supervisor 1: ASSOC. QUAN THANH THO, PhD. NGUYEN TIEN THINH, PhD. TRAN TUAN ANH, PhD.

BUI THANH HUNG, PhD. Master’s thesis is defended at HCM City University of Technology, VNU- HCM City on 13/07/2023 Master’s Thesis Committee: 1. VO THI NGOC CHAU 2. PHAN TRONG NHAN 3.

TRAN TUAN ANH 4. BUI THANH HUNG 5. BUI CONG GIAO Approval of the Chairman of Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis is corrected (If any). CHAIRMAN OF THESIS COMMITTEE DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING Acknowledgment I would like to express my deepest gratitude to my advisors - Assoc.

Quan Thanh Tho, for his valuable and constructive suggestions during the planning and development of this research work. His willingness to give his time so generously has been very much appreciated. Moreover, his advice on algorithms and his recommendations on solutions when I had to deal with problems during doing this research. Finally, I wish to thank IVS JSC for funding this study.

ii Abstract Intelligent legal services have emerged in recent years due to the application of AI technology to the law industry; however, these have yet to be developed in Vietnam since there is a lack of research into automatic processing in the Vietnamese language. In this thesis, the author proposes to build a chatbot that can effectively and automatically answer legal questions, especially those related to real estate. The most important module of the chatbot is the Legal Statutes Identification (LSI), which identifies the legal statutes relevant to a given description of facts or evidence of a legal document (such as a legal question or a description of a legal fact). To deploy the LSI model, the author has built an LSI dataset including more than 300,000 legal questions and millions of judgments of the Supreme People’s Court of Vietnam.

Three models are presented in this thesis. The first is an ML-based model in which the LSI is performed by the Support Vector Machine after the input questions have been word-embedded with TF-IDF Embedding. The second model, based on deep learning, will implement LSI downstream tasks after using a new model called LegarBERT to construct word embedding for the input question. Finally, the author attempts to build LSI using graph machine learning by encoding legal reasoning as nodes and edges, representing by queries, a legal articles, and legal key word (legal terminology).

TÓM TẮT LUẬN VĂN THẠC SĨ Các dịch vụ pháp lý thông minh đã xuất hiện trong những năm gần đây nhờ sự áp dụng của công nghệ Trí tuệ Nhân tạo vào ngành luật; tuy nhiên, tại Việt Nam, chúng vẫn chưa được phát triển do thiếu nghiên cứu về xử lý tự động trong tiếng Việt. Trong luận văn này, tác giả đề xuất xây dựng một chatbot có khả năng trả lời tự động và hiệu quả các câu hỏi pháp lý, đặc biệt là các câu hỏi liên quan đến bất động sản. Mô-đun quan trọng nhất của chatbot là Hệ thống Xác định Căn cứ Pháp lý (Legal Statutes Identification - LSI), được sử dụng để xác định các căn cứ pháp lý liên quan đến một mô tả cụ thể về sự kiện hoặc bằng chứng từ một văn bản pháp lý (như một câu hỏi pháp lý hoặc một mô tả về sự kiện pháp lý). Để triển khai mô hình LSI, tác giả đã xây dựng một tập dữ liệu LSI gồm hơn 300.000 câu hỏi pháp lý và hàng triệu bản án của Tòa án Nhân dân Tối cao Việt Nam.

Luận văn này trình bày ba mô hình. Mô hình đầu tiên dựa trên máy học (ML), trong đó LSI được thực hiện bằng Máy Vector Hỗ trợ sau khi câu hỏi đầu vào được biểu diễn bằng phương pháp Nhúng TF-IDF. Mô hình thứ hai, dựa trên học sâu, sẽ thực hiện các tác vụ LSI sau khi sử dụng một mô hình mới được gọi là LegarBERT để xây dựng việc nhúng từ cho câu hỏi đầu vào. Cuối cùng, tác giả cố gắng xây dựng LSI bằng cách sử dụng học máy đồ thị bằng cách mã hóa lý luận pháp lý thành các nút và cạnh, biểu thị bằng các truy vấn, các điều khoản pháp lý và thuật ngữ pháp lý.

Keywords: LSI, Law Graph, Intelligence Law Service, Vietnamese Law Questions and Answers, Vietnamese Embedded Word, Law Prediction. iii Declaration of Authenticity I guarantee this research is my own, conducted under the supervision of Assoc. Quan Thanh Tho. The contents and results of this research are legitimate and have not been published in any forms prior to this.

The data and materials used for the analysis and feedback are derived from various resources and which are appropriately listed in the References section. The data and results of several other authors and organizations have been used and have been aptly cited. If there is any plagiarism, I stand by our actions and are to be held responsible for it. Ho Chi Minh City University of Technology is not responsible for any copyright infringement relating to this dis- sertation.

Ho Chi Minh City, June 2023 Author Pham Thanh Huu iv Contents 1 Introduction 1 1.2 Ojectives and Scope .3 Contributions of the Thesis .4 Organization of the Thesis. 5 2 Legal Document Structure and Data 7 2.1 VN-LandLaw-2013 Corpus .2 Formal Structure of a Legal Document .3 Legal Data Sourcing .2 Legal Entity Extration .3 Legal Relation Extraction .4 The TF-IDF Matrix of Vietnam Land Law .5 Legal Data Summary Statistics .1 Legal Data Classification .2 Basic Legal Data Statistics .3 Unbalanced Legal Data .4 Vietnam Land Law Article Semantic Relations Matrix .5 Vietnam Land Law Article Co-occurrence Matrix in LSI Dataset .1 QAS Research in NLP .2 Law-related Global QAS Research .3 Vietnamese Law-related QAS Research. 37 CONTENTS CONTENTS 4 Background 40 4.1 Term Fequency-Inverse Document Frequency (TF-IDF) .2 Support Vector Machine (SVM) .7 Masked Language Modeling (MLM) .8 Fine-tune a Pretrained Model .9 Graph Convolution Neural Network (GCN) and Graph Attention Netowrk(GAT) 46 4.3 Legal Domain Background. 47 5 The Proposed System 51 5.2 Overall System Architecture .3 The Main User Cases .5 The Evaluation/Acceptance Criteria .1 Chatbot System Acceptance Criteria .2 LSI Model Metrics.

62 6 LSI by Linear Support Vector Classification with TF-IDF Embedding 63 6.5 Results and Conclusions. 65 7 LSI by Multi Label Classification with LegarBert 67 7.3 Legar Answering Engine. 69 vi CONTENTS CONTENTS 7.1 LegarBert Training from PhoBert .6 Legal-Masked Strategy .7 Results and Conclusions. 75 8 LegarHKB: A LSI Retrieval Model using Heterogeneous Knowledge Graph for the Viet- namese Law Domain 76 8.5 Results and Conclusions.

85 10 List of Deliverables 87 List of Publications 88 References 103 vii List of Figures 1.1 LSI ChatBot’s response .1 Data collection procedure .2 Data labeling application screenshot - Login Page .3 Data labeling application screenshot - Home Page .4 Data labeling application screenshot - Labeling Page .5 The tree of ”Chủ thể.” Subjects of legal relations .6 The tree of ”Hành vi” or ”Quan hệ pháp lý.” Acts/ Legal relations.7 The TF-IDF Matrix of Vietnam Land Law.8 Legal data categories.9 Supervised LSI training data statistics per legal category.10 Supervised LSI training data statistics per legal category (Distribution).11 Semi-supervised LegarBert (MLM) training data statistics per legal category(From books).12 Semi-supervised LegarBert (MLM) training data statistics per legal category(From books) (Distribution).13 Semi-supervised LegarBert (MLM) training data statistics per legal category(From Supreme People’s Court).14 Semi-supervised LegarBert (MLM) training data statistics per legal category(From Supreme People’s Court) (Distribution).15 Unbalanced legal data phenomenon.16 Heatmap of 212 legal documents’ TF-IDF vectors’ cosine similarity .17 Semantic relations of articles 35-51 of chapter IV(Land use master plans and plans).18 Heatmap of Vietnam Land Law articles co-occurrence in LSI dataset.20 High concurrency, high semantic similarity.21 High concurrency, low semantic similarity.1 Timeline of automated law research .1 Architecture of attention Model .2 Architecture of auto encoder. 43 LIST OF FIGURES LIST OF FIGURES 4.3 Architecture of BiLSTM .4 Architecture of PhoBERT .5 Graph Attention Neural Network.6 IVS JSC overview.7 Vietnamese legal structure.8 Vietnam real estate law structure.2 Overall system architecture.3 The main user cases.4 Main screens of the chatbot.5 Legal quick lookup popup.6 Example of KU calculation.7 Vietnam Land Law 2013 Long-tail dataset.1 LSI by Support Vector Machine with TF-IDF Embedding model.1 The Answering Engine of the Legar System.2 LegarBert embedding model training by MLM tasks.3 LSI by Multi Label Classification with LegarBert.1 LSI by Heterogeneous Knowledge Graph.2 Data transformation process.3 Nodes and Edges Definition.5 Graph Demo with some nodes and edges.1 The directions for future work. 86 ix List of Tables 1.1 NLP techniques used in legal domain.1 S, O, R, TO, T legal question analysis.2 Entity extraction example.3 Top 100 single-word TF-IDF values from 212 Vietnamese Land Law.4 Top 200 single-word TF-IDF values from 212 Vietnamese Land Law.5 Legal Document Sentences and Words Statistics .6 Most-paired articles .1 QAS research in NLP .2 Law-related global QAS research .3 Vietnamese Law-related QAS research .2 Long-tail dataset .1 Train/Val/Test Dataset .3 LSI by Support Vector Machine with TF-IDF Embedding results .1 Hyperparameter of LegarBert training.2 Hyperparameter of LSI by LegarBert.3 Perplexity comparing with MLM task .4 LSI by Multi Label Classification with LegarBert results.5 LSI by Multi Label Classification with LegarBert K-Utility .1 Hyperparameter of LSI by Heterogeneous Knowledge Graph .2 LSI by Heterogeneous Knowledge Graph results .3 LSI by Heterogeneous Knowledge Graph K-Utility .1 Comparing 3 models by Precision/Recall/F1 .2 Comparing 2 models by KU. 85 LIST OF TABLES LIST OF TABLES 9.3 Summary the embedding capability of 3 models.

85 xi Chapter 1 Introduction 1.1 Motivation In most nations, the legal system is overburdened by a backlog of cases, particularly in low-level judiciaries. Though speedy justice acts exist, the process in the legal domain is extremely laborious. The legislation to which businesses and citizens have to abide is growing at a constant rate both in complexity and volume. The data present in legislation is mostly in an unstructured format in legal documents [2].

This makes the task of retrieving information highly inefficient and time- consuming, particularly when there are huge quantities of data involved. Further, the utility of such data differs broadly and relies on its representation and structure. In this scenario, legal professionals and users might find it highly problematic to explore the legal data while investigating a specific case or dealing with particular circumstances, even when the data is accessible [3]. These problems have resulted in the necessity of devising better methods for structuring and searching across huge amounts of legal data [4].

For this reason, the process of Legal Statute Identification (LSI) is significant in the domain of the law and it includes identification of the probable set of statutory laws, which are appropriate, or which may be violated based on the factual description of a scenario described in natural language. This process has to be carried out at various phases of litigation by experts, such as judges, lawyers, and police personnel. Therefore, automation of LSI can significantly increase law access for professionals and the wider public [5]. Due to the rapid advances in deep learning (DL) and natural language processing (NLP), numerous Question-answering systems (QAS) have been developed for numerous applications such as naviga- tion, virtual assistants, chatbots, and search engines [6][7], and thus can be applied in other fields, including law, to improve efficiency.

The primary purpose of a QAS is to comprehend user intentions and provide appropriate responses. The QAS extracts its data autonomously in response to a user query [8].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận Văn Thạc Sĩ: Hệ Thống QA Trong Luật Bất Động Sản Việt Nam của tác giả Phạm Thanh Hữu được thực hiện dưới sự hướng dẫn của các giảng viên có trình độ tiến sĩ tại Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh. Nghiên cứu này tập trung vào việc phát triển hệ thống đảm bảo chất lượng (QA) trong lĩnh vực luật bất động sản tại Việt Nam, với mục tiêu nâng cao tính minh bạch và hiệu quả trong quản lý và thực thi pháp luật liên quan đến bất động sản. Bài viết cung cấp cái nhìn sâu sắc về các quy định pháp lý hiện hành và những thách thức trong việc áp dụng chúng, từ đó giúp độc giả hiểu rõ hơn về tầm quan trọng của hệ thống QA trong việc bảo vệ quyền lợi của các bên liên quan trong giao dịch bất động sản.

Nếu bạn quan tâm đến các khía cạnh khác của luật bất động sản, hãy khám phá thêm bài viết Giải Quyết Tranh Chấp Trong Kinh Doanh Bất Động Sản Tại Hà Nội, nơi cung cấp cái nhìn về thực tiễn và pháp luật trong việc giải quyết tranh chấp trong lĩnh vực này. Ngoài ra, bài viết Chuyển Nhượng Quyền Sử Dụng Đất Trong Kinh Doanh Bất Động Sản Tại Thành Phố Hồ Chí Minh sẽ giúp bạn nắm bắt được các quy định pháp lý liên quan đến chuyển nhượng quyền sử dụng đất, một vấn đề quan trọng trong ngành bất động sản. Cuối cùng, bài viết Luật Kinh Doanh Bất Động Sản Du Lịch Tại Đà Nẵng sẽ mở rộng thêm kiến thức của bạn về luật kinh doanh bất động sản trong lĩnh vực du lịch, một lĩnh vực đang phát triển mạnh mẽ tại Việt Nam. Những tài liệu này không chỉ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực bất động sản mà còn cung cấp những thông tin quý giá cho những ai đang hoạt động trong ngành này.

#nghiên cứu luật

#chính sách pháp luật

#thực tiễn pháp lý

#quản lý chất lượng

#đánh giá chất lượng

#Hệ thống QA

Chủ đề

Quản lý chất lượng trong lĩnh vực pháp luật

Phát triển hệ thống pháp lý tại Việt Nam

Đánh giá và cải tiến quy trình pháp lý

Tác động của luật bất động sản đến thị trường