Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và trí tuệ nhân tạo (AI), việc ứng dụng AI trong lĩnh vực pháp luật ngày càng trở nên thiết yếu. Theo ước tính, trong khoảng 10 năm trở lại đây, các kỹ thuật học máy đã được áp dụng rộng rãi để xử lý các nhiệm vụ pháp lý như dự đoán kết quả vụ án, nhận dạng thành phần trong tài liệu pháp lý, và phân tích điều khoản hợp đồng. Tuy nhiên, việc truy vấn và tra cứu thông tin pháp luật vẫn còn nhiều thách thức do tính phức tạp và đa dạng của văn bản luật. Luận văn này tập trung xây dựng hệ thống hỗ trợ tổ chức cơ sở tri thức từ văn bản luật, đặc biệt là luật giao thông đường bộ, nhằm nâng cao hiệu quả truy vấn kiến thức pháp luật.
Mục tiêu nghiên cứu cụ thể bao gồm: (1) rút trích và tổ chức tri thức từ văn bản luật theo mô hình biểu diễn tri thức Legal-Onto; (2) phát triển giải thuật truy vấn kiến thức dựa trên đồ thị tri thức; (3) xây dựng mô hình hỗ trợ tổ chức và cập nhật cơ sở tri thức; (4) triển khai hệ thống truy vấn kiến thức luật giao thông đường bộ. Phạm vi nghiên cứu tập trung vào các văn bản luật có cấu trúc chương, mục, điều, khoản, điểm, bao gồm Luật Giao thông đường bộ số 23/2008/QH12, Nghị định 100/2019/NĐ-CP, Nghị định 123/2021/NĐ-CP và Quy chuẩn kỹ thuật Quốc gia QCVN 41:2019/BGTVT. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao khả năng truy cập, tra cứu và áp dụng pháp luật, góp phần thúc đẩy công tác quản lý và thực thi pháp luật hiệu quả hơn.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết chính: (1) Mô hình Rela-model, một mô hình biểu diễn tri thức tập trung vào các khái niệm và mối quan hệ giữa chúng trong lĩnh vực pháp luật; (2) Ontology Legal-Onto, một mô hình ontology được phát triển dựa trên Rela-model, cải tiến để phù hợp với việc tổ chức và biểu diễn tri thức pháp luật. Các khái niệm chính bao gồm: khái niệm (Concept), quan hệ (Relation), luật suy diễn (Rules), và đồ thị tri thức (Knowledge Graph). Khái niệm được định nghĩa với các thuộc tính như tên, ý nghĩa, thuộc tính, cụm từ khóa đại diện và các từ đồng nghĩa. Quan hệ mô tả mối liên hệ giữa các khái niệm, có thể có các thuộc tính như đối xứng và bắc cầu. Luật suy diễn giúp suy luận và ràng buộc các mối quan hệ trong cơ sở tri thức. Đồ thị tri thức biểu diễn các triples (subject-relation-object) giúp tổ chức và truy xuất thông tin hiệu quả.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là các văn bản pháp luật về giao thông đường bộ, bao gồm Luật Giao thông đường bộ, các Nghị định xử phạt vi phạm hành chính và Quy chuẩn kỹ thuật quốc gia. Phương pháp nghiên cứu gồm các bước: (1) Thu thập và phân tích cấu trúc văn bản luật, trích xuất các khái niệm, quan hệ và câu hỏi thực tế từ người dùng; (2) Xây dựng ontology Legal-Onto và đồ thị tri thức từ các cụm từ khóa và mối quan hệ trích xuất được; (3) Thiết kế giải thuật truy vấn kiến thức dựa trên phân loại câu hỏi, biểu diễn câu hỏi thành đồ thị tri thức, phân rã đồ thị thành các star graph và tìm kiếm đồ thị con phù hợp trong cơ sở tri thức; (4) Xây dựng hệ thống hỗ trợ truy vấn kiến thức luật giao thông đường bộ với kiến trúc gồm giao diện người dùng, mô-đun trả lời câu hỏi, cơ sở tri thức và giao diện quản lý tri thức. Cỡ mẫu dữ liệu thu thập bao gồm hàng trăm đoạn văn bản luật và hàng nghìn câu hỏi thực tế. Phương pháp chọn mẫu dựa trên các văn bản pháp luật có hiệu lực và các câu hỏi phổ biến trong lĩnh vực giao thông đường bộ. Thời gian nghiên cứu kéo dài trong năm 2023.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả rút trích tri thức từ văn bản luật: Hệ thống đã trích xuất thành công hàng trăm triples từ các văn bản luật giao thông đường bộ, bao gồm các khái niệm như “xe máy”, “người điều khiển”, “điện thoại di động” và các quan hệ như “điều khiển”, “sử dụng”. Ví dụ, triple “người -> điều khiển -> xe máy” được lưu trữ với hơn 300 đoạn văn bản liên quan, cho thấy khả năng tổng hợp tri thức rộng lớn.
Tối ưu hóa đồ thị tri thức: Qua quá trình loại bỏ triples vô nghĩa và hợp nhất các triples tương đương, kích thước đồ thị tri thức giảm khoảng 25%, giúp tăng tốc độ truy vấn và giảm độ phức tạp xử lý.
Độ chính xác truy vấn: Hệ thống phân loại câu hỏi thành hai nhóm chính (khái niệm và lỗi vi phạm) với độ chính xác phân loại đạt trên 90%. Giải thuật truy vấn dựa trên so khớp đồ thị con đã trả về kết quả chính xác với tỷ lệ thành công khoảng 85% trên bộ dữ liệu thử nghiệm gồm 500 câu hỏi thực tế.
Khả năng cập nhật tri thức: Mô hình hỗ trợ người quản lý cập nhật, chỉnh sửa cơ sở tri thức một cách linh hoạt, đảm bảo tính cập nhật và chính xác của dữ liệu pháp luật. Thời gian cập nhật trung bình cho một văn bản luật mới hoặc sửa đổi là dưới 2 giờ.
Thảo luận kết quả
Nguyên nhân của hiệu quả trên là do việc áp dụng mô hình ontology Legal-Onto kết hợp với kỹ thuật xử lý ngôn ngữ tự nhiên (VNCoreNLP) và mô hình ngôn ngữ PhoBERT giúp trích xuất và biểu diễn tri thức một cách chính xác và có cấu trúc. So với các nghiên cứu trước đây chỉ tập trung vào học sâu hoặc xử lý ngôn ngữ tự nhiên thuần túy, phương pháp kết hợp đồ thị tri thức và luật suy diễn giúp hệ thống có khả năng suy luận và trả lời các câu hỏi phức tạp hơn. Kết quả này phù hợp với các nghiên cứu quốc tế về ứng dụng ontology trong lĩnh vực pháp luật, đồng thời khắc phục hạn chế về chi phí và độ chính xác của các phương pháp học sâu thuần túy. Việc tối ưu hóa đồ thị tri thức cũng góp phần nâng cao hiệu suất truy vấn, giảm thiểu thời gian phản hồi, điều này rất quan trọng trong các hệ thống truy vấn pháp luật thực tế. Các biểu đồ so sánh tỷ lệ chính xác truy vấn và kích thước đồ thị trước và sau tối ưu hóa sẽ minh họa rõ nét hiệu quả của phương pháp.
Đề xuất và khuyến nghị
Triển khai hệ thống truy vấn kiến thức pháp luật trên nền tảng trực tuyến: Động từ hành động: Phát triển; Target metric: Đảm bảo hệ thống hoạt động 24/7 với thời gian phản hồi dưới 3 giây; Timeline: 6 tháng; Chủ thể thực hiện: Đơn vị phát triển phần mềm và quản lý tri thức.
Mở rộng phạm vi tri thức sang các lĩnh vực pháp luật khác: Động từ hành động: Mở rộng; Target metric: Tích hợp thêm ít nhất 3 lĩnh vực pháp luật mới trong vòng 12 tháng; Chủ thể thực hiện: Nhóm nghiên cứu và chuyên gia pháp luật.
Tăng cường đào tạo và hỗ trợ người quản lý tri thức: Động từ hành động: Đào tạo; Target metric: 100% người quản lý tri thức được huấn luyện sử dụng hệ thống; Timeline: 3 tháng; Chủ thể thực hiện: Bộ phận đào tạo và phát triển nguồn nhân lực.
Nâng cao độ chính xác truy vấn bằng cải tiến thuật toán: Động từ hành động: Cải tiến; Target metric: Tăng tỷ lệ trả lời chính xác lên trên 90%; Timeline: 9 tháng; Chủ thể thực hiện: Nhóm nghiên cứu AI và xử lý ngôn ngữ tự nhiên.
Đối tượng nên tham khảo luận văn
Chuyên gia và kỹ sư tri thức trong lĩnh vực pháp luật: Giúp họ hiểu và áp dụng mô hình ontology Legal-Onto để xây dựng cơ sở tri thức pháp luật hiệu quả, tiết kiệm thời gian và công sức trong việc tổ chức dữ liệu pháp luật.
Nhà phát triển phần mềm và hệ thống AI: Cung cấp kiến thức về thiết kế giải thuật truy vấn dựa trên đồ thị tri thức và tích hợp các công nghệ NLP, hỗ trợ phát triển các hệ thống truy vấn pháp luật thông minh.
Cán bộ quản lý và thực thi pháp luật: Hỗ trợ tra cứu nhanh chóng, chính xác các quy định pháp luật, từ đó nâng cao hiệu quả công tác quản lý và xử lý vi phạm.
Sinh viên và nghiên cứu sinh ngành khoa học máy tính, luật học: Là tài liệu tham khảo quý giá về ứng dụng AI trong lĩnh vực pháp luật, giúp phát triển các đề tài nghiên cứu liên quan đến biểu diễn tri thức và truy vấn ngữ nghĩa.
Câu hỏi thường gặp
Hệ thống có thể xử lý những loại câu hỏi pháp luật nào?
Hệ thống tập trung xử lý hai loại câu hỏi chính: câu hỏi về khái niệm pháp luật (ví dụ: “Xe máy là gì?”) và câu hỏi về lỗi vi phạm cùng mức phạt tương ứng (ví dụ: “Điều khiển xe máy sử dụng điện thoại bị phạt thế nào?”). Nhờ mô hình phân loại câu hỏi và biểu diễn tri thức, hệ thống trả lời chính xác các câu hỏi phổ biến trong lĩnh vực giao thông đường bộ.Làm thế nào để hệ thống cập nhật các quy định pháp luật mới?
Người quản lý tri thức sử dụng giao diện quản lý để nhập, chỉnh sửa hoặc xóa các văn bản luật mới hoặc sửa đổi. Hệ thống sẽ tự động phân tích, trích xuất và biểu diễn tri thức từ văn bản mới, đảm bảo cơ sở tri thức luôn cập nhật và chính xác.Độ chính xác của hệ thống truy vấn như thế nào?
Trên bộ dữ liệu thử nghiệm với khoảng 500 câu hỏi thực tế, hệ thống đạt tỷ lệ trả lời chính xác khoảng 85%, cao hơn nhiều so với các phương pháp học sâu thuần túy do kết hợp biểu diễn tri thức và luật suy diễn.Hệ thống có thể mở rộng sang các lĩnh vực pháp luật khác không?
Có, mô hình ontology Legal-Onto và kiến trúc hệ thống được thiết kế linh hoạt, có thể áp dụng cho nhiều lĩnh vực pháp luật khác nhau bằng cách thu thập và xây dựng cơ sở tri thức tương ứng.Người dùng không có kiến thức pháp luật có thể sử dụng hệ thống dễ dàng không?
Hệ thống được thiết kế với giao diện thân thiện, dễ sử dụng, cho phép người dùng nhập câu hỏi tự nhiên bằng tiếng Việt. Hệ thống sẽ phân tích ngữ nghĩa và trả lời phù hợp, giúp người dùng không chuyên cũng có thể tra cứu thông tin pháp luật hiệu quả.
Kết luận
- Luận văn đã xây dựng thành công mô hình biểu diễn tri thức Legal-Onto và đồ thị tri thức từ văn bản luật giao thông đường bộ, giúp tổ chức và truy xuất tri thức hiệu quả.
- Giải thuật truy vấn dựa trên phân loại câu hỏi và so khớp đồ thị con đã đạt độ chính xác cao, đáp ứng nhu cầu tra cứu pháp luật thực tế.
- Hệ thống hỗ trợ quản lý và cập nhật cơ sở tri thức linh hoạt, đảm bảo tính chính xác và cập nhật của dữ liệu pháp luật.
- Nghiên cứu góp phần nâng cao khả năng ứng dụng AI trong lĩnh vực pháp luật, đặc biệt là hỗ trợ truy vấn kiến thức pháp luật theo ngữ nghĩa.
- Các bước tiếp theo bao gồm mở rộng phạm vi tri thức sang các lĩnh vực pháp luật khác, cải tiến thuật toán truy vấn và triển khai hệ thống trên nền tảng trực tuyến để phục vụ rộng rãi người dùng.
Hành động khuyến nghị: Các tổ chức, cá nhân quan tâm đến ứng dụng AI trong pháp luật nên nghiên cứu và áp dụng mô hình này để nâng cao hiệu quả quản lý và tra cứu pháp luật.