Khóa Luận Tốt Nghiệp Công Nghệ Thông Tin: Ứng Dụng Học Sâu Trong Truy Xuất Văn Bản Pháp Luật Tiếng Việt

2022

71
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng quan về khóa luận tốt nghiệp

Khóa luận tốt nghiệp này tập trung vào việc áp dụng học sâu để truy xuất văn bản pháp luật tiếng Việt. Với sự phát triển của công nghệ thông tintrí tuệ nhân tạo, việc xử lý ngôn ngữ tự nhiên đã đạt được nhiều thành tựu đáng kể. Tuy nhiên, truy xuất văn bản pháp luật vẫn là một thách thức lớn do tính phức tạp của ngôn ngữ pháp lý. Khóa luận này đề xuất các phương pháp hiện đại, sử dụng mô hình ngôn ngữ tiền huấn luyện như PhoBERTViBERT, để cải thiện hiệu quả truy xuất thông tin.

1.1. Lý do chọn đề tài

Việc chọn đề tài này xuất phát từ nhu cầu thực tế về truy xuất thông tin pháp luật trong bối cảnh xã hội hiện đại. Các sự kiện như đại dịch Covid-19 và các vấn đề pháp lý liên quan đến nghệ sĩ đã làm nổi bật sự cần thiết của một hệ thống truy xuất thông tin chính xác và hiệu quả. Học sâuxử lý ngôn ngữ tự nhiên được xem là giải pháp tiềm năng để giải quyết vấn đề này.

1.2. Giới thiệu bài toán

Bài toán truy xuất văn bản pháp luật được định nghĩa là quá trình tìm kiếm các tài liệu pháp lý phù hợp với một truy vấn cụ thể. Đây là một nhánh của truy xuất thông tin, nhưng có độ phức tạp cao hơn do đặc thù của ngôn ngữ pháp lý. Khóa luận này tập trung vào việc sử dụng mô hình transformer để cải thiện hiệu quả truy xuất.

II. Phương pháp và kỹ thuật liên quan

Khóa luận này sử dụng các phương pháp học sâu hiện đại, bao gồm mô hình transformermạng nơ-ron siamese, để giải quyết bài toán truy xuất văn bản pháp luật. Các mô hình như BERT, PhoBERT, và ViBERT được tinh chỉnh để phù hợp với ngữ liệu tiếng Việt. Ngoài ra, Condenser, một kiến trúc transformer mới, cũng được áp dụng để cải thiện hiệu suất truy xuất.

2.1. Các phương pháp truyền thống

Các phương pháp truyền thống như tf-idfBM25 vẫn được sử dụng trong hệ thống truy xuất thông tin. Tuy nhiên, chúng có hạn chế trong việc xử lý ngữ nghĩa phức tạp của văn bản pháp lý. Khóa luận này kết hợp các phương pháp truyền thống với học sâu để tạo ra một hệ thống hiệu quả hơn.

2.2. Các hướng tiếp cận transformer

Transformer cross-encoderbi-encoder là hai hướng tiếp cận chính được sử dụng trong khóa luận. Cross-encoder xử lý truy vấn và văn bản cùng lúc, trong khi bi-encoder tạo embedding riêng biệt cho từng câu. Sentence-BERT (SBERT) là một ví dụ điển hình của bi-encoder, được áp dụng để tính toán độ tương đồng giữa các câu.

III. Thực nghiệm và đánh giá

Khóa luận tiến hành thực nghiệm trên bộ dữ liệu văn bản pháp luật tiếng Việt, sử dụng các mô hình như BM25Plus, PhoBERT, và ViBERT. Kết quả cho thấy các mô hình dựa trên transformer đạt hiệu suất cao hơn so với phương pháp truyền thống. Condenser cũng chứng minh được hiệu quả trong việc cải thiện độ chính xác của hệ thống.

3.1. Pipeline thực nghiệm

Quy trình thực nghiệm bao gồm các bước: tiền xử lý dữ liệu, huấn luyện mô hình, và đánh giá kết quả. PhoBERTViBERT được tinh chỉnh để phù hợp với ngữ liệu pháp lý. Condenser được huấn luyện để tối ưu hóa quá trình truy xuất.

3.2. Kết quả và phân tích

Kết quả thực nghiệm cho thấy sentence-transformer đạt hiệu suất cao nhất trong việc truy xuất văn bản pháp luật. Các yếu tố như độ dài văn bản và độ phức tạp ngữ nghĩa cũng được phân tích để hiểu rõ hơn về hiệu suất của mô hình.

IV. Kết luận và hướng phát triển

Khóa luận này đã chứng minh hiệu quả của học sâu trong việc truy xuất văn bản pháp luật tiếng Việt. Các mô hình như PhoBERT, ViBERT, và Condenser đã đạt được kết quả ấn tượng. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết, như cải thiện độ chính xác và xử lý các văn bản pháp lý phức tạp hơn.

4.1. Giá trị thực tiễn

Khóa luận này mang lại giá trị thực tiễn cao trong việc xây dựng hệ thống truy xuất thông tin pháp lý tự động. Nó có thể ứng dụng trong các lĩnh vực như tư vấn pháp lý, nghiên cứu luật, và quản lý văn bản pháp luật.

4.2. Hướng phát triển tương lai

Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện các mô hình học sâu để xử lý các văn bản pháp lý dài và phức tạp hơn. Ngoài ra, việc tích hợp các công nghệ như xử lý ngôn ngữ tự nhiêntrí tuệ nhân tạo cũng là hướng đi tiềm năng.

21/02/2025
Khóa luận tốt nghiệp công nghệ thông tin truy xuất văn bản pháp luật tiếng việt sử dụng học sâu
Bạn đang xem trước tài liệu : Khóa luận tốt nghiệp công nghệ thông tin truy xuất văn bản pháp luật tiếng việt sử dụng học sâu

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Khóa luận tốt nghiệp CNTT với tiêu đề "Truy Xuất Văn Bản Pháp Luật Tiếng Việt Bằng Học Sâu" tập trung vào việc ứng dụng công nghệ học sâu để truy xuất và xử lý văn bản pháp luật bằng tiếng Việt. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp hiện đại trong lĩnh vực xử lý ngôn ngữ tự nhiên mà còn nêu bật những thách thức và giải pháp trong việc làm việc với dữ liệu pháp lý. Độc giả sẽ được trang bị kiến thức về cách thức mà học sâu có thể cải thiện độ chính xác và hiệu quả trong việc truy xuất thông tin, từ đó nâng cao khả năng tiếp cận và sử dụng văn bản pháp luật.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ trong lĩnh vực CNTT, bạn có thể tham khảo các tài liệu liên quan như Nghiên cứu các phương pháp trích xuất thông tin trong ảnh tài liệu và ứng dụng, nơi bạn sẽ tìm hiểu về cách trích xuất thông tin từ hình ảnh tài liệu, hoặc Luận văn thạc sĩ khoa học máy tính sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition, tài liệu này sẽ giúp bạn hiểu rõ hơn về việc áp dụng học máy trong nhận diện giọng nói. Cuối cùng, bạn cũng có thể xem xét Luận văn thạc sĩ khoa học máy tính hỗ trợ suy luận trong điều khiển truy xuất dữ liệu GIS, để khám phá thêm về việc sử dụng công nghệ trong quản lý và truy xuất dữ liệu địa lý. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về các ứng dụng của công nghệ trong lĩnh vực CNTT.

Tải xuống (71 Trang - 33.06 MB)