Khóa luận tốt nghiệp công nghệ thông tin truy xuất văn bản pháp luật tiếng việt sử dụng học sâu

Khóa luận tốt nghiệp CNTT nghiên cứu truy xuất văn bản pháp luật tiếng Việt bằng học sâu, ứng dụng công nghệ hiện đại trong xử lý ngôn ngữ tự nhiên.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

Khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1. Lý do lựa chọn đề tài

1.2. Các công trình liên quan

1.2.1. Các phương pháp truyền thống cho truy xuất thông tin

1.2.2. Các hướng tiếp cận transformer cross-encoder

1.2.3. Các hướng tiếp cận transformer bi-encoder

1.2.4. Các vấn đề còn tồn tại

1.3. Cấu trúc khóa luận

2. CHƯƠNG 2: PHƯƠNG PHÁP VÀ KỸ THUẬT LIÊN QUAN

2.1. Các phương pháp truyền thống cho truy xuất thông tin

2.2. Sơ bộ về học sâu

2.3. Mạng nơ-ron tuyến tính

2.4. Perceptron đa lớp

2.5. Một số mô hình ngôn ngữ được tiền huấn luyện

2.6. Biểu diễn đầu vào của BERT. Mô hình ngôn ngữ có mặt nạ. Dự đoán câu kế tiếp

2.7. Che mặt nạ tĩnh và che mặt nạ linh hoạt. Không còn sử dụng dự đoán câu sau

2.8. Siamese neural network. Tổng quan về siamese neural network

2.9. Áp dụng SNN vào bài toán tìm kiếm ngữ nghĩa. Hướng tiếp cận transformer bi-encoder cho tìm kiếm ngữ nghĩa

2.10. Hạn chế của các mô hình dựa theo kiến trúc transformer. Tóm tắt về Condenser

2.11. Phương pháp tiến hành. Pipeline tổng quan. Tiền xử lý và phân tích tổng quan bộ dữ liệu. Kiểm tra và làm sạch bộ dữ liệu

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thống kê bộ ngữ liệu văn bản pháp luật

3.2. Thống kê bộ dữ liệu hỏi đáp

3.3. Tiến hành thực nghiệm

3.3.1. Huấn luyện mô hình BM25Plus

3.3.2. Tinh chỉnh PhoBERT, ViBERT

3.3.3. Tinh chỉnh Condenser. Cách thức chọn các cặp câu cho việc huấn luyện. Huấn luyện sentence-transformer

3.3.4. Kết hợp các mô hình thành hệ thống truy xuất thông tin. Các độ đo đánh giá mô hình

4. CHƯƠNG 4: THỰC NGHIỆM, NHẬN XÉT VÀ ĐÁNH GIÁ KẾT QUẢ

4.1. Môi trường thực nghiệm

4.2. Cách chọn ra các điều luật để đánh giá trên 2 độ đo

4.3. Kết quả BM25Plus

4.4. Kết quả sau vòng hai huấn luyện sentence-transformer

4.5. Kết quả sau vòng ba huấn luyện sentence-transformer

4.6. So sánh với một số mô hình trong quá khứ

4.7. Phân tích hậu thực nghiệm

4.8. Phân tích điểm số trên từng lớp truy vấn

4.9. Các yếu tố của dữ liệu gây khó khăn cho mô hình

4.10. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về khóa luận tốt nghiệp

Khóa luận tốt nghiệp này tập trung vào việc áp dụng học sâu để truy xuất văn bản pháp luật tiếng Việt. Với sự phát triển của công nghệ thông tin và trí tuệ nhân tạo, việc xử lý ngôn ngữ tự nhiên đã đạt được nhiều thành tựu đáng kể. Tuy nhiên, truy xuất văn bản pháp luật vẫn là một thách thức lớn do tính phức tạp của ngôn ngữ pháp lý. Khóa luận này đề xuất các phương pháp hiện đại, sử dụng mô hình ngôn ngữ tiền huấn luyện như PhoBERT và ViBERT, để cải thiện hiệu quả truy xuất thông tin.

1.1. Lý do chọn đề tài

Việc chọn đề tài này xuất phát từ nhu cầu thực tế về truy xuất thông tin pháp luật trong bối cảnh xã hội hiện đại. Các sự kiện như đại dịch Covid-19 và các vấn đề pháp lý liên quan đến nghệ sĩ đã làm nổi bật sự cần thiết của một hệ thống truy xuất thông tin chính xác và hiệu quả. Học sâu và xử lý ngôn ngữ tự nhiên được xem là giải pháp tiềm năng để giải quyết vấn đề này.

1.2. Giới thiệu bài toán

Bài toán truy xuất văn bản pháp luật được định nghĩa là quá trình tìm kiếm các tài liệu pháp lý phù hợp với một truy vấn cụ thể. Đây là một nhánh của truy xuất thông tin, nhưng có độ phức tạp cao hơn do đặc thù của ngôn ngữ pháp lý. Khóa luận này tập trung vào việc sử dụng mô hình transformer để cải thiện hiệu quả truy xuất.

II. Phương pháp và kỹ thuật liên quan

Khóa luận này sử dụng các phương pháp học sâu hiện đại, bao gồm mô hình transformer và mạng nơ-ron siamese, để giải quyết bài toán truy xuất văn bản pháp luật. Các mô hình như BERT, PhoBERT, và ViBERT được tinh chỉnh để phù hợp với ngữ liệu tiếng Việt. Ngoài ra, Condenser, một kiến trúc transformer mới, cũng được áp dụng để cải thiện hiệu suất truy xuất.

2.1. Các phương pháp truyền thống

Các phương pháp truyền thống như tf-idf và BM25 vẫn được sử dụng trong hệ thống truy xuất thông tin. Tuy nhiên, chúng có hạn chế trong việc xử lý ngữ nghĩa phức tạp của văn bản pháp lý. Khóa luận này kết hợp các phương pháp truyền thống với học sâu để tạo ra một hệ thống hiệu quả hơn.

2.2. Các hướng tiếp cận transformer

Transformer cross-encoder và bi-encoder là hai hướng tiếp cận chính được sử dụng trong khóa luận. Cross-encoder xử lý truy vấn và văn bản cùng lúc, trong khi bi-encoder tạo embedding riêng biệt cho từng câu. Sentence-BERT (SBERT) là một ví dụ điển hình của bi-encoder, được áp dụng để tính toán độ tương đồng giữa các câu.

III. Thực nghiệm và đánh giá

Khóa luận tiến hành thực nghiệm trên bộ dữ liệu văn bản pháp luật tiếng Việt, sử dụng các mô hình như BM25Plus, PhoBERT, và ViBERT. Kết quả cho thấy các mô hình dựa trên transformer đạt hiệu suất cao hơn so với phương pháp truyền thống. Condenser cũng chứng minh được hiệu quả trong việc cải thiện độ chính xác của hệ thống.

3.1. Pipeline thực nghiệm

Quy trình thực nghiệm bao gồm các bước: tiền xử lý dữ liệu, huấn luyện mô hình, và đánh giá kết quả. PhoBERT và ViBERT được tinh chỉnh để phù hợp với ngữ liệu pháp lý. Condenser được huấn luyện để tối ưu hóa quá trình truy xuất.

3.2. Kết quả và phân tích

Kết quả thực nghiệm cho thấy sentence-transformer đạt hiệu suất cao nhất trong việc truy xuất văn bản pháp luật. Các yếu tố như độ dài văn bản và độ phức tạp ngữ nghĩa cũng được phân tích để hiểu rõ hơn về hiệu suất của mô hình.

IV. Kết luận và hướng phát triển

Khóa luận này đã chứng minh hiệu quả của học sâu trong việc truy xuất văn bản pháp luật tiếng Việt. Các mô hình như PhoBERT, ViBERT, và Condenser đã đạt được kết quả ấn tượng. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết, như cải thiện độ chính xác và xử lý các văn bản pháp lý phức tạp hơn.

4.1. Giá trị thực tiễn

Khóa luận này mang lại giá trị thực tiễn cao trong việc xây dựng hệ thống truy xuất thông tin pháp lý tự động. Nó có thể ứng dụng trong các lĩnh vực như tư vấn pháp lý, nghiên cứu luật, và quản lý văn bản pháp luật.

4.2. Hướng phát triển tương lai

Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện các mô hình học sâu để xử lý các văn bản pháp lý dài và phức tạp hơn. Ngoài ra, việc tích hợp các công nghệ như xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo cũng là hướng đi tiềm năng.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp công nghệ thông tin truy xuất văn bản pháp luật tiếng việt sử dụng học sâu

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. TONG QUAN ĐÈ TÀI .-- 2 SE EESEE2EEEEE2EE2EEEEEEEEEEEEEErkrrrrei 2 1. Lý do lựa chọn đề tài. Gi6i thiGu Dai TOAD oe.

Các công trình liên Quañ. Các phương pháp truyền thống cho truy xuất thông tỉin. S SH HH HH HH HH Hit 5 1. Các hướng tiếp cận transformer crOss-encOder.

Các hướng tiếp cận transformer bi-eneoder. Các vấn đề còn tỒn tại. cho SE 21811511 11511115115111 51111112 rrke 8 1. Cấu trúc khóa Wann.

eesecesseeessseeecssseecsssecssseeeesseecessneessneeessneeesssneeesaneeessey 10 Chương2. | PHƯƠNG PHÁP VÀ KỸ THUẬT LIEN QUAN. Các phương pháp truyền thống cho truy xuất thông tin. TRG eee eececeececeeseeseesecsecsecsecsecseceeeaeesesseesecaessesaeseeseeseeeeeeeaeeaees 11 "8n.

Sơ bộ về học sâu.--c:-52+tt2 2tr2 tri 13 2. Mạng nơ-ron tuyến tuyến tính.-- 2-5 ©2+2+e+£xe£xzE+zxerxersez 13 2. Perceptron da lỚp. + c Sn St SH HH ng giết 15 2.

Một số mô hình ngôn ngữ được tiền huấn luyện. Ăn HH HH HH HH HH r 17 2. Biểu diễn đầu vào của BERT. Mô hình ngôn ngữ có mặt nạ.

Dự đoán câu kế tiẾp.--2-©52 22 E22 2222171212211 EEcrkee 20 PIN (va 4. HH HH ng nh như20 2. Che mặt nạ tinh va che mặt nạ linh hoạt. Không còn sử dung dự đoán Cau SaU.

SẶ SH SH HH TH TH HH HH hư21 2. Siamese neural I€fWOTK. Tống quan về siamese neural netwOrk.-----s- 22s s+zs+zs+ss2 22 2. Ăn HS ng iệt 23 2.

Áp dụng SNN vào bài toán tìm kiếm ngữ nghĩa. Hướng tiếp cận transformer bi-encoder cho tìm kiếm ngữ nghĩa. Transformer CTOSS-€TCO(€T. S€nf€TC€-fTATISÏOTTT€T.

- 2G (0019319911910 93 9v ng ng nến 26 2.- SG Gv HT TH HH TH HH nhiệt 28 2. Hạn chế của các mô hình dựa theo kiến trúc transformer. Tóm tắt về Condenser. PHƯƠNG PHÁP TIEN HANH.

Pipeline tổng quan. Tiền xử lý và phân tích tổng quan bộ dit liệu. Kiểm tra và làm sạch bộ dit liệu.-----¿- 2 s+x+zx++z+zx+rxersez 32 3. Thống kê bộ ngữ liệu văn bản pháp luật.

Thống kê bộ dữ liệu hỏi đáp. Tiến hành thực nghiệm .---¿- ¿+ ++++x++EE+2E+tEE+SEESExrrkrerkrerkrrrrees 38 3. Huấn luyện mô hình BM25Plus. _ Tinh chỉnh PhoBERT, ViBERT.--2-2-s+cs+cx++z+zxerxersee 39 3.

Tinh chỉnh Condenser. Cách thức chọn các cặp câu cho việc huấn luyện. Huấn luyện senfence-trafiSfOTIN€T. Kết hợp các mô hình thành hệ thống truy xuất thong tin.

Các độ đo đánh giá mô hình.- 2-2-2 s+x+zxzx+z+zxerxersee 43 Chương4. THỰC NGHIỆM, NHẬN XÉT VÀ ĐÁNH GIA KET QUẢ. Môi trường thực nghiỆm. Cách chọn ra các điều luật để đánh giá trên 2 độ đo.

Kết quả BM25Plus. Kết quả sau vòng hai huấn luyên sentence-transfOrmer. Kết quả sau vòng ba huấn luyện sentence-transformer. So sánh với một số mô hình trong quá khứ.

Phân tích hậu thực nghiỆm. Phân tích điểm số trên từng lớp truy vấn. Các yếu tô của dữ liệu gây khó khăn cho mô hình. Hướng phat triỂn.211 211T1cxeeU 55 TÀI LIEU THAM KHẢO.-¿- 2-52 55£2S£2SE‡EEEEE2EE2EEEEEEEEEEEESEEEEEErkrrrrerrerkrree 56 DANH MỤC CÔNG TRÌNH TÁC GIA.

60 DANH MỤC HÌNH Hình 1-1 Đầu vào và đầu ra cho bài toán truy xuất văn bản pháp luật. 3 Hình 1-2 Minh hoa transformer crOSS-enCOđ€T.---- 2+ ***++++++s#eeeeeeezss 6 Hình 1-3 Minh họa sentence-franSfOFIN€T.------ << SE 333222 EEEeezseeeeeezes 7 Hình 2-1 Cau trúc n-TON. ----- 2 +5 ©+£+E£+EE£EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEErrkrrkerkrrei 14 Hình 2-2 Biéu diễn mô hình hồi quy tuyến tính.------2- 5¿csz+z+>s+ec++ 14 Hình 2-3 Perceptron có hai lớp ẩn.-- 2-2: 2© £+£+EE+EE+EE££EE+EEtEEtrEEzEkrrxrrrrrex 15 Hình 2-4 Mô tả kiến trúc BERT.---2+2+++ctEEkttEEEkttttrkrrrttrrrrrrirrrrririie 17 Hình 2-5 Cách BERT được áp dụng cho các tác VỤ.----cscssseseseeesrs 18 Hình 2-6 Biểu diễn đầu vào của BERT.-:--cccccctttitrtrirrrtrirrrrrirrrrrrres 19 Hình 2-7 SNN với 2 Mang COI.-- c6 2 3313831118311 9E ESEESEkrerseerreeereere 23 Hình 2-8 Phân loại cặp câu bằng BERT.---22- +©x+2E++EE+EE+EEerEerrxerxerkerex 26 Hình 2-9 Cách SBERToase tính độ tương đồng cosine giữa hai câu.- 27 Hình 3-1 Pipeline tổng quan.---- 2 22 2 £+E£EE£EE£EEEEEEEEEEEEEEEEEEEErkerkerkerkrree 31 Hình 3-2 Biéu diễn văn ban pháp luật trong bộ ngữ liệu.-- 5: 5552552 33 Hình 3-3 Biểu diễn từ, cụm từ của câu hỏi theo WordCloud.- c5 sss5s 35 Hình 3-4 Phân phối điều luật liên quan mỗi câu hỏi trong bộ dữ huấn luyện. 37 Hình 3-5 Phân phối điều luật liên quan mỗi câu hỏi trong bộ dit kiểm tra.

38 Hình 4-1 F2 theo lượng điều luật liên quan đến truy vấn.---------5z=s+ 50 Hình 4-2 recall@20 theo lượng điều luật liên quan đến truy vấn.---- 50 DANH MỤC BANG Bảng 3-1 Phân phối độ dài điều luật theo tiếng.---¿--2¿©22©522cx2cxvcxecrsz 33 Bang 3-2 Phân phối độ dài điều luật theo từ.--- 2-2 522£2 E+£E+zEzEzrxerxezez 34 Bang 3-3 Top 5 từ xuất hiện nhiều nhất.--- 2 2 2 E2E£2EE+EE+EEezEEzEzrxerxerex 36 Bang 3-4 Thống kê về truy vấn.---:- 2-22 s+SE£EE22EE2EEEEEE2E12E1221171211211 21210, 36 Bang 3-5 Các siêu tham số chính tinh chỉnh mô hình ngôn ngữ có mặt nạ. 39 Bang 3-6 Siêu tham số tinh chỉnh Condenser.-- 2-2 2 2 2+s££x£x+£x+z+zzszs+2 40 Bảng 3-7 Các siêu tham số chính huấn luyện sentence-transformer. 42 Bang 4-1 Kết quả vòng hai sentence-transfOrmer.---- 2 2 + x+z££+z++zx+zxzsz 45 Bang 4-2 Kết quả vòng hai mô hình kết hợp theo sqrt(bm25_score)*cos_sim. 45 Bảng 4-3 Kết quả vòng hai mô hình kết hợp theo bm25_score*cos_ sim.

46 Bang 4-4 Kết quả sentence-transformer vòng ba.--- 2 2 s+x+2E£+£++zxsrxcrez 47 Bang 4-5 Kết quả mô hình kết hợp vòng ba theo sqrt(bm25_score)*cos_sim. 47 Bảng 4-6 Kết qua mô hình kết hợp vòng ba theo bm25_score*cos_sim. 48 Bang 4-7 So sánh với một số mô hình trong quá khứ bang recall@20. 49 Bang 4-8 So sánh với một số mô hình quá khứ bằng F2.---2- 2 ¿5255249 Bảng 4-9 Dữ liệu thu thập bi Sat.- - - 2c c1 222113311113 131 E111 1EEerrkre 51 Bang 4-10 Ví du về điều luật liên quan có độ phức tap ngữ nghĩa cao.

52 DANH MỤC TỪ VIET TAT ConPBB CondenserPhoBERToase ConPBL CondenserPhoTiarg BERe MLP Multilayer perceptron NLP Natural language processing SBERT Sentence-BERT SNN Siamese neural network SPhoBERTbase Sentence-PhoBER Thase SPhoBERTlarge Sentence-PhoBERTuarge SViBERT Sentence- ViBERT TOM TAT KHÓA LUẬN Trong những năm gần đây, nhờ những đột phá trong kỹ thuật mạng nơ-ron đặc biệt là các mô hình ngôn ngữ sử dụng transformer, việc xử lý ngôn ngữ tự nhiên đã đạt được nhiều thành tựu ấn tượng. Lượng dữ liệu ngày càng nhiều đặc biệt là dữ liệu về văn bản dẫn đến nhu cầu truy xuất thông tin văn bản là cấp thiết. Truy van văn bản pháp luật là một nhánh của truy xuất thông tin. Qua nhiều sự kiện nóng những năm qua như nghệ sĩ từ thiện, các quy định mới về covid.

nhu cầu tìm kiếm đúng văn bản pháp luật cần thiết là vô cùng thiết yếu với người dân. Tuy nhiên, truy vấn văn bản pháp luật vẫn là một nhánh khó của xử lý ngôn ngữ tự nhiên. Các câu luật thường dài, chưa các thuật ngữ pháp lý phức tạp. Các mô hình hoạt động tốt trên các bản khác vẫn gặp thách thức trong việc xử lý văn bản bản pháp luật.

Dé giải quyết van đề trên, khóa luận này sẽ trình bay các phương pháp tiếp cận truy xuất thông tin trong văn bản pháp luật sử dụng các kỹ thuật học sâu hiện đại và cách cải thiện các phương pháp này. Dense retrieval dựa trên sentence-transformer là nền tảng chính của khóa luận này. Tôi đã sử dụng một số pre-trained model cho tiếng Việt như PhoBERT, ViBERT cũng như huấn luyện mô hình chuyên dụng cho dense retrieval dựa trên các pre-trained model như Condenser. Ngoài ra, việc tao pipeline, so sánh kết qua các mô hình cũng như chọn diém đánh giá (ranking score) cũng sẽ được trình bày.

TONG QUAN DE TÀI 1. Ly do lựa chọn đề tài Tại thế kỷ 21, với sự bùng nỗ của Internet đã dẫn đến nhiều hệ quả cho xã hội, ở Việt Nam đã có nhiều sự thay đổi để đáp ứng lại những hệ quả này tiêu biéu là luật an ninh mạng. Hơn thế nữa, những năm gần đây do đại dịch Covid, nhiều điều luật cũng được ban hành dé thích ứng với đại dịch. Cùng với đó các lùm xùm liên quan đến những nghệ sĩ và các quy định xử phạt cũng nhận được sự quan tâm cực kỳ đông đảo của nhân dân Việt Nam.

Vì các lý do trên cùng với sự gia tăng không 16 về số lượng cũng như các thay đôi dé phù hợp với nhu cầu xã hội hiện nay, việc tạo ra một hệ thống truy xuất thông tin văn bản pháp luật có độ chính xác cao là vấn đề không chỉ quan trọng mà còn rât câp thiết. Với xã hội, xử lý ngôn ngữ tự nhiên mới đạt được những kết quả đáng kể trong những năm gần đây, trong khi luật là lĩnh vực đã gắn bó với con người hàng thế kỷ từ khi hình thành các quốc gia. Học chuyên tiếp (transfer learning) và các mô hình tiền huấn luyện (pre-trained language model) là các cách tiếp cận mạnh mẽ và đạt hiệu quả cao trong các tác vụ. Tuy nhiên, trong một lĩnh vực chuyên biệt như luật, đặc biệt pháp luật Việt Nam có rất ít bài báo chứng minh được hiệu quả của những cách tiếp cận này.

Do đó một khóa luận chỉ tiết về các phương pháp áp dụng học sâu vào xử lý văn bản pháp luật là thông tin hữu ích cho sự phát triển của lĩnh vực này. Giới thiệu bài toán Theo như cuốn “Introduction to Information Retrieval” [1], định nghĩa về truy xuất thông tin có thể dịch ra như sau: “Truy xuất thông tin là tìm vật liệu! (thường là tài liệu) của đặc tính phi cau trúc? (thường là văn bản) phù hợp với thông tin cần thiết từ bộ sưu tập lớn (thường được lưu trong máy tính)”. Tại Việt Nam, truy xuất thông ! Tài liệu gốc là material ? Tài liệu gốc là unstructed nature tin còn có thé được gọi với một số tên gọi khác như truy hôi thông tin hay truy van thông tin. Trong những năm gần đây, lĩnh vực xử lý ngôn ngữ tự nhiên đã có nhiều bước tiến đáng kế với sự ra đời của cơ chế chú ý (attention mechanism); các tập dữ liệu ngày càng lớn hơn, chất lượng hơn và phần cứng ngày càng mạnh mẽ.

Với sự phát triển các công cụ tìm kiếm mà phổ biến nhất là Google, chúng ta sẽ kiếm được thông tin không những nhanh chóng, chính xác mà còn được cập nhật liên tục. Việc mỗi người sử dụng các công cụ tìm kiếm như Google cũng chính là đang thực hiện truy xuất thông tin một cách tự động. Xét trên khía cạnh lĩnh vực có nhiều lĩnh vực cần được truy xuất thông tin như: sức khỏe, làm đẹp,. Trong đó bài toán truy xuất văn bản pháp luật (legal text retrieval) rat quan trọng và có nhiều ý nghĩa trong thực tiễn.

Tuy nhiên, bài toán này rất khó giải quyết bởi nhiều yếu tố: các văn bản luật thường dài, từ chuyên ngành nhiều với độ khó cao. Có rất nhiều câu hỏi có thể làm khó cả chuyên gia trong lĩnh vực pháp luật đề tìm chính xác tất cả các điều khoản có thê giải đáp câu hỏi. Hình 1-1 minh họa một ví dụ của bài toán. Tổng quan bài toán như sau: - Dau vào: Một truy van? (câu hỏi) liên quan đến pháp luật.

- aura: Danh sách một hoặc nhiêu điêu luật có thê được sử dụng dé trả lời cho truy vấn (có thé gọi ngắn lại là điều luật liên quan).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Khóa luận tốt nghiệp CNTT với tiêu đề "Truy Xuất Văn Bản Pháp Luật Tiếng Việt Bằng Học Sâu" tập trung vào việc ứng dụng công nghệ học sâu để truy xuất và xử lý văn bản pháp luật bằng tiếng Việt. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp hiện đại trong lĩnh vực xử lý ngôn ngữ tự nhiên mà còn nêu bật những thách thức và giải pháp trong việc làm việc với dữ liệu pháp lý. Độc giả sẽ được trang bị kiến thức về cách thức mà học sâu có thể cải thiện độ chính xác và hiệu quả trong việc truy xuất thông tin, từ đó nâng cao khả năng tiếp cận và sử dụng văn bản pháp luật.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ trong lĩnh vực CNTT, bạn có thể tham khảo các tài liệu liên quan như Nghiên cứu các phương pháp trích xuất thông tin trong ảnh tài liệu và ứng dụng, nơi bạn sẽ tìm hiểu về cách trích xuất thông tin từ hình ảnh tài liệu, hoặc Luận văn thạc sĩ khoa học máy tính sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition, tài liệu này sẽ giúp bạn hiểu rõ hơn về việc áp dụng học máy trong nhận diện giọng nói. Cuối cùng, bạn cũng có thể xem xét Luận văn thạc sĩ khoa học máy tính hỗ trợ suy luận trong điều khiển truy xuất dữ liệu GIS, để khám phá thêm về việc sử dụng công nghệ trong quản lý và truy xuất dữ liệu địa lý. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về các ứng dụng của công nghệ trong lĩnh vực CNTT.

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#khóa luận tốt nghiệp

#văn bản pháp lý

#truy xuất văn bản

#pháp luật tiếng Việt

Chủ đề

Công nghệ thông tin

xử lý ngôn ngữ

học sâu ứng dụng

Khóa luận tốt nghiệp công nghệ thông tin truy xuất văn bản pháp luật tiếng việt sử dụng học sâu

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1. Lý do lựa chọn đề tài

1.2. Các công trình liên quan

1.2.1. Các phương pháp truyền thống cho truy xuất thông tin

1.2.2. Các hướng tiếp cận transformer cross-encoder

1.2.3. Các hướng tiếp cận transformer bi-encoder

1.2.4. Các vấn đề còn tồn tại

1.3. Cấu trúc khóa luận

2. CHƯƠNG 2: PHƯƠNG PHÁP VÀ KỸ THUẬT LIÊN QUAN

2.1. Các phương pháp truyền thống cho truy xuất thông tin

2.2. Sơ bộ về học sâu

2.3. Mạng nơ-ron tuyến tính

2.4. Perceptron đa lớp

2.5. Một số mô hình ngôn ngữ được tiền huấn luyện

2.6. Biểu diễn đầu vào của BERT. Mô hình ngôn ngữ có mặt nạ. Dự đoán câu kế tiếp

2.7. Che mặt nạ tĩnh và che mặt nạ linh hoạt. Không còn sử dụng dự đoán câu sau

2.8. Siamese neural network. Tổng quan về siamese neural network

2.9. Áp dụng SNN vào bài toán tìm kiếm ngữ nghĩa. Hướng tiếp cận transformer bi-encoder cho tìm kiếm ngữ nghĩa

2.10. Hạn chế của các mô hình dựa theo kiến trúc transformer. Tóm tắt về Condenser

2.11. Phương pháp tiến hành. Pipeline tổng quan. Tiền xử lý và phân tích tổng quan bộ dữ liệu. Kiểm tra và làm sạch bộ dữ liệu

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thống kê bộ ngữ liệu văn bản pháp luật

3.2. Thống kê bộ dữ liệu hỏi đáp

3.3. Tiến hành thực nghiệm

3.3.1. Huấn luyện mô hình BM25Plus

3.3.2. Tinh chỉnh PhoBERT, ViBERT

3.3.3. Tinh chỉnh Condenser. Cách thức chọn các cặp câu cho việc huấn luyện. Huấn luyện sentence-transformer

3.3.4. Kết hợp các mô hình thành hệ thống truy xuất thông tin. Các độ đo đánh giá mô hình

4. CHƯƠNG 4: THỰC NGHIỆM, NHẬN XÉT VÀ ĐÁNH GIÁ KẾT QUẢ

4.1. Môi trường thực nghiệm

4.2. Cách chọn ra các điều luật để đánh giá trên 2 độ đo

4.3. Kết quả BM25Plus

4.4. Kết quả sau vòng hai huấn luyện sentence-transformer

4.5. Kết quả sau vòng ba huấn luyện sentence-transformer

4.6. So sánh với một số mô hình trong quá khứ

4.7. Phân tích hậu thực nghiệm

4.8. Phân tích điểm số trên từng lớp truy vấn

4.9. Các yếu tố của dữ liệu gây khó khăn cho mô hình

4.10. Hướng phát triển

TÀI LIỆU THAM KHẢO

I. Tổng quan về khóa luận tốt nghiệp

1.1. Lý do chọn đề tài

1.2. Giới thiệu bài toán

II. Phương pháp và kỹ thuật liên quan

2.1. Các phương pháp truyền thống

2.2. Các hướng tiếp cận transformer

III. Thực nghiệm và đánh giá

3.1. Pipeline thực nghiệm

3.2. Kết quả và phân tích

IV. Kết luận và hướng phát triển

4.1. Giá trị thực tiễn

4.2. Hướng phát triển tương lai

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Phạm Nhật Minh

Người hướng dẫn: TS. Đỗ Trọng Hợp

Trường học: Đại học Quốc gia TP. Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành: Công nghệ Thông tin

Đề tài: Truy Xuất Văn Bản Pháp Luật Tiếng Việt Bằng Học Sâu

Loại tài liệu: Khóa luận tốt nghiệp

Năm xuất bản: 2022

Địa điểm: TP. Hồ Chí Minh

SINH VIÊN CŨNG XEM