Luận văn thạc sĩ về nhận diện tên riêng tiếng Việt bằng phương pháp học sâu

Luận văn thạc sĩ nghiên cứu phương pháp học sâu để nhận diện tên riêng tiếng Việt, góp phần nâng cao hiệu quả xử lý ngôn ngữ tự nhiên.

Trường đại học

Trường Đại Học Thủ Dầu Một

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2019

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan về nhận diện tên riêng tiếng Việt bằng học sâu

Nhận diện tên riêng tiếng Việt là một trong những nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên. Với sự phát triển của công nghệ, việc áp dụng các phương pháp học sâu đã mang lại những kết quả khả quan trong việc nhận diện tên riêng. Hệ thống nhận diện tên riêng không chỉ giúp cải thiện độ chính xác trong việc phân loại mà còn hỗ trợ nhiều ứng dụng khác nhau như dịch máy, tóm tắt văn bản và trích xuất thông tin.

1.1. Khái niệm và tầm quan trọng của nhận diện tên riêng

Nhận diện tên riêng (NER) là quá trình xác định và phân loại các thực thể tên riêng trong văn bản. Điều này bao gồm tên người, địa điểm, tổ chức và các thực thể khác. Việc nhận diện chính xác các tên riêng giúp cải thiện khả năng tìm kiếm và phân tích dữ liệu trong các ứng dụng xử lý ngôn ngữ tự nhiên.

1.2. Các ứng dụng của nhận diện tên riêng trong tiếng Việt

Nhận diện tên riêng có nhiều ứng dụng thực tiễn trong các lĩnh vực như thương mại điện tử, dịch vụ khách hàng và phân tích dữ liệu. Hệ thống nhận diện tên riêng có thể giúp tự động hóa quy trình tìm kiếm thông tin và cải thiện trải nghiệm người dùng.

II. Thách thức trong nhận diện tên riêng tiếng Việt

Mặc dù có nhiều tiến bộ trong lĩnh vực nhận diện tên riêng, nhưng vẫn tồn tại nhiều thách thức đặc thù cho tiếng Việt. Ngôn ngữ này có cấu trúc ngữ pháp phức tạp và sự đa dạng trong cách sử dụng từ ngữ, điều này gây khó khăn cho việc phát triển các mô hình học sâu hiệu quả.

2.1. Đặc điểm ngôn ngữ tiếng Việt ảnh hưởng đến NER

Tiếng Việt có nhiều từ đồng âm và từ đa nghĩa, điều này làm cho việc phân loại tên riêng trở nên khó khăn hơn. Hệ thống cần phải có khả năng phân tích ngữ cảnh để xác định đúng thực thể.

2.2. Thiếu hụt dữ liệu huấn luyện cho mô hình

Nguồn dữ liệu huấn luyện cho tiếng Việt còn hạn chế, điều này ảnh hưởng đến khả năng học của các mô hình học sâu. Việc thu thập và xây dựng bộ dữ liệu phong phú là rất cần thiết để cải thiện độ chính xác của hệ thống.

III. Phương pháp học sâu trong nhận diện tên riêng tiếng Việt

Phương pháp học sâu đã được áp dụng để giải quyết bài toán nhận diện tên riêng tiếng Việt. Các mô hình như BiLSTM và LSTM đã cho thấy hiệu quả cao trong việc phân loại tên riêng. Việc kết hợp các đặc trưng cú pháp và từ nhúng giúp cải thiện độ chính xác của mô hình.

3.1. Mô hình BiLSTM trong nhận diện tên riêng

Mô hình BiLSTM (Bidirectional Long Short-Term Memory) cho phép xử lý thông tin theo cả hai chiều, giúp cải thiện khả năng nhận diện tên riêng trong văn bản. Mô hình này đã được chứng minh là hiệu quả trong nhiều nghiên cứu trước đây.

3.2. Kết hợp từ nhúng và đặc trưng cú pháp

Việc sử dụng từ nhúng đã được huấn luyện sẵn kết hợp với các đặc trưng cú pháp tự động giúp mô hình học sâu có thể hiểu rõ hơn về ngữ cảnh và ý nghĩa của các từ trong văn bản, từ đó nâng cao độ chính xác trong nhận diện tên riêng.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

Nghiên cứu đã cho thấy rằng hệ thống nhận diện tên riêng tiếng Việt sử dụng phương pháp học sâu có thể đạt được độ chính xác cao. Kết quả thực nghiệm cho thấy mô hình BiLSTM kết hợp với từ nhúng cho kết quả tốt nhất, đạt 92,06%. Hệ thống này có thể được ứng dụng trong nhiều lĩnh vực khác nhau.

4.1. Đánh giá hiệu suất của mô hình

Mô hình đã được đánh giá trên nhiều khía cạnh khác nhau, bao gồm độ chính xác, độ phủ và độ F1. Kết quả cho thấy mô hình BiLSTM kết hợp với từ nhúng cho hiệu suất tốt nhất trong việc nhận diện tên riêng.

4.2. Ứng dụng thực tiễn của hệ thống

Hệ thống nhận diện tên riêng có thể được ứng dụng trong các dịch vụ trực tuyến, giúp người dùng dễ dàng tìm kiếm và phân tích thông tin. Ngoài ra, nó cũng có thể hỗ trợ trong việc phát triển các ứng dụng dịch máy và tóm tắt văn bản.

V. Kết luận và hướng phát triển tương lai

Nghiên cứu về nhận diện tên riêng tiếng Việt bằng phương pháp học sâu đã mở ra nhiều cơ hội mới cho việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên. Hướng phát triển trong tương lai có thể tập trung vào việc cải thiện độ chính xác của mô hình và mở rộng khả năng nhận diện cho các loại thực thể khác.

5.1. Hướng phát triển mô hình trong tương lai

Cần tiếp tục nghiên cứu và phát triển các mô hình học sâu mới, cải thiện khả năng nhận diện tên riêng và mở rộng cho các loại thực thể khác như thời gian, địa điểm và tổ chức.

5.2. Tích hợp công nghệ mới vào hệ thống

Việc tích hợp các công nghệ mới như học tăng cường và mạng nơ ron sâu có thể giúp nâng cao hiệu suất của hệ thống nhận diện tên riêng, từ đó mở rộng khả năng ứng dụng trong nhiều lĩnh vực khác nhau.

24/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nhận diện tên riêng tiếng việt bằng phương pháp học sâu

Tải đầy đủ

Trích đoạn nội dung tài liệu

UBND TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN ANH DŨNG NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT BẰNG PHƢƠNG PHÁP HỌC SÂU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƢỜI HƢỚNG DẪN KHOA HỌC TS. BÙI THANH HÙNG BÌNH DƢƠNG - 2019 LỜI CAM ĐOAN Tôi là Nguyễn Anh Dũng, học viên lớp CH16HT, ngành Hệ thống thông tin, trƣờng Đại học Thủ Dầu Một. Tôi cam đoan, luận văn của tôi với đề tài ―Nhận diện tên riêng tiếng Việt bằng phƣơng pháp học sâu‖ là do tôi tìm hiểu, nghiên cứu và đƣợc sự hƣớng dẫn tận tình của TS. Bùi Thanh Hùng, luận văn này của tôi có tham khảo từ các bài báo, tài liệu, công trình nghiên cứu của ngƣời khác nhƣng tôi đều ghi rõ trong tài liệu tham khảo.

Tôi xin chịu trách nhiệm về lời cam đoan này. Bình Dương, ngày 01 tháng 6 năm 2019 Ngƣời viết luận văn Nguyễn Anh Dũng ii LỜI CẢM ƠN Trong quá trình thực hiện luận văn ―Nhận diện tên riêng tiếng Việt bằng phƣơng pháp học sâu‖, tôi đã đƣợc sự hƣớng dẫn nhiệt tình của TS. Bùi Thanh Hùng. Thầy đã dành rất nhiều thời gian quý báu của mình để hƣớng dẫn chi tiết, nghe báo cáo thử và động viên tinh thần tôi trong những lúc khó khăn khi thực hiện luận văn.

Tôi chân thành cảm ơn thầy! Tôi cũng bày tỏ lòng biết ơn sâu sắc đến các thầy cô đã giảng dạy tôi tận tình, truyền đạt những kiến thức bổ ích cho tôi trong suốt thời gian học tại trƣờng và các thầy cô của trƣờng Đại học Thủ Dầu Một đã tạo điều kiện tốt nhất để tôi hoàn thành luận văn này. Cuối cùng, tôi cũng gửi lời cảm ơn đến gia đình, đồng nghiệp, các anh chị học chung lớp đã đoàn kết, giúp đỡ, động viên tôi trong suốt thời gian học vừa qua. Một lần nữa, tôi xin trân trọng cảm ơn. Bình Dƣơng, ngày tháng năm 2019 Ngƣời viết luận văn iii MỤC LỤC MỤC LỤC.

IV TÓM TẮT LUẬN VĂN .1 DANH MỤC TỪ VIẾT TẮT .2 DANH MỤC CÁC BẢNG.3 DANH MỤC HÌNH VẼ, ĐỒ THỊ. GIỚI THIỆU CHUNG. LÍ DO THỰC HIỆN ĐỀ TÀI. MỤC TIÊU NGHIÊN CỨU.

ĐỐI TƢỢNG, PHẠM VI NGHIÊN CỨU. PHƢƠNG PHÁP NGHIÊN CỨU. Ý NGHĨA KHOA HỌC VÀ Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI. Ý nghĩa khoa học.

Ý nghĩa thực tiễn. BỐ CỤC LUẬN VĂN .9 CHƢƠNG II. XỬ LÝ NGÔN NGỮ TỰ NHIÊN. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging).

Xác định cụm từ (Chunking). Phân tích cú pháp (Parsing). CÁC PHƢƠNG PHÁP BIỂU DIỄN TỪ DƢỚI DẠNG VÉC TƠ. Biểu diễn túi từ - Bag of words .2 Biểu diễn One-hot-vector.

Túi từ liên tục - CBOW. HỌC SÂU - DEEP LEARNING. Mạng nơ ron nhân tạo (ANN). Mạng nơ-ron hồi quy RNN (Recurrent Neural Network).

Bộ nhớ dài-ngắn LSTM (Long-short term memory). Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory). NHẬN DIỆN TÊN RIÊNG (NAME ENTITY RECOGNITION – NER). Tổng quan về bài toán Nhận diện tên riêng.

Hướng tiếp cận nghiên cứu. Các nghiên cứu gần đây. Đề xuất hướng nghiên cứu .45 CHƢƠNG III. MÔ HÌNH ĐỀ XUẤT.

TỔNG QUAN MÔ HÌNH ĐỀ XUẤT. CÁC ĐẶC TRƢNG CỦA MÔ HÌNH ĐỀ XUẤT. Từ nhúng – Word embeddings. Các đặc trưng cú pháp.

NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT .1 Mô hình học sâu trong bài toán nhận diện tên riêng tiếng Việt. Nhận diện tên riêng.53 CHƢƠNG IV. KHO DỮ LIỆU VLSP. PHƢƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH .1 Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng từ .2 Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác nhau.3 Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng từ .4 Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ Dropout khác nhau.

XÂY DỰNG ỨNG DỤNG WEB TRỰC QUAN HÓA KẾT QUẢ. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN. KẾT QUẢ ĐẠT ĐƢỢC. HƢỚNG PHÁT TRIỂN .67 TÀI LIỆU THAM KHẢO .68 v TÓM TẮT LUẬN VĂN Trong thời đại công nghiệp 4.0 hiện nay, khoa học công nghệ đang ở giai đoạn phát triển mạnh mẽ đặc biệt là trong lĩnh vực công nghệ thông tin và truyền thông.

Nhu cầu giao tiếp, thƣơng mại điện tử và tìm kiếm thông tin rất lớn, vì thế một số ứng dụng xử lý ngôn ngữ tự nhiên nhƣ tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thông tin và trả lời câu hỏi tự động ngày càng phát triển. Những ứng dụng này đƣợc phát triển dựa trên nền tảng của một số các tác vụ xử lý ngôn ngữ tự nhiên khác và nhận diện tên riêng trong văn bản là một trong những tác vụ nền tảng quan trọng. Nhận diện tên riêng trong văn bản đã đƣợc nghiên cứu trên nhiều ngôn ngữ nhƣ tiếng Anh, tiếng Nhật, tiếng Trung,… bằng nhiều phƣơng pháp khác nhau và đã đạt đƣợc nhiều kết quả khả quan. Các phƣơng pháp học máy trƣớc đây nhƣ SVM, Cây quyết định, … cho kết quả phân loại tên riêng cũng khá tốt.

Ngày nay, sự phát triển của phần cứng máy tính đã giải quyết đƣợc một số thuật toán phức tạp với tốc độ xử lý nhanh nên hƣớng nghiên cứu sử dụng phƣơng pháp học sâu Deep Learning huấn luyện trên tập dữ liệu lớn cho kết quả tốt hơn nhiều so với các hệ thống trƣớc không sử dụng phƣơng pháp học sâu. Luận văn của tôi với đề tài ―Nhận diện tên riêng tiếng Việt bằng phƣơng pháp học sâu‖ dựa trên những nghiên cứu trƣớc đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện tên riêng cho tiếng Việt (ViNER) bằng cách kết hợp các đặc trƣng cú pháp tự động với các từ nhúng đƣợc huấn luận sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM). Tôi huấn luyện hệ thống này trên tập dữ liệu VLSP 2016. Bộ dữ liệu này gồm 3 tập dữ liệu huấn luyện, phê chuẩn và kiểm tra.

Mỗi tập dữ liệu gồm 4 cột: Từ hoặc từ ghép, POS, CHUNK và TAG. Sau khi huấn luyện và đánh giá thực nghiệm hệ thống trên nhiều khía cạnh khác nhau bằng Độ đo chính xác (Accuracy), tôi nhận thấy hệ thống kết hợp các đặc trƣng cú pháp tự động với các từ nhúng đƣợc huấn luận sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết quả cao nhất đạt 92,06%. Luận văn cũng đề xuất xây dựng một ứng dụng web hỗ trợ nhận diện 4 loại tên riêng tên ngƣời, tên tổ chức, tên địa điểm, tên khác cho một đoạn văn bản đƣợc ngƣời dùng nhập vào. 1 DANH MỤC TỪ VIẾT TẮT Từ viết tắt Từ chuẩn Diễn giải Nhận diện thực thể đƣợc đặt tên hay nhận NER Named Entity Recognition diện tên riêng Vietnamese Named Entity ViNER Nhận diện tên riêng tiếng Việt Recognition Natural Languague NLP Xử lý ngôn ngữ tự nhiên Processing RNN Recurrent Neural Network Mạng nơ ron hồi quy LSTM Long short-term memory Mạng nơ ron bộ nhớ ngắn – dài Bidirectional Long short- BiLSTM Mạng nơ ron bộ nhớ ngắn – dài song song term memory POS Part-of-Speech Từ loại (N, A, R, …) CHUNK Tách câu thành các cụm từ (Cụm danh từ, Chunking cụm động từ, …) CBOW Continuous Bag of Words Túi từ liên tục PER Person Tên riêng chỉ ngƣời LOC Location Tên riêng chỉ địa điểm ORG Organization Tên riêng chỉ tổ chức MISC Miscellaneous Tên riêng khác không thuộc Per, Loc, Org Vietnamese Language and VLSP Xử lí ngôn ngữ và tiếng nói Việt Nam Speech Processing 2 DANH MỤC CÁC BẢNG Bảng 2.

Minh họa ví dụ tách từ. Nhãn cụm từ cho hệ phân cụm từ Việt. Các đặc trƣng đƣợc sinh tự động. Một đặc trƣng véc tơ đầu vào cho mô hình.

Số lƣợng các thực thể trong tập dữ liệu. Thống kê về dữ liệu. Thống kê chi tiết dữ liệu VLSP 2016. Tham số của mô hình huấn luyện.

Độ chính xác của hệ thống khi sử dụng các phƣơng pháp học sâu 60 Bảng 4. Kết quả so sánh giữa các lớp. Kết quả của các Dropout khác nhau. Kết quả so sánh giữa các đặc trƣng.

Các tham số và đặc trƣng tối ƣu cho mô hình huấn luyện_đánh giá hệ thống ViNER .62 3 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2. Mô hình xử lý ngôn ngữ tự nhiên. Trích xuất (nhận diện) các thực thể trong văn bản. Mô hình hoạt động của bộ phân cụm từ Việt.

Biểu diễn từ thành ma trận véc tơ 50 chiều. Mô hình Word2vector. Mô hình Continuous Bag of Words. Mô hình CBOW chi tiết.

Mô hình Skip gram trong Word2vec. Mô hình mạng nơ ron 1 lớp ẩn của Word2vec. Ma trận trọng số của lớp ẩn của mô hình Word2vec. Lớp ẩn của mô hình hoạt động nhƣ một bảng tra cứu.

Mối tƣơng quan giữa từ ―ants‖ và từ ―car‖. Lƣợc sử học sâu Deep Learning. Error! Bookmark not defined. Một nơ ron sinh học.

Mô hình nơ ron. Mô hình mạng nơ ron ANN. Quá trình xử lý thông tin trong mạng RNN. RNN phụ thuộc short-term.

RNN phụ thuộc long-term. Các mô-đun lặp của mạng RNN chứa một layer. Các mô-đun lặp của mạng LSTM chứa bốn layer. Các kí hiệu sử dụng trong mạng LSTM.

Tế bào trạng thái LSTM giống nhƣ một băng truyền. Cổng trạng thái LSTM. Mô hình Bidirectional LSTM sử dụng 2 mạng nơ-ron LSTM. Mạng Bi-LSTM cho NER.

Trích xuất (nhận diện) các thực thể trong văn bản. Mô hình đề xuất cơ bản cho nhận diện tên riêng tiếng Việt. Mô hình xây dựng vector Word embedding. Hệ thống nhận diện tên riêng tiếng Việt chi tiết ViNER.

Mô hình học sâu 2 lớp BiLSTM cho hệ thống ViNER. Chi tiết một phần dữ liệu huấn luyện trong mô hình ViNER. Giao diện chính của trang web. Giao diện phân tích dữ liệu.

Giao diện phân tích kết quả. Các đặc trƣng đƣợc tạo tự động bởi công cụ Underthesea. So sánh nhãn tên riêng của ViNER và Underthesea. Giao diện Demo thực tế.

GIỚI THIỆU CHUNG 1. Lí do thực hiện đề tài Dữ liệu lớn (Big data), Trí tuệ nhân tạo (AI) và Internet vạn vật (IOT) là ba nhân tố quan trọng trong Cuộc cách mạng công nghiệp 4.0 đang bùng nổ và phát triển mạnh mẽ. Thành phần cốt lõi của ba nhân tố trên chính là các phƣơng pháp học máy (machine learning - ML) và Xử lí ngôn ngữ tự nhiên Natural Language Processing (NLP) là một trong số những bài toán của Trí tuệ nhân tạo với nhiều chủ đề nhƣ: tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thông tin và trả lời câu hỏi tự động, .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ nhận dạng thực thể

Xử lý ngôn ngữ tự nhiên tiếng Việt

Ứng dụng học sâu trong NLP

Luận văn thạc sĩ về nhận diện tên riêng tiếng Việt bằng phương pháp học sâu

I. Tổng quan về nhận diện tên riêng tiếng Việt bằng học sâu

1.1. Khái niệm và tầm quan trọng của nhận diện tên riêng

1.2. Các ứng dụng của nhận diện tên riêng trong tiếng Việt

II. Thách thức trong nhận diện tên riêng tiếng Việt

2.1. Đặc điểm ngôn ngữ tiếng Việt ảnh hưởng đến NER

2.2. Thiếu hụt dữ liệu huấn luyện cho mô hình

III. Phương pháp học sâu trong nhận diện tên riêng tiếng Việt

3.1. Mô hình BiLSTM trong nhận diện tên riêng

3.2. Kết hợp từ nhúng và đặc trưng cú pháp

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

4.1. Đánh giá hiệu suất của mô hình

4.2. Ứng dụng thực tiễn của hệ thống

V. Kết luận và hướng phát triển tương lai

5.1. Hướng phát triển mô hình trong tương lai

5.2. Tích hợp công nghệ mới vào hệ thống

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Anh Dũng

Người hướng dẫn: TS. Bùi Thanh Hùng

Trường học: Trường Đại Học Thủ Dầu Một

Chuyên ngành: Hệ Thống Thông Tin

Đề tài: Nhận Diện Tên Riêng Tiếng Việt Bằng Phƣơng Pháp Học Sâu

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2019

Địa điểm: Bình Dương

Luận văn thạc sĩ về nhận diện tên riêng tiếng Việt bằng phương pháp học sâu

I. Tổng quan về nhận diện tên riêng tiếng Việt bằng học sâu

1.1. Khái niệm và tầm quan trọng của nhận diện tên riêng

1.2. Các ứng dụng của nhận diện tên riêng trong tiếng Việt

II. Thách thức trong nhận diện tên riêng tiếng Việt

2.1. Đặc điểm ngôn ngữ tiếng Việt ảnh hưởng đến NER

2.2. Thiếu hụt dữ liệu huấn luyện cho mô hình

III. Phương pháp học sâu trong nhận diện tên riêng tiếng Việt

3.1. Mô hình BiLSTM trong nhận diện tên riêng

3.2. Kết hợp từ nhúng và đặc trưng cú pháp

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

4.1. Đánh giá hiệu suất của mô hình

4.2. Ứng dụng thực tiễn của hệ thống

V. Kết luận và hướng phát triển tương lai

5.1. Hướng phát triển mô hình trong tương lai

5.2. Tích hợp công nghệ mới vào hệ thống

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Anh Dũng

Người hướng dẫn: TS. Bùi Thanh Hùng

Trường học: Trường Đại Học Thủ Dầu Một

Chuyên ngành: Hệ Thống Thông Tin

Đề tài: Nhận Diện Tên Riêng Tiếng Việt Bằng Phƣơng Pháp Học Sâu

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2019

Địa điểm: Bình Dương

Có thể bạn quan tâm