Luận văn thạc sĩ: Ứng dụng học sâu trong mô hình rút trích thông tin

Luận văn thạc sĩ kỹ thuật nghiên cứu máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện

Trường đại học

Đại học Quốc gia TP.HCM Trường Đại học Bách Khoa

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu đề tài

1.2. Mô tả bài toán rút trích đồng thời thực thể và quan hệ

1.3. Mục tiêu và nhiệm vụ của luận văn

1.4. Giới hạn đề tài

1.5. Đóng góp của luận văn

1.6. Tóm tắt nội dung

2. CHƯƠNG 2: CƠ SỞ KIẾN THỨC

2.1. Mô hình Artificial Neural Network - ANN

2.2. Mô hình Recurrent Neural Network - RNN

2.3. Mô hình Long Short-Term Memory

3. CHƯƠNG 3: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Hướng tiếp cận span-based

3.2. Mô hình đa tác vụ cho bài toán rút trích quan hệ và thực thể

3.3. BERT ra đời và sự trở lại của hệ thống pipeline

4. CHƯƠNG 4: CÁC MÔ HÌNH ĐỀ XUẤT

4.1. Mô hình tham khảo

4.2. Phương pháp đánh giá

4.3. Đề xuất 1: Sử dụng thông tin loại thực thể vào dự đoán quan hệ

4.4. Đề xuất 2: Sử dụng thông tin loại quan hệ vào dự đoán thực thể

4.5. Đề xuất 3: Tích hợp thông tin dependency parse vào dự đoán quan hệ

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu đề tài

Trong bối cảnh hiện đại, với sự bùng nổ thông tin từ Internet, việc rút trích thông tin quan trọng trở thành một nhu cầu thiết yếu. Mô hình rút trích thông tin sử dụng học sâu giúp chuyển đổi dữ liệu không cấu trúc thành dữ liệu có cấu trúc, từ đó hỗ trợ các ứng dụng như hỏi đáp, phân tích cảm xúc và tổng hợp văn bản. Bài toán rút trích đồng thời thực thể và quan hệ (joint entity and relation extraction) được giới thiệu như một phương pháp hiệu quả trong việc xử lý thông tin. Đầu vào của mô hình là một câu, trong khi đầu ra là danh sách thực thể và quan hệ giữa chúng, điều này giúp cải thiện độ chính xác và giảm thiểu lỗi trong quá trình rút trích.

II. Cơ sở kiến thức

Mô hình Artificial Neural Network (ANN) và các biến thể như Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM) là những nền tảng quan trọng trong machine learning. Các mô hình này giúp xử lý dữ liệu tuần tự, rất phù hợp cho các tác vụ liên quan đến xử lý ngôn ngữ tự nhiên. Cơ chế hoạt động của ANN bắt nguồn từ cấu trúc nơ-ron sinh học, giúp mô hình hóa quá trình xử lý thông tin. Việc áp dụng các kỹ thuật học sâu trong rút trích thông tin không chỉ nâng cao hiệu suất mà còn mở ra hướng nghiên cứu mới trong việc cải thiện độ chính xác của các mô hình hiện tại.

III. Các công trình nghiên cứu liên quan

Nghiên cứu về rút trích đồng thời thực thể và quan hệ đã được phát triển mạnh mẽ trong những năm gần đây. Các mô hình như e2e-coref đã mở ra hướng nghiên cứu mới cho bài toán này. Việc áp dụng các mô hình đa tác vụ (multi-task) cho phép chia sẻ thông tin giữa các tác vụ khác nhau, từ đó cải thiện độ chính xác cho cả việc rút trích thực thể và quan hệ. Các công trình này đã tạo nền tảng quan trọng cho nghiên cứu hiện tại, cho thấy sự cần thiết trong việc phát triển các mô hình học sâu có khả năng xử lý đồng thời nhiều tác vụ.

IV. Mô hình đề xuất

Luận văn đề xuất ba phương pháp chính để cải thiện hiệu suất của mô hình rút trích thực thể và quan hệ. Thứ nhất, sử dụng thông tin loại thực thể vào tác vụ dự đoán quan hệ giúp giảm thiểu lỗi lan truyền. Thứ hai, tích hợp thông tin loại quan hệ vào dự đoán thực thể nhằm chia sẻ thông tin giữa hai tác vụ. Cuối cùng, việc tích hợp thông tin dependency parse vào dự đoán quan hệ đã chứng minh khả năng cải thiện độ chính xác của mô hình. Các phương pháp này không chỉ nâng cao hiệu suất mà còn mở ra hướng nghiên cứu mới trong lĩnh vực khai thác thông tin.

V. Kết luận

Luận văn đã chỉ ra rằng việc áp dụng học sâu trong rút trích thông tin không chỉ mang lại kết quả tốt hơn mà còn giúp hiểu rõ hơn về mối quan hệ giữa các thực thể. Các đề xuất cải thiện mô hình đã được thử nghiệm và chứng minh tính khả thi trong thực tế. Những kết quả này mở ra cơ hội cho các nghiên cứu tiếp theo trong việc phát triển các mô hình trí tuệ nhân tạo ngày càng hoàn thiện hơn, đồng thời đáp ứng nhu cầu ngày càng cao trong việc xử lý và rút trích thông tin từ nguồn dữ liệu lớn.

09/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ dữ liệu trên Internet với hàng tỷ trang web, mạng xã hội và các ứng dụng trực tuyến, việc tự động hóa quá trình rút trích thông tin từ dữ liệu không cấu trúc trở nên cấp thiết. Theo ước tính, lượng dữ liệu phi cấu trúc chiếm phần lớn trong tổng dữ liệu số hiện nay, gây khó khăn cho việc khai thác và xử lý thông tin hiệu quả. Bài toán rút trích đồng thời thực thể và quan hệ (joint entity and relation extraction) là một trong những nhiệm vụ trọng tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và khoa học máy tính, nhằm chuyển đổi dữ liệu văn bản thành dạng có cấu trúc, phục vụ cho các ứng dụng như hệ thống hỏi đáp, phân tích cảm xúc khách hàng, tổng hợp văn bản và nhiều lĩnh vực khác.

Mục tiêu nghiên cứu của luận văn là xây dựng và cải tiến mô hình rút trích thông tin sử dụng các kỹ thuật học sâu, tập trung vào việc khai thác đồng thời thực thể và quan hệ trong câu tiếng Anh. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 9/2021 đến tháng 6/2022 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM. Luận văn đề xuất ba phương pháp cải thiện độ chính xác mô hình dựa trên mô hình tham khảo SpERT, bao gồm: sử dụng thông tin loại thực thể trong dự đoán quan hệ, sử dụng thông tin loại quan hệ trong dự đoán thực thể, và tích hợp thông tin dependency parse vào dự đoán quan hệ.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu suất rút trích thông tin, giúp giảm thiểu lỗi lan truyền trong mô hình pipeline truyền thống, đồng thời tăng cường khả năng tương tác giữa các tác vụ rút trích thực thể và quan hệ. Kết quả thực nghiệm trên tập dữ liệu SciERC cho thấy các đề xuất của luận văn cải thiện đáng kể các chỉ số precision, recall và F1-score, góp phần thúc đẩy ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng các mô hình học sâu trong xử lý ngôn ngữ tự nhiên, bao gồm:

Artificial Neural Network (ANN): Mạng nơ-ron nhân tạo mô phỏng cấu trúc và hoạt động của nơ-ron sinh học, gồm các perceptron với các hàm kích hoạt phi tuyến như sigmoid, tanh, ReLU. ANN là nền tảng cho các mô hình học sâu.
Recurrent Neural Network (RNN) và Long Short-Term Memory (LSTM): RNN xử lý dữ liệu dạng chuỗi bằng cách sử dụng trạng thái ẩn để lưu trữ thông tin trước đó. LSTM cải tiến RNN bằng cơ chế gating giúp ghi nhớ thông tin dài hạn, khắc phục vấn đề mất mát thông tin trong chuỗi dài.
Bidirectional LSTM (BiLSTM): Kết hợp hai mô hình LSTM chạy theo hai chiều ngược nhau, giúp mô hình nắm bắt ngữ cảnh cả trước và sau từ cần dự đoán.
Cơ chế Attention: Tạo trọng số chú ý cho các phần thông tin quan trọng trong chuỗi đầu vào, giúp mô hình tập trung vào các từ khóa liên quan khi dự đoán. Attention đã được chứng minh hiệu quả vượt trội trong các bài toán dịch máy và xử lý ngôn ngữ tự nhiên.
Mô hình SpERT: Mô hình end-to-end sử dụng BERT để embedding câu, biểu diễn thực thể dưới dạng span, và phân loại thực thể cùng quan hệ dựa trên vector biểu diễn span và ngữ cảnh.

Các khái niệm chính bao gồm: thực thể (entity), quan hệ (relation), span-based representation, multi-task learning, precision, recall, F1-score, micro-F1 và macro-F1.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là tập dữ liệu SciERC, một bộ dữ liệu tiếng Anh trong lĩnh vực khoa học, có gán nhãn thực thể và quan hệ. Dữ liệu được xử lý và phân tích bằng các mô hình học sâu dựa trên kiến trúc BERT và các biến thể của LSTM.

Phương pháp nghiên cứu bao gồm:

Xây dựng mô hình: Dựa trên mô hình SpERT, tác giả đề xuất ba cải tiến nhằm tăng cường tương tác giữa tác vụ rút trích thực thể và quan hệ, đồng thời tích hợp thông tin ngữ nghĩa sâu hơn như dependency parse.
Phân tích và huấn luyện: Sử dụng kỹ thuật huấn luyện không theo teacher-forcing để mô hình có thể tự điều chỉnh khi dự đoán thực thể sai, đồng thời áp dụng cổng cập nhật (update gate) để lọc thông tin loại thực thể khi dự đoán quan hệ.
Đánh giá mô hình: Sử dụng các chỉ số precision, recall và F1-score, trong đó micro-F1 được ưu tiên do tính chất phân lớp đa nhãn của bài toán. So sánh kết quả với mô hình tham khảo để đánh giá hiệu quả các đề xuất.
Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 9/2021, hoàn thành và bảo vệ luận văn vào tháng 6/2022, với các giai đoạn chính gồm tìm hiểu lý thuyết, xây dựng mô hình, thực nghiệm và đánh giá kết quả.

Cỡ mẫu dữ liệu được lựa chọn phù hợp với tập SciERC, đảm bảo tính đại diện cho lĩnh vực khoa học. Phương pháp chọn mẫu dựa trên dữ liệu có gán nhãn sẵn, phù hợp với học có giám sát.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Sử dụng thông tin loại thực thể vào dự đoán quan hệ: Việc tích hợp vector biểu diễn loại thực thể thông qua cổng cập nhật giúp mô hình giảm thiểu lỗi lan truyền (cascading errors) và cải thiện độ chính xác dự đoán quan hệ. Kết quả thực nghiệm trên SciERC cho thấy micro-F1 của tác vụ rút trích quan hệ tăng khoảng 3-5% so với mô hình tham khảo.
Sử dụng thông tin loại quan hệ vào dự đoán thực thể: Bằng cách nhúng thông tin loại quan hệ vào vector biểu diễn thực thể, mô hình tăng khả năng phân loại chính xác loại thực thể. Thí nghiệm cho thấy độ chính xác (precision) của tác vụ rút trích thực thể được cải thiện khoảng 2-4%, đồng thời tăng micro-F1 tổng thể.
Tích hợp thông tin dependency parse vào dự đoán quan hệ: Sử dụng thông tin dependency parse từ thư viện sciSpacy giúp mô hình hiểu rõ hơn cấu trúc ngữ pháp câu, từ đó nâng cao hiệu quả dự đoán quan hệ. Kết quả thực nghiệm cho thấy mức tăng micro-F1 khoảng 3% so với mô hình không sử dụng thông tin này.
Huấn luyện không theo teacher-forcing: Thay đổi phương pháp huấn luyện giúp mô hình tự điều chỉnh khi dự đoán thực thể sai, giảm thiểu ảnh hưởng tiêu cực đến tác vụ dự đoán quan hệ, góp phần cải thiện độ ổn định và hiệu suất tổng thể.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do mô hình tận dụng tốt hơn mối quan hệ tương hỗ giữa thực thể và quan hệ, thay vì xử lý độc lập như các mô hình pipeline truyền thống. Việc sử dụng cổng cập nhật giúp lọc thông tin loại thực thể phù hợp, giảm thiểu tác động của dự đoán sai trong tác vụ thực thể đến tác vụ quan hệ.

So sánh với các nghiên cứu trước đây, đặc biệt các mô hình end-to-end chưa khai thác triệt để thông tin loại thực thể và quan hệ, đề xuất của luận văn đã khắc phục được hạn chế này. Đồng thời, việc tích hợp thông tin dependency parse là một bước tiến quan trọng, bổ sung kiến thức ngữ pháp sâu sắc cho mô hình.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh micro-F1, precision và recall giữa mô hình tham khảo và các mô hình đề xuất, minh họa rõ ràng hiệu quả của từng cải tiến. Bảng kết quả chi tiết cũng giúp đánh giá mức độ đóng góp của từng thành phần trong mô hình.

Đề xuất và khuyến nghị

Triển khai mô hình tích hợp thông tin loại thực thể và quan hệ: Các tổ chức nghiên cứu và phát triển ứng dụng NLP nên áp dụng mô hình đề xuất để nâng cao độ chính xác rút trích thông tin, đặc biệt trong các lĩnh vực khoa học và kỹ thuật. Thời gian triển khai dự kiến trong vòng 6 tháng.
Phát triển hệ thống tự động cập nhật và huấn luyện mô hình không theo teacher-forcing: Giúp mô hình thích nghi tốt hơn với dữ liệu thực tế có sai sót, giảm thiểu lỗi lan truyền. Chủ thể thực hiện là các nhóm nghiên cứu AI, với timeline 3-4 tháng để tích hợp và thử nghiệm.
Tích hợp thông tin dependency parse trong các ứng dụng xử lý ngôn ngữ tự nhiên: Khuyến nghị sử dụng thư viện sciSpacy hoặc tương đương để khai thác cấu trúc ngữ pháp, nâng cao hiệu quả các tác vụ liên quan đến quan hệ thực thể. Thời gian áp dụng từ 2-3 tháng.
Đào tạo và nâng cao nhận thức cho đội ngũ phát triển về các kỹ thuật học sâu và xử lý ngôn ngữ tự nhiên: Đảm bảo việc áp dụng các mô hình mới được hiệu quả và bền vững. Chủ thể là các trung tâm đào tạo, doanh nghiệp công nghệ, với kế hoạch đào tạo liên tục hàng năm.

Các giải pháp trên không chỉ giúp cải thiện hiệu suất mô hình mà còn tăng tính khả thi và ứng dụng thực tế trong các hệ thống khai thác thông tin tự động.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo và Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức chuyên sâu về mô hình học sâu ứng dụng trong rút trích thông tin, giúp mở rộng hiểu biết và phát triển các nghiên cứu tiếp theo.
Các kỹ sư phát triển sản phẩm AI và NLP: Tham khảo để áp dụng các kỹ thuật cải tiến mô hình rút trích thực thể và quan hệ, nâng cao chất lượng sản phẩm như chatbot, hệ thống hỏi đáp, phân tích dữ liệu văn bản.
Doanh nghiệp và tổ chức sử dụng dữ liệu lớn: Có thể ứng dụng mô hình để tự động hóa quá trình xử lý và phân tích dữ liệu phi cấu trúc, từ đó nâng cao hiệu quả kinh doanh và ra quyết định dựa trên dữ liệu.
Các nhà quản lý dự án công nghệ và đào tạo: Hiểu rõ các xu hướng và kỹ thuật mới trong lĩnh vực học sâu và NLP, từ đó định hướng phát triển nguồn nhân lực và chiến lược công nghệ phù hợp.

Mỗi nhóm đối tượng sẽ nhận được lợi ích thiết thực từ việc áp dụng các kết quả nghiên cứu, giúp nâng cao năng lực chuyên môn và hiệu quả công việc.

Câu hỏi thường gặp

Tại sao cần rút trích đồng thời thực thể và quan hệ thay vì rút trích riêng biệt?
Rút trích đồng thời giúp giảm lỗi lan truyền giữa các bước, đồng thời khai thác mối quan hệ hỗ trợ lẫn nhau giữa thực thể và quan hệ, nâng cao độ chính xác tổng thể của mô hình.
Mô hình SpERT có điểm mạnh gì so với các mô hình khác?
SpERT sử dụng biểu diễn span-based kết hợp BERT embedding, giúp mô hình xử lý tốt các thực thể phức tạp và tận dụng ngữ cảnh hiệu quả, đồng thời giảm số lượng cặp thực thể cần dự đoán quan hệ.
Cơ chế teacher-forcing và non-teacher-forcing khác nhau thế nào?
Teacher-forcing sử dụng kết quả đúng trong quá trình huấn luyện để dự đoán bước tiếp theo, trong khi non-teacher-forcing cho phép mô hình tự dự đoán và điều chỉnh khi có sai sót, giúp mô hình linh hoạt hơn với dữ liệu thực tế.
Thông tin dependency parse đóng vai trò gì trong rút trích quan hệ?
Dependency parse cung cấp cấu trúc ngữ pháp câu, giúp mô hình hiểu mối quan hệ cú pháp giữa các từ, từ đó cải thiện khả năng dự đoán quan hệ chính xác hơn.
Làm thế nào để đánh giá hiệu quả mô hình rút trích thông tin?
Sử dụng các chỉ số precision, recall và F1-score, trong đó micro-F1 được ưu tiên do tính chất phân lớp đa nhãn. Các chỉ số này phản ánh sự cân bằng giữa độ chính xác và độ bao phủ của mô hình.

Kết luận

Luận văn đã nghiên cứu và phát triển thành công ba phương pháp cải tiến mô hình rút trích đồng thời thực thể và quan hệ dựa trên học sâu, nâng cao hiệu suất so với mô hình tham khảo SpERT.
Việc sử dụng thông tin loại thực thể và quan hệ, cùng với tích hợp dependency parse, giúp mô hình giảm lỗi lan truyền và tăng khả năng tương tác giữa các tác vụ.
Kết quả thực nghiệm trên tập SciERC cho thấy sự cải thiện rõ rệt về các chỉ số precision, recall và micro-F1, khẳng định tính khả thi và hiệu quả của các đề xuất.
Nghiên cứu góp phần mở rộng hiểu biết về ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên, đồng thời cung cấp cơ sở cho các nghiên cứu và ứng dụng thực tế trong tương lai.
Các bước tiếp theo bao gồm mở rộng mô hình cho các ngôn ngữ và lĩnh vực khác, tối ưu hóa hiệu suất và tích hợp vào các hệ thống khai thác thông tin tự động.

Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển tiếp các kết quả này nhằm thúc đẩy sự phát triển của lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.

Trích đoạn nội dung tài liệu

Chương 1 GIỚI THIỆU ĐỀ TÀI: giới thiệu về nhu cầu của việc rút trích thông tin hiện nay, mô tả bài toán rút trích quan hệ và thực thể, các dataset thường được sử dụng cũng như phương pháp đánh giá. − Chương 2 CƠ SỞ KIẾN THỨC: bàn về cơ sở kiến thức cơ bản trong deep learning, từ Artificial Neural Network tới Recurrent Neural Network, Long Short-Term Memory và cơ chế attention. − Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: nói về các công trình nghiên cứu liên quan, bắt đầu từ công trình e2e- coreref của Lee [1], mở ra hàng loạt công trình tiếp theo cho hướng nghiên cứu end-to-end cho bài toán rút trích đồng thời thực thể và quan hệ, và đó cũng là cơ sở quan trọng cho nghiên cứu của học viên trong luận văn. − Chương 4 CÁC MÔ HÌNH ĐỀ XUẤT: Chương 4 nói cụ thể về các mô hình đề xuất của học viên cho bài toán rút trích đồng thời thực thể 5 và quan hệ dựa trên mô hình cơ sở SpERT [2], và các kết quả thực nhiệm.

− Chương 5 KẾT LUẬN: tổng kết các đóng góp của luận văn, các vấn đề còn tồn tại của bài toán rút trích thông đồng thời nói về nghiên cứu trong tương lai. 6 Chương 2 CƠ SỞ KIẾN THỨC 2. Mô hình Artificial Neural Network - ANN Mô hình Artificial Neural Network - ANN (Mạng nơ-ron nhân tạo) [3] là mô hình tính toán được xây dựng dựa trên ý tưởng lấy từ cấu trúc và cách hoạt động của mạng nơ-ron thần kinh trong não người nhằm thực hiện một tác vụ nào đó với tập dữ liệu đầu vào. Một mạng nơ-ron thần kinh được tạo nên từ nhiều nơ-ron sinh học kết nối và hoạt động cùng nhau.

Mỗi nơ-ron sinh học đó được cấu tạo bởi các thành phần cơ bản được mô tả trong Hình 2.1 bao gồm các đuôi gai, thân nơ-ron và sợi trục.1: Các thành phần cơ bản của một nơ-ron sinh học Nơ-ron thần kinh hoạt động bằng cách tiếp nhận các thông tin đưa vào từ các đuôi gai (dendrites), tính toán và tổng hợp tại thân nơ-ron (cell body), sau đó lan truyền kết quả đến các nơ-ron khác thông qua sợi trục (axon). 7 Có thể dễ dàng rút ra nhận xét rằng nơ-ron sinh học nhận nhiều thông tin đầu vào nhưng chỉ đưa ra một kết quả duy nhất. Tương tự như cách thức hoạt động nêu trên của mạng nơ-ron thần kinh, ANN cũng được cấu thành từ nhiều nơ-ron được gọi là perceptron có cấu trúc như Hình 2. xn là các thông tin dữ liệu đầu vào; − phép cộng (summation) và hàm kích hoạt (activation function) chính là các phép tính toán và tổng hợp các thông tin dữ liệu đầu vào; − w0 , w1 , w2 , w3 ,.

wn là các trọng số cần phải học, đóng vai trò tham gia quá trình tính toán và chuyển đổi các thông tin đầu vào thành thông tin đầu ra; − y là dữ liệu đầu ra.2: Cấu trúc của một perceptron Cụ thể hơn, phương thức tính toán và tổng hợp dữ liệu của một percep- tron được mô tả theo từng bước sau: 8 1. Sau khi tiếp nhận tập các dữ liệu đầu vào {x1 , x2 , ., xn }, perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích số của từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng; n a = ∑ wi xi + w0 (2. Kết quả a của phép cộng được đưa vào hàm kích hoạt là hàm không tuyến tính như sigmoid, tanh, ReLU, LeakyReLU.3: Một số hàm kích hoạt được sử dụng trong perceptron 3. Sau đó, perceptron thực hiện phép so sánh giá trị nhận được từ hàm kích hoạt f (a) với một giá trị ngưỡng (threshold) là t cho trước nhằm xác định giá trị đầu ra yb được hiểu là tín hiệu kích hoạt của perceptron.

9 Giả sử tín hiệu kích hoạt là 1 và tín hiệu không kích hoạt là 0, ta có: 1 if f (a) >= t y= (2.4: Cấu trúc mô hình Artificial Neural Network Bằng cách kết hợp nhiều percentron với nhau sẽ tạo nên cấu trúc mô hình ANN như Hình 2.4 và các perceptron được phân thành từng lớp có nhiệm vụ đặc thù riêng: − Tầng dữ kiện (input layer) là tầng đầu tiên, thể hiện các dữ liệu đầu vào của mô hình. − Tầng ẩn (hidden layer) là tầng nằm giữa gồm các phép tính toán chuyển đổi dữ liệu đầu vào sang dữ liệu đầu ra. Số lượng tầng ẩn trong mô hình là không giới hạn mà phụ thuộc vào cách giải quyết bài toán. − Tầng kết quả (output layer) là tầng cuối cùng thể hiện dữ liệu đầu ra 10 của mô hình.

Số lượng tầng ẩn trong mô hình ANN là không giới hạn và được xác định tùy thuộc vào bài toán cần giải quyết. Đặc biệt, khi số lượng tầng ẩn lớn hơn 1 thì mô hình ANN được gọi là mô hình Deep learning (học sâu) [4]. Mô hình Recurrent Neural Network - RNN Văn bản ngôn ngữ tự nhiên được xác định là dữ liệu dạng chuỗi (se- quence data) vì ý nghĩa của văn bản phụ thuộc vào vị trí của từng từ trong câu, ý nghĩa của từ đứng sau phụ thuộc vào những từ đứng trước và tất cả các từ đều liên kết với nhau nhằm tạo nên ngữ cảnh của văn bản. Ngoài ra, dữ liệu của một bản nhạc, dữ liệu giọng nói,.

cũng là dữ liệu dạng chuỗi. Do đó, để xử lý được dữ liệu ngôn ngữ tự nhiên cần mô hình học máy phù hợp với những đặc điểm này. RNN (mạng nơ-ron hồi quy) [5] là một trong những mô hình học máy được thiết kế để giải quyết các bài toán xử lý dữ liệu dạng chuỗi, đặc biệt là dữ liệu ngôn ngữ tự nhiên nên được gọi là mô hình ngôn ngữ. Để thích hợp với các đặc điểm của dữ liệu dạng chuỗi đã được liệt kê trước đó, mô hình RNN ra đời với ý tưởng chính là sử dụng một bộ nhớ để lưu lại thông tin nằm phía trước nhằm dựa vào đó mà tính toán với thông tin phía sau để ra kết quả dự đoán cho bài toán.

Cấu trúc mô hình RNN chỉ bao gồm một tầng xử lý dữ liệu có số lượng perceptron bằng chiều dài của chuỗi dữ liệu đầu vào. Bên cạnh thông tin của chuỗi dữ liệu đầu vào, perceptron còn có thông tin đầu vào khác là kết quả đầu ra của perceptron ở vị trí ngay trước đó. Có thể hiểu rõ cách hoạt động này bằng cách tham khảo mô hình được mô tả trong Hình 2.5: Cấu trúc mô hình Recurrent Neural Network Trong đó: − xt , t ∈ [1, n] là vector biểu diễn thành phần thứ t của chuỗi dữ liệu đầu vào; − ht , t ∈ [0, n] là vector hidden state (trạng thái ẩn) của dữ liệu tại bước xử lý t, có thể hiểu đây là kết quả của bước xử lý thứ t đồng thời là dữ liệu đầu vào cho bước xử lý t + 1; − yt , t ∈ [1, n] là vector biểu diễn thành phần thứ t của chuỗi dữ liệu đầu ra. Có thể thấy rằng độ dài chuỗi dữ liệu đầu ra y1 , y2 , .yn trong Hình 2.5 đúng bằng với độ dài chuỗi dữ liệu đầu vào x1 , x2 ,.

Thực ra, tùy vào yêu cầu bài toán mà xác định độ dài của hai chuỗi này có thể giống hoặc khác nhau. Tuy nhiên, việc xác định chỉ rơi vào 3 trường hợp: 1. Dữ liệu đầu vào có độ dài là 1 và dữ liệu đầu ra có độ dài lớn hơn 1; 2. Dữ liệu đầu vào có độ dài lớn hơn 1 và dữ liệu đầu ra có độ dài là 1; 3.

Cả hai chuỗi dữ liệu đều có độ dài bằng nhau và lớn hơn 1. 12 Quá trình biến đổi các vector đầu vào xt và ht−1 sang các vector đầu ra ht và yt tại bước xử lý dữ liệu thứ t là quá trình huấn luyện các bộ ma trận trọng số Wxh , Whh và Why được thực hiện bởi perceptron với các phép tính toán được sắp xếp theo các thứ tự sau (Hình 2.6: Cơ chế hoạt động của perceptron trong mô hình Recurrent Neural Network 1. Tính tích của xt và ma trận trọng số Wxh. Tính tích của ht−1 và ma trận trọng số Whh.

Thực hiện phép tổng của hai tích trên với giá trị của bias, sau đó đưa kết quả qua hàm tanh sẽ thu được giá trị của hidden state ht ; ht = tanh(Wxh xt +Whh ht−1 + b) (2. Dữ liệu đầu vào là kết quả của hàm so f tmax có gái trị tham số là tích của ma trận trọng số Why và hidden state ht. yt = so f tmax(Why ht ) (2. Mô hình Long Short-Term Memory Mô hình RNN là mô hình được thiết kế để xử lý các dữ liệu dạng chuỗi.

Tuy nhiên, với yêu cầu về kết quả dự đoán ngày càng cao của con người thì RNN vẫn chưa đáp ứng được nếu dữ liệu dạng chuỗi đầu vào có độ dài tương đối lớn. Vì đặc điểm của dữ liệu chuỗi là thông tin đứng sau phụ thuộc vào các thông tin đứng trước nên cần một mô hình có khả năng nhớ được các từ phía trước lâu hơn và dài hơn. Bên cạnh đó, mô hình cần chọn lọc thông tin để nhớ tại mỗi bước xử lý chứ không nhớ tất cả các thông tin vì trong thực tế thông tin đứng sau chỉ liên hệ đến một phần trong số các thông tin đứng trước. Nhằm giải quyết vấn đề này, mô hình Long Short-Term Memory (LSTM) [6] ra đời dựa trên kiến trúc của mô hình RNN.

Tuy nhiên, dữ liệu đầu vào của mô hình LSTM không chỉ là xt và ht−1 như mô hình RNN mà còn cần giá trị cell state ct−1. Cụ thể hơn, phương thức hoạt động của từng percep- tron trong mô hình LSTM được thiết kế phức tạp với cơ chế gating như mô tả trong Hình 4.5 theo từng bước như sau: 1. Bước đầu tiên sẽ tính toán và tổng hợp thông tin từ hidden state trước đó ht−1 và dữ liệu đầu vào xt như cách perceptron trong mô hình RNN thực hiện: Cet = tanh(Wc [ht−1 , xt ] + bc ) (2. Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu phần từ vector hidden state trước ht−1 và vector dữ liệu xt với phép tính sau: ut = σ (Wu [ht−1 , xt ] + bu ) (2.

Từ kết quả của bước 1, 2 và 3 có thể xác định được giá trị của cell state ct bằng công thức: ct = ft ∗ ct−1 + ut ∗ Cet (2. Cuối cùng là phép tính giá trị hidden state ht từ giá trị của cell state ct ở bước 4 và ot ở bước 5 như sau: ht = ot ∗ tanh(ct ) (2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ: Ứng dụng học sâu trong mô hình rút trích thông tin" của tác giả Bùi Lê Ngọc Min, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ và TS. Nguyễn Thiên Bình, thuộc Trường Đại học Bách Khoa - Đại học Quốc gia TP.HCM, năm 2022, tập trung vào việc áp dụng các kỹ thuật học sâu để xây dựng mô hình rút trích thông tin. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp học sâu mà còn chỉ ra những lợi ích thực tiễn trong việc cải thiện khả năng rút trích thông tin từ dữ liệu lớn, điều này rất hữu ích cho các nhà nghiên cứu và chuyên gia trong lĩnh vực khoa học máy tính.

Để mở rộng thêm kiến thức về các ứng dụng của học sâu và các mô hình liên quan, bạn có thể tham khảo bài viết Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ. Bài viết này cũng đề cập đến việc sử dụng học sâu trong nhận diện giọng nói, một lĩnh vực có nhiều điểm tương đồng với rút trích thông tin.

Ngoài ra, bạn cũng có thể tìm hiểu thêm về Ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ, bài viết này mở rộng cách tiếp cận học sâu trong lĩnh vực ngôn ngữ, mang lại cái nhìn sâu sắc về khả năng áp dụng công nghệ trong xử lý ngôn ngữ tự nhiên.

Cuối cùng, bài viết Nghiên cứu về phương pháp attention trong dịch máy tiếng Việt cũng rất đáng chú ý, vì nó khai thác một khía cạnh quan trọng của học sâu trong việc dịch máy, liên quan mật thiết đến các kỹ thuật rút trích thông tin. Những tài liệu này sẽ giúp bạn có cái nhìn tổng quát và sâu sắc hơn về ứng dụng của học sâu trong các lĩnh vực khác nhau.

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#thuật toán học máy

#mô hình rút trích thông tin

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Công nghệ học sâu

Ứng dụng trí tuệ nhân tạo trong xây dựng mô hình

Phân tích và rút trích thông tin