Luận Văn Thạc Sĩ Ngành Hệ Thống Thông Tin: Phân Tích Dữ Liệu Văn Bản Dựa Trên Học Máy Và Ứng Dụng

Trường đại học

Đại Học Quốc Gia Hà Nội

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT

DANH SÁCH BẢNG

DANH SÁCH HÌNH ẢNH

MỞ ĐẦU

1. CHƯƠNG 1: HỌC SÂU THẾ GIỚI MỞ CHO VĂN BẢN

1.1. Học thế giới mở không gian đơn giản trung tâm

1.2. Tăng cường cập nhật mô hình học CBS

1.3. Kiểm tra mô hình học CBS

1.4. Học CBS cho phát hiện lớp chưa thấy

1.5. Học sâu thế giới mở phân lớp văn bản

1.5.1. CNN và các lớp chuyển tiếp của DOC

1.5.2. Tầng 1 - với phần còn lại

1.6. Giảm rủi ro không gian mở

2. CHƯƠNG 2

3. CHƯƠNG 3: ỨNG DỤNG MÔ HÌNH DOC VÀO CHUẨN HÓA TÊN BỆNH

3.1. Ứng dụng chuẩn hóa tên thực thể bệnh

3.2. Mô hình đề xuất

3.3. Bộ phân giải viết tắt

3.4. Mạng nơ ron học sâu thế giới mở

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Dữ liệu thực nghiệm chuẩn hóa tên bệnh

4.2. Môi trường và các công cụ thực nghiệm

4.3. Kết quả và đánh giá

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh

Học máy (Machine Learning: ML) đã trở thành công cụ quan trọng trong việc phân tích dữ liệu và trí tuệ nhân tạo (Artificial Intelligence: AI). Sự phát triển gần đây của học sâu đã nâng cao khả năng của ML. Các thuật toán ML hiện nay được áp dụng rộng rãi trong nhiều lĩnh vực như khoa học máy tính, khoa học tự nhiên, kỹ thuật và khoa học xã hội. Tuy nhiên, mô hình ML truyền thống có những hạn chế. Chúng không lưu giữ kiến thức đã học và không thể áp dụng cho các nhiệm vụ mới mà không cần huấn luyện lại từ đầu. Điều này dẫn đến việc cần thiết phải phát triển các mô hình học máy suốt đời (Lifelong Learning: LL) và học máy thế giới mở (Open World Learning: OWL). Mô hình OWL cho phép phát hiện các lớp chưa thấy trong quá trình huấn luyện, từ đó cập nhật mô hình mà không cần huấn luyện lại toàn bộ. Bài toán chuẩn hóa tên thực thể bệnh trong văn bản y sinh là một ví dụ điển hình cho việc áp dụng học máy thế giới mở. Việc này không chỉ giúp nhận diện các thực thể mới mà còn hỗ trợ trong việc phân loại và chuẩn hóa thông tin y tế.

1.1. Học máy truyền thống

Mô hình học máy truyền thống thường hoạt động trên tập dữ liệu đã cho để tạo ra mô hình. Tuy nhiên, mô hình này không xem xét thông tin liên quan nào khác và không tích lũy kiến thức từ quá khứ. Điều này dẫn đến việc mô hình không thể áp dụng cho các nhiệm vụ mới mà không cần huấn luyện lại từ đầu. Hơn nữa, trong môi trường mở, nơi mà dữ liệu và nhiệm vụ liên tục thay đổi, mô hình truyền thống không thể đáp ứng được yêu cầu. Việc gán nhãn dữ liệu huấn luyện thường tốn nhiều thời gian và công sức, và không thể thực hiện liên tục. Do đó, việc phát triển các mô hình học máy có khả năng học suốt đời và học máy thế giới mở là cần thiết để giải quyết những vấn đề này.

1.2. Học máy suốt đời

Học máy suốt đời (Lifelong Learning: LL) là một hướng nghiên cứu mới nhằm bắt chước khả năng học tập của con người. Con người có khả năng tích lũy và vận dụng kiến thức đã học để giải quyết các vấn đề mới. LL cho phép các hệ thống học máy không chỉ học từ dữ liệu hiện tại mà còn lưu giữ kiến thức từ quá khứ để áp dụng cho các nhiệm vụ mới. Điều này rất quan trọng trong các ứng dụng thực tế, nơi mà dữ liệu và nhiệm vụ thường xuyên thay đổi. LL giúp cải thiện khả năng của hệ thống trong việc tương tác với con người và các hệ thống khác, từ đó nâng cao hiệu suất và độ chính xác của các mô hình học máy.

II. Mô hình phân lớp văn bản thế giới mở

Mô hình phân lớp văn bản thế giới mở (Open World Classification) là một phương pháp mới trong học máy, cho phép phát hiện và phân loại các lớp chưa thấy trong quá trình huấn luyện. Mô hình này có khả năng cập nhật và điều chỉnh mà không cần phải huấn luyện lại toàn bộ từ đầu. Điều này rất quan trọng trong các lĩnh vực như y sinh, nơi mà các tên bệnh mới có thể xuất hiện thường xuyên. Mô hình phân lớp văn bản thế giới mở sử dụng các kỹ thuật học sâu để cải thiện khả năng nhận diện và phân loại các thực thể mới. Việc áp dụng mô hình này trong chuẩn hóa tên thực thể bệnh giúp nâng cao độ chính xác và hiệu quả trong việc xử lý thông tin y tế.

2.1. Kỹ thuật học sâu

Kỹ thuật học sâu (Deep Learning) đã trở thành một phần quan trọng trong học máy hiện đại. Các mạng nơ ron tích chập (Convolutional Neural Networks: CNN) được sử dụng để xử lý và phân tích dữ liệu văn bản. Mô hình học sâu cho phép hệ thống học từ dữ liệu lớn và phát hiện các mẫu phức tạp trong dữ liệu. Việc áp dụng học sâu trong mô hình phân lớp văn bản thế giới mở giúp cải thiện khả năng nhận diện các thực thể mới và nâng cao hiệu suất của mô hình. Hơn nữa, việc sử dụng các kỹ thuật học sâu còn giúp giảm thiểu rủi ro trong việc phân loại và chuẩn hóa thông tin.

2.2. Ứng dụng trong y sinh

Trong lĩnh vực y sinh, việc chuẩn hóa tên thực thể bệnh là một nhiệm vụ quan trọng. Mô hình phân lớp văn bản thế giới mở có thể được áp dụng để nhận diện và chuẩn hóa các tên bệnh mới xuất hiện trong văn bản y tế. Việc này không chỉ giúp cải thiện độ chính xác trong việc xử lý thông tin y tế mà còn hỗ trợ trong việc phát hiện các mối quan hệ giữa các thực thể y sinh. Các kết quả thực nghiệm cho thấy mô hình này có thể đạt được độ đo F1 lên đến 80%, cho thấy hiệu quả vượt trội so với các phương pháp truyền thống.

06/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ngành hệ thống thông tin phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo và học máy, việc phân tích dữ liệu văn bản y sinh trở thành một lĩnh vực nghiên cứu quan trọng và cấp thiết. Theo báo cáo của ngành, số lượng tài liệu y sinh được xuất bản hàng năm tăng lên đến hàng chục nghìn bài báo, tạo ra một khối lượng dữ liệu phi cấu trúc khổng lồ cần được xử lý hiệu quả. Vấn đề chính đặt ra là làm thế nào để tự động hóa việc trích xuất tri thức từ văn bản, đặc biệt là chuẩn hóa tên thực thể y sinh như tên bệnh, nhằm hỗ trợ các nghiên cứu y học và ứng dụng lâm sàng.

Mục tiêu của luận văn là phát triển một mô hình học máy thế giới mở dựa trên kỹ thuật học sâu, có khả năng nhận diện và chuẩn hóa các tên thực thể bệnh mới chưa từng xuất hiện trong dữ liệu huấn luyện. Phạm vi nghiên cứu tập trung vào lĩnh vực y sinh, sử dụng bộ dữ liệu chuẩn NCBI disease với hơn 5.000 đoạn văn bản huấn luyện và 960 đoạn kiểm thử, trong đó có khoảng 30% mã định danh bệnh trong tập kiểm thử không xuất hiện trong tập huấn luyện. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác chuẩn hóa tên bệnh, với chỉ số F1 đạt tới 80%, góp phần giảm thiểu chi phí và thời gian nghiên cứu y sinh, đồng thời mở rộng khả năng ứng dụng của học máy trong môi trường mở và biến động.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Học máy suốt đời (Lifelong Machine Learning - LL):** Là quá trình học liên tục, tích lũy và sử dụng tri thức từ các nhiệm vụ trước để giải quyết các nhiệm vụ mới, giúp mô hình thích nghi với môi trường mở và biến động.
- **Học máy thế giới mở (Open World Machine Learning):** Mô hình không giả định thế giới đóng, có khả năng phát hiện và học thêm các lớp mới chưa từng xuất hiện trong dữ liệu huấn luyện.
- **Mô hình phân lớp mở sâu (Deep Open Classification - DOC):** Sử dụng mạng nơ ron tích chập (CNN) với tầng sigmoid 1-vs-rest thay cho softmax truyền thống, giúp giảm rủi ro không gian mở và tăng khả năng phát hiện lớp mới.
- **Chuẩn hóa tên thực thể y sinh (Named Entity Normalization - NEN):** Quá trình liên kết các tên thực thể bệnh trong văn bản với các định danh chuẩn trong bộ từ vựng y sinh như MEDIC, giải quyết các vấn đề về nhập nhằng và đa dạng tên gọi.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Bộ dữ liệu chuẩn NCBI disease gồm 593 bài báo huấn luyện, 100 bài phát triển và 100 bài kiểm thử, với tổng số 6.892 tên bệnh khác nhau.
- **Phương pháp phân tích:** Áp dụng mô hình DOC dựa trên CNN, kết hợp với bộ phân giải viết tắt Ab3P để xử lý các tên viết tắt trong văn bản. Mô hình được huấn luyện sử dụng vector nhúng từ 6 triệu từ trên cơ sở dữ liệu PubMed và PMC.
- **Timeline nghiên cứu:** Nghiên cứu được thực hiện trong khoảng thời gian từ năm 2016 đến 2019, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.
- **Cỡ mẫu và chọn mẫu:** Sử dụng toàn bộ bộ dữ liệu chuẩn NCBI disease để đảm bảo tính đại diện và độ tin cậy của kết quả. Phương pháp chọn mẫu dựa trên phân chia chuẩn train/dev/test theo bộ dữ liệu gốc.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình DOC đạt độ đo F1 trung bình 80.2% trên bộ dữ liệu kiểm thử, vượt trội so với phương pháp khớp từ điển truyền thống chỉ đạt 66.1%.
- Khoảng 30% mã định danh bệnh trong tập kiểm thử là mới, chưa xuất hiện trong tập huấn luyện, mô hình vẫn có khả năng nhận diện và phân loại chính xác các tên bệnh này.
- Việc điều chỉnh ngưỡng sigmoid trong mô hình giúp giảm rủi ro không gian mở, duy trì hiệu suất ổn định với F1 khoảng 78-80%.
- So sánh với các mô hình tiên tiến khác sử dụng BiLSTM, mô hình luận văn có hiệu quả cạnh tranh, mặc dù chưa tích hợp các kỹ thuật biểu diễn ngôn ngữ phức tạp hơn.

### Thảo luận kết quả

Kết quả cho thấy mô hình học máy thế giới mở dựa trên học sâu có khả năng xử lý hiệu quả bài toán chuẩn hóa tên thực thể bệnh trong môi trường dữ liệu y sinh luôn biến động và xuất hiện nhiều tên mới. Việc sử dụng tầng sigmoid 1-vs-rest thay cho softmax truyền thống giúp mô hình phát hiện các lớp chưa biết, giảm thiểu sai phân loại. So với các nghiên cứu trước đây, mô hình này không yêu cầu dữ liệu ví dụ cho các lớp mới, phù hợp với đặc thù của lĩnh vực y sinh.

Các số liệu có thể được trình bày qua biểu đồ so sánh độ đo F1 giữa các mô hình, bảng thống kê tỷ lệ nhận diện tên bệnh mới và biểu đồ phân phối các tên đồng nghĩa trong bộ từ vựng MEDIC. Kết quả này khẳng định tính khả thi và hiệu quả của phương pháp học máy thế giới mở trong việc trích xuất tri thức tự động từ văn bản y sinh.

## Đề xuất và khuyến nghị

- **Phát triển mô hình tích hợp BiLSTM:** Kết hợp mạng nơ ron hồi tiếp hai chiều để nâng cao khả năng biểu diễn ngữ cảnh, hướng tới tăng chỉ số F1 trên 85% trong vòng 1-2 năm tới.
- **Mở rộng bộ từ vựng MEDIC:** Cập nhật và tích hợp thêm các tên bệnh mới từ các nguồn dữ liệu y sinh đa dạng, nhằm tăng độ bao phủ và chính xác của mô hình, thực hiện định kỳ hàng năm.
- **Triển khai hệ thống tự động phát hiện và học tên mới:** Xây dựng công cụ tự động phát hiện các tên thực thể mới trong văn bản y sinh và cập nhật mô hình theo thời gian thực, giảm thiểu sự phụ thuộc vào dữ liệu gán nhãn thủ công.
- **Đào tạo và chuyển giao công nghệ:** Tổ chức các khóa đào tạo cho các nhà nghiên cứu và chuyên gia y sinh về ứng dụng học máy thế giới mở, thúc đẩy ứng dụng rộng rãi trong nghiên cứu và thực tiễn lâm sàng trong vòng 3 năm tới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu học máy và trí tuệ nhân tạo:** Nắm bắt các kỹ thuật học máy thế giới mở và ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên, đặc biệt trong lĩnh vực y sinh.
- **Chuyên gia y sinh và dược học:** Áp dụng mô hình chuẩn hóa tên thực thể để hỗ trợ khai thác tri thức từ văn bản y sinh, phục vụ nghiên cứu và phát triển thuốc.
- **Nhà phát triển phần mềm và hệ thống thông tin:** Phát triển các hệ thống trích xuất thông tin tự động, tích hợp mô hình học máy thế giới mở để nâng cao hiệu quả xử lý dữ liệu.
- **Sinh viên và học viên cao học:** Tham khảo phương pháp nghiên cứu, thiết kế mô hình và thực nghiệm trong lĩnh vực học máy ứng dụng, đặc biệt là học máy suốt đời và học thế giới mở.

## Câu hỏi thường gặp

1. **Học máy thế giới mở khác gì so với học máy truyền thống?**  
Học máy thế giới mở không giả định rằng tất cả các lớp dữ liệu đã biết trong quá trình huấn luyện, có khả năng phát hiện và học thêm các lớp mới khi dữ liệu mới xuất hiện, trong khi học máy truyền thống giả định thế giới đóng.

2. **Mô hình DOC có ưu điểm gì trong chuẩn hóa tên thực thể?**  
DOC sử dụng tầng sigmoid 1-vs-rest giúp giảm rủi ro không gian mở, cho phép mô hình phát hiện các tên thực thể mới chưa xuất hiện trong dữ liệu huấn luyện mà không cần dữ liệu ví dụ cho lớp mới.

3. **Bộ dữ liệu NCBI disease có đặc điểm gì nổi bật?**  
Bộ dữ liệu gồm 593 bài báo huấn luyện, 100 bài phát triển và 100 bài kiểm thử, với tổng số hơn 6.000 tên bệnh, trong đó khoảng 30% mã định danh bệnh trong tập kiểm thử là mới, chưa xuất hiện trong tập huấn luyện.

4. **Làm thế nào để xử lý các tên viết tắt trong văn bản y sinh?**  
Sử dụng công cụ Ab3P để phân giải các từ viết tắt thành tên đầy đủ kèm xác suất, giúp mô hình chuẩn hóa tên thực thể chính xác hơn.

5. **Mô hình có thể áp dụng cho các lĩnh vực khác ngoài y sinh không?**  
Có, mô hình học máy thế giới mở và kỹ thuật học sâu có thể được điều chỉnh và áp dụng cho các lĩnh vực khác có dữ liệu phi cấu trúc và yêu cầu phát hiện lớp mới như truyền thông xã hội, an ninh mạng, và thương mại điện tử.

## Kết luận

- Luận văn đã phát triển thành công mô hình học máy thế giới mở dựa trên học sâu, ứng dụng hiệu quả trong chuẩn hóa tên thực thể bệnh trong văn bản y sinh.  
- Mô hình đạt độ đo F1 trung bình 80.2%, vượt trội so với các phương pháp truyền thống và có khả năng nhận diện tên bệnh mới chưa từng xuất hiện.  
- Nghiên cứu góp phần nâng cao khả năng trích xuất tri thức tự động, giảm chi phí và thời gian nghiên cứu trong lĩnh vực y sinh.  
- Đề xuất mở rộng và tích hợp các kỹ thuật học sâu tiên tiến hơn để nâng cao hiệu quả mô hình trong tương lai.  
- Khuyến khích triển khai ứng dụng mô hình trong các hệ thống khai thác tri thức y sinh và đào tạo chuyên gia trong lĩnh vực học máy và y sinh.

Tiếp tục nghiên cứu tích hợp BiLSTM, mở rộng bộ từ vựng và phát triển hệ thống tự động cập nhật mô hình để nâng cao hiệu quả và tính ứng dụng thực tiễn của mô hình.

Bài viết "Luận Văn Thạc Sĩ: Phân Tích Dữ Liệu Văn Bản Bằng Học Máy Trong Thế Giới Mở" cung cấp cái nhìn sâu sắc về việc ứng dụng học máy trong phân tích dữ liệu văn bản, đặc biệt trong bối cảnh thế giới mở hiện nay. Tác giả trình bày các phương pháp và kỹ thuật tiên tiến, giúp người đọc hiểu rõ hơn về cách mà học máy có thể cải thiện khả năng xử lý và phân tích thông tin từ văn bản. Bài viết không chỉ mang lại kiến thức lý thuyết mà còn chỉ ra những ứng dụng thực tiễn, từ đó giúp độc giả nắm bắt được xu hướng phát triển trong lĩnh vực này.

Nếu bạn muốn mở rộng thêm kiến thức về các ứng dụng của học máy trong lĩnh vực văn bản, hãy tham khảo bài viết "Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin", nơi bạn sẽ tìm thấy thông tin về cách rút trích thông tin hiệu quả từ văn bản. Ngoài ra, bài viết "Luận văn thạc sĩ khoa học máy tính kết hợp học sâu và mô hình ngôn ngữ để nhận dạng giọng nói tiếng việt" sẽ giúp bạn hiểu rõ hơn về việc ứng dụng học máy trong nhận dạng giọng nói. Cuối cùng, bài viết "Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transfomer" sẽ cung cấp cái nhìn sâu sắc về các mô hình hiện đại trong phân loại văn bản. Những tài liệu này sẽ là nguồn tài nguyên quý giá để bạn khám phá thêm về lĩnh vực học máy và phân tích dữ liệu văn bản.

#Luận văn Thạc sĩ

#Dữ liệu lớn

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#hệ thống thông tin

#phân tích dữ liệu văn bản

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Học máy và trí tuệ nhân tạo

Phân tích dữ liệu và khai thác thông tin

Ứng dụng công nghệ thông tin trong nghiên cứu