Luận Văn Thạc Sĩ Khoa Học Máy Tính: Xây Dựng Từ Điển Viết Tắt Cho Dữ Liệu Văn Bản Lâm Sàng Tiếng Việt

2024

74
0
0

Phí lưu trữ

Miễn phí

Tóm tắt

I. Giới thiệu

Luận văn thạc sĩ này tập trung vào việc xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt. Trong lĩnh vực y tế, việc sử dụng từ viết tắt rất phổ biến nhưng cũng gây ra nhiều vấn đề do sự không nhất quán và thiếu chuẩn hóa. Từ điển viết tắt được đề xuất nhằm giải quyết các thách thức này, hỗ trợ hiểu và xử lý văn bản lâm sàng một cách hiệu quả.

1.1 Cơ sở hình thành đề tài

Việc sử dụng từ viết tắt trong văn bản lâm sàng giúp rút ngắn thời gian ghi chép nhưng cũng gây ra sự mơ hồ do nhiều nghĩa khác nhau. Dữ liệu y tế tiếng Việt thiếu sự chuẩn hóa, dẫn đến khó khăn trong việc chia sẻ thông tin giữa con người và máy móc. Xây dựng từ điển viết tắt là giải pháp cần thiết để đảm bảo sự nhất quán và hỗ trợ các ứng dụng như dịch thuật, trích xuất thông tin.

1.2 Mục tiêu đề tài

Mục tiêu chính của đề tài là xây dựng từ điển viết tắt cho văn bản lâm sàng tiếng Việt bằng phương pháp phân tích dữ liệu dựa trên quy tắc. Hệ thống sẽ thu thập và trích xuất từ viết tắt từ các nguồn uy tín, đảm bảo độ chính xác cao. Từ điển này sẽ hỗ trợ các tác vụ như phân loại văn bản, truy vấn thông tin và khai thác tri thức.

II. Kiến thức nền tảng và các công trình liên quan

Chương này trình bày các khái niệm cơ bản về từ viết tắt trong y học và phương pháp xây dựng từ điển viết tắt. Các nghiên cứu liên quan được phân tích để định hướng cho đề tài, bao gồm các phương pháp trích xuất từ viết tắt và đánh giá hiệu quả của từ điển.

2.1 Viết tắt trong y học

Từ viết tắt trong y học thường được sử dụng để rút gọn tên bệnh, phương pháp điều trị và thuật ngữ y khoa. Tuy nhiên, một từ viết tắt có thể có nhiều nghĩa khác nhau, gây ra sự nhập nhằng. Ví dụ, từ 'PC' có thể chỉ 'Personal Computer' hoặc 'Prostate Cancer'. Điều này làm tăng nhu cầu về một từ điển viết tắt chuẩn hóa.

2.2 Từ điển viết tắt

Từ điển viết tắt là công cụ quan trọng để tra cứu và hiểu các từ viết tắt trong văn bản lâm sàng. Nó cung cấp thông tin chi tiết về nghĩa, cách sử dụng và ngữ cảnh của từ viết tắt. Các từ điển như Allie và Acromine đã được nghiên cứu và áp dụng trong nhiều lĩnh vực y khoa.

III. Hệ thống đề xuất

Hệ thống được đề xuất bao gồm các bước xử lý ngôn ngữ tự nhiên để trích xuất và lưu trữ từ viết tắt từ văn bản lâm sàng tiếng Việt. Hệ thống sử dụng phương pháp dựa trên quy tắc để đảm bảo độ chính xác cao và được đánh giá bởi các chuyên gia y tế.

3.1 Định nghĩa hệ thống

Hệ thống bao gồm các thành phần chính như bộ trích xuất từ viết tắt, từ điển viết tắt và giao diện web để tương tác với người dùng. Hệ thống được thiết kế để hỗ trợ các ứng dụng như dịch thuật, trích xuất thông tin và phân tích dữ liệu y tế.

3.2 Hiện thực hệ thống

Hệ thống được hiện thực bằng cách sử dụng các công nghệ xử lý ngôn ngữ tự nhiênhọc sâu tiền huấn luyện. Các từ viết tắt được trích xuất từ các bài báo khoa học y học tiếng Việt và lưu trữ trong cơ sở dữ liệu. Giao diện web cho phép người dùng tra cứu và tương tác với từ điển một cách dễ dàng.

IV. Đánh giá kết quả

Hệ thống được đánh giá dựa trên độ chính xác và độ phủ của từ điển. Kết quả cho thấy hệ thống đạt độ chính xác lên đến 98%, đáp ứng được yêu cầu của người dùng và các ứng dụng y tế.

4.1 Đánh giá tập dữ liệu

Tập dữ liệu từ điển được đánh giá bởi các chuyên gia y tế, đảm bảo tính chính xác và đầy đủ thông tin. Kết quả cho thấy hệ thống có độ phủ cao và hỗ trợ hiệu quả cho việc hiểu và xử lý văn bản lâm sàng tiếng Việt.

4.2 Đánh giá hiệu suất hệ thống

Hệ thống được kiểm thử với nhiều người dùng và yêu cầu khác nhau. Kết quả cho thấy hệ thống có khả năng xử lý nhanh và ổn định, đáp ứng được nhu cầu của người dùng trong thực tế.

21/02/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ khoa học máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tải xuống (74 Trang - 1.92 MB)