I. Rút trích thuật ngữ y khoa
Rút trích thuật ngữ y khoa là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt trong y học. Văn bản lâm sàng chứa nhiều thuật ngữ y khoa phức tạp, đòi hỏi phương pháp chính xác để trích xuất. Luận văn thạc sĩ này đề xuất phương pháp dựa trên quy tắc ngữ pháp và độ đo thống kê để rút trích thuật ngữ từ văn bản lâm sàng tiếng Việt. Phương pháp này kết hợp ngữ nghĩa tiềm ẩn và từ khóa liên quan để tối ưu hóa quá trình trích xuất.
1.1. Phương pháp ngữ pháp và thống kê
Phương pháp đề xuất dựa trên bảy luật ngữ pháp cụm danh từ và cụm động từ. Công cụ tìm kiếm được sử dụng để phân tích nội dung y khoa và xác định các cụm từ dài nhất. Độ liên kết giữa các từ (bi-gram) được tính toán để tách cụm từ tại vị trí có độ liên kết thấp nhất. Phương pháp này giúp rút trích các thuật ngữ y khoa từ cấu trúc ngữ pháp phức tạp.
1.2. Đánh giá hiệu quả
Phương pháp được đánh giá dựa trên các chỉ số Recall, Precision và F-measure. Kết quả cho thấy phương pháp này hiệu quả hơn so với công trình trước đây về trích xuất thuật ngữ y học trong bệnh án điện tử tiếng Việt. Các thuật ngữ được rút trích có thể bổ sung vào từ điển y khoa và hỗ trợ các bài toán như hệ hỗ trợ chẩn đoán bệnh.
II. Văn bản lâm sàng tiếng Việt
Văn bản lâm sàng là nguồn dữ liệu quan trọng trong y học, chứa thông tin về tình trạng bệnh nhân và quá trình điều trị. Luận văn thạc sĩ này tập trung vào việc rút trích thuật ngữ từ văn bản lâm sàng tiếng Việt. Các văn bản này thường ngắn, không tuân theo quy ước ngữ pháp chặt chẽ và chứa nhiều thuật ngữ y khoa. Phương pháp đề xuất giúp xác định các thuật ngữ chính và từ khóa liên quan trong văn bản.
2.1. Đặc điểm văn bản lâm sàng
Văn bản lâm sàng bao gồm các ghi chép của bác sĩ và y tá về tình trạng bệnh nhân. Chúng thường chứa nhiều thuật ngữ y khoa và thông tin quan trọng về chẩn đoán và điều trị. Phân tích văn bản này đòi hỏi phương pháp chính xác để trích xuất các thuật ngữ y khoa từ cấu trúc ngữ pháp phức tạp.
2.2. Ứng dụng thực tiễn
Các thuật ngữ được rút trích từ văn bản lâm sàng có thể được sử dụng để xây dựng chỉ mục ngữ nghĩa, bổ sung vào từ điển y khoa và hỗ trợ các bài toán như hệ hỗ trợ chẩn đoán bệnh. Phương pháp này cũng có thể áp dụng trong khai thác thông tin từ bệnh án điện tử.
III. Luận văn thạc sĩ khoa học máy tính
Luận văn thạc sĩ này thuộc chuyên ngành Khoa học máy tính, tập trung vào việc rút trích thuật ngữ y khoa từ văn bản lâm sàng tiếng Việt. Phương pháp đề xuất kết hợp ngữ nghĩa tiềm ẩn và từ khóa liên quan để tối ưu hóa quá trình trích xuất. Công cụ tìm kiếm và phân tích văn bản được sử dụng để xác định các thuật ngữ chính trong văn bản.
3.1. Phương pháp nghiên cứu
Phương pháp nghiên cứu dựa trên từ khóa LSI và tối ưu hóa SEO để xác định các thuật ngữ y khoa trong văn bản lâm sàng. Công cụ tìm kiếm được sử dụng để phân tích nội dung y khoa và xác định các cụm từ dài nhất. Phương pháp này giúp rút trích các thuật ngữ y khoa từ cấu trúc ngữ pháp phức tạp.
3.2. Kết quả và đánh giá
Kết quả nghiên cứu cho thấy phương pháp đề xuất hiệu quả hơn so với các công trình trước đây. Các thuật ngữ y khoa được rút trích có thể được sử dụng để xây dựng chỉ mục ngữ nghĩa và hỗ trợ các bài toán như hệ hỗ trợ chẩn đoán bệnh. Phương pháp này cũng có thể áp dụng trong khai thác thông tin từ bệnh án điện tử.