Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin y tế, việc số hóa và khai thác bệnh án điện tử (BADT) trở thành một xu hướng tất yếu nhằm nâng cao chất lượng chăm sóc sức khỏe và nghiên cứu y khoa. Theo báo cáo của ngành, tại Nhật Bản, 5% bệnh viện lớn, 27,3% bệnh viện vừa và 13,5% bệnh viện nhỏ đã triển khai hệ thống BADT. Ở Việt Nam, từ năm 2013, một số bệnh viện như đa khoa Vân Đồn, phụ sản-nhi Đà Nẵng đã bắt đầu áp dụng hệ thống này. Văn bản lâm sàng trong BADT chứa nhiều thuật ngữ y khoa quan trọng, nhưng do tính riêng tư và đặc thù ngôn ngữ, việc trích xuất thuật ngữ tự động trong văn bản lâm sàng tiếng Việt còn nhiều thách thức.

Mục tiêu nghiên cứu là xây dựng phương pháp rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt dựa trên kết hợp quy tắc ngữ pháp và các độ đo thống kê thuật ngữ, nhằm tạo ra danh sách thuật ngữ y khoa có độ chính xác cao. Phạm vi nghiên cứu tập trung vào văn bản lâm sàng tiếng Việt trong bệnh án điện tử, với dữ liệu thu thập trong khoảng thời gian gần đây tại một số bệnh viện Việt Nam. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc bổ sung và cập nhật bộ từ điển y khoa tiếng Việt, hỗ trợ các hệ thống hỗ trợ chẩn đoán bệnh, khai thác thông tin y tế và phát triển các ứng dụng trí tuệ nhân tạo trong y học.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình sau:

  • Lý thuyết thuật ngữ học: Thuật ngữ được định nghĩa theo ISO-704-2000 gồm bốn thành phần: đối tượng, khái niệm, định nghĩa và thể hiện. Thuật ngữ y khoa trong tiếng Việt là sự kết hợp giữa thuật ngữ LaTinh, tiếng Anh và các thuật ngữ vùng miền, đòi hỏi phương pháp trích xuất phải phù hợp với đặc trưng ngôn ngữ này.

  • Mô hình ngữ pháp tiếng Việt: Cấu trúc ngữ pháp của cụm danh từ và cụm động từ được sử dụng làm cơ sở để nhận diện thuật ngữ. Bảy luật ngữ pháp cụm danh từ và động từ được áp dụng để trích xuất các cụm từ dài nhất có thể, bao gồm các thành phần chính và phụ theo đặc trưng tiếng Việt.

  • Thang đo Termhood và Unithood: Đây là hai thang đo thống kê quan trọng để đánh giá mức độ liên quan và sự ràng buộc của từ/cụm từ trong văn bản. Công thức C-Value, dựa trên thang đo Termhood, được sử dụng để xếp hạng thuật ngữ tiềm năng dựa trên tần suất xuất hiện và độ dài cụm từ.

  • Chỉ số Normalised Pointwise Mutual Information (NPMI): Được dùng để đánh giá mức độ liên kết giữa hai từ liền kề trong cụm từ, giúp xác định vị trí tách cụm từ để trích xuất thuật ngữ lồng nhau chính xác.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Văn bản lâm sàng tiếng Việt thu thập từ các bệnh án điện tử tại một số bệnh viện Việt Nam, bao gồm phiếu điều trị, phiếu chăm sóc và hồ sơ xuất viện. Dữ liệu được xử lý bảo mật, không tiết lộ thông tin cá nhân bệnh nhân.

  • Phương pháp phân tích: Quy trình nghiên cứu gồm các bước chính:

    1. Tiền xử lý: Chuẩn hóa văn bản, loại bỏ các đề mục thông tin có tần suất cao không phải thuật ngữ, chuyển đổi chữ hoa thành chữ thường để tăng độ chính xác gán nhãn từ loại.

    2. Tách từ và gán nhãn từ loại: Sử dụng bộ công cụ Vitk trên nền tảng Apache Spark để tách từ và gán nhãn từ loại với độ chính xác lần lượt khoảng 97% và 95%.

    3. Rút trích cụm từ tiềm năng: Áp dụng bảy luật ngữ pháp cụm danh từ và động từ để trích xuất các cụm từ dài nhất có thể, làm ứng viên thuật ngữ y khoa.

    4. Loại bỏ cụm từ chứa từ trong danh sách dừng (stoplist): Danh sách gồm 87 từ và ký tự không mang tính thuật ngữ được loại bỏ để giảm nhiễu.

    5. Sắp xếp và chọn tỷ lệ k: Danh sách thuật ngữ tiềm năng được sắp xếp theo chiều dài giảm dần, chọn tỷ lệ k = 0.7 để giữ 70% thuật ngữ đầu danh sách cho bước tiếp theo.

    6. Rút trích thuật ngữ lồng nhau: Sử dụng chỉ số NPMI để xác định vị trí tách cụm từ phù hợp với quy tắc ngữ pháp, trích xuất các thuật ngữ nested bên trong cụm dài.

    7. Xếp hạng thuật ngữ: Áp dụng công thức C-Value để đánh giá và xếp hạng thuật ngữ theo độ tiềm năng.

  • Timeline nghiên cứu: Nghiên cứu được thực hiện trong khoảng thời gian từ năm 2016 đến 2018, với các giai đoạn thu thập dữ liệu, phát triển phương pháp, thực hiện đánh giá và hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả rút trích thuật ngữ: Phương pháp đề xuất đạt chỉ số Recall khoảng 85%, Precision khoảng 88% và F-measure khoảng 86.5%, cao hơn so với công trình đầu tiên về trích xuất thuật ngữ y học trong bệnh án điện tử tiếng Việt (Recall 78%, Precision 82%, F-measure 80%).

  2. Ảnh hưởng của luật ngữ pháp: Việc áp dụng bảy luật ngữ pháp cụm danh từ và động từ giúp tăng độ chính xác của thuật ngữ trích xuất lên khoảng 10% so với phương pháp chỉ dùng thống kê.

  3. Tác động của danh sách từ loại bỏ (stoplist): Loại bỏ các cụm từ chứa từ trong stoplist làm giảm nhiễu, tăng Precision lên 5% mà không ảnh hưởng đáng kể đến Recall.

  4. Hiệu quả của chỉ số NPMI trong rút trích thuật ngữ lồng nhau: Sử dụng NPMI giúp xác định chính xác vị trí tách cụm từ, tăng khả năng phát hiện thuật ngữ nested lên 15% so với phương pháp không dùng NPMI.

Thảo luận kết quả

Kết quả cho thấy sự kết hợp giữa phương pháp ngôn ngữ học và thống kê, đặc biệt là việc áp dụng các luật ngữ pháp tiếng Việt và chỉ số NPMI, mang lại hiệu quả vượt trội trong việc rút trích thuật ngữ y khoa từ văn bản lâm sàng tiếng Việt. So với các nghiên cứu trước đây, phương pháp này không chỉ cải thiện độ chính xác mà còn giúp phát hiện các thuật ngữ phức tạp, nested vốn khó nhận diện.

Nguyên nhân chính là do việc tận dụng đặc trưng ngữ pháp tiếng Việt trong việc xác định cụm danh từ và động từ, kết hợp với đánh giá mức độ liên kết từ ngữ bằng NPMI, giúp hệ thống nhận diện chính xác các thuật ngữ dài và phức tạp. Bên cạnh đó, việc loại bỏ các từ không mang tính thuật ngữ qua stoplist giúp giảm nhiễu, nâng cao chất lượng danh sách thuật ngữ đầu ra.

Dữ liệu có thể được trình bày qua biểu đồ so sánh Recall, Precision và F-measure giữa phương pháp đề xuất và công trình trước, cũng như biểu đồ thể hiện ảnh hưởng của từng thành phần như luật ngữ pháp, stoplist và NPMI đến hiệu quả hệ thống.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống trích xuất thuật ngữ tự động tại các bệnh viện: Áp dụng phương pháp đề xuất để xây dựng bộ từ điển y khoa cập nhật, hỗ trợ công tác quản lý và nghiên cứu y tế. Thời gian thực hiện dự kiến 12 tháng, chủ thể là các trung tâm CNTT y tế và bệnh viện.

  2. Phát triển công cụ tiền xử lý dữ liệu nâng cao: Tích hợp các module chỉnh sửa lỗi chính tả và xử lý từ viết tắt trong văn bản lâm sàng để tăng độ chính xác tách từ và gán nhãn từ loại. Thời gian thực hiện 6-9 tháng, do nhóm nghiên cứu và phát triển phần mềm đảm nhiệm.

  3. Mở rộng nghiên cứu sang các lĩnh vực y tế khác: Áp dụng phương pháp cho các loại văn bản y tế khác như báo cáo xét nghiệm, hồ sơ bệnh án đa ngôn ngữ để tăng tính ứng dụng. Thời gian 18 tháng, phối hợp giữa các viện nghiên cứu và bệnh viện.

  4. Tích hợp hệ thống vào các ứng dụng hỗ trợ chẩn đoán và khai thác thông tin y tế: Sử dụng danh sách thuật ngữ trích xuất để cải thiện các hệ thống hỗ trợ chẩn đoán bệnh, phân tích quan hệ bệnh-thuốc. Thời gian 12 tháng, do các công ty công nghệ y tế và trung tâm nghiên cứu thực hiện.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý ngôn ngữ tự nhiên: Nghiên cứu phương pháp trích xuất thuật ngữ, áp dụng cho tiếng Việt và các ngôn ngữ có cấu trúc tương tự.

  2. Chuyên gia y tế và quản lý bệnh viện: Hiểu rõ về công nghệ khai thác thông tin từ bệnh án điện tử, hỗ trợ xây dựng hệ thống quản lý và phân tích dữ liệu y tế.

  3. Phát triển phần mềm và công ty công nghệ y tế: Áp dụng phương pháp để phát triển các công cụ hỗ trợ chẩn đoán, xây dựng bộ từ điển y khoa tự động cập nhật.

  4. Cơ quan quản lý nhà nước về y tế và công nghệ thông tin: Tham khảo để xây dựng chính sách, định hướng phát triển hệ thống bệnh án điện tử và ứng dụng trí tuệ nhân tạo trong y tế.

Câu hỏi thường gặp

  1. Phương pháp rút trích thuật ngữ y khoa trong luận văn có thể áp dụng cho các ngôn ngữ khác không?
    Phương pháp dựa trên kết hợp ngữ pháp và thống kê có thể được điều chỉnh để áp dụng cho các ngôn ngữ có cấu trúc tương tự tiếng Việt, tuy nhiên cần xây dựng lại bộ luật ngữ pháp và danh sách từ loại phù hợp với từng ngôn ngữ.

  2. Dữ liệu văn bản lâm sàng tiếng Việt có đặc điểm gì gây khó khăn cho việc trích xuất thuật ngữ?
    Văn bản lâm sàng thường viết tắt, sai chính tả, không tuân thủ nghiêm ngặt ngữ pháp, chứa nhiều thuật ngữ vùng miền và thuật ngữ mới chưa có trong từ điển, gây khó khăn cho việc tách từ và nhận diện thuật ngữ.

  3. Chỉ số NPMI đóng vai trò như thế nào trong việc rút trích thuật ngữ lồng nhau?
    NPMI đo mức độ liên kết giữa hai từ liền kề, giúp xác định vị trí tách cụm từ sao cho hai phần sau khi tách vẫn thỏa mãn quy tắc ngữ pháp, từ đó trích xuất chính xác các thuật ngữ nested bên trong cụm dài.

  4. Làm thế nào để đánh giá hiệu quả của phương pháp trích xuất thuật ngữ?
    Hiệu quả được đánh giá qua các chỉ số Recall (độ bao phủ thuật ngữ đúng), Precision (độ chính xác thuật ngữ trích xuất) và F-measure (điểm cân bằng giữa Recall và Precision), so sánh với các công trình nghiên cứu trước.

  5. Phương pháp này có thể hỗ trợ những ứng dụng nào trong y tế?
    Danh sách thuật ngữ trích xuất có thể dùng để xây dựng bộ từ điển y khoa, hỗ trợ tiền xử lý cho hệ thống hỗ trợ chẩn đoán bệnh, phân tích quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án điện tử và phát triển các ứng dụng trí tuệ nhân tạo trong y học.

Kết luận

  • Đã xây dựng thành công phương pháp rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt dựa trên kết hợp luật ngữ pháp và chỉ số thống kê C-Value, NPMI.
  • Phương pháp đạt hiệu quả cao với Recall khoảng 85%, Precision 88% và F-measure 86.5%, vượt trội so với các công trình trước.
  • Kết quả nghiên cứu góp phần bổ sung bộ từ điển y khoa tiếng Việt, hỗ trợ khai thác thông tin và phát triển hệ thống hỗ trợ chẩn đoán bệnh.
  • Đề xuất triển khai ứng dụng phương pháp trong các bệnh viện và phát triển công cụ tiền xử lý nâng cao để tăng độ chính xác.
  • Khuyến khích các nhà nghiên cứu và chuyên gia y tế tiếp tục phát triển, mở rộng ứng dụng trong lĩnh vực y học và công nghệ thông tin y tế.

Hành động tiếp theo: Áp dụng phương pháp vào hệ thống thực tế tại bệnh viện, đồng thời phát triển các module xử lý dữ liệu nâng cao để hoàn thiện quy trình trích xuất thuật ngữ. Độc giả và các chuyên gia được mời tham khảo và ứng dụng kết quả nghiên cứu trong các dự án liên quan.