Luận văn thạc sĩ khoa học máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt

Luận văn thạc sĩ kỹ thuật phân tích máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho

Trường đại học

Đại học Bách Khoa - Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Cơ sở hình thành đề tài

1.2. Mục tiêu đề tài

1.3. Giới hạn phạm vi thực hiện đề tài

1.4. Ý nghĩa của đề tài

1.4.1. Ý nghĩa khoa học

1.4.2. Ý nghĩa thực tiễn

1.5. Cấu trúc của Luận văn

2. CHƯƠNG 2: KIẾN THỨC NỀN TẢNG VÀ CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Viết tắt trong y học

2.2. Phân tích cách xây dựng từ điển viết tắt

2.3. Xây dựng nguồn dữ liệu của từ điển

2.4. Phân tích các từ điển viết tắt

2.4.1. Từ điển Allie

2.4.2. Từ điển Acromine

2.4.3. Ứng dụng tra cứu từ viết tắt bằng tiếng Việt

2.5. Định hướng của đề tài từ các công trình liên quan

2.6. Các phương pháp đánh giá

2.6.1. Phương pháp đánh giá tập dữ liệu từ điển

2.6.2. Phương pháp đánh giá hiệu suất hệ thống

3. CHƯƠNG 3: HỆ THỐNG ĐỀ XUẤT

3.1. Định nghĩa hệ thống

3.1.1. Tính chất của hệ thống từ điển

3.1.2. Nguồn dữ liệu của từ điển

3.1.3. Chức năng của từ điển

3.1.4. Kiến trúc hệ thống

3.2. Hiện thực hệ thống

3.2.1. Bộ trích xuất từ viết tắt

3.2.2. Từ điển viết tắt cho văn bản lâm sàng

3.2.2.1. Tập dữ liệu từ điển

3.2.2.2. Hệ thống từ điển

4. CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ

4.1. Đánh giá tập dữ liệu từ chuyên gia

4.2. Đánh giá độ phủ so với văn bản lâm sàng

4.3. Phân phối các dạng trích xuất từ viết tắt

4.4. Đánh giá phương pháp nhận diện từ viết tắt với học máy

4.5. Đánh giá hiệu suất hệ thống

4.5.1. Thiết lập môi trường kiểm thử

4.5.2. Kế hoạch kiểm thử

4.5.3. Kết quả kiểm thử

4.5.3.1. Kết quả đạt được

4.5.3.2. Hướng phát triển

5. CHƯƠNG 5: KẾT LUẬN

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC

TÀI LIỆU THAM KHẢO

A BIỂU MẪU ĐÁNH GIÁ BỞI CHUYÊN GIA

Tóm tắt

I. Giới thiệu

Luận văn thạc sĩ này tập trung vào việc xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt. Trong lĩnh vực y tế, việc sử dụng từ viết tắt rất phổ biến nhưng cũng gây ra nhiều vấn đề do sự không nhất quán và thiếu chuẩn hóa. Từ điển viết tắt được đề xuất nhằm giải quyết các thách thức này, hỗ trợ hiểu và xử lý văn bản lâm sàng một cách hiệu quả.

1.1 Cơ sở hình thành đề tài

Việc sử dụng từ viết tắt trong văn bản lâm sàng giúp rút ngắn thời gian ghi chép nhưng cũng gây ra sự mơ hồ do nhiều nghĩa khác nhau. Dữ liệu y tế tiếng Việt thiếu sự chuẩn hóa, dẫn đến khó khăn trong việc chia sẻ thông tin giữa con người và máy móc. Xây dựng từ điển viết tắt là giải pháp cần thiết để đảm bảo sự nhất quán và hỗ trợ các ứng dụng như dịch thuật, trích xuất thông tin.

1.2 Mục tiêu đề tài

Mục tiêu chính của đề tài là xây dựng từ điển viết tắt cho văn bản lâm sàng tiếng Việt bằng phương pháp phân tích dữ liệu dựa trên quy tắc. Hệ thống sẽ thu thập và trích xuất từ viết tắt từ các nguồn uy tín, đảm bảo độ chính xác cao. Từ điển này sẽ hỗ trợ các tác vụ như phân loại văn bản, truy vấn thông tin và khai thác tri thức.

II. Kiến thức nền tảng và các công trình liên quan

Chương này trình bày các khái niệm cơ bản về từ viết tắt trong y học và phương pháp xây dựng từ điển viết tắt. Các nghiên cứu liên quan được phân tích để định hướng cho đề tài, bao gồm các phương pháp trích xuất từ viết tắt và đánh giá hiệu quả của từ điển.

2.1 Viết tắt trong y học

Từ viết tắt trong y học thường được sử dụng để rút gọn tên bệnh, phương pháp điều trị và thuật ngữ y khoa. Tuy nhiên, một từ viết tắt có thể có nhiều nghĩa khác nhau, gây ra sự nhập nhằng. Ví dụ, từ 'PC' có thể chỉ 'Personal Computer' hoặc 'Prostate Cancer'. Điều này làm tăng nhu cầu về một từ điển viết tắt chuẩn hóa.

2.2 Từ điển viết tắt

Từ điển viết tắt là công cụ quan trọng để tra cứu và hiểu các từ viết tắt trong văn bản lâm sàng. Nó cung cấp thông tin chi tiết về nghĩa, cách sử dụng và ngữ cảnh của từ viết tắt. Các từ điển như Allie và Acromine đã được nghiên cứu và áp dụng trong nhiều lĩnh vực y khoa.

III. Hệ thống đề xuất

Hệ thống được đề xuất bao gồm các bước xử lý ngôn ngữ tự nhiên để trích xuất và lưu trữ từ viết tắt từ văn bản lâm sàng tiếng Việt. Hệ thống sử dụng phương pháp dựa trên quy tắc để đảm bảo độ chính xác cao và được đánh giá bởi các chuyên gia y tế.

3.1 Định nghĩa hệ thống

Hệ thống bao gồm các thành phần chính như bộ trích xuất từ viết tắt, từ điển viết tắt và giao diện web để tương tác với người dùng. Hệ thống được thiết kế để hỗ trợ các ứng dụng như dịch thuật, trích xuất thông tin và phân tích dữ liệu y tế.

3.2 Hiện thực hệ thống

Hệ thống được hiện thực bằng cách sử dụng các công nghệ xử lý ngôn ngữ tự nhiên và học sâu tiền huấn luyện. Các từ viết tắt được trích xuất từ các bài báo khoa học y học tiếng Việt và lưu trữ trong cơ sở dữ liệu. Giao diện web cho phép người dùng tra cứu và tương tác với từ điển một cách dễ dàng.

IV. Đánh giá kết quả

Hệ thống được đánh giá dựa trên độ chính xác và độ phủ của từ điển. Kết quả cho thấy hệ thống đạt độ chính xác lên đến 98%, đáp ứng được yêu cầu của người dùng và các ứng dụng y tế.

4.1 Đánh giá tập dữ liệu

Tập dữ liệu từ điển được đánh giá bởi các chuyên gia y tế, đảm bảo tính chính xác và đầy đủ thông tin. Kết quả cho thấy hệ thống có độ phủ cao và hỗ trợ hiệu quả cho việc hiểu và xử lý văn bản lâm sàng tiếng Việt.

4.2 Đánh giá hiệu suất hệ thống

Hệ thống được kiểm thử với nhiều người dùng và yêu cầu khác nhau. Kết quả cho thấy hệ thống có khả năng xử lý nhanh và ổn định, đáp ứng được nhu cầu của người dùng trong thực tế.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong lĩnh vực y tế, việc sử dụng từ viết tắt trong văn bản lâm sàng là phổ biến nhằm rút ngắn thời gian ghi chép và tăng hiệu quả truyền đạt thông tin. Tuy nhiên, theo ước tính, khoảng 81,2% các từ viết tắt có sự nhập nhằng về nghĩa với trung bình 16,6 nghĩa cho một từ viết tắt, gây ra nhiều khó khăn trong việc hiểu và xử lý dữ liệu y tế, đặc biệt trong văn bản tiếng Việt. Sự không chuẩn hóa và thiếu nhất quán trong cách sử dụng từ viết tắt tại các bệnh viện và tài liệu y học tiếng Việt làm tăng nguy cơ hiểu nhầm và giảm hiệu quả chia sẻ thông tin giữa con người và máy móc. Mục tiêu của nghiên cứu là xây dựng một hệ thống từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt, nhằm chuẩn hóa và hỗ trợ việc tra cứu, xử lý dữ liệu y tế. Nghiên cứu tập trung vào việc thu thập, trích xuất và lưu trữ các cặp từ viết tắt và dạng đầy đủ từ các bài báo khoa học tiếng Việt trong lĩnh vực y học, đồng thời phát triển giao diện web và API để người dùng và hệ thống máy tính có thể tương tác hiệu quả. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ các tạp chí y học Việt Nam trong giai đoạn từ năm 2023 đến 2024, với hơn 6,700 bài báo được xử lý. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác nhận diện từ viết tắt lên tới 98%, hỗ trợ các ứng dụng như dịch thuật, trích xuất thông tin, phân tích dữ liệu y tế và hỗ trợ quyết định trong y khoa.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình sau:

Lý thuyết về từ viết tắt trong y học: Từ viết tắt là cách rút gọn từ hoặc cụm từ, thường được hình thành từ các chữ cái đầu tiên. Trong y học, từ viết tắt có thể có nhiều nghĩa khác nhau tùy theo ngữ cảnh, gây ra sự nhập nhằng và khó hiểu nếu không có chuẩn hóa.
Mô hình trích xuất từ viết tắt dựa trên quy tắc (Rule-based Extraction): Sử dụng các biểu thức chính quy và quy tắc xác định ranh giới từ viết tắt dựa trên dấu ngoặc đơn, dấu phân cách, và các đặc điểm ngôn ngữ tiếng Việt.
Khái niệm từ điển viết tắt: Là tập hợp các từ viết tắt kèm theo nghĩa, nguồn gốc, tần suất xuất hiện và ví dụ minh họa, giúp chuẩn hóa và hỗ trợ tra cứu.
Mô hình kiến trúc hệ thống 3 lớp: Bao gồm lớp giao diện người dùng, lớp xử lý logic nghiệp vụ và lớp truy cập dữ liệu, đảm bảo tính mở rộng, hiệu quả và dễ bảo trì.
Khái niệm đánh giá hiệu suất hệ thống: Bao gồm các chỉ số như số lượng yêu cầu trên phút, thời gian phản hồi, số lỗi trên phút, và khả năng chịu tải của hệ thống.

Phương pháp nghiên cứu

Nguồn dữ liệu: Thu thập dữ liệu từ hơn 6,700 bài báo khoa học tiếng Việt thuộc các tạp chí y học uy tín như Tạp chí Y học Việt Nam, Tạp chí Y học Cộng đồng, Tạp chí Nghiên cứu Y học, và Tạp chí Y học Cổ truyền Việt Nam.
Phương pháp trích xuất: Áp dụng phương pháp dựa trên quy tắc với bốn biểu thức chính quy để nhận diện các dạng từ viết tắt phổ biến trong văn bản lâm sàng tiếng Việt, bao gồm dạng "Cụm từ đầy đủ (Từ viết tắt)" và "Từ viết tắt (Cụm từ đầy đủ)".
Xử lý dữ liệu: Sử dụng thư viện pdfminer để trích xuất văn bản từ các file PDF, sau đó áp dụng thuật toán Sliding Window để xác định dạng đầy đủ của từ viết tắt với độ dài cửa sổ tối đa 10 từ.
Lưu trữ và biểu diễn dữ liệu: Thiết kế cơ sở dữ liệu quan hệ với các bảng lưu trữ từ viết tắt, dạng đầy đủ, cặp từ viết tắt - dạng đầy đủ, ví dụ minh họa, tần suất xuất hiện và thông tin bài báo.
Đánh giá: Đánh giá độ chính xác trích xuất từ viết tắt đạt 98%, so sánh độ phủ từ điển với các nguồn dữ liệu y học quốc tế, và kiểm thử hiệu suất hệ thống với các chỉ số như thời gian phản hồi và khả năng chịu tải với 10, 20 và 50 người dùng đồng thời.
Timeline nghiên cứu: Nghiên cứu được thực hiện từ tháng 01/2024 đến tháng 06/2024, gồm các giai đoạn thu thập dữ liệu, phát triển hệ thống, đánh giá và hoàn thiện.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Số lượng từ viết tắt và cặp từ viết tắt - dạng đầy đủ: Qua ba giai đoạn thu thập và xử lý, hệ thống đã trích xuất được 8,318 từ viết tắt và 16,892 cặp từ viết tắt - dạng đầy đủ từ hơn 6,700 bài báo y học tiếng Việt. So với giai đoạn đầu với 1,061 từ viết tắt và 1,359 cặp, đây là sự tăng trưởng đáng kể, thể hiện hiệu quả của phương pháp trích xuất và mở rộng dữ liệu.
Độ chính xác trích xuất: Đánh giá bởi các chuyên gia y tế cho thấy phương pháp trích xuất dựa trên quy tắc đạt độ chính xác lên tới 98%, cao hơn nhiều so với các phương pháp học máy chưa được áp dụng rộng rãi cho tiếng Việt do thiếu dữ liệu huấn luyện.
Hiệu suất hệ thống: Kiểm thử với 50 người dùng đồng thời cho thấy hệ thống có thể xử lý trung bình 120 yêu cầu trên phút với thời gian phản hồi trung bình dưới 1 giây, đảm bảo khả năng phục vụ người dùng trong môi trường thực tế.
Phản hồi người dùng và cải tiến từ điển: Hệ thống cho phép người dùng gửi phản hồi và bình chọn các yêu cầu chỉnh sửa, giúp cải thiện độ chính xác và mở rộng từ điển liên tục. Tỷ lệ phản hồi tích cực và sửa lỗi đạt khoảng 85% trong các lần cập nhật.

Thảo luận kết quả

Nguyên nhân của sự thành công trong việc xây dựng từ điển viết tắt là do việc lựa chọn nguồn dữ liệu chính thống từ các tạp chí y học tiếng Việt, đảm bảo tính chính xác và cập nhật của từ vựng. Phương pháp trích xuất dựa trên quy tắc và biểu thức chính quy phù hợp với đặc điểm ngôn ngữ tiếng Việt và tính đa dạng của các dạng viết tắt trong văn bản lâm sàng. So sánh với các nghiên cứu quốc tế, hệ thống đạt độ chính xác tương đương hoặc cao hơn trong bối cảnh tiếng Việt còn thiếu tài nguyên dữ liệu. Việc xây dựng kiến trúc hệ thống 3 lớp giúp đảm bảo tính mở rộng và hiệu suất, đồng thời hỗ trợ tương tác đa dạng qua giao diện web và API. Các biểu đồ phân phối thời gian phản hồi và số lượng yêu cầu trên giây minh họa rõ khả năng chịu tải và độ ổn định của hệ thống. Kết quả này có ý nghĩa quan trọng trong việc chuẩn hóa ngôn ngữ y học tiếng Việt, hỗ trợ các ứng dụng xử lý ngôn ngữ tự nhiên, dịch thuật và phân tích dữ liệu y tế.

Đề xuất và khuyến nghị

Tự động cập nhật từ điển từ nguồn dữ liệu mới: Triển khai hệ thống khai thác dữ liệu tự động từ các tạp chí y học tiếng Việt mới xuất bản hàng tháng để đảm bảo từ điển luôn được làm giàu và cập nhật kịp thời. Chủ thể thực hiện: nhóm phát triển hệ thống; Thời gian: liên tục hàng tháng.
Phát triển mô hình học sâu tiền huấn luyện cho tiếng Việt: Nghiên cứu và áp dụng các mô hình học sâu tiền huấn luyện để nâng cao khả năng nhận diện và phân loại từ viết tắt trong văn bản lâm sàng, đặc biệt với các dạng viết tắt phức tạp và ít phổ biến. Chủ thể thực hiện: nhóm nghiên cứu; Thời gian: 12-18 tháng.
Mở rộng phạm vi ứng dụng sang các lĩnh vực y tế khác: Áp dụng từ điển viết tắt vào các hệ thống hỗ trợ quyết định lâm sàng, trích xuất thông tin bệnh án điện tử và dịch thuật y học để tăng giá trị sử dụng. Chủ thể thực hiện: các bệnh viện, trung tâm nghiên cứu; Thời gian: 6-12 tháng.
Xây dựng cộng đồng người dùng và chuyên gia đóng góp: Thiết lập nền tảng trực tuyến để người dùng và chuyên gia y tế có thể đóng góp, phản hồi và xác thực các từ viết tắt, giúp cải thiện chất lượng và độ phủ của từ điển. Chủ thể thực hiện: nhóm quản trị hệ thống; Thời gian: 3-6 tháng.
Tối ưu hóa hiệu suất hệ thống và bảo mật dữ liệu: Nâng cấp hạ tầng máy chủ và áp dụng các biện pháp bảo mật để đảm bảo hệ thống hoạt động ổn định, an toàn khi phục vụ số lượng lớn người dùng và dữ liệu nhạy cảm. Chủ thể thực hiện: nhóm kỹ thuật; Thời gian: 6 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp phương pháp và hệ thống thực nghiệm về trích xuất và xây dựng từ điển viết tắt, là tài liệu tham khảo quý giá cho các nghiên cứu về xử lý văn bản y học tiếng Việt.
Chuyên gia và cán bộ y tế, quản lý bệnh viện: Từ điển viết tắt giúp chuẩn hóa ngôn ngữ y học, hỗ trợ đọc hiểu và ghi chép chính xác trong văn bản lâm sàng, nâng cao hiệu quả công tác chuyên môn.
Phát triển phần mềm và hệ thống thông tin y tế: Các nhà phát triển có thể tích hợp API từ điển viết tắt vào các ứng dụng quản lý bệnh án, hỗ trợ quyết định và phân tích dữ liệu y tế, tăng tính chính xác và tiện ích.
Người làm công tác dịch thuật và biên tập tài liệu y học: Từ điển giúp tra cứu nhanh các từ viết tắt và nghĩa đầy đủ, đảm bảo tính nhất quán và chính xác trong dịch thuật và biên tập tài liệu chuyên ngành.

Câu hỏi thường gặp

Từ điển viết tắt này có thể áp dụng cho các văn bản y tế ngoài bệnh viện không?
Có, từ điển được xây dựng dựa trên các bài báo khoa học y học tiếng Việt, do đó có thể áp dụng cho nhiều loại văn bản y tế khác nhau như báo cáo nghiên cứu, tài liệu đào tạo, và hồ sơ bệnh án điện tử.
Phương pháp trích xuất từ viết tắt có thể nhận diện các dạng viết tắt phức tạp không?
Phương pháp dựa trên quy tắc và biểu thức chính quy hiệu quả với các dạng viết tắt phổ biến, tuy nhiên với các dạng phức tạp hoặc ít gặp, cần kết hợp thêm mô hình học sâu để nâng cao độ chính xác.
Hệ thống có hỗ trợ người dùng đóng góp từ viết tắt mới không?
Có, hệ thống cho phép người dùng gửi phản hồi và đề xuất từ viết tắt mới, đồng thời có cơ chế bình chọn và xác thực để đảm bảo chất lượng dữ liệu.
Độ chính xác của hệ thống được đánh giá như thế nào?
Độ chính xác trích xuất từ viết tắt đạt khoảng 98% theo đánh giá của các chuyên gia y tế, cao hơn nhiều so với các phương pháp truyền thống chưa áp dụng quy tắc đặc thù cho tiếng Việt.
Hệ thống có thể tích hợp với các phần mềm y tế hiện có không?
Có, hệ thống cung cấp API RESTful giúp các phần mềm và hệ thống y tế khác dễ dàng truy cập và sử dụng dữ liệu từ điển viết tắt, hỗ trợ đa dạng ứng dụng trong y học.

Kết luận

Đã xây dựng thành công hệ thống từ điển viết tắt cho văn bản lâm sàng tiếng Việt với hơn 8,300 từ viết tắt và gần 17,000 cặp từ viết tắt - dạng đầy đủ.
Phương pháp trích xuất dựa trên quy tắc và biểu thức chính quy đạt độ chính xác 98%, phù hợp với đặc điểm ngôn ngữ và dữ liệu tiếng Việt.
Hệ thống được thiết kế theo kiến trúc 3 lớp, cung cấp giao diện web và API, đảm bảo hiệu suất và khả năng mở rộng.
Kết quả đánh giá hiệu suất cho thấy hệ thống có thể phục vụ đồng thời nhiều người dùng với thời gian phản hồi nhanh và ổn định.
Đề xuất các hướng phát triển tiếp theo bao gồm tự động cập nhật dữ liệu, áp dụng mô hình học sâu, mở rộng ứng dụng và xây dựng cộng đồng người dùng.

Khuyến khích các nhà nghiên cứu, chuyên gia y tế và phát triển phần mềm tích hợp và sử dụng hệ thống từ điển viết tắt để nâng cao hiệu quả xử lý và phân tích dữ liệu y tế tiếng Việt.

Trích đoạn nội dung tài liệu

Chương 1 - Giới thiệu: Trình bày tổng quan vấn đề cần phải nghiên cứu, trong đó bao gồm cơ sở hình thành đề tài, mục tiêu nghiên cứu, phạm vi nghiên cứu, và ý nghĩa đề tài. Cuối cùng là cấu trúc của luận văn. • Chương 2 - Kiến thức nền tảng và các công trình liên quan: Tổng hợp và phân tích kiến thức nền tảng, các công trình nghiên cứu, và các kết quả liên quan được chia thành hai nhóm chính: Nghiên cứu phương pháp trích xuất từ vựng viết tắt, phương pháp xây dựng từ điển. Cuối chương này, học viên sẽ đưa ra định hướng cho đề tài nghiên cứu và phương pháp đánh giá.

• Chương 3 - Hiện thực hệ thống: Chương này sẽ phân tích vấn đề của đề tài. Từ đó, tác giả đưa ra các chức năng cho từ điển để giải quyết các vấn đề. Cuối cùng, tác giả sẽ mô tả thiết kế chi tiết và hiện thực hệ thống. • Chương 4 - Đánh giá kết quả: Chương này tác giả trình bày các kết quả thực nghiệm từ hệ thống và đánh giá kết quả bằng các phương pháp khác nhau.

• Chương 5 - Kết luận: Chương cuối cùng để đánh giá lại toàn bộ các kết quả mà đề tài đã thực hiện và đạt được trong quá trình thực hiện Luận văn Thạc sĩ. Chương này cũng chỉ ra những khó khăn trong quá trình thực hiện cũng như các giới hạn của kết quả, và từ đó đề xuất những hướng phát triển tiếp theo. LUẬN VĂN TỐT NGHIỆP Trang 3/61 Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Chương 2 Kiến thức nền tảng và các công trình liên quan Chương này trình bày các khái niệm nền tảng, bao gồm định nghĩa về từ viết tắt trong y học và khái niệm từ điển. Đồng thời, chương này cũng phân tích các phương pháp xây dựng từ điển viết tắt, bao gồm các nguồn dữ liệu và cách thức xây dựng.

Ngoài ra, chương này cũng giới thiệu một số từ điển viết tắt tiêu biểu và ứng dụng tra cứu từ viết tắt bằng tiếng Việt, cùng với các phương pháp đánh giá để định hướng đề tài.1 Viết tắt trong y học Từ viết tắt là một cách rút gọn một từ hoặc một cụm từ. Cách biểu diễn từ có thể ở nhiều dạng khác nhau, nhưng thường được hình thành bằng các kí tự đầu tiên của các từ [8]. Trong y học, chúng thường được sử dụng để viết gọn các tên bệnh, phương pháp điều trị, thuốc, và các thuật ngữ y học khác. Dưới đây là một số ví dụ về từ viết tắt trong y học: • ALL: Acute lymphoblastic leukemia, nghĩa là bệnh bạch cầu cấp tính.

• AMI: Acute myocardial infarction, nghĩa là đau thắt ngực. • IBS: Irritable bowel syndrome, nghĩa là hội chứng ruột kích thích. • IDDM: Insulin-dependent diabetes mellitus, nghĩa là tiểu đường phụ thuộc insulin. • PE: Pulmonary embolism, nghĩa là tắc nghẽn động mạch phổi.

• TSH: Thyroid-stimulating hormone, nghĩa là hormon kích thích tuyến giáp. LUẬN VĂN TỐT NGHIỆP Trang 4/61 Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Tác giả Liu H và các cộng sự đã chỉ ra rằng khoảng 81,2% các từ vựng viết tắt có sự nhập nhằng về nghĩa và có trung bình 16,6 nghĩa cho 1 từ viết tắt [9]. Ví dụ như từ viết tắt PC. Chúng ta có một số nghĩa của từ bằng tiếng Anh như Personal Computer, Primary case, principal component, prostate cancer, v.2 Từ điển Từ điển không chỉ là một công cụ hữu ích để tra cứu từ vựng, mà còn là một nguồn tài nguyên quý giá để nghiên cứu và hiểu biết sâu hơn về ngôn ngữ.

Từ điển cung cấp thông tin chi tiết về từ vựng, bao gồm cả nghĩa, cách sử dụng, ngữ cảnh, từ loại, và thậm chí là nguồn gốc của từ [10]. Nó cũng có thể bao gồm các ví dụ về cách sử dụng từ trong câu, giúp người dùng hiểu rõ hơn về cách sử dụng từ đó một cách chính xác. Từ điển viết tắt, một dạng đặc biệt của từ điển, chứa một bộ sưu tập các từ viết tắt và giải thích ý nghĩa của chúng. Điều này đặc biệt hữu ích trong các lĩnh vực chuyên ngành, nơi mà việc sử dụng từ viết tắt là phổ biến.

Ví dụ, trong y học, từ viết tắt như điện tâm đồ (ECG) và hình ảnh cộng hưởng từ (MRI) thường được sử dụng. Từ điển viết tắt giúp người đọc hiểu rõ hơn về các từ viết tắt này và cung cấp kiến thức chuyên ngành một cách chính xác.2 Phân tích cách xây dựng từ điển viết tắt Học viên đã nghiên cứu các hệ thống cung cấp từ viết tắt cho các ngôn ngữ khác nhau. Trong quá trình nghiên cứu, Học viên đã tìm thấy nhiều bài báo liên quan. Bài thứ nhất của SungRim [5] là một nghiên cứu được công bố trên Nature và bài báo của các tác giả Sungrim Moon, Serguei Pakhomov, Nathan Liu, James O.

Ryan, và Genevieve B. Các tác giả đã tiến hành kết hợp hệ thống của tám kho dữ liệu (UMLS-LRABR [11], ADAM [12], Berman [13], Wikipedia [14], Vanderbilt1 [15], Vanderbilt2 [15], Stetson [16],.) từ nhiều chuyên ngành và môi trường chăm sóc sức khỏe khác nhau, từ đó xác định được 104,057 từ viết tắt với 170,426 ý nghĩa tương ứng. Bài viết thứ hai [17] là một nghiên cứu của tác giả Hua Xu từ Khoa Thông tin Y học, Đại học Columbia, New York, USA. Nghiên cứu này tập trung vào việc xây dựng bộ từ vựng cụ thể cho các từ viết tắt xuất hiện trong các ghi chú lâm sàng.

Bài viết thứ 3 [4] giới thiệu về cách xây dựng một cơ sở dữ liệu viết tắt bằng Tiếng Việt bằng phương pháp so khớp tối đa Maximum Matching (MM) [18] và phương pháp sử dụng biểu thức chính quy. Phương pháp MM này sẽ duyệt một đoạn văn bản từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và thực hiện đến hết văn bản. Phương pháp này dựa vào các dấu hiệu nhận biết chữ viết tắt được định nghĩa sẵn để có thể trích xuất từ viết tắt. Các tác giả thấy rằng việc trích xuất từ viết tắt theo phương pháp so khớp tối đa không hiệu quả do phải so khớp với từ điển để loại bỏ các từ có nghĩa.

Phương pháp sử dụng biểu thức chính quy LUẬN VĂN TỐT NGHIỆP Trang 5/61 Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính có tốc độ xử lý nhanh và chính xác với các dạng từ viết tắt phổ biến. Tuy nhiên, do chữ viết tắt có cấu trúc rất đa dạng, có những dạng từ viết tắt không phổ biến mà phương pháp này không thể nhận biết được. LUẬN VĂN TỐT NGHIỆP Trang 6/61 Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Điểm tương đồng của các bài báo: • Tập trung vào việc xây dựng một từ điển hoặc hệ thống để giải mã các từ viết tắt. Điểm khác biệt của các bài báo được so sánh dạng bảng như sau: Bảng 2.1: Điểm khác biệt của các nghiên cứu liên quan Bài báo Nội dung của từ điển Cách đánh giá - Tập trung vào việc xây dựng một cơ sở dữ liệu về các từ viết tắt trong y học.

- Sử dụng các nguồn dữ liệu lâm sàng để xây dựng So sánh độ phủ của từ điển xây dựng với các từ [5] từ điển của họ. điển lớn như UMLS, ADAM,. - Sử dụng học máy để giảm độ trùng lặp thông qua việc ánh xạ chéo tự động các bản ghi đồng nghĩa và gom nhóm các nghĩa của từ. Bài báo đánh giá theo hai chỉ số: - Tỉ lệ đầy đủ nghĩa (Sense Completeness) là tỉ lệ số lượng nghĩa được tìm thấy thông qua mô hình - Tập trung vào việc xây dựng một từ điển cho các trên số lượng nghĩa của từ được tìm bằng cách thủ từ viết tắt lâm sàng.

Tập dữ liệu sẽ là 200 mẫu ngẫu nhiên cho - Sử dụng các nguồn dữ liệu lâm sàng để xây dựng [17] mỗi từ viết tắt. từ điển của họ. - Chi phí chú thích (Annotation Cost) là tỉ lệ số - Sử dụng phương pháp thủ công để gán nhãn cho lượng từ chú thích đươc tìm thấy thông qua mô hình từng từ viết tắt. trên tổng số từ chú thích được tìm bằng cách thủ công.

- Tập trung vào việc xây dựng một cơ sở dữ liệu về các từ viết tắt bằng Tiếng Việt không theo chủ đề nhất định. - Sử dụng các nguồn dữ liệu từ các tệp văn bản Tác giả bài báo không đề cập tới cách đánh giá cơ [4] hoặc từ internet. sở dữ liệu viết tắt. - Sử dụng các dạng dấu hiệu từ viết tắt để trích xuất như: Cụm từ đầy đủ (Chữ viết tắt), Chữ viết tắt (Cụm từ đầy đủ), Chữ viết tắt dấu cách Cụm từ đầy đủ, dạng bảng LUẬN VĂN TỐT NGHIỆP Trang 7/61 Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính 2.3 Xây dựng nguồn dữ liệu của từ điển Học viên tiến hành so sánh các phương pháp để các bài báo phân tích trích xuất từ viết tắt.

Các bài báo được khảo sát: • "Acrophile: An Automated Acronym Extractor and Server" của tác giả Larkey LS, Ogilvie P, Price MA, Tamilio B [19]. • "Creating an online dictionary of abbreviations from MEDLINE" của tác giả Chang JT and Schutze H and Altman RB [20]. • "Mining terminological knowledge in language biomedical corpora" của tác giả Liu H and Friedman C [21]. • "A Simple Algorithm for Identifying Abbreviation Definitions in Biomedical Text" của tác giả A.

Hearst [22] LUẬN VĂN TỐT NGHIỆP Trang 8/61 Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Các bài báo sẽ được so sánh theo như bảng sau: Bảng 2.2: So sánh phương pháp trích dẫn từ viết tắt và nghĩa của từ Nguồn trích Bài báo Phương pháp trích dẫn Ưu điểm Nhược điểm Cách đánh giá dẫn Việc trích xuất từ vựng viết tắt được hiện thực Trích dẫn các từ vựng viết tắt dựa bằng cách thủ công. Ứng trên việc sử dụng các ngoặc đơn So sánh các phương pháp dụng chưa thể trích xuất và các quy tắc đặc biệt. Tác giả trích dẫn theo 4 hướng mà Thử nghiệm với những quy được các dạng “14C-urea [19] Các trang web bài báo phân tích theo 4 hướng tác giả đã đề xuất với tỉ lệ tắc khác nhau về ngôn ngữ breath test (14C-UBT),” Contextual Canonical, Contex- Precision và Recall. “granule membrane tual, Canonical, Simple Canoni- protein-140 (GMP-140),” cal “fibrinogen (Fg),” or “protein kinase C (PKC).” Sự dụng mô hình học có giám sát (Supervised Machine Learning) Thuật toán đã đạt được tỉ Các bài báo để trích dẫn các từ vựng viết tắt.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận Văn Thạc Sĩ: Xây Dựng Từ Điển Viết Tắt Cho Dữ liệu Văn Bản Lâm Sàng Tiếng Việt là một nghiên cứu chuyên sâu nhằm giải quyết thách thức trong việc xử lý và phân tích dữ liệu y tế tiếng Việt. Tài liệu này tập trung vào việc xây dựng một từ điển viết tắt chuyên dụng cho các văn bản lâm sàng, giúp cải thiện độ chính xác và hiệu quả trong việc trích xuất thông tin y khoa. Điều này không chỉ hỗ trợ các nhà nghiên cứu và bác sĩ trong việc hiểu và phân tích dữ liệu nhanh chóng mà còn góp phần nâng cao chất lượng chăm sóc sức khỏe.

Nếu bạn quan tâm đến các nghiên cứu liên quan trong lĩnh vực xử lý dữ liệu y khoa, hãy khám phá thêm Luận văn thạc sĩ khoa học máy tính lọc nhiễu ảnh y khoa dựa trên miền curvelet domain. Tài liệu này cung cấp góc nhìn sâu hơn về việc ứng dụng công nghệ để xử lý hình ảnh y tế, một lĩnh vực bổ trợ quan trọng cho nghiên cứu về dữ liệu văn bản lâm sàng.

#Luận văn Thạc sĩ

#khoa học máy tính

#xử lý ngôn ngữ tự nhiên

#phân tích dữ liệu văn bản

#từ điển viết tắt

#dữ liệu văn bản lâm sàng

Chủ đề

Nghiên cứu về từ điển viết tắt

Ứng dụng khoa học máy tính trong y tế

Xử lý ngôn ngữ tự nhiên tiếng Việt

Phát triển công cụ hỗ trợ y tế

Luận văn thạc sĩ khoa học máy tính xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng việt

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Cơ sở hình thành đề tài

1.2. Mục tiêu đề tài

1.3. Giới hạn phạm vi thực hiện đề tài

1.4. Ý nghĩa của đề tài

1.4.1. Ý nghĩa khoa học

1.4.2. Ý nghĩa thực tiễn

1.5. Cấu trúc của Luận văn

2. CHƯƠNG 2: KIẾN THỨC NỀN TẢNG VÀ CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Viết tắt trong y học

2.2. Phân tích cách xây dựng từ điển viết tắt

2.3. Xây dựng nguồn dữ liệu của từ điển

2.4. Phân tích các từ điển viết tắt

2.4.1. Từ điển Allie

2.4.2. Từ điển Acromine

2.4.3. Ứng dụng tra cứu từ viết tắt bằng tiếng Việt

2.5. Định hướng của đề tài từ các công trình liên quan

2.6. Các phương pháp đánh giá

2.6.1. Phương pháp đánh giá tập dữ liệu từ điển

2.6.2. Phương pháp đánh giá hiệu suất hệ thống

3. CHƯƠNG 3: HỆ THỐNG ĐỀ XUẤT

3.1. Định nghĩa hệ thống

3.1.1. Tính chất của hệ thống từ điển

3.1.2. Nguồn dữ liệu của từ điển

3.1.3. Chức năng của từ điển

3.1.4. Kiến trúc hệ thống

3.2. Hiện thực hệ thống

3.2.1. Bộ trích xuất từ viết tắt

3.2.2. Từ điển viết tắt cho văn bản lâm sàng

3.2.2.1. Tập dữ liệu từ điển

3.2.2.2. Hệ thống từ điển

4. CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ

4.1. Đánh giá tập dữ liệu từ chuyên gia

4.2. Đánh giá độ phủ so với văn bản lâm sàng

4.3. Phân phối các dạng trích xuất từ viết tắt

4.4. Đánh giá phương pháp nhận diện từ viết tắt với học máy

4.5. Đánh giá hiệu suất hệ thống

4.5.1. Thiết lập môi trường kiểm thử

4.5.2. Kế hoạch kiểm thử

4.5.3. Kết quả kiểm thử

4.5.3.1. Kết quả đạt được

4.5.3.2. Hướng phát triển

5. CHƯƠNG 5: KẾT LUẬN

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC

TÀI LIỆU THAM KHẢO

A BIỂU MẪU ĐÁNH GIÁ BỞI CHUYÊN GIA

I. Giới thiệu

1.1 Cơ sở hình thành đề tài

1.2 Mục tiêu đề tài

II. Kiến thức nền tảng và các công trình liên quan

2.1 Viết tắt trong y học

2.2 Từ điển viết tắt

III. Hệ thống đề xuất

3.1 Định nghĩa hệ thống

3.2 Hiện thực hệ thống

IV. Đánh giá kết quả

4.1 Đánh giá tập dữ liệu

4.2 Đánh giá hiệu suất hệ thống

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Cao Nguyệt Minh

Người hướng dẫn: PGS. Võ Thị Ngọc Châu

Trường học: Đại học Bách Khoa - Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành: Khoa học Máy tính

Đề tài: Xây dựng từ điển viết tắt cho dữ liệu văn bản lâm sàng tiếng Việt

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2024

Địa điểm: Thành phố Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả