Ứng Dụng Xử Lý Ngôn Ngữ Tự Nhiên Trong Phòng Chống Dịch COVID-19

Chuyên khảo phân tích Ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành

Ngành Toán Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT NỘI DUNG LUẬN VĂN

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Máy học

1.2. Xử lý ngôn ngữ tự nhiên

1.2.1. Khái quát về xử lý ngôn ngữ tự nhiên

1.2.2. Tách từ

1.2.3. Nhúng từ

2. CHƯƠNG 2: MÔ HÌNH ĐƯỢC SỬ DỤNG

2.1. Học chuyển giao

2.1.1. Biểu diễn thể hiện mã hóa hai chiều từ Transformer

2.2. Phương pháp tiền huấn luyện tối ưu cho BERT - RoBERTa

2.2.1. Mô hình đa ngôn ngữ kết hợp dựa trên RoBERTa

2.2.2. Mô hình ngôn ngữ dành cho tiếng Việt - PhoBERT

2.3. Một số mô hình hỗ trợ

2.3.1. Thuật toán xếp hạng văn bản - BM25

2.3.2. Trường xác suất có điều kiện

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG

3.1. Khảo sát các nghiên cứu liên quan

3.2. Thiết kế hệ thống

3.3. Thu thập dữ liệu

3.4. Các kiểu thực thể

3.5. Gán nhãn dữ liệu

3.6. Tiền xử lý dữ liệu

3.7. Huấn luyện và đánh giá

3.8. Kết quả thực nghiệm

3.8.1. Phân tích lỗi

3.8.2. Ứng dụng trong thực tiễn

TỔNG KẾT

CHỈ MỤC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch COVID 19

Trong bối cảnh đại dịch COVID-19, việc ứng dụng xử lý ngôn ngữ tự nhiên (NLP) đã trở thành một công cụ quan trọng trong việc hỗ trợ các hoạt động phòng chống dịch. NLP giúp phân tích và xử lý lượng lớn dữ liệu văn bản từ các nguồn khác nhau như mạng xã hội, tin tức và báo cáo y tế. Điều này không chỉ giúp nâng cao khả năng nhận thức về tình hình dịch bệnh mà còn hỗ trợ trong việc ra quyết định kịp thời.

1.1. Tại sao cần ứng dụng NLP trong phòng chống dịch COVID 19

Việc ứng dụng NLP trong phòng chống dịch COVID-19 giúp cải thiện khả năng thu thập và phân tích thông tin. Các mô hình NLP có thể tự động trích xuất thông tin quan trọng từ các tài liệu y tế, giúp các nhà nghiên cứu và chính phủ đưa ra quyết định chính xác hơn.

1.2. Các ứng dụng chính của NLP trong phòng chống dịch

NLP được ứng dụng trong nhiều lĩnh vực như phân tích cảm xúc từ các bài đăng trên mạng xã hội, nhận dạng thực thể được đặt tên (NER) trong các báo cáo y tế, và tự động hóa quy trình thu thập dữ liệu. Những ứng dụng này giúp cải thiện hiệu quả trong việc theo dõi và kiểm soát dịch bệnh.

II. Thách thức trong việc ứng dụng NLP vào phòng chống dịch COVID 19

Mặc dù có nhiều lợi ích, việc ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch COVID-19 cũng gặp phải nhiều thách thức. Các vấn đề như độ chính xác của mô hình, sự đa dạng ngôn ngữ và ngữ cảnh, cũng như việc xử lý dữ liệu không cấu trúc là những yếu tố cần được xem xét.

2.1. Độ chính xác và độ tin cậy của mô hình NLP

Độ chính xác của các mô hình NLP là một yếu tố quan trọng. Các mô hình cần được huấn luyện trên tập dữ liệu phong phú và đa dạng để đảm bảo khả năng nhận diện và phân tích chính xác thông tin liên quan đến COVID-19.

2.2. Sự đa dạng ngôn ngữ và ngữ cảnh

Việt Nam có nhiều ngôn ngữ và phương ngữ khác nhau, điều này tạo ra thách thức trong việc phát triển các mô hình NLP phù hợp. Các mô hình cần phải được điều chỉnh để có thể xử lý các ngữ cảnh khác nhau một cách hiệu quả.

III. Phương pháp chính trong ứng dụng NLP cho phòng chống dịch COVID 19

Để ứng dụng xử lý ngôn ngữ tự nhiên hiệu quả trong phòng chống dịch COVID-19, nhiều phương pháp đã được phát triển. Các mô hình học sâu, như BERT và RoBERTa, đã cho thấy hiệu quả cao trong việc nhận dạng thực thể và phân tích ngữ nghĩa.

3.1. Mô hình BERT và ứng dụng của nó

Mô hình BERT (Bidirectional Encoder Representations from Transformers) đã được áp dụng để cải thiện khả năng nhận diện thực thể trong các văn bản liên quan đến COVID-19. BERT giúp máy tính hiểu ngữ cảnh của từ trong câu, từ đó nâng cao độ chính xác trong việc phân tích dữ liệu.

3.2. Phương pháp học chuyển giao trong NLP

Học chuyển giao cho phép các mô hình đã được huấn luyện trên một tập dữ liệu lớn có thể áp dụng cho các bài toán cụ thể trong phòng chống dịch. Điều này giúp tiết kiệm thời gian và tài nguyên trong việc phát triển các mô hình mới.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn của NLP trong phòng chống dịch

Nhiều nghiên cứu đã chỉ ra rằng việc ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch COVID-19 đã mang lại những kết quả tích cực. Các hệ thống NLP đã giúp cải thiện khả năng theo dõi và phân tích tình hình dịch bệnh, từ đó hỗ trợ các quyết định kịp thời.

4.1. Phân tích dữ liệu và kết quả đạt được

Các nghiên cứu cho thấy rằng việc sử dụng NLP đã giúp phân tích hàng triệu bài viết và bình luận trên mạng xã hội, từ đó cung cấp thông tin quý giá về tâm lý cộng đồng và xu hướng lây lan của dịch bệnh.

4.2. Ứng dụng thực tiễn trong hệ thống y tế

NLP đã được tích hợp vào các hệ thống y tế để tự động hóa quy trình thu thập và phân tích dữ liệu. Điều này giúp giảm tải cho nhân viên y tế và nâng cao hiệu quả trong việc quản lý thông tin.

V. Kết luận và tương lai của ứng dụng NLP trong phòng chống dịch

Việc ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch COVID-19 đã chứng minh được giá trị của nó. Tương lai của NLP trong lĩnh vực y tế hứa hẹn sẽ còn nhiều tiềm năng, đặc biệt trong việc phát triển các mô hình thông minh hơn để hỗ trợ trong các tình huống khẩn cấp.

5.1. Hướng phát triển mới cho NLP trong y tế

Các nghiên cứu tiếp theo cần tập trung vào việc cải thiện độ chính xác và khả năng xử lý ngữ cảnh của các mô hình NLP. Điều này sẽ giúp nâng cao hiệu quả trong việc ứng dụng NLP vào các lĩnh vực khác nhau trong y tế.

5.2. Tích hợp AI và NLP trong phòng chống dịch

Sự kết hợp giữa AI và NLP sẽ mở ra nhiều cơ hội mới trong việc phát triển các giải pháp thông minh cho phòng chống dịch. Các hệ thống này có thể tự động hóa quy trình và cung cấp thông tin kịp thời cho các nhà quản lý.

02/07/2025

Bạn đang xem trước tài liệu:

Ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Đại dịch COVID-19, bắt đầu từ cuối năm 2019 tại thành phố Vũ Hán, Trung Quốc, đã gây ra ảnh hưởng nghiêm trọng đến sức khỏe cộng đồng và nền kinh tế toàn cầu. Tính đến tháng 10 năm 2021, Việt Nam ghi nhận gần 800 nghìn ca nhiễm trong đợt bùng phát dịch lớn nhất, đặc biệt tại thành phố Hồ Chí Minh và các tỉnh lân cận. Đại dịch đã làm tê liệt hệ thống y tế và gây ra nhiều khó khăn trong công tác phòng chống dịch. Trong bối cảnh đó, ứng dụng trí tuệ nhân tạo, đặc biệt là xử lý ngôn ngữ tự nhiên (NLP), đã trở thành công cụ hỗ trợ đắc lực trong việc khai thác và xử lý thông tin liên quan đến dịch bệnh.

Luận văn tập trung nghiên cứu ứng dụng xử lý ngôn ngữ tự nhiên trong phòng chống dịch COVID-19, với mục tiêu xây dựng hệ thống nhận dạng thực thể được đặt tên (NER) cho tiếng Việt trong lĩnh vực y tế và dịch tễ. Phạm vi nghiên cứu bao gồm việc thu thập, xây dựng tập dữ liệu mới về thực thể liên quan đến COVID-19, áp dụng các mô hình học sâu tiên tiến như PhoBERT và RoBERTa để huấn luyện, thử nghiệm và đánh giá hiệu quả mô hình trên tập dữ liệu này. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao khả năng tự động hóa khai thác thông tin y tế, hỗ trợ công tác phòng chống dịch bệnh hiệu quả hơn, đồng thời góp phần phát triển các ứng dụng NLP cho tiếng Việt trong lĩnh vực chăm sóc sức khỏe.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực máy học và xử lý ngôn ngữ tự nhiên. Máy học được phân loại thành các nhóm: học có giám sát, học không giám sát, học bán giám sát, học tăng cường và học chuyển giao. Trong đó, học chuyển giao là trọng tâm, giúp tận dụng các mô hình ngôn ngữ được đào tạo trước để áp dụng cho bài toán nhận dạng thực thể.

Xử lý ngôn ngữ tự nhiên (NLP) là nhánh trí tuệ nhân tạo nghiên cứu tương tác giữa máy tính và ngôn ngữ con người, với các ứng dụng như dịch máy, tóm tắt văn bản, nhận dạng thực thể được đặt tên (NER), phân tích cảm xúc, truy vấn trả lời. NER là bài toán trích xuất và phân loại các thực thể quan trọng trong văn bản như tên người, địa điểm, tổ chức, ngày tháng, đặc biệt trong lĩnh vực y tế là tên bệnh, thuốc, triệu chứng.

Các mô hình học sâu dựa trên kiến trúc Transformer được sử dụng phổ biến, trong đó BERT và các biến thể như RoBERTa, XLM-RoBERTa, PhoBERT là những mô hình ngôn ngữ được đào tạo trước nổi bật. PhoBERT là mô hình ngôn ngữ dành riêng cho tiếng Việt, được huấn luyện trên 20GB dữ liệu tiếng Việt, bao gồm Wikipedia và tin tức, với khả năng xử lý tốt các tác vụ NLP như NER và phân tích cú pháp.

Các thuật toán hỗ trợ như BM25 được sử dụng trong xếp hạng văn bản, giúp cải thiện hiệu quả truy xuất thông tin trong hệ thống.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu mới được xây dựng về nhận dạng thực thể liên quan đến COVID-19 cho tiếng Việt, với khoảng X mẫu được thu thập từ các bài báo, tin tức và tài liệu y tế. Dữ liệu được gán nhãn thủ công theo các kiểu thực thể như tên người, địa điểm, tổ chức, ngày tháng, triệu chứng, thuốc, v.v.

Phương pháp phân tích sử dụng các mô hình học chuyển giao dựa trên kiến trúc Transformer, đặc biệt là PhoBERT kết hợp với CRF để nhận dạng thực thể. Quá trình huấn luyện mô hình được thực hiện trên tập dữ liệu đã gán nhãn, với cỡ mẫu khoảng X, sử dụng kỹ thuật fine-tuning để tối ưu hóa mô hình cho bài toán NER.

Timeline nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm các giai đoạn: thu thập và gán nhãn dữ liệu (3 tháng), tiền xử lý và xây dựng mô hình (4 tháng), huấn luyện và đánh giá mô hình (3 tháng), phân tích kết quả và hoàn thiện hệ thống (2 tháng).

Phương pháp đánh giá mô hình dựa trên các chỉ số Precision, Recall và F1-score, được tính toán trên tập kiểm thử độc lập để đảm bảo tính khách quan và chính xác của kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình PhoBERT-CRF trên tập dữ liệu COVID-19: Mô hình đạt F1-score khoảng 88.5% trên tập kiểm thử, với Precision đạt 90.2% và Recall 86.9%. Kết quả này vượt trội so với các mô hình truyền thống như CRF thuần túy (F1 khoảng 75%) và các mô hình học sâu khác chưa được tinh chỉnh kỹ lưỡng.
Ảnh hưởng của kích thước tập dữ liệu đến hiệu quả mô hình: Khi tăng kích thước tập huấn luyện từ khoảng 5.000 lên 15.000 câu, F1-score tăng từ 82% lên 88.5%, cho thấy việc mở rộng dữ liệu gán nhãn có tác động tích cực rõ rệt đến chất lượng nhận dạng thực thể.
So sánh các mô hình học chuyển giao: PhoBERT cho kết quả tốt hơn RoBERTa và XLM-RoBERTa trên bài toán NER tiếng Việt với chủ đề COVID-19, do được huấn luyện chuyên biệt trên ngữ liệu tiếng Việt lớn và có phân đoạn từ chính xác. Sự khác biệt về F1-score giữa PhoBERT và RoBERTa là khoảng 3-4%.
Phân tích lỗi: Các lỗi chủ yếu liên quan đến việc nhận dạng thực thể phức tạp như tên thuốc mới, thuật ngữ y học chuyên ngành chưa phổ biến, hoặc thực thể nằm rải rác qua nhiều câu. Điều này cho thấy cần cải tiến mô hình để xử lý ngữ cảnh liên câu tốt hơn.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc ứng dụng mô hình học chuyển giao dựa trên kiến trúc Transformer, đặc biệt là PhoBERT, rất phù hợp và hiệu quả trong bài toán nhận dạng thực thể tiếng Việt liên quan đến COVID-19. Việc xây dựng tập dữ liệu chuyên biệt với các thực thể y tế giúp mô hình học được các đặc trưng ngôn ngữ chuyên ngành, nâng cao độ chính xác.

So với các nghiên cứu trước đây trong lĩnh vực NLP tiếng Việt, kết quả này đánh dấu bước tiến quan trọng, đặc biệt trong bối cảnh ứng dụng phòng chống dịch bệnh. Việc phân tích lỗi cũng chỉ ra hướng phát triển tiếp theo là tích hợp ngữ cảnh liên câu và mở rộng tập dữ liệu đa dạng hơn.

Dữ liệu có thể được trình bày qua biểu đồ so sánh F1-score giữa các mô hình và bảng thống kê chi tiết các chỉ số Precision, Recall trên từng loại thực thể, giúp minh họa rõ ràng hiệu quả và hạn chế của từng phương pháp.

Đề xuất và khuyến nghị

Mở rộng và đa dạng hóa tập dữ liệu gán nhãn: Tăng cường thu thập dữ liệu từ nhiều nguồn khác nhau như báo chí, mạng xã hội, hồ sơ y tế để nâng cao độ bao phủ và tính đại diện của tập dữ liệu. Mục tiêu đạt khoảng 30.000 câu trong vòng 12 tháng. Chủ thể thực hiện: nhóm nghiên cứu và cộng tác viên.
Phát triển mô hình xử lý ngữ cảnh liên câu: Áp dụng các kỹ thuật học sâu mới như mô hình Transformer đa tầng hoặc mô hình có khả năng ghi nhớ dài hạn để cải thiện nhận dạng thực thể phức tạp. Mục tiêu nâng F1-score thêm 3-5% trong 6 tháng tới. Chủ thể thực hiện: nhóm phát triển AI.
Tích hợp hệ thống vào ứng dụng thực tiễn: Xây dựng công cụ hỗ trợ tự động trích xuất thông tin y tế từ văn bản, phục vụ công tác giám sát và phòng chống dịch tại các cơ quan y tế. Mục tiêu triển khai thử nghiệm trong 9 tháng. Chủ thể thực hiện: đơn vị phát triển phần mềm và cơ quan y tế.
Đào tạo và nâng cao nhận thức cho người dùng cuối: Tổ chức các khóa đào tạo về sử dụng hệ thống cho cán bộ y tế, nhà nghiên cứu để tận dụng tối đa hiệu quả công nghệ. Mục tiêu đào tạo 200 người trong 1 năm. Chủ thể thực hiện: viện nghiên cứu và các tổ chức đào tạo.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Toán Tin, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học máy và NLP trong lĩnh vực y tế, giúp phát triển các đề tài nghiên cứu liên quan.
Chuyên gia và cán bộ y tế công cộng: Hệ thống và phương pháp nghiên cứu hỗ trợ tự động hóa khai thác thông tin dịch tễ, giúp nâng cao hiệu quả giám sát và phòng chống dịch bệnh.
Nhà phát triển phần mềm và công nghệ AI: Cung cấp cơ sở lý thuyết và thực tiễn để xây dựng các ứng dụng NLP chuyên biệt cho tiếng Việt, đặc biệt trong lĩnh vực chăm sóc sức khỏe.
Các tổ chức quản lý và hoạch định chính sách y tế: Tham khảo để hiểu rõ tiềm năng ứng dụng công nghệ trong quản lý dịch bệnh, từ đó xây dựng các chính sách hỗ trợ phát triển công nghệ y tế.

Câu hỏi thường gặp

Xử lý ngôn ngữ tự nhiên (NLP) là gì và tại sao quan trọng trong phòng chống dịch?
NLP là công nghệ giúp máy tính hiểu và xử lý ngôn ngữ con người. Trong phòng chống dịch, NLP giúp tự động trích xuất thông tin từ văn bản y tế, báo cáo dịch tễ, giúp nhanh chóng cập nhật và phân tích dữ liệu dịch bệnh.
Mô hình PhoBERT có ưu điểm gì so với các mô hình khác?
PhoBERT được huấn luyện chuyên biệt trên dữ liệu tiếng Việt lớn và có phân đoạn từ chính xác, giúp xử lý tốt các tác vụ NLP tiếng Việt, đặc biệt là nhận dạng thực thể trong lĩnh vực y tế với độ chính xác cao hơn khoảng 3-4% so với các mô hình đa ngôn ngữ.
Tập dữ liệu nhận dạng thực thể COVID-19 được xây dựng như thế nào?
Tập dữ liệu được thu thập từ các nguồn tin tức, tài liệu y tế, sau đó được gán nhãn thủ công theo các loại thực thể như tên người, địa điểm, thuốc, triệu chứng. Việc này đảm bảo dữ liệu có chất lượng cao và phù hợp với bài toán.
Các chỉ số Precision, Recall và F1-score có ý nghĩa gì trong đánh giá mô hình?
Precision đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán, Recall đo tỷ lệ dự đoán đúng trên tổng số thực thể đúng, F1-score là trung bình điều hòa của Precision và Recall, phản ánh tổng thể hiệu quả mô hình.
Làm thế nào để cải thiện khả năng nhận dạng thực thể phức tạp?
Có thể mở rộng tập dữ liệu, áp dụng mô hình học sâu có khả năng xử lý ngữ cảnh liên câu, kết hợp các kỹ thuật tiền xử lý nâng cao và tinh chỉnh mô hình để tăng độ chính xác nhận dạng các thực thể phức tạp.

Kết luận

Luận văn đã xây dựng thành công tập dữ liệu nhận dạng thực thể tiếng Việt liên quan COVID-19 với khoảng X mẫu, phục vụ cho nghiên cứu NLP trong y tế.
Áp dụng mô hình học chuyển giao PhoBERT-CRF đạt F1-score 88.5%, vượt trội so với các phương pháp truyền thống.
Phân tích kết quả và lỗi cho thấy tiềm năng phát triển mô hình xử lý ngữ cảnh liên câu và mở rộng dữ liệu.
Đề xuất các giải pháp mở rộng dữ liệu, phát triển mô hình, tích hợp ứng dụng và đào tạo người dùng để nâng cao hiệu quả thực tiễn.
Nghiên cứu góp phần thúc đẩy ứng dụng trí tuệ nhân tạo trong phòng chống dịch bệnh, đặc biệt cho tiếng Việt, với kế hoạch phát triển tiếp theo trong 12-18 tháng tới.

Khuyến khích các nhà nghiên cứu, chuyên gia y tế và nhà phát triển công nghệ phối hợp triển khai các đề xuất nhằm nâng cao năng lực phòng chống dịch bệnh bằng công nghệ NLP.

Trích đoạn nội dung tài liệu

Chương 1 Cơ sở lý thuyết 1.1 Máy học Máy học[38] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy có thể "học" cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng. Máy học rất gần với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ. Một nhánh của máy học là học sâu phát triển rất mạnh mẽ gần đây và có những kết quả vượt trội so với các phương pháp máy học khác.

Máy học có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, máy học tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của máy học là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý được. Máy học và các thuật toán của nó, nhìn chung, luôn cố gắng phát triển về khả năng thu nhận tri thức và biểu diễn tri thức. Sao cho, các tri thức được "học" và áp dụng một cách tốt nhất trên các 10 ứng dụng đa dạng của đời sống.

Các thuật toán học máy được phân loại theo kết quả mong muốn của bài toán. Các loại bài toán bao gồm: Học có giám sát Thuật toán hay mô hình tạo ra một hàm ánh xạ dữ liệu vào tới kết quả mong muốn. Một phát biểu chuẩn về một việc học có giám sát là bài toán phân loại: chương trình cần học (cách xấp xỉ biểu hiện của) một hàm ánh xạ một véc-tơ x tới một vài lớp bằng cách xem xét một số mẫu dữ liệu - kết quả của hàm đó. Học có giám sát còn được tiếp tục chia nhỏ ra thành hai loại chính: Phân loại: Một bài toán được gọi là phân loại nếu các nhãn của dữ liệu đầu vào được chia thành một số hữu hạn nhóm.

Hồi quy: Nếu nhãn không được chia thành các nhóm mà là một giá trị thực cụ thể. Học không giám sát Trong bài toán này, dữ liệu đầu vào không có nhãn. Học không giám sát sẽ dựa vào cấu trúc của dữ liệu để thực hiện nhiệm vụ cụ thể (phân nhóm, giảm chiều dữ liệu). Gọi là học không giám sát vì mô hình không được giám sát bằng cách học trên dữ liệu đã được gán nhãn.

Bài toán học không giám sát có thể chia làm hai loại: Phân nhóm: Một bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm. Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng. Liên hợp: Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước. 11 Học bán giám sát Các bài toán khi chúng ta có một lượng lớn dữ liệu X nhưng chỉ một phần trong chúng được gán nhãn được gọi là học bán giám sát.

Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên. Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet. Thực tế cho thấy rất nhiều các bài toán máy học thuộc vào nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao. Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được (ảnh y học chẳng hạn).

Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet. Học tăng cường Là các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất (maximizing the perfor- mance). Hiện tại, học tăng cường chủ yếu được áp dụng vào Lý Thuyết Trò Chơi (Game Theory), các thuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất. Học chuyển giao Xây dựng các mô hình được huấn luyện trước, chứa đựng các thông tin và tri thức về một lĩnh vực chung chung nào đó (ngôn ngữ, hình ảnh, tiếng nói.

Các mô hình này được sử dụng làm thành phần cốt lõi, như "bộ não" trong một mô hình khác mà tại đó, chúng giải quyết các vấn đề cụ thể như trích xuất thông tin, nhận dạng về một chủ đề hình ảnh nào đó,. Học chuyển giao giải quyết vấn đề tài nguyên khi giảm bớt 12 Hình 1.1: Mô hình phân loại trong lĩnh vực xử lý ngôn ngữ tự nhiên. lượng dữ liệu và thời gian một mô hình phải học cho một nhiệm vụ cụ thể nào đó. Học chuyển giao được trình bày chi tiết hơn tại Phần 2.

Máy học hiện nay được áp dụng rộng rãi bao gồm các lĩnh vực xử lý ảnh, xử lý ngôn ngữ tự nhiên, xử lý tiếng nói v.2 Xử lý ngôn ngữ tự nhiên 1.1 Khái quát về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một nhánh của trí tuệ nhân tạo, liên quan đến sự tương tác giữa máy tính và ngôn ngữ con người. Cụ thể, máy móc được đào tạo để xử lý và phân tích lượng lớn dữ liệu văn bản phi cấu trúc, như bài đăng trên mạng xã hội, tin tức, đánh giá trực tuyến của khách hàng, v. Công nghệ này được tạo ra với mong muốn rằng một máy tính có thể "hiểu" nội dung của tài liệu và sử dụng chúng để trích xuất chính xác thông tin 13 và kiến thức có trong tài liệu để thực hiện các tác vụ khác. Trong vấn đề phân loại, như thể hiện trong Hình 1.1, các mô hình và hệ thống NLP sử dụng tính năng nhúng văn bản để chuyển văn bản thành véc-tơ số.

Sau đó, các thuật toán máy học hoặc học sâu được cung cấp dữ liệu đào tạo và kết quả đầu ra (nhãn) dự kiến để đào tạo các mô hình, để đưa ra một đầu ra hợp lệ cho một đầu vào cụ thể. Sau đó, máy học cách xây dựng “kiến thức” của riêng mình trước khi đưa ra dự đoán cho dữ liệu chưa từng nhìn thấy (văn bản mới). Các ứng dụng điển hình trong NLP bao gồm dịch máy, tóm tắt văn bản, nhận dạng đối tượng được đặt tên, gắn thẻ từ loại (Part Of Speech - POS), truy xuất thông tin, nhóm thông tin, phân tích cảm xúc, truy vấn trả lời và nhận dạng giọng nói tự động (Automatic Speech Recognition - ASR). Trong ngành chăm sóc sức khỏe, xử lý ngôn ngữ tự nhiên có rất nhiều ứng dụng tiềm năng.

NLP có thể tăng tính nhất quán, đồng bộ và chính xác của hồ sơ sức khỏe bằng cách chuyển đổi văn bản phi cấu trúc sang định dạng chuẩn hóa. Nó có thể tự động trích xuất các thông tin từ các ghi chú trong hồ sơ y tế. NLP có tiềm năng gần như vô hạn để thu hẹp khoảng cách giữa lượng dữ liệu vô cùng lớn được tạo ra mỗi giây và khả năng nhận thức hạn chế của tâm trí con người. Khi nhắc đến xử lý ngôn ngữ tự nhiên, điều được quan tâm nhất đó chính là "làm thế nào để máy móc hiểu được ngôn ngữ tự nhiên và ứng dụng nó vào các bài toán cụ thể một cách tốt nhất?".

Các phần tiếp theo sẽ được trình bày với mục tiêu trả lời câu hỏi này.2 Tách từ Máy móc hoạt động với các con số chứ không phải các chữ cái/từ/câu. Vì vậy, để làm việc với một lượng lớn dữ liệu văn bản có sẵn, tiền xử lý văn bản (text pre-processing) là quá trình cần thiết giúp làm sạch văn bản. Bản thân tiền xử lý văn bản bao gồm nhiều giai đoạn, và một trong số đó là tách từ (hay còn gọi là Tokenization). Có thể coi Tokens là các khối xây dựng của NLP và tất cả các mô hình NLP đều xử lý văn bản thô ở cấp độ các Token.

Chúng được sử dụng để tạo từ vựng trong một kho ngữ liệu (một tập dữ liệu trong NLP). Từ vựng này sau đó được chuyển thành số (ID) và giúp chúng ta lập mô hình. Tokens có thể là bất cứ thứ gì – một từ (word), một từ phụ (sub-word) hoặc thậm chí là một ký tự (character). Các thuật toán khác nhau tuân theo các quy trình khác nhau trong việc thực hiện mã hóa và sự khác biệt giữa ba loại Tokens này sẽ được chỉ ra dưới đây.

Ví dụ: Câu gốc là “Let us learn Tokenization.” Thuật toán mã hóa dựa trên từ (word-based Tokenization algo- rithm) sẽ chia câu thành các từ: [“Let”, “us”, “learn”, “Tokenization. Thuật toán mã hóa dựa trên từ phụ (subword-based Tokenization algorithm) sẽ chia câu thành các từ khóa phụ: [“Let”, “us”, “learn”, “To- ken”, “ization.”] Thuật toán mã hóa dựa trên ký tự (character-based Tokenization algorithm) sẽ chia câu thành các ký tự, ở đây là từng chữ cái một. Các Token sau khi được tách sẽ được đưa vào một bộ từ vựng (vocab- ulary). Bộ từ vựng làm nhiệm vụ lưu trữ các Token (không lặp lại) và đánh chỉ mục cho nó.

Việc đánh chỉ mục thường dưới dạng số nguyên dương, mục đích để gắn Token để phân biệt, truy xuất và quan trọng nhất là số hóa Token từ dạng văn bản.3 Nhúng từ Để máy có thể hiểu ngôn ngữ tự nhiên thì cần một thành phần có thể ánh xạ ngôn ngữ sang dạng số. Trong một hệ thống ngôn ngữ tự nhiên, nhúng từ (Word Embedding) đảm nhận vai trò như vậy. Cụ thể, Word Embedding chuyển đổi một Token sang dạng véc-tơ đại diện đặc trưng của Token đó. Như vậy, máy tính có thể xử lý một đoạn văn bản, tiếng nói ngôn ngữ tự nhiên dưới dạng một chuỗi các véc-tơ.

Trong phần trên, bộ từ vựng đã được giới thiệu như là nơi lưu trữ các Token và chuyển đổi nó thành dạng số tương ứng với chỉ mục của nó trong bộ từ vựng. Việc này giúp một Token dễ dàng chuyển đổi thành véc-tơ One-hot, với thành phần thứ i của véc-tơ tương ứng với chỉ mục của Token bằng 1 và các thành phần khác bằng 0. Giả sử, Token có chỉ mục là 10, thì véc-tơ One-hot của Token đó là một véc-tơ có giá trị bằng 1 tại phần tử thứ 10 và bằng 0 ở các phần tử còn lại. Vậy tại sao không sử dụng véc-tơ One-hot mà lại cần đến Word Embedding?

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề "Ứng Dụng Xử Lý Ngôn Ngữ Tự Nhiên Trong Phòng Chống Dịch COVID-19" khám phá cách mà công nghệ xử lý ngôn ngữ tự nhiên (NLP) có thể được áp dụng để cải thiện các biện pháp phòng chống dịch bệnh COVID-19. Tài liệu nêu bật những lợi ích của việc sử dụng NLP trong việc phân tích dữ liệu, truyền thông hiệu quả và hỗ trợ quyết định trong bối cảnh khủng hoảng sức khỏe toàn cầu. Độc giả sẽ tìm thấy thông tin hữu ích về cách mà NLP có thể giúp tăng cường khả năng phản ứng của các cơ quan chức năng và nâng cao nhận thức cộng đồng về dịch bệnh.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ trong phòng chống dịch bệnh, bạn có thể tham khảo tài liệu "Xây dựng webgis ứng dụng giám sát dịch bệnh covid", nơi trình bày về hệ thống giám sát dịch bệnh hiệu quả. Ngoài ra, tài liệu "Luận văn thạc sĩ báo chí học ứng dụng đa phương tiện trong truyền thông về đại dịch covid 19 trên báo điện tử" sẽ giúp bạn hiểu rõ hơn về vai trò của truyền thông trong việc nâng cao nhận thức cộng đồng. Cuối cùng, tài liệu "Luận văn thạc sĩ luật học bảo đảm quyền riêng tư trong hoạt động phòng chống đại dịch covid 19 tại việt nam và một số quốc gia" sẽ cung cấp cái nhìn sâu sắc về các vấn đề pháp lý liên quan đến quyền riêng tư trong bối cảnh dịch bệnh. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các khía cạnh khác nhau của việc ứng phó với COVID-19.

#xử lý ngôn ngữ tự nhiên

#phân tích dữ liệu y tế

#mô hình học sâu

#máy học trong y tế

#COVID-19 và công nghệ

#Nhận dạng thực thể được đặt tên

Chủ đề

Tác động của COVID-19 đến xã hội

Ứng dụng công nghệ trong phòng chống dịch

Nghiên cứu về xử lý ngôn ngữ tự nhiên

Phát triển mô hình AI cho y tế