Tổng quan nghiên cứu

Trong bối cảnh đại dịch COVID-19 bùng phát mạnh mẽ từ đầu năm 2020 với hơn 43,9 triệu ca nhiễm và hơn 1,16 triệu ca tử vong trên toàn cầu, việc phát hiện và phân loại các triệu chứng liên quan đến đường hô hấp, đặc biệt là triệu chứng ho, trở nên cấp thiết. Tại Việt Nam, với thành công trong kiểm soát dịch bệnh, số ca nhiễm chỉ khoảng 1169 và 35 ca tử vong, tuy nhiên nguy cơ lây lan vẫn tiềm ẩn do sự chủ quan và thiếu hiểu biết của người dân. Ho là triệu chứng phổ biến trong nhiều bệnh lý hô hấp như lao, viêm phổi, hen suyễn và các dịch cúm lớn trong lịch sử như cúm Tây Ban Nha (1918), cúm Châu Á (1957) và SARS (2003). Mỗi dạng ho có đặc điểm âm thanh riêng biệt, phản ánh tình trạng bệnh lý khác nhau, do đó việc phát hiện và phân loại chính xác âm thanh ho có ý nghĩa quan trọng trong chẩn đoán và phòng ngừa bệnh.

Mục tiêu nghiên cứu là phát triển phương pháp phát hiện và phân loại âm thanh ho trên các thiết bị IoT, tận dụng khả năng phổ biến và tiện dụng của các thiết bị di động, thiết bị đeo tay thông minh để thu thập dữ liệu âm thanh một cách thụ động, từ đó hỗ trợ người dùng nhận biết sớm tình trạng sức khỏe hô hấp. Phạm vi nghiên cứu tập trung vào việc thu thập, xử lý và phân tích âm thanh ho thu được từ các thiết bị IoT tại Việt Nam trong giai đoạn năm 2020. Nghiên cứu góp phần nâng cao hiệu quả giám sát sức khỏe cá nhân, giảm tải cho hệ thống y tế và hạn chế sự lây lan của các bệnh truyền nhiễm qua đường hô hấp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình học máy hiện đại trong lĩnh vực xử lý tín hiệu âm thanh và học sâu, bao gồm:

  • Mô hình Gaussian Mixture Model (GMM): Mô hình thống kê dùng để mô tả phân phối xác suất của các đặc trưng âm thanh ho, thường kết hợp với mô hình Markov ẩn (HMM) để mô phỏng chuỗi thời gian.
  • Mạng nơ-ron sâu (Deep Neural Network - DNN): Mạng học sâu có khả năng học các đặc trưng phức tạp từ dữ liệu thô, thay thế GMM trong việc mô hình hóa xác suất quan sát.
  • Restricted Boltzmann Machine (RBM)Deep Bayesian Networks (DBN): Các mô hình mạng nơ-ron sâu được sử dụng để tiền huấn luyện và khởi tạo mạng DNN, giúp cải thiện hiệu quả huấn luyện.
  • Mạng học sâu tích chập (Convolutional Neural Network - CNN): Áp dụng cho việc nhận dạng hình ảnh quang phổ thời gian của âm thanh ho, tận dụng khả năng trích xuất đặc trưng không gian.
  • Mạng học sâu quy hồi (Recurrent Neural Network - RNN) và Long Short-Term Memory (LSTM): Mô hình xử lý dữ liệu tuần tự, ghi nhớ các phụ thuộc dài hạn trong chuỗi âm thanh, phù hợp với đặc tính thời gian của tín hiệu ho.
  • Mô hình Sequence-to-Sequence (Seq2Seq): Kiến trúc Encoder-Decoder sử dụng mạng LSTM để ánh xạ chuỗi âm thanh đầu vào thành chuỗi nhãn đầu ra, hỗ trợ phân loại và phát hiện ho chính xác.

Các khái niệm chính bao gồm: đặc trưng âm thanh Mel Frequency Cepstral Coefficients (MFCC), chuyển đổi Fourier thời gian ngắn (STFT), các lớp mạng tích chập, lớp pooling, hàm kích hoạt ReLU, và thuật toán giải mã Greedy Search và Beam Search trong mô hình Seq2Seq.

Phương pháp nghiên cứu

Nguồn dữ liệu được thu thập từ các thiết bị IoT như điện thoại thông minh và thiết bị đeo tay thông minh tại Việt Nam trong năm 2020. Dữ liệu âm thanh ho được ghi âm, gán nhãn thủ công bởi các chuyên gia y tế và xử lý bằng phần mềm chuyên dụng như Audacity. Cỡ mẫu nghiên cứu khoảng vài nghìn đoạn âm thanh ho với đa dạng dạng ho và điều kiện thu âm.

Phương pháp phân tích bao gồm:

  • Tiền xử lý âm thanh: loại bỏ tạp âm, chuẩn hóa năng lượng RMS, phân đoạn thành các khung 4ms.
  • Trích xuất đặc trưng: chuyển đổi âm thanh sang biểu đồ quang phổ STFT, trích xuất MFCC.
  • Huấn luyện mô hình học sâu: sử dụng các kiến trúc CNN, RNN-LSTM, và mô hình Seq2Seq với kỹ thuật pretrain và tinh chỉnh (fine-tuning).
  • Đánh giá mô hình: sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu, và diện tích dưới đường cong ROC (AUC).

Timeline nghiên cứu kéo dài trong 12 tháng, bao gồm các giai đoạn thu thập dữ liệu (3 tháng), tiền xử lý và gán nhãn (3 tháng), huấn luyện và thử nghiệm mô hình (4 tháng), và phân tích kết quả, hoàn thiện luận văn (2 tháng).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất phát hiện ho trên thiết bị IoT: Mô hình CNN đạt độ chính xác lên tới 92%, trong khi mô hình RNN-LSTM đạt AUC khoảng 0,95, vượt trội so với các phương pháp truyền thống như GMM-HMM (độ chính xác khoảng 82%).
  2. Phân loại các dạng ho: Mô hình Seq2Seq kết hợp CNN và LSTM cho phép phân loại chính xác 5 dạng ho phổ biến với độ chính xác trung bình trên 90%, giúp phân biệt ho khan, ho có đờm, ho ra máu, ho thành cơn và ho cấp.
  3. Ảnh hưởng của chất lượng dữ liệu: Việc loại bỏ các khung âm thanh có năng lượng thấp và tạp âm không liên quan giúp tăng độ chính xác mô hình lên khoảng 5-7%.
  4. Tác động của kiến trúc mạng: Sử dụng hàm kích hoạt ReLU và kỹ thuật dropout (p=0,5) trong CNN giúp giảm hiện tượng overfitting, cải thiện hiệu suất mô hình trên tập kiểm tra.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng các mô hình học sâu, đặc biệt là CNN và RNN-LSTM, trên dữ liệu âm thanh thu thập từ thiết bị IoT là khả thi và hiệu quả trong phát hiện và phân loại âm thanh ho. So với các nghiên cứu trước đây sử dụng GMM-HMM, mô hình học sâu cho phép khai thác đặc trưng phức tạp hơn và xử lý tốt các phụ thuộc dài hạn trong chuỗi âm thanh. Việc chuyển đổi âm thanh thành biểu đồ quang phổ STFT giúp tận dụng ưu điểm của CNN trong nhận dạng hình ảnh, đồng thời LSTM xử lý tốt tính tuần tự của dữ liệu.

Các biểu đồ so sánh AUC giữa CNN và RNN, ma trận nhầm lẫn phân loại các dạng ho minh họa rõ ràng sự vượt trội của mô hình học sâu. Tuy nhiên, việc huấn luyện các mô hình này đòi hỏi lượng dữ liệu lớn và tài nguyên tính toán cao. Ngoài ra, chất lượng thu âm và môi trường thu âm cũng ảnh hưởng đáng kể đến hiệu quả nhận dạng, do đó cần thiết kế thiết bị IoT có micro chất lượng cao, khả năng lọc tạp âm tốt.

Nghiên cứu cũng nhấn mạnh tầm quan trọng của việc phát triển hệ thống phát hiện ho trên thiết bị IoT nhằm hỗ trợ người dùng tự theo dõi sức khỏe, giảm tải cho hệ thống y tế và hạn chế lây lan dịch bệnh, đặc biệt trong bối cảnh giãn cách xã hội và quá tải bệnh viện như hiện nay.

Đề xuất và khuyến nghị

  1. Phát triển ứng dụng trên thiết bị di động và IoT: Tích hợp mô hình học sâu đã huấn luyện vào các ứng dụng di động, thiết bị đeo tay để người dùng có thể tự động phát hiện và phân loại dạng ho, nâng cao khả năng giám sát sức khỏe cá nhân. Thời gian triển khai dự kiến 6-12 tháng, chủ thể thực hiện là các công ty công nghệ y tế và nhà phát triển phần mềm.
  2. Nâng cao chất lượng thu âm và xử lý tín hiệu: Trang bị micro chất lượng cao, tích hợp bộ lọc tạp âm và chuẩn hóa âm thanh để đảm bảo dữ liệu đầu vào sạch và chính xác, từ đó cải thiện hiệu suất mô hình. Chủ thể thực hiện là nhà sản xuất thiết bị IoT, thời gian 3-6 tháng.
  3. Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu âm thanh ho đa dạng về môi trường, đối tượng và dạng ho để tăng khả năng tổng quát của mô hình, giảm thiểu sai số. Chủ thể thực hiện là các trung tâm nghiên cứu y sinh và bệnh viện, thời gian liên tục trong 12 tháng.
  4. Tăng cường bảo mật và quyền riêng tư: Xây dựng hệ thống mã hóa và bảo vệ dữ liệu cá nhân người dùng trong quá trình thu thập và xử lý âm thanh, đảm bảo tuân thủ các quy định về bảo mật thông tin y tế. Chủ thể thực hiện là các nhà phát triển phần mềm và cơ quan quản lý, thời gian 6 tháng.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và chuyên gia công nghệ y tế: Nghiên cứu các phương pháp học sâu ứng dụng trong chẩn đoán bệnh lý hô hấp, phát triển các hệ thống giám sát sức khỏe thông minh.
  2. Bác sĩ và nhân viên y tế: Áp dụng công nghệ phát hiện và phân loại ho tự động để hỗ trợ chẩn đoán, theo dõi bệnh nhân từ xa, giảm tải cho bệnh viện.
  3. Nhà phát triển phần mềm và thiết bị IoT: Thiết kế và phát triển các ứng dụng, thiết bị hỗ trợ giám sát sức khỏe cá nhân dựa trên âm thanh ho, nâng cao trải nghiệm người dùng.
  4. Người dùng cá nhân và cộng đồng: Sử dụng các thiết bị IoT tích hợp công nghệ phát hiện ho để tự theo dõi sức khỏe, phát hiện sớm các dấu hiệu bệnh lý, góp phần phòng ngừa dịch bệnh lây lan.

Câu hỏi thường gặp

  1. Phương pháp nào được sử dụng để phát hiện âm thanh ho trên thiết bị IoT?
    Nghiên cứu sử dụng các mô hình học sâu như CNN, RNN-LSTM và mô hình Sequence-to-Sequence để phân tích biểu đồ quang phổ thời gian của âm thanh ho, cho phép phát hiện và phân loại chính xác các dạng ho.

  2. Dữ liệu âm thanh ho được thu thập như thế nào?
    Dữ liệu được thu thập từ micro tích hợp trên các thiết bị IoT như điện thoại thông minh và thiết bị đeo tay, sau đó được xử lý, gán nhãn thủ công bởi chuyên gia y tế để làm dữ liệu huấn luyện.

  3. Mô hình học sâu có ưu điểm gì so với các phương pháp truyền thống?
    Mô hình học sâu có khả năng tự động trích xuất đặc trưng phức tạp, xử lý tốt dữ liệu tuần tự và phụ thuộc dài hạn, từ đó nâng cao độ chính xác phát hiện và phân loại so với các mô hình thống kê như GMM-HMM.

  4. Làm thế nào để đảm bảo dữ liệu thu thập được có chất lượng tốt?
    Cần sử dụng micro chất lượng cao, áp dụng các kỹ thuật lọc tạp âm và chuẩn hóa năng lượng âm thanh, đồng thời loại bỏ các khung âm thanh có năng lượng thấp không liên quan để cải thiện chất lượng dữ liệu đầu vào.

  5. Ứng dụng thực tiễn của nghiên cứu này là gì?
    Nghiên cứu giúp phát triển các hệ thống giám sát sức khỏe cá nhân trên thiết bị IoT, hỗ trợ phát hiện sớm các bệnh lý hô hấp, giảm tải cho hệ thống y tế và hạn chế lây lan dịch bệnh trong cộng đồng.

Kết luận

  • Nghiên cứu đã phát triển thành công các mô hình học sâu (CNN, RNN-LSTM, Seq2Seq) để phát hiện và phân loại âm thanh ho trên thiết bị IoT với độ chính xác trên 90%.
  • Việc ứng dụng công nghệ này trên các thiết bị phổ biến như điện thoại thông minh và thiết bị đeo tay giúp người dùng dễ dàng theo dõi sức khỏe hô hấp mọi lúc, mọi nơi.
  • Kết quả nghiên cứu góp phần giảm tải cho hệ thống y tế, hỗ trợ phòng ngừa và kiểm soát các bệnh truyền nhiễm qua đường hô hấp, đặc biệt trong bối cảnh đại dịch COVID-19.
  • Đề xuất mở rộng thu thập dữ liệu, nâng cao chất lượng thiết bị thu âm và bảo mật thông tin để hoàn thiện hệ thống trong tương lai.
  • Các bước tiếp theo bao gồm triển khai ứng dụng thực tế, mở rộng phạm vi nghiên cứu và hợp tác với các đơn vị y tế để đánh giá hiệu quả trên quy mô lớn.

Mời các nhà nghiên cứu, chuyên gia y tế và nhà phát triển công nghệ quan tâm phối hợp triển khai ứng dụng thực tiễn nhằm nâng cao sức khỏe cộng đồng.