Luận Văn Thạc Sĩ: Phát Hiện Tiếng Ngáy Dựa Trên Học Sâu

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN TIẾNG NGÁY

1.1. Bài toán phát hiện tiếng ngáy

1.2. Các bệnh lý liên quan đến tiếng ngáy

1.3. Phát biểu bài toán

1.4. Ý nghĩa bài toán

1.5. Các nghiên cứu liên quan

1.5.1. Thiết bị phát hiện tiếng ngáy

1.5.2. Mô hình học máy cổ điển trong phát hiện tiếng ngáy

1.5.3. Mô hình học sâu phát hiện tiếng ngáy

1.5.4. Đánh giá các nghiên cứu

1.6. Kết luận chương

2. CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN VÀ THEO DÕI TIẾNG NGÁY

2.1. Phương pháp giải quyết bài toán

2.2. Xử lý âm thanh

2.2.1. Biến đổi Fourier (FT)

2.2.2. Biến đổi Fourier thời gian ngắn (STFT)

2.2.3. Phương pháp hệ số biểu diễn phổ của phổ (MFCC)

2.3. Mô hình học nông

2.3.1. Trích đặc trưng của âm thanh

2.3.2. Mô hình học máy SVM

2.3.3. Đánh giá mô hình học máy SVM

2.4. Mô hình CNN cho phát hiện tiếng ngáy

2.4.1. Kiến trúc mạng CNN

2.4.2. Tích chập trong mạng neural

2.4.3. Mô hình mạng CNN trong phát hiện tiếng ngáy

2.5. Mô hình LSTM cho phát hiện tiếng ngáy

2.5.1. Giới thiệu về mạng neural hồi quy

2.5.2. Hồi quy trong mạng neural và mô hình LSTM

2.5.3. Mô hình mạng LSTM trong phát hiện tiếng ngáy

2.6. Mô hình CNN-LSTM cho phát hiện tiếng ngáy

2.7. Kết luận chương

3. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thu thập dữ liệu

3.2. Kết quả thử nghiệm

3.2.1. Kết quả học nông SVM

3.2.2. Kết quả của phương pháp CNN

3.2.3. Kết quả của phương pháp LSTM

3.2.4. Kết quả của phương pháp CNN-LSTM

3.3. Phân tích và đánh giá

3.4. Kết luận chương

DANH MỤC CÁC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về phát hiện tiếng ngáy

Chương này trình bày tổng quan về phát hiện tiếng ngáy, một vấn đề ngày càng được quan tâm trong lĩnh vực y tế và công nghệ. Tiếng ngáy không chỉ là một hiện tượng phổ biến mà còn là dấu hiệu của nhiều bệnh lý nghiêm trọng như hội chứng ngưng thở khi ngủ (OSA). Việc phát hiện và phân loại tiếng ngáy có thể giúp cải thiện chất lượng giấc ngủ và sức khỏe tổng thể của con người. Các nghiên cứu trước đây đã chỉ ra rằng học sâu có thể được áp dụng hiệu quả trong việc nhận diện âm thanh, bao gồm cả tiếng ngáy. Đặc biệt, việc sử dụng các mô hình như CNN và LSTM đã cho thấy tiềm năng lớn trong việc phân tích và nhận diện âm thanh một cách chính xác hơn. Điều này mở ra hướng nghiên cứu mới cho việc phát triển các ứng dụng theo dõi sức khỏe dựa trên âm thanh.

1.1 Bài toán phát hiện tiếng ngáy

Bài toán phát hiện tiếng ngáy được định nghĩa là việc xác định sự hiện diện của tiếng ngáy trong một chuỗi âm thanh. Đầu vào của hệ thống là một chuỗi âm thanh, và đầu ra là thông tin về việc có tiếng ngáy hay không. Việc phát hiện này không chỉ giúp nhận diện tiếng ngáy mà còn có thể cung cấp thông tin về tần suất và thời gian diễn ra tiếng ngáy. Điều này có ý nghĩa quan trọng trong việc theo dõi sức khỏe của người dùng, đặc biệt là trong việc phát hiện sớm các vấn đề liên quan đến giấc ngủ. Các phương pháp học sâu như CNN và LSTM có thể được áp dụng để cải thiện độ chính xác của việc phát hiện này.

1.2 Ý nghĩa bài toán

Ý nghĩa của bài toán phát hiện tiếng ngáy không chỉ nằm ở việc nhận diện âm thanh mà còn ở khả năng cải thiện sức khỏe con người. Việc phát hiện sớm tiếng ngáy có thể giúp người dùng nhận thức được tình trạng sức khỏe của mình, từ đó có những biện pháp can thiệp kịp thời. Các ứng dụng từ nghiên cứu này có thể bao gồm thiết bị theo dõi giấc ngủ, cảnh báo sớm về các vấn đề sức khỏe, và cải thiện chất lượng giấc ngủ. Điều này không chỉ mang lại lợi ích cho cá nhân mà còn có thể giảm gánh nặng cho hệ thống y tế.

II. Phương pháp phát hiện và theo dõi tiếng ngáy

Chương này tập trung vào các phương pháp phát hiện tiếng ngáy và theo dõi âm thanh. Các phương pháp này bao gồm xử lý âm thanh, trích xuất đặc trưng và áp dụng các mô hình học sâu. Việc xử lý âm thanh thường bắt đầu bằng các kỹ thuật như biến đổi Fourier (FT) và biến đổi Fourier thời gian ngắn (STFT) để chuyển đổi tín hiệu âm thanh thành dạng phổ. Sau đó, các đặc trưng âm thanh được trích xuất thông qua các phương pháp như MFCC. Các mô hình học sâu như CNN và LSTM được sử dụng để phân loại âm thanh, giúp cải thiện độ chính xác trong việc phát hiện tiếng ngáy. Việc áp dụng các mô hình này cho thấy sự tiến bộ trong công nghệ nhận diện âm thanh, mở ra nhiều cơ hội cho các ứng dụng thực tiễn.

2.1 Xử lý âm thanh

Xử lý âm thanh là bước đầu tiên trong việc phát hiện tiếng ngáy. Các phương pháp như biến đổi Fourier (FT) và biến đổi Fourier thời gian ngắn (STFT) được sử dụng để phân tích tín hiệu âm thanh. Biến đổi Fourier giúp chuyển đổi tín hiệu từ miền thời gian sang miền tần số, cho phép phân tích các thành phần tần số của âm thanh. STFT cung cấp thông tin về cách mà các tần số thay đổi theo thời gian, điều này rất quan trọng trong việc nhận diện các đặc trưng của tiếng ngáy. Ngoài ra, phương pháp MFCC (Mel Frequency Cepstral Coefficients) được sử dụng để trích xuất các đặc trưng âm thanh quan trọng, giúp cải thiện độ chính xác trong việc phân loại âm thanh.

2.2 Mô hình học sâu

Mô hình học sâu đóng vai trò quan trọng trong việc phát hiện tiếng ngáy. Các mô hình như CNN (Convolutional Neural Network) và LSTM (Long Short-Term Memory) được áp dụng để phân loại âm thanh. CNN có khả năng nhận diện các đặc trưng không gian trong dữ liệu âm thanh, trong khi LSTM giúp xử lý các chuỗi dữ liệu theo thời gian. Việc kết hợp hai mô hình này trong một kiến trúc CNN-LSTM có thể mang lại hiệu quả cao trong việc phát hiện tiếng ngáy. Các nghiên cứu đã chỉ ra rằng việc sử dụng học sâu có thể cải thiện đáng kể độ chính xác so với các phương pháp học máy cổ điển.

III. Thử nghiệm và đánh giá

Chương này trình bày kết quả thử nghiệm và đánh giá hiệu quả của các mô hình phát hiện tiếng ngáy. Dữ liệu được thu thập từ nhiều nguồn khác nhau và được phân tích để đánh giá độ chính xác của các mô hình học sâu. Kết quả cho thấy rằng mô hình CNN-LSTM đạt được độ chính xác cao nhất trong việc phát hiện tiếng ngáy, vượt trội hơn so với các mô hình học máy cổ điển như SVM. Việc phân tích kết quả thử nghiệm không chỉ giúp xác định hiệu quả của các mô hình mà còn cung cấp thông tin quý giá cho việc cải tiến các phương pháp phát hiện tiếng ngáy trong tương lai.

3.1 Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy mô hình CNN-LSTM đạt được độ chính xác cao nhất trong việc phát hiện tiếng ngáy. Các mô hình khác như SVM và CNN cũng cho kết quả khả quan nhưng không bằng mô hình CNN-LSTM. Việc thu thập dữ liệu từ nhiều nguồn khác nhau giúp đảm bảo tính đa dạng và độ tin cậy của kết quả. Các thử nghiệm được thực hiện trong môi trường thực tế, cho thấy khả năng áp dụng của các mô hình trong việc phát hiện tiếng ngáy trong cuộc sống hàng ngày.

3.2 Phân tích và đánh giá

Phân tích và đánh giá kết quả thử nghiệm cho thấy rằng việc áp dụng học sâu trong phát hiện tiếng ngáy mang lại nhiều lợi ích. Các mô hình học sâu không chỉ cải thiện độ chính xác mà còn có khả năng xử lý dữ liệu lớn một cách hiệu quả. Điều này mở ra cơ hội cho việc phát triển các ứng dụng theo dõi sức khỏe dựa trên âm thanh, giúp người dùng nhận thức rõ hơn về tình trạng sức khỏe của mình. Việc phát hiện tiếng ngáy không chỉ có ý nghĩa trong việc cải thiện chất lượng giấc ngủ mà còn có thể giúp phát hiện sớm các vấn đề sức khỏe nghiêm trọng.

02/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát hiện tiếng ngáy dựa trên học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phát hiện tiếng ngáy là một vấn đề y tế và kỹ thuật quan trọng, liên quan trực tiếp đến chất lượng giấc ngủ và sức khỏe con người. Theo Hiệp hội Y học Giấc ngủ Hoa Kỳ (AASM), tỷ lệ ngáy ngủ dao động từ 2% đến 85% trong dân số, trong đó khoảng 3-7% đàn ông trung niên và 2-5% phụ nữ trung niên mắc chứng ngưng thở khi ngủ do tắc nghẽn (OSA). OSA là một tình trạng mãn tính gây ra do tắc nghẽn đường hô hấp trên khi ngủ, làm suy giảm trao đổi khí và gây rối loạn giấc ngủ, tăng nguy cơ mắc các bệnh tim mạch và mạch máu não. Tiếng ngáy không chỉ ảnh hưởng đến chất lượng giấc ngủ mà còn là dấu hiệu cảnh báo các bệnh lý nghiêm trọng.

Mục tiêu nghiên cứu là phát triển phương pháp phát hiện tiếng ngáy dựa trên học sâu, sử dụng các mô hình mạng neural tích chập (CNN), mạng hồi quy dài hạn (LSTM) và kết hợp CNN-LSTM để phân loại âm thanh tiếng ngáy chính xác. Nghiên cứu tập trung vào dữ liệu tiếng ngáy thu thập từ người Việt Nam, nhằm đánh giá đặc trưng âm thanh và hiệu quả các mô hình học sâu trong bối cảnh thực tế tại Việt Nam. Thời gian nghiên cứu tập trung vào năm 2020, tại Học viện Công nghệ Bưu chính Viễn thông, Hà Nội.

Ý nghĩa nghiên cứu thể hiện qua việc cung cấp giải pháp kỹ thuật hiện đại giúp phát hiện tiếng ngáy tự động, hỗ trợ theo dõi sức khỏe giấc ngủ, cảnh báo sớm các rối loạn hô hấp khi ngủ, từ đó góp phần nâng cao chất lượng cuộc sống và giảm thiểu các nguy cơ bệnh lý liên quan.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình sau:

Mạng neural tích chập (CNN): Mô hình học sâu chuyên xử lý dữ liệu dạng ảnh và tín hiệu, có khả năng trích xuất đặc trưng cục bộ và bất biến vị trí, phù hợp với việc xử lý ảnh phổ âm thanh tiếng ngáy.
Mạng neural hồi quy dài hạn (LSTM): Mạng neural hồi quy có khả năng ghi nhớ thông tin dài hạn trong chuỗi dữ liệu, thích hợp cho xử lý chuỗi âm thanh liên tục.
Phương pháp trích đặc trưng âm thanh MFCC (Mel Frequency Cepstral Coefficients): Kỹ thuật trích xuất đặc trưng phổ âm thanh dựa trên thang Mel, phản ánh đặc tính thính giác của con người, giúp mô hình học sâu nhận dạng tiếng ngáy hiệu quả.
Mô hình học máy SVM (Support Vector Machine): Phương pháp học máy cổ điển dùng để phân loại nhị phân, được sử dụng làm đối chứng so sánh với các mô hình học sâu.

Các khái niệm chính bao gồm: biến đổi Fourier thời gian ngắn (STFT), hệ số biểu diễn phổ của phổ (MFCC), mạng neural tích chập (CNN), mạng neural hồi quy dài hạn (LSTM), và học máy SVM.

Phương pháp nghiên cứu

Nguồn dữ liệu được thu thập từ các bản ghi âm tiếng ngáy của người Việt Nam, với quy trình thu thập và gán nhãn cẩn thận. Dữ liệu được chia thành 90% dùng để huấn luyện và 10% để kiểm thử, áp dụng phương pháp cross-validation nhằm đảm bảo tính khách quan và độ tin cậy của kết quả.

Quy trình nghiên cứu gồm hai giai đoạn chính: huấn luyện và kiểm thử mô hình. Dữ liệu âm thanh được tiền xử lý loại bỏ đoạn không có âm thanh, sau đó trích xuất đặc trưng MFCC. Các mô hình CNN, LSTM và CNN-LSTM được xây dựng và huấn luyện trên tập dữ liệu đặc trưng này. Mô hình SVM được sử dụng để so sánh hiệu quả.

Phương pháp phân tích bao gồm đánh giá độ chính xác, độ nhạy và độ đặc hiệu của các mô hình qua các chỉ số thống kê. Thời gian nghiên cứu tập trung trong năm 2020, tại Học viện Công nghệ Bưu chính Viễn thông, Hà Nội.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình CNN-LSTM vượt trội: Mô hình kết hợp CNN và LSTM đạt độ chính xác cao nhất trong phát hiện tiếng ngáy, với độ chính xác khoảng 95%, vượt trội hơn so với mô hình CNN (khoảng 90%) và LSTM (khoảng 92%).
Mô hình học sâu ưu việt hơn học máy cổ điển: Mô hình SVM đạt độ chính xác khoảng 86%, thấp hơn đáng kể so với các mô hình học sâu, cho thấy ưu thế của học sâu trong việc trích xuất đặc trưng phức tạp từ dữ liệu âm thanh.
MFCC là đặc trưng hiệu quả: Việc sử dụng hệ số biểu diễn phổ của phổ MFCC giúp mô hình học sâu nhận dạng tiếng ngáy chính xác hơn, nhờ phản ánh đặc tính thính giác và tần số của âm thanh ngáy.
Ảnh hưởng của tiền xử lý dữ liệu: Loại bỏ các đoạn âm thanh không có giá trị và lọc nhiễu giúp cải thiện độ chính xác của mô hình lên đến 5-7% so với dữ liệu thô.

Thảo luận kết quả

Nguyên nhân mô hình CNN-LSTM đạt hiệu quả cao là do CNN có khả năng trích xuất đặc trưng không gian từ ảnh phổ MFCC, trong khi LSTM xử lý tốt các phụ thuộc thời gian trong chuỗi âm thanh. Kết hợp hai mô hình này tận dụng ưu điểm của cả hai, giúp phân loại tiếng ngáy chính xác hơn.

So sánh với các nghiên cứu quốc tế, kết quả tương đồng với xu hướng sử dụng học sâu trong nhận dạng âm thanh, đồng thời bổ sung dữ liệu tiếng ngáy đặc trưng của người Việt Nam, góp phần làm phong phú kho dữ liệu và mô hình.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác các mô hình, bảng thống kê các chỉ số hiệu suất như độ nhạy, độ đặc hiệu, và biểu đồ ROC để minh họa khả năng phân loại của từng mô hình.

Đề xuất và khuyến nghị

Phát triển ứng dụng theo dõi tiếng ngáy trên thiết bị di động: Tận dụng mô hình CNN-LSTM để xây dựng ứng dụng giám sát giấc ngủ, phát hiện tiếng ngáy thời gian thực, giúp người dùng nhận biết và cải thiện chất lượng giấc ngủ. Thời gian triển khai dự kiến 12 tháng, chủ thể thực hiện là các công ty công nghệ y tế.
Mở rộng thu thập dữ liệu tiếng ngáy đa dạng: Thu thập thêm dữ liệu từ nhiều nhóm đối tượng khác nhau để nâng cao độ chính xác và khả năng tổng quát của mô hình. Thời gian thực hiện 18 tháng, chủ thể là các viện nghiên cứu và bệnh viện.
Tích hợp hệ thống cảnh báo sớm các bệnh lý liên quan: Kết hợp phát hiện tiếng ngáy với các chỉ số sinh học khác để cảnh báo nguy cơ mắc OSA và các bệnh tim mạch. Thời gian phát triển 24 tháng, chủ thể là các trung tâm y tế và công ty công nghệ.
Nâng cao hiệu suất mô hình qua tối ưu thuật toán và phần cứng: Tối ưu mô hình CNN-LSTM để giảm thời gian xử lý và tiêu thụ năng lượng, phù hợp với thiết bị đeo thông minh. Thời gian nghiên cứu 12 tháng, chủ thể là các nhóm nghiên cứu công nghệ thông tin.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, học máy: Nghiên cứu phương pháp học sâu ứng dụng trong xử lý âm thanh, phát triển mô hình CNN, LSTM và CNN-LSTM.
Chuyên gia y tế và nhà khoa học giấc ngủ: Hiểu rõ đặc trưng tiếng ngáy và ứng dụng công nghệ phát hiện tự động trong theo dõi sức khỏe giấc ngủ.
Doanh nghiệp phát triển thiết bị y tế và ứng dụng sức khỏe: Áp dụng mô hình phát hiện tiếng ngáy để phát triển sản phẩm giám sát giấc ngủ, thiết bị đeo thông minh.
Cơ quan quản lý và chính sách y tế: Tham khảo để xây dựng các chương trình phòng chống rối loạn giấc ngủ và nâng cao nhận thức cộng đồng về sức khỏe giấc ngủ.

Câu hỏi thường gặp

Phát hiện tiếng ngáy dựa trên học sâu có ưu điểm gì so với phương pháp truyền thống?
Học sâu tự động trích xuất đặc trưng phức tạp từ dữ liệu âm thanh, cho độ chính xác cao hơn so với các phương pháp học máy cổ điển như SVM. Ví dụ, mô hình CNN-LSTM đạt độ chính xác khoảng 95%, trong khi SVM chỉ khoảng 86%.
MFCC là gì và tại sao được sử dụng trong phát hiện tiếng ngáy?
MFCC là hệ số biểu diễn phổ của phổ âm thanh, phản ánh đặc tính thính giác của con người. MFCC giúp mô hình học sâu nhận dạng các đặc trưng tần số quan trọng của tiếng ngáy, nâng cao hiệu quả phân loại.
Dữ liệu tiếng ngáy thu thập từ người Việt Nam có điểm gì đặc biệt?
Dữ liệu này phản ánh đặc trưng âm thanh tiếng ngáy trong môi trường và đặc điểm sinh học của người Việt, giúp mô hình phát hiện phù hợp hơn với thực tế địa phương, khác biệt so với dữ liệu quốc tế.
Mô hình CNN-LSTM hoạt động như thế nào trong phát hiện tiếng ngáy?
CNN trích xuất đặc trưng không gian từ ảnh phổ MFCC, LSTM xử lý phụ thuộc thời gian trong chuỗi âm thanh. Kết hợp giúp mô hình nhận dạng tiếng ngáy chính xác và ổn định hơn.
Ứng dụng thực tiễn của nghiên cứu này là gì?
Có thể phát triển các thiết bị đeo thông minh hoặc ứng dụng di động theo dõi tiếng ngáy, cảnh báo sớm các rối loạn giấc ngủ, hỗ trợ người dùng cải thiện sức khỏe và phòng ngừa bệnh lý liên quan.

Kết luận

Nghiên cứu đã phát triển thành công mô hình học sâu CNN-LSTM với độ chính xác phát hiện tiếng ngáy đạt khoảng 95%, vượt trội so với các mô hình khác.
MFCC được xác định là đặc trưng âm thanh hiệu quả, giúp mô hình nhận dạng tiếng ngáy chính xác hơn.
Dữ liệu tiếng ngáy thu thập từ người Việt Nam cung cấp cơ sở thực nghiệm quan trọng, góp phần nâng cao tính ứng dụng của mô hình trong bối cảnh địa phương.
Kết quả nghiên cứu mở ra hướng phát triển các ứng dụng theo dõi giấc ngủ và cảnh báo sức khỏe dựa trên công nghệ học sâu.
Các bước tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình và phát triển sản phẩm ứng dụng thực tiễn nhằm nâng cao chất lượng cuộc sống người dùng.

Hành động tiếp theo là triển khai thử nghiệm ứng dụng phát hiện tiếng ngáy trên thiết bị di động và thiết bị đeo thông minh, đồng thời mở rộng hợp tác nghiên cứu đa ngành để hoàn thiện giải pháp toàn diện.

Luận văn thạc sĩ "Phát Hiện Tiếng Ngáy Bằng Học Sâu" tập trung vào việc ứng dụng các kỹ thuật học sâu (deep learning) để nhận diện và phân tích tiếng ngáy, một vấn đề phổ biến liên quan đến sức khỏe giấc ngủ. Nghiên cứu này không chỉ cung cấp phương pháp chính xác hơn trong việc phát hiện tiếng ngáy mà còn mở ra hướng đi mới trong chẩn đoán và điều trị các rối loạn giấc ngủ. Độc giả sẽ tìm thấy giá trị trong việc hiểu rõ cách công nghệ AI có thể được áp dụng để cải thiện chất lượng cuộc sống. Nếu bạn quan tâm đến các ứng dụng công nghệ trong y học, hãy khám phá thêm về Luận văn thạc sĩ kỹ thuật cơ điện tử nghiên cứu thiết kế và điều khiển máy thở đơn giản hoặc Luận văn thạc sĩ vật lý kỹ thuật nghiên cứu thiết kế mô hình bộ phận tạo ẩm và làm ẩm bổ sung cho máy thở. Ngoài ra, để hiểu sâu hơn về ứng dụng laser trong y học, bạn có thể tham khảo Luận văn thạc sĩ vật lý kỹ thuật ứng dụng laser bán dẫn công suất thấp trong điều trị chứng đau cổ tay do bao hoạt dịch gân bị sưng.

#Luận văn Thạc sĩ

#trí tuệ nhân tạo

#công nghệ y tế

#xử lý âm thanh

#mô hình học sâu

#phân tích giấc ngủ

Chủ đề

công nghệ y tế

Trí tuệ nhân tạo

xử lý âm thanh