Tổng quan nghiên cứu
Ngôn ngữ ký hiệu là phương tiện giao tiếp quan trọng đối với người khiếm thính, giúp họ truyền tải thông tin và cảm xúc trong cộng đồng. Ở Việt Nam, ngôn ngữ ký hiệu tiếng Việt (VSL) đã được sử dụng từ lâu nhưng chưa được chuẩn hóa và phổ biến rộng rãi, gây ra rào cản giao tiếp giữa người khiếm thính và người bình thường. Theo ước tính, hiện có khoảng hàng nghìn người khiếm thính tại các thành phố lớn như Thành phố Hồ Chí Minh, Hà Nội, Bình Dương sử dụng VSL trong đời sống hàng ngày. Tuy nhiên, việc nhận dạng và dịch tự động ngôn ngữ ký hiệu vẫn còn nhiều thách thức do sự đa dạng trong biểu diễn cử chỉ, từ đồng âm khác nghĩa đến sự liên tục trong chuỗi ký hiệu.
Mục tiêu nghiên cứu là xây dựng một hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa trên phương pháp học sâu, ứng dụng công nghệ thị giác máy tính để nhận dạng các từ và cụm từ phổ biến trong VSL. Nghiên cứu tập trung vào 6 từ khóa trong chủ đề gia đình gồm “ba”, “cậu”, “cô”, “nữ”, “vợ chồng”, “vợ” với bộ dữ liệu thu thập từ giáo viên và sinh viên khoa Giáo dục Đặc biệt tại Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Phạm vi nghiên cứu bao gồm dữ liệu video thu thập trong môi trường thực tế tại Thành phố Hồ Chí Minh trong năm 2022.
Ý nghĩa của nghiên cứu thể hiện rõ qua việc hỗ trợ người khiếm thính phá bỏ rào cản ngôn ngữ, nâng cao khả năng hòa nhập xã hội và giao tiếp hiệu quả hơn. Đồng thời, nghiên cứu góp phần phát triển các ứng dụng trí tuệ nhân tạo trong lĩnh vực nhận dạng hành động và ngôn ngữ ký hiệu, mở ra hướng đi mới cho công nghệ hỗ trợ người khuyết tật tại Việt Nam.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai lý thuyết và mô hình chính:
MediaPipe Holistic: Đây là công nghệ mã nguồn mở của Google, cho phép phát hiện đồng thời tư thế cơ thể, bàn tay và các điểm mốc trên khuôn mặt trong video. MediaPipe Holistic sử dụng các mô hình con như BlazePose Detector để xác định 33 điểm mốc trên cơ thể, MediaPipe Hands để phát hiện 21 điểm mốc trên mỗi bàn tay, và MediaPipe Face Mesh để ước lượng 468 điểm mốc trên khuôn mặt. Tổng cộng, hệ thống trích xuất 543 điểm mốc 3D dùng làm đặc trưng đầu vào cho mô hình học sâu.
Mạng nơ-ron hồi tiếp dài hạn (LSTM): LSTM là một biến thể của mạng nơ-ron hồi tiếp (RNN) được thiết kế để giải quyết vấn đề vanishing gradient trong xử lý chuỗi dữ liệu dài. LSTM có khả năng ghi nhớ thông tin quan trọng trong suốt chuỗi thời gian, phù hợp với bài toán nhận dạng ngôn ngữ ký hiệu liên tục. Mô hình LSTM sử dụng các cổng quên, cổng đầu vào và cổng đầu ra để kiểm soát luồng thông tin, giúp mô hình học được các đặc trưng thời gian phức tạp trong video.
Các khái niệm chính bao gồm: điểm mốc 3D (x, y, z, visibility), hàm kích hoạt (ReLU, Sigmoid, tanh), hàm mất mát cross-entropy, thuật toán lan truyền ngược (Backpropagation Through Time - BPTT), và kỹ thuật tiền xử lý dữ liệu.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu VSL do nhóm nghiên cứu xây dựng, gồm 1209 video với 6 từ khóa phổ biến trong chủ đề gia đình. Mỗi từ được ghi lại ít nhất 200 lần với các tư thế và khoảng cách khác nhau nhằm đảm bảo tính đa dạng và phong phú của dữ liệu.
Quy trình nghiên cứu gồm các bước:
- Thu thập dữ liệu video từ camera tại khoa Giáo dục Đặc biệt, Trường Đại học Sư phạm Thành phố Hồ Chí Minh.
- Tiền xử lý dữ liệu bằng MediaPipe Holistic để trích xuất 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt.
- Lưu trữ dữ liệu điểm mốc dưới dạng file NumPy Array (.npy) để làm đầu vào cho mô hình.
- Chia bộ dữ liệu thành 3 phần: 60% huấn luyện, 20% kiểm chứng, 20% kiểm tra.
- Xây dựng và huấn luyện mô hình LSTM với các tham số tối ưu, sử dụng thuật toán SGD và hàm mất mát cross-entropy.
- Đánh giá mô hình dựa trên độ chính xác, ma trận sai lệch và biến đổi hàm mất mát qua các epoch huấn luyện.
Thời gian nghiên cứu kéo dài trong năm 2022, tập trung tại Thành phố Hồ Chí Minh với sự phối hợp của các chuyên gia và sinh viên trong lĩnh vực Giáo dục Đặc biệt.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả trích xuất đặc trưng bằng MediaPipe Holistic: Qua phân tích 1209 video, hệ thống trích xuất thành công 543 điểm mốc 3D cho hầu hết các khung hình. Tuy nhiên, có khoảng 5-7% khung hình bị thiếu dữ liệu do bàn tay che khuất hoặc chuyển động nhanh, ảnh hưởng đến chất lượng đặc trưng đầu vào.
Độ chính xác mô hình LSTM: Mô hình đạt độ chính xác trung bình khoảng 88% trên tập kiểm tra với 6 từ khóa. So với các nghiên cứu trước đây sử dụng SVM hoặc CNN đơn lẻ, mô hình LSTM cải thiện độ chính xác từ 5-10%.
Ảnh hưởng của số lượng epoch huấn luyện: Qua 400 epoch, hàm mất mát giảm dần và độ chính xác tăng ổn định, đạt mức tối ưu sau khoảng 300 epoch. Biểu đồ biến đổi hàm mất mát và độ chính xác cho thấy mô hình không bị overfitting nhờ kỹ thuật chia dữ liệu hợp lý.
Khả năng nhận dạng liên tục: Mô hình có thể nhận dạng chuỗi cử chỉ liên tục với độ chính xác khoảng 80%, thấp hơn so với nhận dạng từ đơn lẻ do sự phức tạp trong phân tách các từ đồng âm và chuyển động liên tục.
Thảo luận kết quả
Nguyên nhân chính của việc thiếu dữ liệu điểm mốc trong một số khung hình là do hạn chế của MediaPipe Holistic khi bàn tay bị che khuất hoặc ánh sáng không đồng đều. Điều này ảnh hưởng đến chất lượng đặc trưng và làm giảm độ chính xác mô hình. So sánh với các nghiên cứu sử dụng thiết bị cảm biến như Microsoft Kinect, phương pháp thị giác máy tính có ưu điểm về chi phí và tính tiện dụng nhưng cần cải tiến thêm về xử lý nhiễu và thiếu dữ liệu.
Việc áp dụng mô hình LSTM giúp giải quyết tốt bài toán nhận dạng chuỗi thời gian, ghi nhớ các đặc trưng quan trọng trong video. Kết quả đạt được cho thấy sự phù hợp của LSTM trong nhận dạng ngôn ngữ ký hiệu tiếng Việt, đồng thời mở ra hướng phát triển cho các hệ thống dịch tự động ngôn ngữ ký hiệu.
Dữ liệu có thể được trình bày qua các biểu đồ biến đổi hàm mất mát và độ chính xác theo số epoch, ma trận sai lệch thể hiện khả năng phân biệt các từ khóa, cũng như biểu đồ phân bố số lượng video trong các tập huấn luyện, kiểm chứng và kiểm tra.
Đề xuất và khuyến nghị
Tăng cường thu thập dữ liệu đa dạng: Mở rộng bộ dữ liệu với nhiều từ khóa hơn và đa dạng người tham gia để nâng cao tính tổng quát của mô hình. Thời gian thực hiện trong 12-18 tháng, do các trung tâm giáo dục đặc biệt và cộng đồng người khiếm thính phối hợp thực hiện.
Cải tiến tiền xử lý dữ liệu: Phát triển các thuật toán xử lý thiếu dữ liệu điểm mốc và giảm nhiễu trong video, ví dụ như sử dụng kỹ thuật bổ sung dữ liệu (data augmentation) và lọc nhiễu nâng cao. Chủ thể thực hiện là nhóm nghiên cứu AI và thị giác máy tính trong 6-12 tháng.
Phát triển mô hình nhận dạng liên tục nâng cao: Áp dụng các kiến trúc mạng sâu hơn như CNN-LSTM kết hợp attention mechanism để cải thiện khả năng nhận dạng chuỗi cử chỉ liên tục, giảm nhầm lẫn giữa các từ đồng âm. Thời gian nghiên cứu 12 tháng, do nhóm AI chuyên sâu đảm nhiệm.
Xây dựng ứng dụng giao tiếp hỗ trợ người khiếm thính: Triển khai hệ thống nhận dạng ngôn ngữ ký hiệu thành văn bản hoặc giọng nói trên nền tảng di động, giúp người khiếm thính giao tiếp thuận tiện hơn. Chủ thể thực hiện là các công ty công nghệ phối hợp với tổ chức xã hội trong 12-24 tháng.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Nghiên cứu cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng học sâu trong nhận dạng ngôn ngữ ký hiệu, hỗ trợ phát triển các đề tài liên quan.
Chuyên gia và giáo viên trong lĩnh vực Giáo dục Đặc biệt: Tài liệu giúp hiểu rõ về ngôn ngữ ký hiệu tiếng Việt và công nghệ hỗ trợ nhận dạng, từ đó áp dụng vào giảng dạy và hỗ trợ học sinh khiếm thính.
Nhà phát triển phần mềm và công nghệ hỗ trợ người khuyết tật: Cung cấp mô hình và dữ liệu thực nghiệm để phát triển các ứng dụng giao tiếp, dịch ngôn ngữ ký hiệu sang văn bản hoặc giọng nói.
Cộng đồng người khiếm thính và tổ chức xã hội: Giúp nâng cao nhận thức về công nghệ hỗ trợ giao tiếp, thúc đẩy việc áp dụng các giải pháp kỹ thuật số trong đời sống hàng ngày.
Câu hỏi thường gặp
Ngôn ngữ ký hiệu tiếng Việt có khác biệt gì so với các ngôn ngữ ký hiệu khác?
Ngôn ngữ ký hiệu tiếng Việt (VSL) có hệ thống ký hiệu riêng biệt, phản ánh đặc trưng văn hóa và vùng miền Việt Nam. VSL có bảng chữ cái gồm 29 chữ cái, các chữ ghép và dấu thanh, tương tự nhưng không giống hoàn toàn với American Sign Language (ASL).Tại sao sử dụng MediaPipe Holistic trong nghiên cứu này?
MediaPipe Holistic cho phép trích xuất đồng thời các điểm mốc trên cơ thể, bàn tay và khuôn mặt với độ chính xác cao, giúp mô hình học sâu có dữ liệu đặc trưng phong phú và đa chiều để nhận dạng ngôn ngữ ký hiệu hiệu quả.Mô hình LSTM có ưu điểm gì trong nhận dạng ngôn ngữ ký hiệu?
LSTM có khả năng ghi nhớ thông tin dài hạn trong chuỗi dữ liệu, phù hợp với đặc điểm liên tục và tuần tự của ngôn ngữ ký hiệu, giúp cải thiện độ chính xác so với các mô hình mạng nơ-ron truyền thống.Bộ dữ liệu nghiên cứu gồm những từ khóa nào và có bao nhiêu video?
Bộ dữ liệu gồm 6 từ khóa phổ biến trong chủ đề gia đình: “ba”, “cậu”, “cô”, “nữ”, “vợ chồng”, “vợ” với tổng cộng 1209 video, mỗi từ được ghi lại ít nhất 200 lần với các tư thế và khoảng cách khác nhau.Làm thế nào để cải thiện độ chính xác nhận dạng trong tương lai?
Có thể mở rộng bộ dữ liệu, áp dụng các mô hình học sâu kết hợp attention mechanism, cải tiến tiền xử lý dữ liệu và phát triển các thuật toán xử lý thiếu dữ liệu điểm mốc để nâng cao hiệu quả nhận dạng.
Kết luận
- Đã xây dựng thành công bộ dữ liệu ngôn ngữ ký hiệu tiếng Việt với 1209 video thuộc 6 từ khóa phổ biến, thu thập từ môi trường thực tế tại Thành phố Hồ Chí Minh.
- Ứng dụng MediaPipe Holistic để trích xuất 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt làm đặc trưng đầu vào cho mô hình.
- Mô hình LSTM được huấn luyện và đánh giá đạt độ chính xác khoảng 88% trên tập kiểm tra, vượt trội so với các phương pháp truyền thống.
- Nghiên cứu góp phần phát triển công nghệ nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ người khiếm thính giao tiếp hiệu quả hơn.
- Hướng phát triển tiếp theo bao gồm mở rộng bộ dữ liệu, cải tiến mô hình nhận dạng liên tục và xây dựng ứng dụng giao tiếp hỗ trợ người khiếm thính.
Để tiếp tục phát triển, các nhà nghiên cứu và chuyên gia công nghệ được khuyến khích áp dụng kết quả này vào các dự án thực tiễn, đồng thời phối hợp với cộng đồng người khiếm thính để nâng cao chất lượng và tính ứng dụng của hệ thống nhận dạng ngôn ngữ ký hiệu.