Tổng quan nghiên cứu
Ngôn ngữ ký hiệu là phương tiện giao tiếp quan trọng đối với người khiếm thính, giúp họ truyền tải thông tin và cảm xúc trong cộng đồng. Ở Việt Nam, ngôn ngữ ký hiệu (VSL) đã được sử dụng từ lâu nhưng chưa được nghiên cứu sâu rộng cho đến những năm 2000 khi các nỗ lực chuẩn hóa và hệ thống hóa VSL bắt đầu được triển khai. Hiện nay, VSL bao gồm 29 chữ cái, các chữ ghép và dấu thanh, mang đặc trưng văn hóa riêng biệt của từng vùng miền như Hà Nội, Thành phố Hồ Chí Minh, Bình Dương, Hải Phòng. Tuy nhiên, việc phổ biến ngôn ngữ ký hiệu trong cộng đồng vẫn còn hạn chế, tạo ra rào cản giao tiếp giữa người khiếm thính và người bình thường.
Mục tiêu nghiên cứu là xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa trên phương pháp học sâu, nhằm hỗ trợ người khiếm thính giao tiếp hiệu quả hơn. Nghiên cứu tập trung vào nhận dạng 6 từ phổ biến trong chủ đề gia đình: "ba", "cậu", "cô", "nữ", "vợ chồng", "vợ". Bộ dữ liệu thu thập gồm 1209 video được quay bởi giáo viên và sinh viên khoa Giáo dục Đặc biệt, Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Nghiên cứu có phạm vi thực hiện tại Thành phố Hồ Chí Minh trong năm 2022.
Ý nghĩa của nghiên cứu được thể hiện qua việc xây dựng cơ sở lý thuyết và mô hình thực nghiệm ứng dụng thị giác máy tính và học sâu để nhận dạng ngôn ngữ ký hiệu, góp phần phá bỏ rào cản giao tiếp, nâng cao chất lượng cuộc sống và hòa nhập xã hội cho người khiếm thính tại Việt Nam.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai lý thuyết và mô hình chính:
MediaPipe Holistic: Đây là công nghệ mã nguồn mở của Google, cho phép phát hiện đồng thời tư thế cơ thể, bàn tay và các đặc điểm khuôn mặt trong thời gian thực. MediaPipe Holistic kết hợp các mô hình BlazePose Detector, BlazePose GHUM 3D, MediaPipe Hands và MediaPipe Face Mesh để trích xuất tổng cộng 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt. Các điểm mốc này bao gồm tọa độ x, y, z và độ khả kiến (visibility), giúp mô tả chi tiết cử chỉ và biểu cảm của người thực hiện ngôn ngữ ký hiệu.
Mạng nơ-ron hồi quy dài ngắn hạn (LSTM): LSTM là một dạng mạng nơ-ron hồi quy (RNN) được cải tiến để giải quyết vấn đề vanishing gradient trong các chuỗi dữ liệu dài. Mạng LSTM có khả năng ghi nhớ thông tin quan trọng trong suốt chuỗi thời gian, phù hợp với bài toán nhận dạng chuỗi cử chỉ liên tục trong ngôn ngữ ký hiệu. Mô hình LSTM sử dụng ba cổng chính (cổng quên, cổng đầu vào, cổng đầu ra) để sàng lọc và cập nhật trạng thái tế bào (cell state), từ đó dự đoán chính xác các ký hiệu.
Các khái niệm chính bao gồm: điểm mốc (landmark), visibility, mạng nơ-ron nhân tạo (NN), mạng hồi quy (RNN), mạng LSTM, hàm kích hoạt (activation function), hàm mất mát cross-entropy, thuật toán lan truyền ngược (backpropagation through time - BPTT), và thuật toán tối ưu Stochastic Gradient Descent (SGD).
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu VSL gồm 1209 video ghi lại 6 từ ký hiệu phổ biến, được thu thập từ giáo viên và sinh viên khoa Giáo dục Đặc biệt, Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Mỗi từ được thực hiện ít nhất 200 lần với các khoảng cách và vị trí khác nhau giữa người thực hiện và máy quay, nhằm đảm bảo tính đa dạng và phong phú của dữ liệu.
Dữ liệu video được xử lý bằng MediaPipe Holistic để trích xuất 543 điểm mốc 3D tại mỗi khung hình, lưu trữ dưới dạng file NumPy Array (.npy). Các thông số x, y, z, visibility được sử dụng để mô tả chi tiết cử chỉ và biểu cảm.
Phân chia dữ liệu thành ba tập: huấn luyện (60%), kiểm chứng (20%) và kiểm tra (20%). Mô hình LSTM được xây dựng và huấn luyện trên tập huấn luyện, sử dụng hàm mất mát cross-entropy và thuật toán tối ưu SGD kết hợp BPTT để cập nhật trọng số. Quá trình huấn luyện được thực hiện trên máy tính cấu hình Intel Core i7, RAM 16GB, sử dụng Python 3.5 cùng các thư viện OpenCV3, Tensorflow, MediaPipe và Sklearn.
Timeline nghiên cứu kéo dài trong năm 2022, từ thu thập dữ liệu, xây dựng mô hình, huấn luyện, đánh giá đến đề xuất hướng phát triển.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Độ chính xác nhận dạng cao với mô hình LSTM: Mô hình đạt độ chính xác trung bình trên 85% trong việc nhận dạng 6 từ ký hiệu phổ biến. Cụ thể, từ "ba" có 200 video, trong đó 128 video dùng để huấn luyện, 32 video kiểm chứng và 40 video kiểm tra, cho thấy sự phân bố dữ liệu hợp lý và đa dạng.
MediaPipe Holistic hiệu quả trong trích xuất đặc trưng: Việc sử dụng 543 điểm mốc 3D giúp mô hình nhận dạng chi tiết các cử chỉ tay, tư thế cơ thể và biểu cảm khuôn mặt. Tuy nhiên, có khoảng 5-10% khung hình không thể trích xuất đầy đủ điểm mốc do che khuất hoặc vị trí tay không rõ, ảnh hưởng nhẹ đến kết quả.
Phân bố dữ liệu hợp lý giữa các tập: Tỷ lệ phân chia 60% huấn luyện, 20% kiểm chứng và 20% kiểm tra giúp mô hình tránh overfitting và đánh giá chính xác hiệu suất trên dữ liệu chưa từng thấy.
So sánh với các nghiên cứu trước: Kết quả đạt được tương đương hoặc vượt trội so với các nghiên cứu sử dụng phương pháp học sâu kết hợp CNN-LSTM trên bộ dữ liệu VSL-WRF, với độ chính xác khoảng 86%. Việc kết hợp MediaPipe Holistic và LSTM giúp cải thiện khả năng nhận dạng chuỗi cử chỉ liên tục.
Thảo luận kết quả
Nguyên nhân chính giúp mô hình đạt hiệu quả cao là do việc trích xuất đặc trưng chi tiết từ MediaPipe Holistic, bao gồm các điểm mốc trên tay, cơ thể và khuôn mặt, cung cấp dữ liệu đầu vào phong phú cho mạng LSTM. Mạng LSTM với cơ chế ghi nhớ dài hạn giúp xử lý tốt các chuỗi cử chỉ liên tục, giảm thiểu lỗi do biến đổi tư thế và biểu cảm.
So với các phương pháp dựa trên cảm biến như Microsoft Kinect, phương pháp thị giác máy tính sử dụng camera 2D và MediaPipe Holistic có ưu điểm về chi phí thấp, tiện lợi và không cần thiết bị đeo phức tạp. Tuy nhiên, hạn chế là đôi khi mất dữ liệu điểm mốc do che khuất hoặc điều kiện ánh sáng kém.
Dữ liệu được trình bày qua biểu đồ phân bố mẫu huấn luyện, kiểm chứng và kiểm tra, cùng các ma trận sai lệch (confusion matrix) minh họa hiệu suất nhận dạng từng từ. Biểu đồ biến đổi độ chính xác và hàm mất mát qua các epoch huấn luyện cho thấy mô hình hội tụ ổn định sau khoảng 100-200 epoch.
Kết quả nghiên cứu có ý nghĩa thực tiễn lớn trong việc phát triển các ứng dụng hỗ trợ giao tiếp cho người khiếm thính, góp phần nâng cao chất lượng cuộc sống và hòa nhập xã hội.
Đề xuất và khuyến nghị
Mở rộng bộ dữ liệu VSL: Thu thập thêm các từ và cụm từ phổ biến khác trong ngôn ngữ ký hiệu tiếng Việt, tăng số lượng video và đa dạng người tham gia để nâng cao tính tổng quát của mô hình. Thời gian thực hiện: 6-12 tháng. Chủ thể: các trung tâm nghiên cứu và trường đại học.
Cải tiến mô hình học sâu: Kết hợp thêm các kiến trúc mạng CNN để trích xuất đặc trưng không gian trước khi đưa vào LSTM, hoặc áp dụng Transformer để nâng cao khả năng nhận dạng chuỗi dài. Thời gian thực hiện: 6 tháng. Chủ thể: nhóm nghiên cứu AI và học máy.
Phát triển ứng dụng tương tác người-máy: Xây dựng phần mềm hoặc ứng dụng di động tích hợp mô hình nhận dạng để hỗ trợ người khiếm thính giao tiếp trực tiếp với người bình thường. Thời gian thực hiện: 9-12 tháng. Chủ thể: doanh nghiệp công nghệ và tổ chức xã hội.
Chuẩn hóa và phổ biến ngôn ngữ ký hiệu: Hợp tác với các tổ chức giáo dục và cộng đồng người khiếm thính để chuẩn hóa bảng chữ cái và ký hiệu, đồng thời tổ chức các khóa đào tạo, hội thảo nâng cao nhận thức về VSL. Thời gian thực hiện: liên tục. Chủ thể: Bộ Giáo dục, các tổ chức phi chính phủ.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, AI: Nghiên cứu về ứng dụng học sâu và thị giác máy tính trong nhận dạng hành động và ngôn ngữ ký hiệu, áp dụng mô hình LSTM và MediaPipe Holistic.
Giáo viên và chuyên gia giáo dục đặc biệt: Hiểu rõ về ngôn ngữ ký hiệu tiếng Việt, phương pháp thu thập và xử lý dữ liệu, hỗ trợ phát triển chương trình giảng dạy và công cụ hỗ trợ người khiếm thính.
Nhà phát triển phần mềm và công nghệ hỗ trợ: Tham khảo kiến trúc mô hình và quy trình xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu để phát triển ứng dụng giao tiếp người-máy.
Cộng đồng người khiếm thính và tổ chức xã hội: Nắm bắt tiến bộ công nghệ trong nhận dạng ngôn ngữ ký hiệu, góp phần nâng cao nhận thức và thúc đẩy hòa nhập xã hội.
Câu hỏi thường gặp
Ngôn ngữ ký hiệu tiếng Việt có đặc điểm gì khác biệt so với các ngôn ngữ ký hiệu khác?
Ngôn ngữ ký hiệu tiếng Việt (VSL) có bảng chữ cái gồm 29 chữ cái, các chữ ghép và dấu thanh, mang đặc trưng văn hóa vùng miền riêng biệt. VSL không phải là ngôn ngữ quốc tế mà có ngữ pháp và cấu trúc riêng biệt, độc lập với tiếng Việt nói và viết.Tại sao sử dụng MediaPipe Holistic trong nghiên cứu này?
MediaPipe Holistic cho phép trích xuất đồng thời các điểm mốc trên cơ thể, bàn tay và khuôn mặt với độ chính xác cao, cung cấp dữ liệu đầu vào phong phú cho mô hình học sâu, giúp nhận dạng cử chỉ và biểu cảm trong ngôn ngữ ký hiệu hiệu quả.Mạng LSTM có ưu điểm gì trong nhận dạng ngôn ngữ ký hiệu?
LSTM có khả năng ghi nhớ thông tin dài hạn trong chuỗi dữ liệu, xử lý tốt các chuỗi cử chỉ liên tục, giảm thiểu lỗi do biến đổi tư thế và biểu cảm, phù hợp với bài toán nhận dạng chuỗi hành động trong video.Bộ dữ liệu VSL được xây dựng như thế nào?
Bộ dữ liệu gồm 1209 video ghi lại 6 từ ký hiệu phổ biến, mỗi từ được thực hiện ít nhất 200 lần với các khoảng cách và vị trí khác nhau giữa người thực hiện và máy quay, nhằm đảm bảo tính đa dạng và phong phú của dữ liệu.Ứng dụng thực tiễn của nghiên cứu này là gì?
Nghiên cứu giúp phát triển hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ người khiếm thính giao tiếp hiệu quả hơn, góp phần phá bỏ rào cản ngôn ngữ, nâng cao chất lượng cuộc sống và thúc đẩy hòa nhập xã hội.
Kết luận
- Đã xây dựng thành công bộ dữ liệu ngôn ngữ ký hiệu tiếng Việt gồm 1209 video với 6 từ phổ biến, đảm bảo đa dạng và phong phú.
- Áp dụng hiệu quả MediaPipe Holistic để trích xuất 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt, làm đầu vào cho mô hình học sâu.
- Mô hình LSTM được huấn luyện đạt độ chính xác trên 85% trong nhận dạng ngôn ngữ ký hiệu liên tục.
- Nghiên cứu góp phần xây dựng nền tảng công nghệ nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ người khiếm thính giao tiếp và hòa nhập xã hội.
- Đề xuất mở rộng bộ dữ liệu, cải tiến mô hình và phát triển ứng dụng tương tác người-máy trong thời gian tới.
Hành động tiếp theo: Khuyến khích các nhà nghiên cứu, tổ chức giáo dục và doanh nghiệp công nghệ hợp tác mở rộng nghiên cứu, ứng dụng mô hình vào thực tiễn để nâng cao hiệu quả giao tiếp cho người khiếm thính tại Việt Nam.