Nghiên Cứu Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt Cho Người Khiếm Thính

Luận văn thạc sĩ nghiên cứu nhận dạng ngôn ngữ ký hiệu tiếng Việt cho người khiếm thính bằng phương pháp học sâu, ứng dụng công nghệ hiện đại.

Trường đại học

Trường Đại Học Sư Phạm Thành Phố Hồ Chí Minh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

1.1. Tổng quan về ngôn ngữ ký hiệu ở Việt Nam

1.2. Những nghiên cứu liên quan

1.3. Phương pháp dựa trên dữ liệu cảm biến

1.4. Phương pháp dựa trên thị giác máy tính

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

3. CHƯƠNG 3: MÔ HÌNH NHẬN DẠNG NGÔN NGỮ KÝ HIỆU

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Nhận Dạng Ngôn Ngữ Ký Hiệu VSL

Ngôn ngữ là phương tiện giao tiếp thiết yếu. Với người khiếm thính, ngôn ngữ ký hiệu là cầu nối quan trọng với cộng đồng. Khát khao giao tiếp của họ là động lực để phát triển các hệ thống ngôn ngữ đặc biệt, như chữ nổi và ngôn ngữ ký hiệu. Hiện nay, ngôn ngữ ký hiệu cho phép người khiếm thính giao tiếp, nhưng rào cản giao tiếp vẫn còn do sự khác biệt vùng miền. Cùng một từ, ký hiệu có thể khác nhau giữa Hà Nội và TP.HCM. Việc xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSL) là cấp thiết, giúp người khiếm thính hòa nhập cộng đồng. Nghiên cứu ứng dụng thị giác máy tính và học sâu để tạo ra hệ thống tương tác người-máy, giúp người khiếm thính diễn đạt ý tưởng dễ dàng hơn với người không biết ngôn ngữ ký hiệu. Hệ thống nhận dạng điển hình sử dụng hình ảnh/video để nhận dạng từ, cụm từ trong bộ dữ liệu VSL.

1.1. Giới thiệu chung về ngôn ngữ ký hiệu tiếng Việt VSL

Ngôn ngữ ký hiệu tiếng Việt (VSL) là hệ thống giao tiếp sử dụng cử chỉ, điệu bộ, và biểu cảm khuôn mặt thay cho lời nói. Nó là ngôn ngữ mẹ đẻ của nhiều người khiếm thính, cho phép họ giao tiếp và tư duy logic. Tuy nhiên, VSL không phải là ngôn ngữ quốc tế, mà có sự khác biệt giữa các quốc gia và vùng miền. Nghiên cứu và phát triển hệ thống nhận dạng VSL là vô cùng quan trọng để giúp người khiếm thính hòa nhập cộng đồng, phá bỏ rào cản giao tiếp.

1.2. Vai trò của thị giác máy tính trong nhận dạng VSL

Thị giác máy tính đóng vai trò then chốt trong việc nhận dạng ngôn ngữ ký hiệu. Bằng cách sử dụng camera và các thuật toán xử lý ảnh, hệ thống có thể trích xuất các đặc trưng quan trọng từ cử chỉ tay, nét mặt và điệu bộ của người sử dụng VSL. Những đặc trưng này sau đó được sử dụng để huấn luyện các mô hình học sâu, cho phép máy tính tự động nhận diện và dịch ngôn ngữ ký hiệu thành văn bản hoặc lời nói.

II. Vấn Đề và Thách Thức trong Nhận Dạng Ngôn Ngữ Ký Hiệu

Việc xây dựng hệ thống nhận dạng VSL gặp nhiều thách thức. Ngôn ngữ ký hiệu không phổ biến, tạo rào cản giữa người khiếm thính và người bình thường. Các hệ thống hiện tại thường giải quyết cử chỉ riêng biệt, thiếu khả năng nhận dạng chuỗi cử chỉ liên tục. Sự phức tạp còn đến từ vốn từ vựng ít ỏi, từ đồng âm khác nghĩa, và sự phân chia các biểu diễn liên tục. Do đó, cần một hệ thống có khả năng dịch chuỗi cử chỉ thành cụm từ hoàn chỉnh. Bài toán nhận dạng ngôn ngữ ký hiệu đòi hỏi sự kết hợp giữa thị giác máy tính, học sâu, và xử lý ngôn ngữ tự nhiên để vượt qua những hạn chế này. Nghiên cứu cần tập trung vào việc xây dựng cơ sở dữ liệu VSL phong phú, phát triển các thuật toán trích xuất đặc trưng hiệu quả, và thiết kế các mô hình học máy mạnh mẽ.

2.1. Sự phức tạp của ngữ nghĩa và biểu diễn trong VSL

Ngữ nghĩa trong VSL không chỉ đơn thuần là sự kết hợp của các cử chỉ tay riêng lẻ, mà còn phụ thuộc vào các yếu tố như biểu cảm khuôn mặt, tư thế cơ thể và ngữ cảnh giao tiếp. Các từ đồng âm khác nghĩa có thể được biểu diễn bằng các cử chỉ tương tự, gây khó khăn cho việc nhận dạng. Việc giải quyết sự mơ hồ này đòi hỏi các mô hình học máy có khả năng hiểu được ngữ cảnh và mối quan hệ giữa các yếu tố khác nhau trong biểu diễn VSL.

2.2. Khó khăn trong thu thập và chuẩn hóa dữ liệu VSL

Việc thu thập một lượng lớn dữ liệu VSL là một thách thức lớn. Ngôn ngữ ký hiệu chưa được chuẩn hóa rộng rãi, dẫn đến sự khác biệt trong cách biểu diễn giữa các cá nhân và vùng miền. Việc chuẩn hóa dữ liệu đòi hỏi sự hợp tác của các chuyên gia ngôn ngữ ký hiệu và công nghệ thông tin, nhằm tạo ra một bộ dữ liệu thống nhất và đáng tin cậy, có thể được sử dụng để huấn luyện các mô hình nhận dạng.

III. Phương Pháp Học Sâu Cho Nhận Dạng Ngôn Ngữ Ký Hiệu VSL

Luận văn sử dụng phương pháp học sâu để xây dựng hệ thống nhận dạng VSL. Mô hình đề xuất ứng dụng công nghệ thị giác máy tính để trích xuất đặc trưng từ video ngôn ngữ ký hiệu. Dữ liệu được thu thập từ giáo viên và sinh viên khoa Giáo dục Đặc biệt. Quá trình bao gồm: khảo sát dữ liệu, nghiên cứu trí tuệ nhân tạo, và áp dụng để nhận dạng cử chỉ. Các đặc trưng của VSL được nghiên cứu dựa trên các yếu tố cấu thành. Các phương pháp trích xuất đặc trưng và tiền xử lý được áp dụng để giảm ảnh hưởng của môi trường. Mô hình học máy được huấn luyện và thực nghiệm. Hệ thống nhận dạng ký hiệu cử chỉ liên tục bao gồm từ hoặc cụm từ. Nhận dạng ngôn ngữ ký hiệu của 6 từ trong chủ đề gia đình.

3.1. Ứng dụng MediaPipe Holistic trong trích xuất đặc trưng

MediaPipe Holistic được sử dụng để trích xuất các điểm mốc (landmarks) từ khuôn mặt, tay và cơ thể của người thực hiện ngôn ngữ ký hiệu. Các điểm mốc này cung cấp thông tin về vị trí, hình dạng và chuyển động của các bộ phận cơ thể quan trọng, giúp mô tả cử chỉ một cách chi tiết và chính xác. Việc sử dụng MediaPipe Holistic giúp giảm thiểu sự phụ thuộc vào các thiết bị cảm biến đặc biệt, cho phép hệ thống hoạt động trên các thiết bị thông thường như camera.

3.2. Mô hình LSTM Long Short Term Memory cho nhận dạng chuỗi

LSTM là một loại mạng nơ-ron hồi quy (RNN) được thiết kế đặc biệt để xử lý các chuỗi dữ liệu có độ dài khác nhau, như ngôn ngữ ký hiệu. LSTM có khả năng ghi nhớ các thông tin quan trọng trong quá khứ và sử dụng chúng để dự đoán các trạng thái trong tương lai. Trong nhận dạng VSL, LSTM được sử dụng để phân tích chuỗi các điểm mốc được trích xuất từ MediaPipe Holistic, từ đó nhận diện các từ và cụm từ trong ngôn ngữ ký hiệu.

IV. Thực Nghiệm và Đánh Giá Hiệu Quả Mô Hình Nhận Dạng VSL

Luận văn thực hiện thực nghiệm để đánh giá mô hình đề xuất. Bộ dữ liệu được xây dựng từ video thu thập từ giáo viên và sinh viên. Mô hình được huấn luyện và kiểm thử trên bộ dữ liệu này. Kết quả cho thấy mô hình đạt độ chính xác cao trong việc nhận dạng các từ và cụm từ trong VSL. Phân tích và so sánh với các công trình khác được thực hiện để đánh giá ưu điểm và nhược điểm của mô hình. Các kết quả thực nghiệm chứng minh tính khả thi và hiệu quả của phương pháp học sâu trong bài toán nhận dạng ngôn ngữ ký hiệu tiếng Việt. Luận văn cũng chỉ ra các hướng cải thiện để nâng cao độ chính xác và khả năng ứng dụng của hệ thống.

4.1. Xây dựng bộ dữ liệu VSL cho huấn luyện và kiểm thử

Việc xây dựng một bộ dữ liệu VSL chất lượng cao là rất quan trọng để đảm bảo hiệu quả của các mô hình nhận dạng. Bộ dữ liệu này cần bao gồm một lượng lớn các video VSL từ nhiều người thực hiện khác nhau, với độ đa dạng về ngữ cảnh và biểu cảm. Việc gán nhãn chính xác cho các video cũng là một yếu tố quan trọng để đảm bảo độ tin cậy của bộ dữ liệu.

4.2. Các tiêu chí đánh giá hiệu năng mô hình độ chính xác độ trễ

Hiệu năng của mô hình nhận dạng VSL được đánh giá dựa trên nhiều tiêu chí, bao gồm độ chính xác (accuracy), độ trễ (latency) và khả năng khái quát hóa (generalization). Độ chính xác đo lường khả năng của mô hình trong việc dự đoán đúng các từ và cụm từ VSL. Độ trễ đo lường thời gian cần thiết để mô hình xử lý một video VSL và đưa ra kết quả. Khả năng khái quát hóa đo lường khả năng của mô hình trong việc hoạt động tốt trên các dữ liệu mới mà nó chưa từng thấy trước đây.

V. Ứng Dụng Thực Tế và Triển Vọng Phát Triển VSL AI

Mô hình nhận dạng ngôn ngữ ký hiệu có nhiều ứng dụng thực tế. Nó có thể được sử dụng để tạo ra các công cụ hỗ trợ giao tiếp cho người khiếm thính, như ứng dụng dịch VSL sang văn bản hoặc lời nói. Hệ thống cũng có thể được tích hợp vào các thiết bị thông minh, giúp người khiếm thính tương tác với thế giới xung quanh dễ dàng hơn. Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện độ chính xác, khả năng xử lý chuỗi cử chỉ phức tạp, và mở rộng vốn từ vựng của hệ thống. Việc phát triển các ứng dụng nhận dạng VSL có tiềm năng to lớn trong việc cải thiện chất lượng cuộc sống của người khiếm thính và thúc đẩy sự hòa nhập xã hội.

5.1. Phát triển ứng dụng dịch VSL trực tiếp trên thiết bị di động

Một trong những ứng dụng tiềm năng nhất của công nghệ nhận dạng VSL là phát triển các ứng dụng dịch VSL trực tiếp trên thiết bị di động. Ứng dụng này có thể sử dụng camera của điện thoại để ghi lại cử chỉ tay và biểu cảm khuôn mặt của người sử dụng VSL, sau đó dịch chúng thành văn bản hoặc lời nói để người khác có thể hiểu được. Ngược lại, ứng dụng cũng có thể dịch văn bản hoặc lời nói thành VSL để người khiếm thính có thể giao tiếp dễ dàng hơn.

5.2. Tích hợp hệ thống VSL AI vào giáo dục và hỗ trợ người khiếm thính

Công nghệ nhận dạng VSL có thể được tích hợp vào các chương trình giáo dục và hỗ trợ người khiếm thính. Ví dụ, các phần mềm học tập có thể sử dụng công nghệ này để cung cấp phản hồi trực tiếp cho học sinh về cách thực hiện các cử chỉ VSL một cách chính xác. Các dịch vụ hỗ trợ trực tuyến có thể sử dụng công nghệ này để cung cấp dịch thuật VSL cho người khiếm thính khi họ cần trợ giúp.

VI. Kết Luận và Hướng Phát Triển Nghiên Cứu VSL AI

Luận văn đã xây dựng thành công mô hình nhận dạng ngôn ngữ ký hiệu tiếng Việt bằng phương pháp học sâu. Mô hình có khả năng trích xuất đặc trưng hiệu quả từ video và nhận dạng các từ, cụm từ trong VSL với độ chính xác cao. Nghiên cứu này đóng góp vào việc xây dựng cơ sở cho các nghiên cứu về thị giác máy tính trong nhận dạng ngôn ngữ ký hiệu. Trong tương lai, cần tập trung vào việc mở rộng bộ dữ liệu, cải thiện thuật toán, và tích hợp các yếu tố ngữ cảnh để nâng cao hiệu quả của hệ thống. Nghiên cứu cũng có thể khám phá các phương pháp học tăng cường và học không giám sát để giảm thiểu sự phụ thuộc vào dữ liệu gán nhãn.

6.1. Tóm tắt các kết quả đạt được và đóng góp của luận văn

Luận văn đã đạt được các kết quả quan trọng trong việc nhận dạng ngôn ngữ ký hiệu tiếng Việt, bao gồm việc xây dựng một bộ dữ liệu VSL chất lượng cao, phát triển một mô hình học sâu hiệu quả, và đánh giá hiệu năng của mô hình trên các tiêu chí khác nhau. Những đóng góp này có thể giúp thúc đẩy sự phát triển của các ứng dụng nhận dạng VSL trong thực tế.

6.2. Đề xuất các hướng nghiên cứu tiếp theo để nâng cao độ chính xác VSL

Để nâng cao độ chính xác của các hệ thống nhận dạng VSL, các nghiên cứu tiếp theo có thể tập trung vào việc sử dụng các mô hình học sâu phức tạp hơn, tích hợp thông tin ngữ cảnh, và áp dụng các kỹ thuật tiền xử lý dữ liệu tiên tiến. Ngoài ra, việc nghiên cứu các phương pháp học chuyển giao và học đa nhiệm có thể giúp tận dụng kiến thức từ các ngôn ngữ ký hiệu khác để cải thiện hiệu năng của hệ thống VSL.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính nhận dạng ngôn ngữ ký hiệu tiếng việt của người khiếm thính bằng phương pháp học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Ngôn ngữ ký hiệu là phương tiện giao tiếp quan trọng đối với người khiếm thính, giúp họ truyền tải thông tin và cảm xúc trong cộng đồng. Ở Việt Nam, ngôn ngữ ký hiệu tiếng Việt (VSL) đã được sử dụng từ lâu nhưng chưa được chuẩn hóa và phổ biến rộng rãi, gây ra rào cản giao tiếp giữa người khiếm thính và người bình thường. Theo ước tính, hiện có khoảng hàng nghìn người khiếm thính tại các thành phố lớn như Thành phố Hồ Chí Minh, Hà Nội, Bình Dương sử dụng VSL trong đời sống hàng ngày. Tuy nhiên, việc nhận dạng và dịch tự động ngôn ngữ ký hiệu vẫn còn nhiều thách thức do sự đa dạng trong biểu diễn cử chỉ, từ đồng âm khác nghĩa đến sự liên tục trong chuỗi ký hiệu.

Mục tiêu nghiên cứu là xây dựng một hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa trên phương pháp học sâu, ứng dụng công nghệ thị giác máy tính để nhận dạng các từ và cụm từ phổ biến trong VSL. Nghiên cứu tập trung vào 6 từ khóa trong chủ đề gia đình gồm “ba”, “cậu”, “cô”, “nữ”, “vợ chồng”, “vợ” với bộ dữ liệu thu thập từ giáo viên và sinh viên khoa Giáo dục Đặc biệt tại Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Phạm vi nghiên cứu bao gồm dữ liệu video thu thập trong môi trường thực tế tại Thành phố Hồ Chí Minh trong năm 2022.

Ý nghĩa của nghiên cứu thể hiện rõ qua việc hỗ trợ người khiếm thính phá bỏ rào cản ngôn ngữ, nâng cao khả năng hòa nhập xã hội và giao tiếp hiệu quả hơn. Đồng thời, nghiên cứu góp phần phát triển các ứng dụng trí tuệ nhân tạo trong lĩnh vực nhận dạng hành động và ngôn ngữ ký hiệu, mở ra hướng đi mới cho công nghệ hỗ trợ người khuyết tật tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết và mô hình chính:

MediaPipe Holistic: Đây là công nghệ mã nguồn mở của Google, cho phép phát hiện đồng thời tư thế cơ thể, bàn tay và các điểm mốc trên khuôn mặt trong video. MediaPipe Holistic sử dụng các mô hình con như BlazePose Detector để xác định 33 điểm mốc trên cơ thể, MediaPipe Hands để phát hiện 21 điểm mốc trên mỗi bàn tay, và MediaPipe Face Mesh để ước lượng 468 điểm mốc trên khuôn mặt. Tổng cộng, hệ thống trích xuất 543 điểm mốc 3D dùng làm đặc trưng đầu vào cho mô hình học sâu.
Mạng nơ-ron hồi tiếp dài hạn (LSTM): LSTM là một biến thể của mạng nơ-ron hồi tiếp (RNN) được thiết kế để giải quyết vấn đề vanishing gradient trong xử lý chuỗi dữ liệu dài. LSTM có khả năng ghi nhớ thông tin quan trọng trong suốt chuỗi thời gian, phù hợp với bài toán nhận dạng ngôn ngữ ký hiệu liên tục. Mô hình LSTM sử dụng các cổng quên, cổng đầu vào và cổng đầu ra để kiểm soát luồng thông tin, giúp mô hình học được các đặc trưng thời gian phức tạp trong video.

Các khái niệm chính bao gồm: điểm mốc 3D (x, y, z, visibility), hàm kích hoạt (ReLU, Sigmoid, tanh), hàm mất mát cross-entropy, thuật toán lan truyền ngược (Backpropagation Through Time - BPTT), và kỹ thuật tiền xử lý dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu VSL do nhóm nghiên cứu xây dựng, gồm 1209 video với 6 từ khóa phổ biến trong chủ đề gia đình. Mỗi từ được ghi lại ít nhất 200 lần với các tư thế và khoảng cách khác nhau nhằm đảm bảo tính đa dạng và phong phú của dữ liệu.

Quy trình nghiên cứu gồm các bước:

Thu thập dữ liệu video từ camera tại khoa Giáo dục Đặc biệt, Trường Đại học Sư phạm Thành phố Hồ Chí Minh.
Tiền xử lý dữ liệu bằng MediaPipe Holistic để trích xuất 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt.
Lưu trữ dữ liệu điểm mốc dưới dạng file NumPy Array (.npy) để làm đầu vào cho mô hình.
Chia bộ dữ liệu thành 3 phần: 60% huấn luyện, 20% kiểm chứng, 20% kiểm tra.
Xây dựng và huấn luyện mô hình LSTM với các tham số tối ưu, sử dụng thuật toán SGD và hàm mất mát cross-entropy.
Đánh giá mô hình dựa trên độ chính xác, ma trận sai lệch và biến đổi hàm mất mát qua các epoch huấn luyện.

Thời gian nghiên cứu kéo dài trong năm 2022, tập trung tại Thành phố Hồ Chí Minh với sự phối hợp của các chuyên gia và sinh viên trong lĩnh vực Giáo dục Đặc biệt.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả trích xuất đặc trưng bằng MediaPipe Holistic: Qua phân tích 1209 video, hệ thống trích xuất thành công 543 điểm mốc 3D cho hầu hết các khung hình. Tuy nhiên, có khoảng 5-7% khung hình bị thiếu dữ liệu do bàn tay che khuất hoặc chuyển động nhanh, ảnh hưởng đến chất lượng đặc trưng đầu vào.
Độ chính xác mô hình LSTM: Mô hình đạt độ chính xác trung bình khoảng 88% trên tập kiểm tra với 6 từ khóa. So với các nghiên cứu trước đây sử dụng SVM hoặc CNN đơn lẻ, mô hình LSTM cải thiện độ chính xác từ 5-10%.
Ảnh hưởng của số lượng epoch huấn luyện: Qua 400 epoch, hàm mất mát giảm dần và độ chính xác tăng ổn định, đạt mức tối ưu sau khoảng 300 epoch. Biểu đồ biến đổi hàm mất mát và độ chính xác cho thấy mô hình không bị overfitting nhờ kỹ thuật chia dữ liệu hợp lý.
Khả năng nhận dạng liên tục: Mô hình có thể nhận dạng chuỗi cử chỉ liên tục với độ chính xác khoảng 80%, thấp hơn so với nhận dạng từ đơn lẻ do sự phức tạp trong phân tách các từ đồng âm và chuyển động liên tục.

Thảo luận kết quả

Nguyên nhân chính của việc thiếu dữ liệu điểm mốc trong một số khung hình là do hạn chế của MediaPipe Holistic khi bàn tay bị che khuất hoặc ánh sáng không đồng đều. Điều này ảnh hưởng đến chất lượng đặc trưng và làm giảm độ chính xác mô hình. So sánh với các nghiên cứu sử dụng thiết bị cảm biến như Microsoft Kinect, phương pháp thị giác máy tính có ưu điểm về chi phí và tính tiện dụng nhưng cần cải tiến thêm về xử lý nhiễu và thiếu dữ liệu.

Việc áp dụng mô hình LSTM giúp giải quyết tốt bài toán nhận dạng chuỗi thời gian, ghi nhớ các đặc trưng quan trọng trong video. Kết quả đạt được cho thấy sự phù hợp của LSTM trong nhận dạng ngôn ngữ ký hiệu tiếng Việt, đồng thời mở ra hướng phát triển cho các hệ thống dịch tự động ngôn ngữ ký hiệu.

Dữ liệu có thể được trình bày qua các biểu đồ biến đổi hàm mất mát và độ chính xác theo số epoch, ma trận sai lệch thể hiện khả năng phân biệt các từ khóa, cũng như biểu đồ phân bố số lượng video trong các tập huấn luyện, kiểm chứng và kiểm tra.

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng: Mở rộng bộ dữ liệu với nhiều từ khóa hơn và đa dạng người tham gia để nâng cao tính tổng quát của mô hình. Thời gian thực hiện trong 12-18 tháng, do các trung tâm giáo dục đặc biệt và cộng đồng người khiếm thính phối hợp thực hiện.
Cải tiến tiền xử lý dữ liệu: Phát triển các thuật toán xử lý thiếu dữ liệu điểm mốc và giảm nhiễu trong video, ví dụ như sử dụng kỹ thuật bổ sung dữ liệu (data augmentation) và lọc nhiễu nâng cao. Chủ thể thực hiện là nhóm nghiên cứu AI và thị giác máy tính trong 6-12 tháng.
Phát triển mô hình nhận dạng liên tục nâng cao: Áp dụng các kiến trúc mạng sâu hơn như CNN-LSTM kết hợp attention mechanism để cải thiện khả năng nhận dạng chuỗi cử chỉ liên tục, giảm nhầm lẫn giữa các từ đồng âm. Thời gian nghiên cứu 12 tháng, do nhóm AI chuyên sâu đảm nhiệm.
Xây dựng ứng dụng giao tiếp hỗ trợ người khiếm thính: Triển khai hệ thống nhận dạng ngôn ngữ ký hiệu thành văn bản hoặc giọng nói trên nền tảng di động, giúp người khiếm thính giao tiếp thuận tiện hơn. Chủ thể thực hiện là các công ty công nghệ phối hợp với tổ chức xã hội trong 12-24 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Nghiên cứu cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng học sâu trong nhận dạng ngôn ngữ ký hiệu, hỗ trợ phát triển các đề tài liên quan.
Chuyên gia và giáo viên trong lĩnh vực Giáo dục Đặc biệt: Tài liệu giúp hiểu rõ về ngôn ngữ ký hiệu tiếng Việt và công nghệ hỗ trợ nhận dạng, từ đó áp dụng vào giảng dạy và hỗ trợ học sinh khiếm thính.
Nhà phát triển phần mềm và công nghệ hỗ trợ người khuyết tật: Cung cấp mô hình và dữ liệu thực nghiệm để phát triển các ứng dụng giao tiếp, dịch ngôn ngữ ký hiệu sang văn bản hoặc giọng nói.
Cộng đồng người khiếm thính và tổ chức xã hội: Giúp nâng cao nhận thức về công nghệ hỗ trợ giao tiếp, thúc đẩy việc áp dụng các giải pháp kỹ thuật số trong đời sống hàng ngày.

Câu hỏi thường gặp

Ngôn ngữ ký hiệu tiếng Việt có khác biệt gì so với các ngôn ngữ ký hiệu khác?
Ngôn ngữ ký hiệu tiếng Việt (VSL) có hệ thống ký hiệu riêng biệt, phản ánh đặc trưng văn hóa và vùng miền Việt Nam. VSL có bảng chữ cái gồm 29 chữ cái, các chữ ghép và dấu thanh, tương tự nhưng không giống hoàn toàn với American Sign Language (ASL).
Tại sao sử dụng MediaPipe Holistic trong nghiên cứu này?
MediaPipe Holistic cho phép trích xuất đồng thời các điểm mốc trên cơ thể, bàn tay và khuôn mặt với độ chính xác cao, giúp mô hình học sâu có dữ liệu đặc trưng phong phú và đa chiều để nhận dạng ngôn ngữ ký hiệu hiệu quả.
Mô hình LSTM có ưu điểm gì trong nhận dạng ngôn ngữ ký hiệu?
LSTM có khả năng ghi nhớ thông tin dài hạn trong chuỗi dữ liệu, phù hợp với đặc điểm liên tục và tuần tự của ngôn ngữ ký hiệu, giúp cải thiện độ chính xác so với các mô hình mạng nơ-ron truyền thống.
Bộ dữ liệu nghiên cứu gồm những từ khóa nào và có bao nhiêu video?
Bộ dữ liệu gồm 6 từ khóa phổ biến trong chủ đề gia đình: “ba”, “cậu”, “cô”, “nữ”, “vợ chồng”, “vợ” với tổng cộng 1209 video, mỗi từ được ghi lại ít nhất 200 lần với các tư thế và khoảng cách khác nhau.
Làm thế nào để cải thiện độ chính xác nhận dạng trong tương lai?
Có thể mở rộng bộ dữ liệu, áp dụng các mô hình học sâu kết hợp attention mechanism, cải tiến tiền xử lý dữ liệu và phát triển các thuật toán xử lý thiếu dữ liệu điểm mốc để nâng cao hiệu quả nhận dạng.

Kết luận

Đã xây dựng thành công bộ dữ liệu ngôn ngữ ký hiệu tiếng Việt với 1209 video thuộc 6 từ khóa phổ biến, thu thập từ môi trường thực tế tại Thành phố Hồ Chí Minh.
Ứng dụng MediaPipe Holistic để trích xuất 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt làm đặc trưng đầu vào cho mô hình.
Mô hình LSTM được huấn luyện và đánh giá đạt độ chính xác khoảng 88% trên tập kiểm tra, vượt trội so với các phương pháp truyền thống.
Nghiên cứu góp phần phát triển công nghệ nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ người khiếm thính giao tiếp hiệu quả hơn.
Hướng phát triển tiếp theo bao gồm mở rộng bộ dữ liệu, cải tiến mô hình nhận dạng liên tục và xây dựng ứng dụng giao tiếp hỗ trợ người khiếm thính.

Để tiếp tục phát triển, các nhà nghiên cứu và chuyên gia công nghệ được khuyến khích áp dụng kết quả này vào các dự án thực tiễn, đồng thời phối hợp với cộng đồng người khiếm thính để nâng cao chất lượng và tính ứng dụng của hệ thống nhận dạng ngôn ngữ ký hiệu.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan tình hình nghiên cứu Chương này giới thiệu tông quan về cơ sở dữ liệu VSL và tình hình nghiên cứu. Những kiến thức cơ bản này là tiền dé dé áp dụng vào việc xây dựng mô hình nhận dạng ngôn ngữ ký hiệu. Chương 2: Cơ sở lý thuyết Chương này giới thiệu lý thuyết về MediaPipe Holistic và mô hình LSTM. Chương 3: Mô hình nhận đạng ngôn ngữ ký hiệu Chương nay vận dụng những kiến thức đã dé cập ở chương một và chương hai dé xây dựng mô hình nhận dạng ngôn ngữ ký hiệu.

Chương 4: Thực nghiệm và đánh giá Chương này phân tích và đánh giá kết quả mô hình đề xuất. Chương 5: Kết luận và hướng phát triển Chương này tông kết lại các kết quả mà luận văn đã dat. Sau đó, dé xuất các hướng nghiên cứu tiếp theo nhằm nâng cao độ chính xác của bài toán nhận dang ngôn ngữ ký hiệu. CHUONG I TONG QUAN TINH HINH NGHIEN CUU 1.

Tổng quan về ngôn ngữ ký hiệu ở Việt Nam “Ngôn ngữ ký hiệu hay ngôn ngữ dấu hiệu, thủ ngữ là ngôn ngữ dùng những biểu hiện của bàn tay thay cho âm thanh của tiếng nói. Ngôn ngữ ký hiệu do người khiếm thính tạo ra nhằm giúp họ có thê giao tiếp với nhau trong cộng đồng của mình và tiếp thu tri thức của xã hội. Chúng ta thường hay quan niệm rằng ngôn ngữ ký hiệu là một ngôn ngữ quốc tế. Thực tế không phải vay, mỗi quốc gia có thể có một hoặc nhiều cách khác nhau để mô tả ký hiệu ngôn ngữ.

O Việt Nam, ngôn ngữ ký hiệu đã được đưa vào giáo dục và sử dụng từ rất sớm. “Nhung do trước đây chưa có nhà khoa học nào tìm hiểu, nghiên cứu về nó nên người Việt Nam không nghĩ và đã không xem những dấu hiệu mà người điếc sử dụng là ngôn ngữ. Họ cho rằng đó chỉ là những điệu bộ khua tay của người điếc dé cd gắng giao tiếp do thiểu ngôn ngữ. Mãi đến năm 1996, một tiến sĩ ngôn ngữ học người Mỹ là James C.

Woodward người đã từng làm việc với William Stokoe tại trường đại học Gallaudet của Mỹ, đã sang Việt Nam thực hiện nghiên cứu về ngôn ngữ ký hiệu của cộng đồng người điếc ở Việt Nam.” [1] Từ những nam 2000, Việt Nam bat đầu triển khai những nỗ lực của mình nhằm hoàn thiện và hệ thống hóa VSL. Các cau lạc bộ, nhóm học tập bắt đầu hình thành và phát triển. Tuy nhiên do ảnh hưởng bởi văn hóa, đặc trưng của từng vùng miễn khác nhau nên dẫn đến sự phân loại trong việc thé hiện biéu điển ngôn ngữ ký hiệu khác nhau. Nỗi trội nhất là ngôn ngữ ký hiệu ở Thành phố Hồ Chí Minh, Bình Dương, Hà Nội, Hải Phòng.

Bên cạnh đó, đã có thêm nhiều dự án được thực hiện dé chuẩn hoá ngôn ngữ ký hiệu nhăm xây dựng nên hệ thống ngôn ngữ kí hiệu hoàn chỉnh và thống nhất. Hiện nay, các tài liệu đã được đưa vào sử dụng cho người khiếm thính ở Việt Nam như là bộ ba tập Ký hiệu cho người khiém thính Việt Nam, Từ điển ngôn ngữ ký hiệu Việt Nam. Bảng chữ cái của VSL cũng tương ứng với bảng chữ cái của ngôn ngữ viết bao gôm 29 chữ cái, các chữ ghép và dấu thanh. Bảng chữ cái của VSL được xây dựng tương tự với bảng chữ cái của ASL (American Sign Languague).

Tuy nhiên, do mang tính chất đặc trưng về văn hóa của dat nước, —_ |Horn J Breve 5 Krarea ` camdstrp Oecrtic Marks ^- ø!s BOSS VY BSS TS “" | d saaw vows ý yw hư,| SS. ~ ầ ý | or CÁ VU BF 9g ! 2z 3 4 5 6 7 £ 93 | |HœkÖjAdưte Grove Sine |ưnderda ‹ Hình 1. Bảng chữ cái của ASL [2] và bảng chữ cái của VSL [3]. Việc giao tiếp bằng ngôn ngữ ký hiệu rất đa dạng, không chỉ liên quan đến ngôn ngữ ở bàn tay mà còn liên quan đến cử chỉ, điệu bộ, nét mặt.

Tất cả các ngữ nghĩa của ngôn ngữ ký hiệu thường được cau thành từ 5 thành t6 cơ bản (Hình 1. Vị trí làm kí hiệu Các thành tổ của một kí hiệu Hình 1. Năm thành tố của một ký hiệu [4]. Từ những đặc điểm khác biệt trong việc cau tạo từ của VSL đã chứng tỏ rằng VSL là một ngôn ngữ đích thực, có ngữ pháp riêng, độc lập với tiếng Việt.

VSL đã trở thành một hệ thống các tín hiệu cần thiết và quan trọng nhất dé đáp ứng nhu cầu giao tiếp và tư duy logic của người khiếm thính, trở thành ngôn ngữ mẹ đẻ, ngôn ngữ thứ nhất của người khiếm thính. Những nghiên cứu liên quan Ngày nay, nhờ sự phát triển của khoa học và công nghệ mà việc xây dựng—những ứng dụng nhận dạng ngôn ngữ ký hiệu ngày càng được quan tâm. Hầu hết những nghiên cứu nhận dang ngôn ngữ ký hiệu thường chia làm hai loại là dựa trên dữ liệu cảm biến và dựa trên thị giác máy tính. Phương pháp dựa trên dữ liệu cảm biến Dữ liệu cảm biến được thu thập từ hoạt động mô tả các từ ngôn ngữ ký hiệu của người thực hiện khi sử dụng một hoặc một số thiết bị cảm biến.

Mô hình bao gdm một máy xử lý dữ liệu, một hệ vi điều khiển thu thập dữ liệu, hệ thong man hinh hién thi va thiét bi cam bién. Trong đó, các thiết bị cảm biến được trang bị cho khả năng lọc nhiễu và yếu tố phức tạp của môi trường. Chính vì vậy, việc tiền xử lý của dữ liệu trở nên đơn giản hóa. Trong cách tiếp cận này, tín hiệu từ các thiết bị cảm biến sẽ truyền tải đến một thiết bị từ xa dé xử lý nhận dạng.

Vào năm 2009, việc ra đời của Microsoft Kinect đã mờ ra một hướng nghiên cứu mới trong bài toán nhận dạng ngôn ngữ cử chỉ. Với giá thành vừa phải. khả năng ứng dụng của thiết bị vào ứng dụng của rat khả thi. Do đó, đã có rất nhiều nghiên cứu nhận dạng ngôn ngữ ký hiệu sử dụng thiết bị Microsoft Kinect.

Điền hình là nghiên cứu của Z. Zafrulla và cộng sự [5]. nhóm tác giả đã so sánh hệ thông dựa trên Kinect và hệ thông CopyCat của họ dựa trên bộ dữ liệu 1000 cụm từ trong ASL dé minh chứng cho thấy Kinect là một lựa chọn khả thi đê xác minh ký hiệu. Bởi vì, hệ thống sử dụng Kinect mang đến tỷ lệ xác minh câu là 51.5% đối với những dữ liệu mà người dùng ngồi và 76.12% đối với những dữ liệu mà người đứng.

trong khi đó, khi sử dụng hệ thống CopyCat chỉ mang lại tỷ lệ xác minh ở những dữ liệu ngồi là 74. Trong nhận dang VSL, P. Hai và cộng sự [3] da dé xuất một cách tiếp cận tự động dé trích xuất các đặc trưng của ngôn ngữ ký hiệu tiếng Việt trong phân loại các chữ cái trong bảng chữ cái tiếng Việt. Bộ dữ liệu được nghiên cứu gồm các hình ảnh chiều sâu, hình ảnh RGB và bản đồ khớp xương.

Nhờ vào thiết bị Kinect phiên bản 1, hệ thông của nhóm tác giả đề xuất đã tự động trích xuất cử chỉ tay của người được quan sát. Các cử chỉ tay bao gồm cả dấu phụ động và tĩnh đều có thẻ được nhận dạng nhờ phương pháp phát hiện chuyên động. Trong giai đoạn nhận dạng, tất cả các cử chỉ tay được trích xuất, chuân hóa và sau đó được lọc ra dựa trên sự khác biệt về khoảng cách Euclide của các vị trí tay trong các khung hình được chụp dé đi qua các Support Vector Machines (SVM) chính xác. Kết quả thử nghiệm chứng minh hệ thong mà nhóm tác giả đề xuất đã nhận dạng VSL trong thời gian thực với độ chính xác cao.

Mặc dù các phương pháp tiếp cận này đạt độ chính xác cao dựa trên thiết bị cảm biến nhưng hệ thông trở nên bất tiện hơn khi người thực hiện phải tốn tiền dé trang bị thiết bị cảm biến hoặc đeo nhiều thiết bị cảm biến. Phương pháp dựa trên thị giác máy tính Thị giác máy tính có nhiều ứng dụng trong thực tế như điều khién tự động, mô phỏng chuyền động, đặc biệt nó cũng được áp dụng trong việc nghiên cứu vẻ ngôn ngữ ký hiệu. Nhận biết ngôn ngữ ký hiệu qua ảnh đã được nghiên cứu và phát trién từ rất sớm và đạt được những kết quả tốt va đầy khả quan. Trong phương pháp này sẽ sử dụng những camera dé ghi lai dữ liệu đầu vào.

Do được ghi hình bằng những máy thu hình cho nên giảm chỉ phí giá thành trong việc không cần trang bị thiết bị cảm biến. Hơn thé, hiện nay, các 10 thiết bị thu hình hầu như đều là thiết bị với độ phân giải cao. trở thành một tiềm năng lớn cho đữ liệu đầu vào cho hệ thống. Vì thế, cách tiếp cận này khiến cho hệ thống nhận dạng ngôn ngữ ký hiệu trở nên tự nhiên và thuận tiện trong sử dụng.

Do những lợi ích được đề cập, nhiều nhà nghiên cứu tập trung vào nghiên cứu và đề xuất nhận dạng ngôn ngữ ký hiệu dựa trên thị giác máy tính. Trọng tâm bài báo của tác gia K. Bantupalli va cộng sự [6] là sử dung bộ dữ liệu ASL để tạo ra một ứng cung cấp bản dịch ngôn ngữ ký hiệu sang văn bản, từ đó hỗ trợ giao tiếp giữa người sử dụng ngôn ngữ ký hiệu và người không ngôn ngữ ký hiệu. Mô hình ma bài báo dé xuất gồm hai phần chính CNN và RNN.

Đầu tiên, nhóm tác giả lấy các chuỗi video và trích xuất các đặc điểm không gian và thời gian từ các chuỗi video đó. Sau đó, họ sử dụng Inception của mô hình CNN dé nhận dang các đặc điểm không gian. Từ kết quả thu được từ mô hình CNN để vào mô hình RNN, mục đích là dùng dé dao tạo về các tinh năng tạm thời. Vo và các cộng sự [7] đã đóng góp bộ dữ liệu gồm 24 chữ cái, 3 dau phụ âm, và 5 âm của tiếng Việt.

Bộ dữ liệu nay được nhóm tác giả thu thập chi sử dụng camera 2D. Ngoài ra, nhóm tác giả sử dụng diém đặc trưng (local features), gồm ba loại là đặc trưng không gian (spatial features), đặc trưng dựa trên cảnh (scene-based feature) và đặc trưng chuyển động (motion-based feature). Trong đó, đặc trưng không gian và đặc trưng dựa trên cảnh được coi là đặc trưng dựa trên một khung hình vì chúng được trích xuất từ một khung hình duy nhất của chuỗi video đầu vào. Còn đặc trưng chuyền động được coi là đặc trưng dựa trên chuyển động của nhiều khung hình và phải được tính toán từ nhiều chuỗi video đầu vào.

Độ chính xác đạt được khi sử dụng phương pháp của nhóm tác giả đề cử là 86.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề "Nghiên Cứu Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt Cho Người Khiếm Thính" tập trung vào việc phát triển các phương pháp nhận dạng ngôn ngữ ký hiệu nhằm hỗ trợ người khiếm thính trong việc giao tiếp. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật hiện đại trong lĩnh vực học sâu mà còn nhấn mạnh tầm quan trọng của việc cải thiện khả năng giao tiếp cho người khiếm thính, giúp họ hòa nhập tốt hơn vào xã hội.

Để mở rộng thêm kiến thức về chủ đề này, bạn có thể tham khảo tài liệu Nhận dạng ngôn ngữ ký hiệu tiếng việt của người khiếm thính bằng phương pháp học sâu, nơi trình bày chi tiết về các phương pháp học sâu trong nhận dạng ngôn ngữ ký hiệu. Ngoài ra, tài liệu Đề tài nghiên cứu khoa học xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng việt hỗ trợ hiểu ngôn ngữ của người khiếm thính bằng phương pháp học sâu cũng sẽ cung cấp cho bạn cái nhìn tổng quan về hệ thống hỗ trợ giao tiếp cho người khiếm thính. Những tài liệu này sẽ giúp bạn hiểu rõ hơn về các ứng dụng và tiềm năng của công nghệ trong việc cải thiện cuộc sống cho người khiếm thính.

#ứng dụng công nghệ trong giáo dục

#người khiếm thính

#nhận dạng ngôn ngữ ký hiệu

#ngôn ngữ ký hiệu tiếng Việt

#nghiên cứu ngôn ngữ ký hiệu

#Công nghệ hỗ trợ người khiếm thính

Chủ đề

Giáo dục cho người khiếm thính

Công nghệ hỗ trợ người khiếm thính

nghiên cứu ngôn ngữ ký hiệu

Phát triển hệ thống nhận diện ký hiệu