Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt Của Người Khiếm Thính Bằng Phương Pháp Học Sâu

Tài liệu nghiên cứu Nhận dạng ngôn ngữ ký hiệu tiếng việt của người khiếm thính bằng phương pháp học sâu, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Trường Đại Học Sư Phạm Thành Phố Hồ Chí Minh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

1.1. Tổng quan về ngôn ngữ ký hiệu ở Việt Nam

1.2. Những nghiên cứu liên quan

1.2.1. Phương pháp dựa trên dữ liệu cảm biến

1.2.2. Phương pháp dựa trên thị giác máy tính

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

3. CHƯƠNG 3: MÔ HÌNH NHẬN DẠNG NGÔN NGỮ KÝ HIỆU

3.1. Cơ sở dữ liệu ngôn ngữ ký hiệu

3.2. Phương pháp huấn luyện trên dữ liệu đầu vào

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường thực nghiệm

4.2. Bộ dữ liệu đầu vào

4.3. Kết quả thực nghiệm

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới Thiệu Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt VSL

Ngôn ngữ là phương tiện thiết yếu để truyền đạt thông tin và cảm xúc. Mỗi quốc gia, dân tộc sử dụng một ngôn ngữ riêng, tạo nên sự đa dạng. Không chỉ lời nói và chữ viết, cử chỉ, ký hiệu và biểu cảm khuôn mặt cũng là cách giao tiếp. Đối với người khiếm thính Việt Nam, khát khao giao tiếp là vô cùng lớn. Nhận thức được điều này, nhiều nỗ lực đã được thực hiện để phát triển các ngôn ngữ đặc biệt như chữ nổi và ngôn ngữ ký hiệu tiếng Việt (VSL). VSL cho phép người khiếm thính giao tiếp và tiếp thu tri thức. Tuy nhiên, VSL chưa được phổ biến rộng rãi, tạo ra rào cản giữa người khiếm thính và người nghe. Sự phát triển của công nghệ đã mở ra cơ hội để xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu, giúp phá vỡ rào cản này. Hệ thống này có thể giúp người khiếm thính diễn đạt ý muốn của mình với người khác, ngay cả khi người nghe không biết VSL.

1.1. Tổng Quan Về Ngôn Ngữ Ký Hiệu Tiếng Việt VSL

Ngôn ngữ ký hiệu tiếng Việt (VSL) là một hệ thống ngôn ngữ sử dụng các cử chỉ tay, nét mặt và điệu bộ cơ thể để truyền đạt thông tin. Nó được sử dụng bởi cộng đồng người khiếm thính ở Việt Nam để giao tiếp với nhau và với người nghe. VSL có ngữ pháp riêng, độc lập với tiếng Việt, và có khả năng biểu đạt mọi ý tưởng và khái niệm. VSL là ngôn ngữ mẹ đẻ của nhiều người khiếm thính và đóng vai trò quan trọng trong sự phát triển nhận thức và xã hội của họ.

1.2. Tầm Quan Trọng Của Nhận Dạng Ngôn Ngữ Ký Hiệu

Nhận dạng ngôn ngữ ký hiệu đóng vai trò quan trọng trong việc cải thiện khả năng tiếp cận thông tin và giao tiếp cho người khiếm thính. Nó có thể được sử dụng để phát triển các ứng dụng hỗ trợ người khuyết tật, dịch tự động VSL sang văn bản hoặc giọng nói, tạo ra các công cụ học tập và làm việc hiệu quả hơn, và tăng cường sự hòa nhập của người khiếm thính vào xã hội. Công nghệ này có tiềm năng lớn để thay đổi cuộc sống của người khiếm thính và giúp họ có một tương lai tươi sáng hơn.

II. Thách Thức Trong Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt

Việc xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSL) hiệu quả đối mặt với nhiều thách thức. Thứ nhất, VSL là một ngôn ngữ phức tạp với nhiều biến thể và sự khác biệt vùng miền. Thứ hai, việc thu thập và xử lý dữ liệu huấn luyện ngôn ngữ ký hiệu lớn và chất lượng cao là một vấn đề khó khăn. Thứ ba, các yếu tố như ánh sáng, nền và tốc độ cử chỉ có thể ảnh hưởng đến độ chính xác của hệ thống. Cuối cùng, việc phát triển giao diện người dùng thân thiện và dễ sử dụng cho người khiếm thính cũng là một yếu tố quan trọng cần xem xét.

2.1. Sự Phức Tạp Của Ngôn Ngữ Ký Hiệu Tiếng Việt

VSL không chỉ đơn thuần là phiên dịch các từ tiếng Việt sang các ký hiệu bằng tay. Nó có ngữ pháp riêng, cấu trúc câu riêng và sử dụng nhiều yếu tố phi ngôn ngữ như nét mặt và cử động cơ thể để truyền đạt ý nghĩa. Hơn nữa, VSL có nhiều phương ngữ khác nhau tùy theo vùng miền, gây khó khăn cho việc xây dựng một hệ thống nhận dạng chung cho cả nước. Sự phức tạp này đòi hỏi các mô hình học máy (Machine Learning) phức tạp và dữ liệu huấn luyện phong phú để có thể đạt được độ chính xác cao.

2.2. Thu Thập Và Xử Lý Dữ Liệu Ngôn Ngữ Ký Hiệu

Việc thu thập dữ liệu huấn luyện cho nhận dạng ngôn ngữ ký hiệu là một thách thức lớn. Dữ liệu cần phải được ghi lại một cách chính xác và đồng nhất, với nhiều người tham gia khác nhau và trong các điều kiện khác nhau. Việc xử lý dữ liệu này cũng đòi hỏi nhiều công sức, bao gồm việc gán nhãn cho các ký hiệu, chuẩn hóa dữ liệu và loại bỏ nhiễu. Sự thiếu hụt dữ liệu có thể dẫn đến mô hình nhận dạng hoạt động kém hiệu quả trong các tình huống thực tế.

2.3. Ảnh Hưởng Của Môi Trường Đến Độ Chính Xác Nhận Dạng

Các yếu tố môi trường như ánh sáng, nền và khoảng cách đến camera có thể ảnh hưởng đáng kể đến độ chính xác của hệ thống nhận dạng. Ánh sáng yếu hoặc không đồng đều có thể làm giảm chất lượng hình ảnh, gây khó khăn cho việc trích xuất các đặc trưng quan trọng. Nền phức tạp có thể gây nhiễu và làm giảm khả năng phân biệt giữa tay và các đối tượng khác. Để giải quyết vấn đề này, cần sử dụng các kỹ thuật tiền xử lý hình ảnh và xây dựng các mô hình nhận dạng có khả năng chịu lỗi tốt.

III. Phương Pháp Học Sâu Cho Nhận Dạng Ngôn Ngữ Ký Hiệu VSL

Các phương pháp học sâu (Deep Learning) đã chứng minh hiệu quả vượt trội trong nhiều bài toán nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên (NLP). Trong lĩnh vực nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSL), các mô hình như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) đang được sử dụng rộng rãi để trích xuất đặc trưng và phân loại các ký hiệu. Việc kết hợp CNN và RNN có thể giúp hệ thống nắm bắt cả thông tin không gian và thời gian trong các chuỗi video VSL.

3.1. Ứng Dụng Mạng Nơ ron Tích Chập CNN trong VSL

CNN có khả năng trích xuất các đặc trưng không gian quan trọng từ hình ảnh hoặc video. Trong nhận dạng VSL, CNN có thể được sử dụng để nhận dạng các hình dạng tay, vị trí tay và các đặc điểm khuôn mặt. Các lớp tích chập và gộp của CNN giúp giảm số lượng tham số và tăng khả năng chịu lỗi của mô hình. Kết hợp CNN với các mô hình khác có thể mang lại hiệu quả nhận dạng cao hơn.

3.2. Sử Dụng Mạng Nơ ron Hồi Quy RNN để Xử Lý Chuỗi VSL

RNN là một loại mạng nơ-ron được thiết kế để xử lý các chuỗi dữ liệu, như chuỗi video ngôn ngữ ký hiệu. RNN có khả năng ghi nhớ thông tin từ các khung hình trước đó, giúp nó hiểu được ngữ cảnh và mối quan hệ giữa các ký hiệu. Các biến thể của RNN như LSTM (Long Short-Term Memory) và GRU (Gated Recurrent Unit) có khả năng xử lý các chuỗi dài hơn và tránh được các vấn đề về biến mất đạo hàm.

3.3. Kết Hợp CNN và RNN để Nhận Dạng VSL Hiệu Quả

Việc kết hợp CNN và RNN là một phương pháp hiệu quả để nhận dạng VSL. CNN được sử dụng để trích xuất các đặc trưng không gian từ mỗi khung hình video, sau đó RNN được sử dụng để xử lý chuỗi các đặc trưng này và dự đoán chuỗi ký hiệu tương ứng. Phương pháp này cho phép hệ thống nắm bắt cả thông tin về hình dạng tay và trình tự các cử chỉ, giúp tăng độ chính xác nhận dạng.

IV. Ứng Dụng Trí Tuệ Nhân Tạo Hỗ Trợ Người Khiếm Thính Việt Nam

Sự phát triển của trí tuệ nhân tạo (AI) và công nghệ nhận dạng hình ảnh đang mở ra nhiều cơ hội để phát triển các ứng dụng hỗ trợ người khuyết tật, đặc biệt là người khiếm thính. Các ứng dụng dịch ngôn ngữ ký hiệu tự động, hệ thống phụ đề thời gian thực và công cụ học tập tương tác có thể giúp người khiếm thính hòa nhập tốt hơn vào xã hội và tiếp cận thông tin một cách dễ dàng hơn.

4.1. Ứng Dụng Dịch Ngôn Ngữ Ký Hiệu Tự Động

Các ứng dụng dịch ngôn ngữ ký hiệu tự động có thể giúp người khiếm thính giao tiếp với người nghe một cách dễ dàng hơn. Ứng dụng này sử dụng camera để ghi lại cử chỉ tay và sau đó sử dụng trí tuệ nhân tạo (AI) để dịch các cử chỉ này thành văn bản hoặc giọng nói. Các ứng dụng này có thể được sử dụng trên điện thoại thông minh, máy tính bảng hoặc máy tính để bàn.

4.2. Hệ Thống Phụ Đề Thời Gian Thực Cho Video VSL

Hệ thống phụ đề thời gian thực có thể giúp người khiếm thính hiểu nội dung của video hoặc chương trình truyền hình một cách dễ dàng hơn. Hệ thống này sử dụng công nghệ nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên (NLP) để tạo ra phụ đề tự động. Phụ đề này có thể được hiển thị trên màn hình hoặc được tích hợp vào video.

4.3. Công Cụ Hỗ Trợ Giáo Dục và Học Tập Cho Người Khiếm Thính

Các công cụ học tập tương tác có thể giúp người khiếm thính học tập một cách hiệu quả hơn. Các công cụ này có thể sử dụng công nghệ thực tế ảo (VR) và thực tế tăng cường (AR) để tạo ra các môi trường học tập trực quan và hấp dẫn. Ngoài ra, các công cụ này có thể cung cấp các bài học được thiết kế đặc biệt cho người khiếm thính, với phụ đề, hình ảnh và video.

V. Đánh Giá Kết Quả và Hướng Phát Triển Nhận Dạng VSL

Việc đánh giá hiệu quả của hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSL) là rất quan trọng để xác định điểm mạnh và điểm yếu của hệ thống. Các chỉ số như độ chính xác nhận dạng và tốc độ xử lý cần được đo lường và phân tích. Dựa trên kết quả đánh giá, có thể đề xuất các hướng phát triển để cải thiện hiệu suất và tính ứng dụng của hệ thống.

5.1. Các Phương Pháp Đánh Giá Độ Chính Xác Nhận Dạng

Độ chính xác là yếu tố quan trọng cần được đánh giá. Các phương pháp đánh giá bao gồm sử dụng bộ dữ liệu kiểm tra độc lập và so sánh kết quả nhận dạng với nhãn gốc. Ngoài ra, có thể sử dụng các chỉ số như độ chính xác, độ thu hồi và F1-score để đánh giá hiệu suất của hệ thống.

5.2. Các Hướng Phát Triển Để Nâng Cao Hiệu Suất

Để nâng cao hiệu suất của hệ thống nhận dạng, có thể tập trung vào việc cải thiện chất lượng dữ liệu huấn luyện, sử dụng các mô hình học sâu tiên tiến hơn và tối ưu hóa các tham số của mô hình. Ngoài ra, việc tích hợp thông tin ngữ cảnh và kiến thức về ngôn ngữ ký hiệu cũng có thể giúp cải thiện độ chính xác.

VI. Tương Lai Của Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt VSL

Với sự tiến bộ nhanh chóng của công nghệ trí tuệ nhân tạo (AI), tương lai của nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSL) hứa hẹn nhiều tiềm năng. Các hệ thống nhận dạng sẽ trở nên chính xác, nhanh chóng và dễ sử dụng hơn. Điều này sẽ giúp người khiếm thính hòa nhập tốt hơn vào xã hội và tiếp cận thông tin một cách bình đẳng.

6.1. Tiềm Năng Phát Triển Ứng Dụng Nhận Dạng VSL Trên Mobile

Phát triển mobile app nhận dạng ngôn ngữ ký hiệu là một hướng đi đầy hứa hẹn. Ứng dụng trên điện thoại sẽ giúp người khiếm thính có thể giao tiếp mọi lúc mọi nơi. Việc tích hợp các tính năng như dịch ngôn ngữ ký hiệu tự động, phụ đề thời gian thực và công cụ học tập tương tác sẽ làm cho ứng dụng trở nên hữu ích và thiết thực.

6.2. Hợp Tác Phát Triển Giữa Các Nhà Nghiên Cứu Và Cộng Đồng Khiếm Thính

Sự hợp tác giữa các nhà nghiên cứu và cộng đồng người khiếm thính là rất quan trọng để đảm bảo rằng các hệ thống nhận dạng được phát triển đáp ứng nhu cầu thực tế của người dùng. Việc thu thập phản hồi từ người khiếm thính và tích hợp các đề xuất của họ vào quá trình thiết kế và phát triển sẽ giúp tạo ra các sản phẩm thực sự hữu ích và hiệu quả.

25/05/2025

Bạn đang xem trước tài liệu:

Nhận dạng ngôn ngữ ký hiệu tiếng việt của người khiếm thính bằng phương pháp học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Ngôn ngữ ký hiệu là phương tiện giao tiếp quan trọng đối với người khiếm thính, giúp họ truyền tải thông tin và cảm xúc trong cộng đồng. Ở Việt Nam, ngôn ngữ ký hiệu (VSL) đã được sử dụng từ lâu nhưng chưa được nghiên cứu sâu rộng cho đến những năm 2000 khi các nỗ lực chuẩn hóa và hệ thống hóa VSL bắt đầu được triển khai. Hiện nay, VSL bao gồm 29 chữ cái, các chữ ghép và dấu thanh, mang đặc trưng văn hóa riêng biệt của từng vùng miền như Hà Nội, Thành phố Hồ Chí Minh, Bình Dương, Hải Phòng. Tuy nhiên, việc phổ biến ngôn ngữ ký hiệu trong cộng đồng vẫn còn hạn chế, tạo ra rào cản giao tiếp giữa người khiếm thính và người bình thường.

Mục tiêu nghiên cứu là xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt dựa trên phương pháp học sâu, nhằm hỗ trợ người khiếm thính giao tiếp hiệu quả hơn. Nghiên cứu tập trung vào nhận dạng 6 từ phổ biến trong chủ đề gia đình: "ba", "cậu", "cô", "nữ", "vợ chồng", "vợ". Bộ dữ liệu thu thập gồm 1209 video được quay bởi giáo viên và sinh viên khoa Giáo dục Đặc biệt, Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Nghiên cứu có phạm vi thực hiện tại Thành phố Hồ Chí Minh trong năm 2022.

Ý nghĩa của nghiên cứu được thể hiện qua việc xây dựng cơ sở lý thuyết và mô hình thực nghiệm ứng dụng thị giác máy tính và học sâu để nhận dạng ngôn ngữ ký hiệu, góp phần phá bỏ rào cản giao tiếp, nâng cao chất lượng cuộc sống và hòa nhập xã hội cho người khiếm thính tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết và mô hình chính:

MediaPipe Holistic: Đây là công nghệ mã nguồn mở của Google, cho phép phát hiện đồng thời tư thế cơ thể, bàn tay và các đặc điểm khuôn mặt trong thời gian thực. MediaPipe Holistic kết hợp các mô hình BlazePose Detector, BlazePose GHUM 3D, MediaPipe Hands và MediaPipe Face Mesh để trích xuất tổng cộng 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt. Các điểm mốc này bao gồm tọa độ x, y, z và độ khả kiến (visibility), giúp mô tả chi tiết cử chỉ và biểu cảm của người thực hiện ngôn ngữ ký hiệu.
Mạng nơ-ron hồi quy dài ngắn hạn (LSTM): LSTM là một dạng mạng nơ-ron hồi quy (RNN) được cải tiến để giải quyết vấn đề vanishing gradient trong các chuỗi dữ liệu dài. Mạng LSTM có khả năng ghi nhớ thông tin quan trọng trong suốt chuỗi thời gian, phù hợp với bài toán nhận dạng chuỗi cử chỉ liên tục trong ngôn ngữ ký hiệu. Mô hình LSTM sử dụng ba cổng chính (cổng quên, cổng đầu vào, cổng đầu ra) để sàng lọc và cập nhật trạng thái tế bào (cell state), từ đó dự đoán chính xác các ký hiệu.

Các khái niệm chính bao gồm: điểm mốc (landmark), visibility, mạng nơ-ron nhân tạo (NN), mạng hồi quy (RNN), mạng LSTM, hàm kích hoạt (activation function), hàm mất mát cross-entropy, thuật toán lan truyền ngược (backpropagation through time - BPTT), và thuật toán tối ưu Stochastic Gradient Descent (SGD).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu VSL gồm 1209 video ghi lại 6 từ ký hiệu phổ biến, được thu thập từ giáo viên và sinh viên khoa Giáo dục Đặc biệt, Trường Đại học Sư phạm Thành phố Hồ Chí Minh. Mỗi từ được thực hiện ít nhất 200 lần với các khoảng cách và vị trí khác nhau giữa người thực hiện và máy quay, nhằm đảm bảo tính đa dạng và phong phú của dữ liệu.

Dữ liệu video được xử lý bằng MediaPipe Holistic để trích xuất 543 điểm mốc 3D tại mỗi khung hình, lưu trữ dưới dạng file NumPy Array (.npy). Các thông số x, y, z, visibility được sử dụng để mô tả chi tiết cử chỉ và biểu cảm.

Phân chia dữ liệu thành ba tập: huấn luyện (60%), kiểm chứng (20%) và kiểm tra (20%). Mô hình LSTM được xây dựng và huấn luyện trên tập huấn luyện, sử dụng hàm mất mát cross-entropy và thuật toán tối ưu SGD kết hợp BPTT để cập nhật trọng số. Quá trình huấn luyện được thực hiện trên máy tính cấu hình Intel Core i7, RAM 16GB, sử dụng Python 3.5 cùng các thư viện OpenCV3, Tensorflow, MediaPipe và Sklearn.

Timeline nghiên cứu kéo dài trong năm 2022, từ thu thập dữ liệu, xây dựng mô hình, huấn luyện, đánh giá đến đề xuất hướng phát triển.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng cao với mô hình LSTM: Mô hình đạt độ chính xác trung bình trên 85% trong việc nhận dạng 6 từ ký hiệu phổ biến. Cụ thể, từ "ba" có 200 video, trong đó 128 video dùng để huấn luyện, 32 video kiểm chứng và 40 video kiểm tra, cho thấy sự phân bố dữ liệu hợp lý và đa dạng.
MediaPipe Holistic hiệu quả trong trích xuất đặc trưng: Việc sử dụng 543 điểm mốc 3D giúp mô hình nhận dạng chi tiết các cử chỉ tay, tư thế cơ thể và biểu cảm khuôn mặt. Tuy nhiên, có khoảng 5-10% khung hình không thể trích xuất đầy đủ điểm mốc do che khuất hoặc vị trí tay không rõ, ảnh hưởng nhẹ đến kết quả.
Phân bố dữ liệu hợp lý giữa các tập: Tỷ lệ phân chia 60% huấn luyện, 20% kiểm chứng và 20% kiểm tra giúp mô hình tránh overfitting và đánh giá chính xác hiệu suất trên dữ liệu chưa từng thấy.
So sánh với các nghiên cứu trước: Kết quả đạt được tương đương hoặc vượt trội so với các nghiên cứu sử dụng phương pháp học sâu kết hợp CNN-LSTM trên bộ dữ liệu VSL-WRF, với độ chính xác khoảng 86%. Việc kết hợp MediaPipe Holistic và LSTM giúp cải thiện khả năng nhận dạng chuỗi cử chỉ liên tục.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình đạt hiệu quả cao là do việc trích xuất đặc trưng chi tiết từ MediaPipe Holistic, bao gồm các điểm mốc trên tay, cơ thể và khuôn mặt, cung cấp dữ liệu đầu vào phong phú cho mạng LSTM. Mạng LSTM với cơ chế ghi nhớ dài hạn giúp xử lý tốt các chuỗi cử chỉ liên tục, giảm thiểu lỗi do biến đổi tư thế và biểu cảm.

So với các phương pháp dựa trên cảm biến như Microsoft Kinect, phương pháp thị giác máy tính sử dụng camera 2D và MediaPipe Holistic có ưu điểm về chi phí thấp, tiện lợi và không cần thiết bị đeo phức tạp. Tuy nhiên, hạn chế là đôi khi mất dữ liệu điểm mốc do che khuất hoặc điều kiện ánh sáng kém.

Dữ liệu được trình bày qua biểu đồ phân bố mẫu huấn luyện, kiểm chứng và kiểm tra, cùng các ma trận sai lệch (confusion matrix) minh họa hiệu suất nhận dạng từng từ. Biểu đồ biến đổi độ chính xác và hàm mất mát qua các epoch huấn luyện cho thấy mô hình hội tụ ổn định sau khoảng 100-200 epoch.

Kết quả nghiên cứu có ý nghĩa thực tiễn lớn trong việc phát triển các ứng dụng hỗ trợ giao tiếp cho người khiếm thính, góp phần nâng cao chất lượng cuộc sống và hòa nhập xã hội.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu VSL: Thu thập thêm các từ và cụm từ phổ biến khác trong ngôn ngữ ký hiệu tiếng Việt, tăng số lượng video và đa dạng người tham gia để nâng cao tính tổng quát của mô hình. Thời gian thực hiện: 6-12 tháng. Chủ thể: các trung tâm nghiên cứu và trường đại học.
Cải tiến mô hình học sâu: Kết hợp thêm các kiến trúc mạng CNN để trích xuất đặc trưng không gian trước khi đưa vào LSTM, hoặc áp dụng Transformer để nâng cao khả năng nhận dạng chuỗi dài. Thời gian thực hiện: 6 tháng. Chủ thể: nhóm nghiên cứu AI và học máy.
Phát triển ứng dụng tương tác người-máy: Xây dựng phần mềm hoặc ứng dụng di động tích hợp mô hình nhận dạng để hỗ trợ người khiếm thính giao tiếp trực tiếp với người bình thường. Thời gian thực hiện: 9-12 tháng. Chủ thể: doanh nghiệp công nghệ và tổ chức xã hội.
Chuẩn hóa và phổ biến ngôn ngữ ký hiệu: Hợp tác với các tổ chức giáo dục và cộng đồng người khiếm thính để chuẩn hóa bảng chữ cái và ký hiệu, đồng thời tổ chức các khóa đào tạo, hội thảo nâng cao nhận thức về VSL. Thời gian thực hiện: liên tục. Chủ thể: Bộ Giáo dục, các tổ chức phi chính phủ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, AI: Nghiên cứu về ứng dụng học sâu và thị giác máy tính trong nhận dạng hành động và ngôn ngữ ký hiệu, áp dụng mô hình LSTM và MediaPipe Holistic.
Giáo viên và chuyên gia giáo dục đặc biệt: Hiểu rõ về ngôn ngữ ký hiệu tiếng Việt, phương pháp thu thập và xử lý dữ liệu, hỗ trợ phát triển chương trình giảng dạy và công cụ hỗ trợ người khiếm thính.
Nhà phát triển phần mềm và công nghệ hỗ trợ: Tham khảo kiến trúc mô hình và quy trình xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu để phát triển ứng dụng giao tiếp người-máy.
Cộng đồng người khiếm thính và tổ chức xã hội: Nắm bắt tiến bộ công nghệ trong nhận dạng ngôn ngữ ký hiệu, góp phần nâng cao nhận thức và thúc đẩy hòa nhập xã hội.

Câu hỏi thường gặp

Ngôn ngữ ký hiệu tiếng Việt có đặc điểm gì khác biệt so với các ngôn ngữ ký hiệu khác?
Ngôn ngữ ký hiệu tiếng Việt (VSL) có bảng chữ cái gồm 29 chữ cái, các chữ ghép và dấu thanh, mang đặc trưng văn hóa vùng miền riêng biệt. VSL không phải là ngôn ngữ quốc tế mà có ngữ pháp và cấu trúc riêng biệt, độc lập với tiếng Việt nói và viết.
Tại sao sử dụng MediaPipe Holistic trong nghiên cứu này?
MediaPipe Holistic cho phép trích xuất đồng thời các điểm mốc trên cơ thể, bàn tay và khuôn mặt với độ chính xác cao, cung cấp dữ liệu đầu vào phong phú cho mô hình học sâu, giúp nhận dạng cử chỉ và biểu cảm trong ngôn ngữ ký hiệu hiệu quả.
Mạng LSTM có ưu điểm gì trong nhận dạng ngôn ngữ ký hiệu?
LSTM có khả năng ghi nhớ thông tin dài hạn trong chuỗi dữ liệu, xử lý tốt các chuỗi cử chỉ liên tục, giảm thiểu lỗi do biến đổi tư thế và biểu cảm, phù hợp với bài toán nhận dạng chuỗi hành động trong video.
Bộ dữ liệu VSL được xây dựng như thế nào?
Bộ dữ liệu gồm 1209 video ghi lại 6 từ ký hiệu phổ biến, mỗi từ được thực hiện ít nhất 200 lần với các khoảng cách và vị trí khác nhau giữa người thực hiện và máy quay, nhằm đảm bảo tính đa dạng và phong phú của dữ liệu.
Ứng dụng thực tiễn của nghiên cứu này là gì?
Nghiên cứu giúp phát triển hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ người khiếm thính giao tiếp hiệu quả hơn, góp phần phá bỏ rào cản ngôn ngữ, nâng cao chất lượng cuộc sống và thúc đẩy hòa nhập xã hội.

Kết luận

Đã xây dựng thành công bộ dữ liệu ngôn ngữ ký hiệu tiếng Việt gồm 1209 video với 6 từ phổ biến, đảm bảo đa dạng và phong phú.
Áp dụng hiệu quả MediaPipe Holistic để trích xuất 543 điểm mốc 3D trên cơ thể, bàn tay và khuôn mặt, làm đầu vào cho mô hình học sâu.
Mô hình LSTM được huấn luyện đạt độ chính xác trên 85% trong nhận dạng ngôn ngữ ký hiệu liên tục.
Nghiên cứu góp phần xây dựng nền tảng công nghệ nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ người khiếm thính giao tiếp và hòa nhập xã hội.
Đề xuất mở rộng bộ dữ liệu, cải tiến mô hình và phát triển ứng dụng tương tác người-máy trong thời gian tới.

Khuyến khích các nhà nghiên cứu, tổ chức giáo dục và doanh nghiệp công nghệ hợp tác mở rộng nghiên cứu, ứng dụng mô hình vào thực tiễn để nâng cao hiệu quả giao tiếp cho người khiếm thính tại Việt Nam.

Trích đoạn nội dung tài liệu

mở đầu Chƣơng này giới thiệu tổng quan về đề tài gồm các nội dung nhƣ: tính cấp thiết của đề tài, mục tiêu và nhiệm vụ nghiên cứu, đối tƣợng và phạm vi nghiên cứu, phƣơng pháp nghiên cứu, nghĩa khoa học và thực tiễn cũng nhƣ cấu trúc chung của luận văn. Chƣơng 1: Tổng quan tình hình nghiên cứu Chƣơng này giới thiệu tổng quan về cơ sở dữ liệu VSL và tình hình nghiên cứu. Những kiến thức cơ bản này là tiền đề để áp dụng vào việc xây dựng mô hình nhận dạng ngôn ngữ ký hiệu. Chƣơng 2: Cơ sở lý thuyết 5 Chƣơng này giới thiệu lý thuyết về MediaPipe Holistic và mô hình LSTM.

Chƣơng 3: Mô hình nhận dạng ngôn ngữ ký hiệu Chƣơng này vận dụng những kiến thức đã đề cập ở chƣơng một và chƣơng hai để xây dựng mô hình nhận dạng ngôn ngữ ký hiệu. Chƣơng 4: Thực nghiệm và đánh giá Chƣơng này phân tích và đánh giá kết quả mô hình đề xuất. Chƣơng 5: Kết luận và hƣớng phát triển Chƣơng này tổng kết lại các kết quả mà luận văn đã đạt. Sau đó, đề xuất các hƣớng nghiên cứu tiếp theo nhằm nâng cao độ chính xác của bài toán nhận dạng ngôn ngữ ký hiệu.

6 CHƢƠNG 1 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 1. Tổng quan về ngôn ngữ ký hiệu ở Việt Nam ―Ngôn ngữ ký hiệu hay ngôn ngữ dấu hiệu, thủ ngữ là ngôn ngữ dùng những biểu hiện của bàn tay thay cho âm thanh của tiếng nói. Ngôn ngữ ký hiệu do ngƣời khiếm thính tạo ra nhằm giúp họ có thể giao tiếp với nhau trong cộng đồng của mình và tiếp thu tri thức của xã hội. Chúng ta thƣờng hay quan niệm rằng ngôn ngữ ký hiệu là một ngôn ngữ quốc tế.

Thực tế không phải vậy, mỗi quốc gia có thể có một hoặc nhiều cách khác nhau để mô tả ký hiệu ngôn ngữ. Ở Việt Nam, ngôn ngữ ký hiệu đã đƣợc đƣa vào giáo dục và sử dụng từ rất sớm. ―Nhƣng do trƣớc đây chƣa có nhà khoa học nào tìm hiểu, nghiên cứu về nó nên ngƣời Việt Nam không nghĩ và đã không xem những dấu hiệu mà ngƣời điếc sử dụng là ngôn ngữ. Họ cho rằng đó chỉ là những điệu bộ khua tay của ngƣời điếc để cố gắng giao tiếp do thiếu ngôn ngữ.

Mãi đến năm 1996, một tiến sĩ ngôn ngữ học ngƣời Mỹ là James C. Woodward ngƣời đã từng làm việc với William Stokoe tại trƣờng đại học Gallaudet của Mỹ, đã sang Việt Nam thực hiện nghiên cứu về ngôn ngữ ký hiệu của cộng đồng ngƣời điếc ở Việt Nam.‖ [1] Từ những năm 2000, Việt Nam bắt đầu triển khai những nỗ lực của mình nhằm hoàn thiện và hệ thống hóa VSL. Các câu lạc bộ, nhóm học tập bắt đầu hình thành và phát triển. Tuy nhiên do ảnh hƣởng bởi văn hóa, đặc trƣng của từng vùng miền khác nhau nên dẫn đến sự phân loại trong việc thể hiện biểu diễn ngôn ngữ k hiệu khác nhau.

Nổi trội nhất là ngôn ngữ k hiệu ở Thành phố Hồ Chí Minh, Bình Dƣơng, Hà Nội, Hải Phòng. Bên cạnh đó, đã có thêm nhiều dự án đƣợc thực hiện để chuẩn hoá ngôn ngữ k hiệu nhằm xây dựng nên hệ thống ngôn ngữ kí hiệu hoàn chỉnh và thống nhất. Hiện nay, các tài liệu đã đƣợc đƣa vào sử dụng cho ngƣời 7 khiếm thính ở Việt Nam nhƣ là bộ ba tập K hiệu cho ngƣời khiếm thính Việt Nam, Từ điển ngôn ngữ k hiệu Việt Nam. Bảng chữ cái của VSL cũng tƣơng ứng với bảng chữ cái của ngôn ngữ viết bao gồm 29 chữ cái, các chữ ghép và dấu thanh.

Bảng chữ cái của VSL đƣợc xây dựng tƣơng tự với bảng chữ cái của ASL (American Sign Languague). Tuy nhiên, do mang tính chất đặc trƣng về văn hóa của đất nƣớc, bảng chữ cái VSL cũng mang những nét đặc trƣng riêng biệt (Hình 1. Bảng chữ cái của ASL [2] và bảng chữ cái của VSL [3]. Việc giao tiếp bằng ngôn ngữ k hiệu rất đa dạng, không chỉ liên quan đến ngôn ngữ ở bàn tay mà còn liên quan đến cử chỉ, điệu bộ, nét mặt.

Tất cả các ngữ nghĩa của ngôn ngữ k hiệu thƣờng đƣợc cấu thành từ 5 thành tố cơ bản (Hình 1. Năm thành tố của một ký hiệu [4]. 8 Từ những đặc điểm khác biệt trong việc cấu tạo từ của VSL đã chứng t rằng VSL là một ngôn ngữ đích thực, có ngữ pháp riêng, độc lập với tiếng Việt. VSL đã trở thành một hệ thống các tín hiệu cần thiết và quan trọng nhất để đáp ứng nhu cầu giao tiếp và tƣ duy logic của ngƣời khiếm thính, trở thành ngôn ngữ mẹ đẻ, ngôn ngữ thứ nhất của ngƣời khiếm thính.

Những nghiên cứu liên quan Ngày nay, nhờ sự phát triển của khoa học và công nghệ mà việc xây dựng những ứng dụng nhận dạng ngôn ngữ ký hiệu ngày càng đƣợc quan tâm. Hầu hết những nghiên cứu nhận dạng ngôn ngữ ký hiệu thƣờng chia làm hai loại là dựa trên dữ liệu cảm biến và dựa trên thị giác máy tính. Phương pháp dựa trên dữ liệu cảm biến Dữ liệu cảm biến đƣợc thu thập từ hoạt động mô tả các từ ngôn ngữ ký hiệu của ngƣời thực hiện khi sử dụng một hoặc một số thiết bị cảm biến. Mô hình bao gồm một máy xử lý dữ liệu, một hệ vi điều khiển thu thập dữ liệu, hệ thống màn hình hiển thị và thiết bị cảm biến.

Trong đó, các thiết bị cảm biến đƣợc trang bị cho khả năng lọc nhiễu và yếu tố phức tạp của môi trƣờng. Chính vì vậy, việc tiền xử lý của dữ liệu trở nên đơn giản hóa. Trong cách tiếp cận này, tín hiệu từ các thiết bị cảm biến sẽ truyền tải đến một thiết bị từ xa để xử lý nhận dạng. Vào năm 2009, việc ra đời của Microsoft Kinect đã mở ra một hƣớng nghiên cứu mới trong bài toán nhận dạng ngôn ngữ cử chỉ.

Với giá thành vừa phải, khả năng ứng dụng của thiết bị vào ứng dụng của rất khả thi. Do đó, đã có rất nhiều nghiên cứu nhận dạng ngôn ngữ ký hiệu sử dụng thiết bị Microsoft Kinect. Điển hình là nghiên cứu của Z. Zafrulla và cộng sự [5], nhóm tác giả đã so sánh hệ thống dựa trên Kinect và hệ thống CopyCat của họ dựa trên bộ dữ liệu 1000 cụm từ trong ASL để minh chứng cho thấy Kinect là một lựa chọn khả thi để xác minh ký hiệu.

Bởi vì, hệ thống sử dụng Kinect 9 mang đến tỷ lệ xác minh câu là 51.5% đối với những dữ liệu mà ngƣời dùng ngồi và 76.12% đối với những dữ liệu mà ngƣời đứng, trong khi đó, khi sử dụng hệ thống CopyCat chỉ mang lại tỷ lệ xác minh ở những dữ liệu ngồi là 74. Trong nhận dạng VSL, P. Hai và cộng sự [3] đã đề xuất một cách tiếp cận tự động để trích xuất các đặc trƣng của ngôn ngữ ký hiệu tiếng Việt trong phân loại các chữ cái trong bảng chữ cái tiếng Việt. Bộ dữ liệu đƣợc nghiên cứu gồm các hình ảnh chiều sâu, hình ảnh RGB và bản đồ khớp xƣơng.

Nhờ vào thiết bị Kinect phiên bản 1, hệ thống của nhóm tác giả đề xuất đã tự động trích xuất cử chỉ tay của ngƣời đƣợc quan sát. Các cử chỉ tay bao gồm cả dấu phụ động và tĩnh đều có thể đƣợc nhận dạng nhờ phƣơng pháp phát hiện chuyển động. Trong giai đoạn nhận dạng, tất cả các cử chỉ tay đƣợc trích xuất, chuẩn hóa và sau đó đƣợc lọc ra dựa trên sự khác biệt về khoảng cách Euclide của các vị trí tay trong các khung hình đƣợc chụp để đi qua các Support Vector Machines (SVM) chính xác. Kết quả thử nghiệm chứng minh hệ thống mà nhóm tác giả đề xuất đã nhận dạng VSL trong thời gian thực với độ chính xác cao.

Mặc dù các phƣơng pháp tiếp cận này đạt độ chính xác cao dựa trên thiết bị cảm biến nhƣng hệ thống trở nên bất tiện hơn khi ngƣời thực hiện phải tốn tiền để trang bị thiết bị cảm biến hoặc đeo nhiều thiết bị cảm biến. Phương pháp dựa trên thị giác máy tính Thị giác máy tính có nhiều ứng dụng trong thực tế nhƣ điều khiển tự động, mô ph ng chuyển động, đặc biệt nó cũng đƣợc áp dụng trong việc nghiên cứu về ngôn ngữ k hiệu. Nhận biết ngôn ngữ k hiệu qua ảnh đã đƣợc nghiên cứu và phát triển từ rất sớm và đạt đƣợc những kết quả tốt và đầy khả quan. Trong phƣơng pháp này sẽ sử dụng những camera để ghi lại dữ liệu đầu vào.

Do đƣợc ghi hình bằng những máy thu hình cho nên giảm chi phí giá thành trong việc không cần trang bị thiết bị cảm biến. Hơn thế, hiện nay, các 10 thiết bị thu hình hầu nhƣ đều là thiết bị với độ phân giải cao. Điều đó, trở thành một tiềm năng lớn cho dữ liệu đầu vào cho hệ thống. Vì thế, cách tiếp cận này khiến cho hệ thống nhận dạng ngôn ngữ k hiệu trở nên tự nhiên và thuận tiện trong sử dụng.

Do những lợi ích đƣợc đề cập, nhiều nhà nghiên cứu tập trung vào nghiên cứu và đề xuất nhận dạng ngôn ngữ k hiệu dựa trên thị giác máy tính. Trọng tâm bài báo của tác giả K. Bantupalli và cộng sự [6] là sử dụng bộ dữ liệu ASL để tạo ra một ứng cung cấp bản dịch ngôn ngữ k hiệu sang văn bản, từ đó hỗ trợ giao tiếp giữa ngƣời sử dụng ngôn ngữ k hiệu và ngƣời không ngôn ngữ k hiệu. Mô hình mà bài báo đề xuất gồm hai phần chính CNN và RNN.

Đầu tiên, nhóm tác giả lấy các chuỗi video và trích xuất các đặc điểm không gian và thời gian từ các chuỗi video đó. Sau đó, họ sử dụng Inception của mô hình CNN để nhận dạng các đặc điểm không gian. Từ kết quả thu đƣợc từ mô hình CNN để vào mô hình RNN, mục đích là dùng để đào tạo về các tính năng tạm thời. Vo và các cộng sự [7] đã đóng góp bộ dữ liệu gồm 24 chữ cái, 3 dấu phụ âm, và 5 âm của tiếng Việt.

Bộ dữ liệu này đƣợc nhóm tác giả thu thập chỉ sử dụng camera 2D. Ngoài ra, nhóm tác giả sử dụng điểm đặc trƣng (local features), gồm ba loại là đặc trƣng không gian (spatial features), đặc trƣng dựa trên cảnh (scene-based feature) và đặc trƣng chuyển động (motion-based feature). Trong đó, đặc trƣng không gian và đặc trƣng dựa trên cảnh đƣợc coi là đặc trƣng dựa trên một khung hình vì chúng đƣợc trích xuất từ một khung hình duy nhất của chuỗi video đầu vào. Còn đặc trƣng chuyển động đƣợc coi là đặc trƣng dựa trên chuyển động của nhiều khung hình và phải đƣợc tính toán từ nhiều chuỗi video đầu vào.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt Cho Người Khiếm Thính" cung cấp cái nhìn sâu sắc về việc phát triển hệ thống nhận diện ngôn ngữ ký hiệu, nhằm hỗ trợ người khiếm thính trong việc giao tiếp. Tài liệu nhấn mạnh tầm quan trọng của công nghệ trong việc cải thiện khả năng giao tiếp và hòa nhập xã hội cho người khuyết tật. Bằng cách áp dụng các phương pháp học sâu, hệ thống này không chỉ giúp người khiếm thính hiểu ngôn ngữ một cách dễ dàng hơn mà còn mở ra cơ hội cho họ tham gia vào các hoạt động xã hội một cách tự tin hơn.

Để tìm hiểu thêm về các ứng dụng công nghệ hỗ trợ người khiếm thính, bạn có thể tham khảo tài liệu Hcmute thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ ứng dụng cho người khiếm thính, nơi nghiên cứu về việc chuyển đổi giọng nói thành ngôn ngữ ký hiệu. Ngoài ra, tài liệu Nghiên cứu và thiết kế ứng dụng chuyển đổi từ giọng nói sang ngôn ngữ cử chỉ cũng cung cấp cái nhìn sâu sắc về các ứng dụng công nghệ trong lĩnh vực này. Cuối cùng, bạn có thể tham khảo tài liệu Luận văn thạc sĩ hcmute nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh để hiểu rõ hơn về các giải pháp robot hỗ trợ cho người khiếm thính. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực hỗ trợ người khuyết tật.

#ứng dụng AI trong giáo dục

#phương pháp học sâu

#nhận dạng ngôn ngữ ký hiệu

#ngôn ngữ ký hiệu tiếng Việt

#Người khiếm thính Việt Nam

#Công nghệ hỗ trợ người khiếm thính

Chủ đề

Công nghệ hỗ trợ người khuyết tật

Giáo dục cho người khiếm thính

Tương lai của ngôn ngữ ký hiệu

Học sâu và nhận dạng ngôn ngữ