Hệ Thống Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt Cho Người

I. Tổng Quan Về Hệ Thống Nhận Dạng Ngôn Ngữ Ký Hiệu VSL

Trong cuộc sống, giao tiếp là yếu tố không thể thiếu, nhưng đối với người khiếm thính, việc giao tiếp trở nên khó khăn. Ngôn ngữ ký hiệu tiếng Việt (VSL) là phương tiện quan trọng để họ truyền đạt ý nghĩ, cảm xúc. Tuy nhiên, sự khác biệt giữa VSL và ngôn ngữ nói thông thường tạo ra rào cản giao tiếp. Theo Điều tra quốc gia người khuyết tật năm 2016, người khiếm thính gặp nhiều khó khăn trong cuộc sống xã hội. Với số lượng người khiếm thính đáng kể ở Việt Nam, và ước tính của WHO về sự gia tăng số người mất khả năng nghe vào năm 2050, việc phát triển hệ thống nhận dạng ngôn ngữ ký hiệu là vô cùng cần thiết. Hệ thống này có thể chuyển đổi VSL thành văn bản hoặc giọng nói, tạo điều kiện giao tiếp thuận tiện giữa người khiếm thính và cộng đồng. Việc nghiên cứu và cải tiến các phương pháp nhận dạng VSL giúp người khiếm thính hòa nhập tốt hơn với xã hội. Nghiên cứu này tập trung vào xây dựng mô hình nhận dạng ngôn ngữ ký hiệu, có khả năng học và nhận biết các biểu hiện của VSL thông qua chuyển động cơ thể, từ đó tạo ra một hệ thống tự động chuyển đổi VSL thành văn bản hoặc giọng nói. Điều này không chỉ đáp ứng nhu cầu của người khiếm thính mà còn tạo ra một môi trường giao tiếp công bằng và tương tác hơn trong xã hội.

1.1. Mục tiêu và nhiệm vụ nghiên cứu hệ thống VSL là gì

Mục tiêu nghiên cứu là xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt và chuyển đổi thành văn bản, giọng nói. Để đạt được mục tiêu này, các nhiệm vụ sau cần được hoàn thành: Xây dựng tập dữ liệu ngôn ngữ ký hiệu tiếng Việt; Xây dựng hệ thống nhận diện ngôn ngữ ký hiệu tiếng Việt, hỗ trợ chuyển đổi ngôn ngữ dễ dàng. Phạm vi nghiên cứu giới hạn ở ngôn ngữ ký hiệu tiếng Việt và khả năng nhận dạng 50 ngôn ngữ kí hiệu được đào tạo. Nghiên cứu này tập trung vào việc xây dựng một hệ thống có khả năng chuyển đổi các cử chỉ tay và biểu hiện cơ thể thành văn bản hoặc giọng nói, giúp người khiếm thính dễ dàng giao tiếp với cộng đồng.

1.2. Ý nghĩa khoa học và thực tiễn của việc nghiên cứu VSL

Về ý nghĩa khoa học, nghiên cứu này đóng góp vào quá trình nghiên cứu nhận dạng chuyển động cơ thể, ngôn ngữ kí hiệu trong thị giác máy tính. Đồng thời, xây dựng bộ dữ liệu gắn nhãn tiếng Việt cho các nghiên cứu về ngôn ngữ kí hiệu. Về ý nghĩa thực tiễn, nghiên cứu này xây dựng hệ thống giúp nhận dạng ngôn ngữ kí hiệu, tăng cơ hội tiếp cận giao tiếp cho người khiếm thính. Đề tài này bao gồm 5 chương: Mở đầu, Tổng quan và cơ sở lý thuyết, Phương pháp xây dựng hệ thống, Thực nghiệm và đánh giá, Kết luận và hướng phát triển.

II. Tình Hình Nghiên Cứu và Phát Triển Nhận Dạng VSL Hiện Nay

Xã hội ngày càng quan tâm đến người khiếm thính, thể hiện qua việc mở rộng các cơ sở giáo dục, chính sách hỗ trợ và khuyến khích nghiên cứu. Ngôn ngữ ký hiệu (NNKH) khác nhau ở từng quốc gia và khu vực, và Việt Nam cũng có nhiều nhóm NNKH hình thành ở các khu vực khác nhau. Các nhà nghiên cứu liên tục xây dựng các bộ dữ liệu và tìm phương pháp cải tiến mô hình nhận dạng. Các mô hình cần đảm bảo độ chính xác nhất định trên các cử chỉ. Hướng nghiên cứu nhận dạng NNKH thường chia làm hai loại: dựa trên thiết bị cảm biến hoặc dựa trên thị giác máy tính. Thị giác máy tính mang lại sự thuận tiện và dễ dàng sử dụng hơn nhờ sự phổ biến của thiết bị ghi hình như điện thoại. Thị giác máy tính là một lĩnh vực trong trí tuệ nhân tạo và khoa học máy tính tập trung vào việc phát triển các thuật toán máy học giúp máy tính có thể học và xử lý dữ liệu hình ảnh, trích xuất hình ảnh và nhận dạng đối tượng, ngữ cảnh cụ thể. Với sự tiến bộ trong lĩnh vực học sâu, nhiều nghiên cứu đã tập trung vào việc nhận diện NNKH, dẫn đến sự phát triển của các mô hình có khả năng nhận biết cử chỉ bàn tay và học được các đặc điểm của các ký hiệu.

2.1. Phương hướng tiếp cận và nghiên cứu quốc tế về VSL

Một số công nghệ mới phổ biến được các nhà nghiên cứu chuyên hướng tiếp cận trong lĩnh vực thị giác máy tính là các mạng nơ ron học sâu, mạng nơ ron tích chập CNN hoặc mạng nơ ron hồi quy (LSTM, RNN). Anil Osman Tur và các cộng sự (2021) đã cung cấp một khung hình 3 tầng dựa trên LSTM, HMM và CNN cho hệ thống của họ để giải quyết vấn đề isolated sign classification. Module đầu được dùng để trích xuất đặc trưng và mô hình CNN-based dùng để giảm chiều dữ liệu (reduce dimension), Sau cùng đưa qua model HMM để phân loại isolated sign, thu được độ chính xác 90.15% trên bộ dữ liệu Montalbano sử dụng RGB, Skeletal data. Gần đây, một loại mạng mới đã xuất hiện và gây tiếng vang lớn là Transformer. Matyas Bohacek và Marek Hruz đã đề xuất mô hình SPOTER, nhận thấy tiềm năng của nó trong việc sử dụng hệ thống nhận điện ngôn ngữ ký hiệu ở mức độ từ trên các thiết bị cầm tay, nhằm đến một phương pháp có chi phí thấp.

2.2. Nghiên cứu nhận diện ngôn ngữ ký hiệu tiếng Việt ở đâu

Việt Nam là một đất nước đông dân với sự gia tăng đáng kể trong việc đầu tư và thúc đẩy nghiên cứu về ngôn ngữ người khiếm thính. Anh Vo và cộng sự đã tiến hành nhận dạng các tư thế từ bộ dữ liệu VSL trên video. Từ chuỗi video đầu vào các frame (khung hình) được trích xuất thủ công, loại bỏ các vùng liên quan đến mặt và chỉ lấy các vùng liên quan đến tay. Thử nghiệm với 2 cách tiếp cận, các mô hình máy học truyền thống và mô hình Deep Learning (Học sâu). Khuất Duy Bách và cộng sự đã đề xuất phương pháp triển khai sử dụng mạng nơ-ron tái điển (RNN) với khung theo dõi tay Mediapipe để nhận dạng cử chỉ ngôn ngữ kí hiệu.

III. Thách Thức và Hạn Chế Của Nhận Dạng Ngôn Ngữ Ký Hiệu VSL

Một trong những thách thức lớn nhất là sự đa dạng và phong phú của cử chỉ và biểu hiện kí hiệu. Sự khác biệt về văn hoá, tiếng nói, xã hội dẫn đến ngôn ngữ kí hiệu có nhiều phiên bản khác nhau. Mỗi ngôn ngữ kí hiệu có những đặc điểm riêng biệt và cần một quy trình nhận dạng và dịch riêng biệt. Thêm vào đó, trong các điều kiện khác nhau, ánh sáng, góc độ khác nhau hoặc nền nhiễu có thể dẫn đến sự nhận dạng khác nhau trong cùng một hệ thống nhận dạng đối với cùng một từ, cụm từ hoặc câu. So với bài toán nhận diện hành động, có nhiều khó khăn khi nhận diện một ngôn ngữ ký hiệu. Xem xét một ký hiệu cần phải xem xét cử chỉ trên cơ thể, hình dạng của các ngón tay và bàn tay, ngoài ra còn có thể kết hợp với cảm xúc khuôn mặt, tốc độ nhanh chậm, số lần lặp lại. Do phân lớn các ký hiệu đều thực hiện từ hông trở lên, rất ít các ký hiệu được thực hiện từ hông trở xuống. Việc chọn lọc các thông tin vào mô hình là cần thiết để tránh mô hình học quá khớp.

3.1. Khó khăn trong việc xây dựng bộ dữ liệu và đào tạo mô hình

Việc nhận diện cũng sẽ gặp không ít khó khăn khi tùy người biểu diễn mà có tốc độ, tay thuận khác nhau. Ngoài ra, nhận điện ngôn ngữ ký hiệu cũng gặp nhiều khó khăn khi bộ dữ liệu phù hợp để đào tạo mô hình cũng còn rất hạn chế và đôi khi xa rời với thực tế. Để phục vụ cho việc đào tạo các mô hình nhận diện ngôn ngữ ký hiệu, nhiều bộ dữ liệu đã được xây dựng. Một số bộ dữ liệu được công khai có thể kể đến như: Bộ dữ liệu WLASL, bộ dữ liệu...

3.2. Các yếu tố ảnh hưởng đến độ chính xác của hệ thống VSL

Các yếu tố như ánh sáng, góc quay, chất lượng video, và tốc độ thực hiện ký hiệu đều ảnh hưởng đến độ chính xác của hệ thống. Ngoài ra, sự khác biệt trong cách diễn đạt của từng cá nhân cũng là một thách thức lớn. Cần có các phương pháp xử lý ảnh và video hiệu quả để giảm thiểu tác động của các yếu tố này.

IV. Phương Pháp Xây Dựng Hệ Thống Nhận Dạng VSL Bằng Học Sâu

Nghiên cứu này tập trung vào việc xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt, hỗ trợ hiểu ngôn ngữ của người khiếm thính bằng phương pháp học sâu. Quá trình xây dựng hệ thống bao gồm nhiều bước quan trọng, từ thu thập và xử lý dữ liệu đến huấn luyện và đánh giá mô hình. Dữ liệu đầu vào là các video ghi lại người thực hiện các ký hiệu trong ngôn ngữ ký hiệu. Các video này sau đó được phân tích và trích xuất các đặc trưng quan trọng, bao gồm đặc trưng không gian và đặc trưng khung xương. Đặc trưng không gian mô tả vị trí và hình dạng của các bộ phận cơ thể, đặc biệt là bàn tay và khuôn mặt. Đặc trưng khung xương mô tả cấu trúc và chuyển động của các khớp xương. Các đặc trưng này sau đó được sử dụng để huấn luyện các mô hình dự đoán, bao gồm mô hình dự đoán trên đặc trưng không gian và mô hình dự đoán trên đặc trưng khung xương.

4.1. Trích xuất đặc trưng không gian và khung xương từ video

Việc trích xuất đặc trưng không gian bao gồm việc sử dụng các kỹ thuật xử lý ảnh để xác định vị trí và hình dạng của các bộ phận cơ thể trong mỗi khung hình. Các kỹ thuật này có thể bao gồm nhận dạng khuôn mặt, phát hiện bàn tay và phân đoạn hình ảnh. Việc trích xuất đặc trưng khung xương bao gồm việc sử dụng các thuật toán để ước tính vị trí của các khớp xương trong mỗi khung hình. Các thuật toán này có thể dựa trên thị giác máy tính hoặc sử dụng các cảm biến đặc biệt để thu thập dữ liệu về chuyển động của cơ thể.

4.2. Huấn luyện mô hình dự đoán và đánh giá hiệu suất VSL

Các mô hình dự đoán được huấn luyện bằng cách sử dụng các thuật toán học máy. Các thuật toán này được thiết kế để học mối quan hệ giữa các đặc trưng đầu vào và các nhãn đầu ra (ký hiệu được thực hiện). Sau khi mô hình được huấn luyện, nó được đánh giá bằng cách sử dụng một tập dữ liệu kiểm tra. Tập dữ liệu kiểm tra bao gồm các video mà mô hình chưa từng thấy trước đây. Hiệu suất của mô hình được đánh giá bằng cách đo độ chính xác của nó trong việc dự đoán các ký hiệu được thực hiện.

V. Ứng Dụng Thực Tiễn và Tiềm Năng Phát Triển Hệ Thống VSL

Hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực. Trong giáo dục, hệ thống có thể được sử dụng để hỗ trợ học sinh khiếm thính học tập và giao tiếp. Trong giao tiếp, hệ thống có thể được sử dụng để phiên dịch ngôn ngữ ký hiệu cho người nghe bình thường. Trong các dịch vụ công cộng, hệ thống có thể được sử dụng để cung cấp thông tin và hỗ trợ cho người khiếm thính. Ngoài ra, hệ thống cũng có thể được tích hợp vào các thiết bị di động và ứng dụng web, giúp người khiếm thính tiếp cận thông tin và dịch vụ một cách dễ dàng hơn. Tiềm năng phát triển của hệ thống là rất lớn. Trong tương lai, hệ thống có thể được cải tiến để nhận dạng nhiều ký hiệu hơn, hoạt động trong nhiều điều kiện khác nhau, và hỗ trợ nhiều ngôn ngữ khác nhau.

5.1. Ứng dụng trong giáo dục và hỗ trợ học tập cho người khiếm thính

Hệ thống có thể được sử dụng để tạo ra các tài liệu học tập tương tác, tự động phiên dịch bài giảng, và cung cấp phản hồi cho học sinh về cách sử dụng ngôn ngữ ký hiệu. Điều này giúp người khiếm thính tiếp cận giáo dục một cách công bằng và hiệu quả hơn.

5.2. Tích hợp vào thiết bị di động và ứng dụng web để hỗ trợ giao tiếp

Việc tích hợp hệ thống vào các thiết bị di động và ứng dụng web giúp người khiếm thính giao tiếp với người nghe bình thường một cách dễ dàng hơn. Họ có thể sử dụng hệ thống để phiên dịch ngôn ngữ ký hiệu trong thời gian thực, giúp phá vỡ rào cản giao tiếp và tăng cường sự hòa nhập xã hội.

VI. Kết Luận và Hướng Phát Triển Tiếp Theo Của Nghiên Cứu VSL

Nghiên cứu về hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt đã đạt được những kết quả ban đầu đầy hứa hẹn. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua để xây dựng một hệ thống hoàn thiện và hiệu quả. Hướng phát triển tiếp theo của nghiên cứu tập trung vào việc cải thiện độ chính xác của hệ thống, mở rộng số lượng ký hiệu được nhận dạng, và tích hợp hệ thống vào các ứng dụng thực tế. Bên cạnh đó, cần có sự hợp tác chặt chẽ giữa các nhà nghiên cứu, nhà phát triển, và cộng đồng người khiếm thính để đảm bảo rằng hệ thống đáp ứng được nhu cầu thực tế và mang lại lợi ích thiết thực cho người sử dụng. Sự phát triển của công nghệ hỗ trợ người khiếm thính không chỉ giúp họ hòa nhập tốt hơn với xã hội mà còn góp phần xây dựng một xã hội công bằng và bình đẳng hơn cho tất cả mọi người.

6.1. Các bước cần thiết để cải thiện độ chính xác và mở rộng VSL

Để cải thiện độ chính xác, cần thu thập và xử lý một lượng lớn dữ liệu huấn luyện chất lượng cao, sử dụng các thuật toán học sâu tiên tiến, và tối ưu hóa các tham số của mô hình. Để mở rộng số lượng ký hiệu được nhận dạng, cần xây dựng một từ điển ngôn ngữ ký hiệu đầy đủ và chính xác, và đào tạo mô hình để nhận biết các ký hiệu mới.

6.2. Tầm quan trọng của sự hợp tác và phản hồi từ cộng đồng

Sự hợp tác chặt chẽ giữa các nhà nghiên cứu, nhà phát triển, và cộng đồng người khiếm thính là yếu tố then chốt để đảm bảo rằng hệ thống đáp ứng được nhu cầu thực tế và mang lại lợi ích thiết thực cho người sử dụng. Phản hồi từ cộng đồng giúp các nhà nghiên cứu hiểu rõ hơn về những thách thức và cơ hội, từ đó định hướng cho các nghiên cứu tiếp theo.

Hệ Thống Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt: Giải Pháp Hỗ Trợ Người Khiếm Thính

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục tiêu và nhiệm vụ nghiên cứu

1.3. Đối tượng và phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.4.1. Phương pháp nghiên cứu lý thuyết

1.4.2. Phương pháp nghiên cứu thực nghiệm

1.5. Ý nghĩa khoa học và thực tiễn

1.5.1. Ý nghĩa khoa học

1.5.2. Ý nghĩa thực tiễn

2. CHƯƠNG 2: TỔNG QUAN VÀ CƠ SỞ LÝ THUYẾT

2.1. Tình hình nghiên cứu và phát triển

2.2. Phương hướng tiếp cận và các nghiên cứu quốc tế

2.3. Một số nghiên cứu nhận diện ngôn ngữ ký hiệu tiếng Việt

2.4. Một số thách thức

2.5. Sơ lược về các tập dữ liệu

3. CHƯƠNG 3: PHƯƠNG PHÁP XÂY DỰNG HỆ THỐNG NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT, HỖ TRỢ HIỂU NGÔN NGỮ CỦA NGƯỜI KHIẾM THÍNH BẰNG PHƯƠNG PHÁP HỌC SÂU

3.1. Bộ dữ liệu ở mức độ từ

3.2. Trích xuất đặc trưng không gian

3.3. Trích xuất đặc trưng khung xương

3.4. Mô hình dự đoán trên đặc trưng không gian

3.5. Mô hình dự đoán trên đặc trưng khung xương

3.6. Quá trình huấn luyện

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Tham số huấn luyện trong quá trình thực nghiệm

4.2. Kết quả thực nghiệm

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

I. Tổng Quan Về Hệ Thống Nhận Dạng Ngôn Ngữ Ký Hiệu VSL

1.1. Mục tiêu và nhiệm vụ nghiên cứu hệ thống VSL là gì

1.2. Ý nghĩa khoa học và thực tiễn của việc nghiên cứu VSL

II. Tình Hình Nghiên Cứu và Phát Triển Nhận Dạng VSL Hiện Nay

2.1. Phương hướng tiếp cận và nghiên cứu quốc tế về VSL

2.2. Nghiên cứu nhận diện ngôn ngữ ký hiệu tiếng Việt ở đâu

III. Thách Thức và Hạn Chế Của Nhận Dạng Ngôn Ngữ Ký Hiệu VSL

3.1. Khó khăn trong việc xây dựng bộ dữ liệu và đào tạo mô hình

3.2. Các yếu tố ảnh hưởng đến độ chính xác của hệ thống VSL

IV. Phương Pháp Xây Dựng Hệ Thống Nhận Dạng VSL Bằng Học Sâu

4.1. Trích xuất đặc trưng không gian và khung xương từ video

4.2. Huấn luyện mô hình dự đoán và đánh giá hiệu suất VSL

V. Ứng Dụng Thực Tiễn và Tiềm Năng Phát Triển Hệ Thống VSL

5.1. Ứng dụng trong giáo dục và hỗ trợ học tập cho người khiếm thính

5.2. Tích hợp vào thiết bị di động và ứng dụng web để hỗ trợ giao tiếp

VI. Kết Luận và Hướng Phát Triển Tiếp Theo Của Nghiên Cứu VSL

6.1. Các bước cần thiết để cải thiện độ chính xác và mở rộng VSL

6.2. Tầm quan trọng của sự hợp tác và phản hồi từ cộng đồng

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Sĩ Thiện

Người hướng dẫn: ThS. Trần Quang Huy

Trường học: Trường Đại Học Sư Phạm Thành Phố Hồ Chí Minh

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Hệ Thống Nhận Dạng Ngôn Ngữ Ký Hiệu Tiếng Việt Cho Người Khiếm Thính

Loại tài liệu: báo cáo tổng kết đề tài nghiên cứu khoa học

Năm xuất bản: 2024

Địa điểm: Thành Phố Hồ Chí Minh