I. Hệ thống nhận dạng giọng nói tiếng Việt
Phần này tập trung vào hệ thống nhận dạng giọng nói tiếng Việt, một thành phần cốt lõi của hệ thống nhà thông minh HCMUTE. Bài toán nhận dạng âm thanh được chuyển đổi thành bài toán nhận dạng hình ảnh sử dụng mạng tích chập (CNN). Thay vì sử dụng RNN, nhóm nghiên cứu chuyển đổi file âm thanh (.wav) thành file ảnh spectrogram. Spectrogram, đại diện cho quang phổ âm thanh, được dùng để huấn luyện mô hình CNN. Kết quả dự đoán của mô hình là label lệnh điều khiển. Mô hình được huấn luyện với 3072 mẫu lệnh (spectrogram) và kiểm tra với 768 mẫu. Độ chính xác của mô hình được đánh giá và thể hiện qua ma trận độ chính xác và biểu đồ đánh giá. Xử lý tín hiệu số và thuật toán nhận dạng giọng nói đóng vai trò quan trọng trong việc đảm bảo hiệu quả của hệ thống. Việc chuyển đổi dữ liệu từ dạng âm thanh sang hình ảnh là một giải pháp sáng tạo và hiệu quả trong ngữ cảnh này.
1.1 Mô hình CNN và quá trình huấn luyện
Mô hình mạng tích chập (CNN) được sử dụng với cấu trúc layer cụ thể (Hình 1.2 trong báo cáo). Quá trình huấn luyện sử dụng 3072 mẫu spectrogram, mỗi mẫu đại diện cho một lệnh điều khiển. Dữ liệu được tiền xử lý để tối ưu hóa quá trình huấn luyện. Kết quả huấn luyện được đánh giá thông qua ma trận nhầm lẫn (Hình 1.3) và biểu đồ đánh giá hiệu năng (Hình 1.4), cho thấy độ chính xác của mô hình trong việc nhận dạng các lệnh tiếng Việt. Thuật toán tối ưu hóa và kĩ thuật huấn luyện sâu được áp dụng để đạt được hiệu quả cao. Big data và dữ liệu lớn là yếu tố quan trọng để đảm bảo độ chính xác của mô hình. Nghiên cứu tập trung vào việc tối ưu hóa cấu trúc mạng, hàm kích hoạt và hàm mất mát để cải thiện hiệu suất của mô hình nhận dạng. Việc sử dụng mạng neuron và các kỹ thuật xử lý tín hiệu số là điểm mấu chốt trong thành công của hệ thống.
1.2 Khó khăn và giải pháp trong xử lý dữ liệu
Khó khăn trong việc xử lý dữ liệu giọng nói tiếng Việt bao gồm độ đa dạng của giọng nói, tiếng ồn nền và sự khác biệt giữa các giọng nói. Xử lý tiếng ồn và phân tích tín hiệu giọng nói là hai thách thức lớn. Tuy nhiên, nhóm đã áp dụng các kỹ thuật tiền xử lý tín hiệu như lọc nhiễu, chuẩn hóa biên độ và trích xuất đặc trưng MFCC để giảm thiểu ảnh hưởng của tiếng ồn. Cơ sở dữ liệu lớn được sử dụng để huấn luyện mô hình giúp cải thiện khả năng tổng quát hóa của mô hình. Việc lựa chọn các thuật toán xử lý tín hiệu phù hợp cũng rất quan trọng. Nhóm đã giải quyết vấn đề đa dạng giọng nói bằng cách thu thập dữ liệu từ nhiều người nói khác nhau. Phân tích tín hiệu số được sử dụng rộng rãi để cải thiện chất lượng dữ liệu đầu vào.
II. Hệ thống nhà thông minh và ứng dụng điều khiển
Hệ thống sử dụng kiến trúc client-server với backend NodeJs và frontend ReactJs (web) và React Native (mobile). REST API được sử dụng để truyền nhận dữ liệu giữa client và server. Json Web Token (JWT) đảm bảo bảo mật. Socket.io được sử dụng để truyền nhận dữ liệu thời gian thực giữa server và các thiết bị Internet vạn vật (IoT). Ứng dụng điều khiển bao gồm web admin, mobile app cho người dùng, hỗ trợ nhiều chức năng như quản lý thiết bị, người dùng, khu vực, chia sẻ quyền, hẹn giờ và xem lịch sử. Phát triển hệ thống nhà thông minh này đòi hỏi sự kết hợp nhuần nhuyễn giữa phần cứng và phần mềm.
2.1 Kiến trúc hệ thống và giao tiếp
Hệ thống sử dụng kiến trúc ba tầng: client (web/mobile), server (NodeJs), và các thiết bị IoT. REST API đảm nhiệm việc truyền dữ liệu giữa client và server NodeJs. Socket.io cho phép truyền nhận dữ liệu thời gian thực giữa server và các thiết bị IoT. Cơ sở dữ liệu MongoDB lưu trữ thông tin về thiết bị, người dùng và lịch sử hoạt động. Ứng dụng điều khiển từ xa được thiết kế thân thiện với người dùng, hỗ trợ nhiều nền tảng. Việc sử dụng framework nhà thông minh phù hợp đóng vai trò quan trọng trong việc xây dựng hệ thống. Hệ thống được thiết kế theo nguyên tắc mở rộng và linh hoạt, dễ dàng tích hợp thêm các thiết bị và chức năng mới. An ninh nhà thông minh được đảm bảo thông qua cơ chế xác thực và mã hóa dữ liệu.
2.2 Tích hợp thiết bị IoT và quản lý
Các thiết bị IoT sử dụng chip ESP8266 được kết nối với hệ thống qua Wifi. Internet vạn vật (IoT) là nền tảng của hệ thống. Điều khiển bằng giọng nói được tích hợp thông qua mô hình nhận dạng giọng nói đã được xây dựng. Hệ thống cho phép người dùng quản lý thiết bị, tạo nhóm thiết bị (khu vực), chia sẻ quyền sử dụng và lập lịch trình hoạt động. Ứng dụng di động cho phép người dùng giám sát và điều khiển thiết bị từ xa. Tiện ích nhà thông minh được tối ưu hóa thông qua giao diện người dùng trực quan. Cơ sở dữ liệu được thiết kế để đảm bảo hiệu quả và khả năng mở rộng. Hệ thống điều khiển từ xa và khả năng tích hợp với các thiết bị khác là ưu điểm nổi bật. Thực tiễn áp dụng tại HCMUTE cho thấy hiệu quả của hệ thống.
III. Đánh giá và tiềm năng phát triển
Hệ thống đã đạt được mục tiêu chính là xây dựng một hệ thống nhận dạng lệnh tiếng Việt để điều khiển nhà thông minh. Hệ thống hoạt động ổn định với độ chính xác cao trong điều kiện môi trường lý tưởng. Tuy nhiên, vẫn còn một số hạn chế về khả năng nhận dạng trong môi trường ồn ào và độ chính xác với các câu lệnh phức tạp. Đánh giá hệ thống dựa trên các chỉ số độ chính xác, thời gian phản hồi và khả năng mở rộng. Nghiên cứu đề xuất các hướng phát triển trong tương lai như nâng cao độ chính xác của mô hình nhận dạng giọng nói, mở rộng khả năng tương thích với nhiều loại thiết bị IoT hơn và phát triển thêm các tính năng thông minh. Tiềm năng phát triển của hệ thống rất lớn, có thể áp dụng rộng rãi trong các lĩnh vực khác nhau. Nghiên cứu hệ thống nhà thông minh cần được tiếp tục để cải thiện hiệu năng và mở rộng ứng dụng.
3.1 Ưu điểm hạn chế và hướng phát triển
Ưu điểm: Hệ thống hoạt động ổn định, giao diện người dùng thân thiện, khả năng tích hợp nhiều thiết bị. Hạn chế: Độ chính xác của mô hình nhận dạng giọng nói có thể bị ảnh hưởng bởi tiếng ồn, chưa hỗ trợ các câu lệnh phức tạp. Hướng phát triển: Nâng cao độ chính xác của mô hình, tích hợp các công nghệ AI tiên tiến hơn (ví dụ: trí tuệ nhân tạo AI tiếng Việt), mở rộng khả năng tương thích với nhiều thiết bị và nền tảng khác nhau, phát triển các tính năng thông minh hơn như tự động hóa và học máy. HCMUTE có thể tiếp tục nghiên cứu và phát triển hệ thống để đáp ứng nhu cầu ngày càng cao của người dùng. Case study này đóng góp vào sự phát triển của công nghệ nhà thông minh tại Việt Nam. Báo cáo này cung cấp cái nhìn tổng quan về hệ thống và các hướng phát triển trong tương lai.
3.2 Ứng dụng thực tiễn và giá trị nghiên cứu
Hệ thống có thể ứng dụng rộng rãi trong các lĩnh vực như nhà ở thông minh, văn phòng thông minh, và các hệ thống tự động hóa khác. Ứng dụng thực tế của hệ thống chứng minh được hiệu quả của việc sử dụng AI tiếng Việt trong điều khiển thiết bị. Giá trị nghiên cứu nằm ở việc ứng dụng các công nghệ tiên tiến như CNN, NodeJs, ReactJs và MongoDB vào xây dựng một hệ thống nhà thông minh. Luận văn này đóng góp vào sự phát triển của công nghệ thông tin và trí tuệ nhân tạo tại Việt Nam. Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh (HCMUTE) đóng vai trò quan trọng trong việc đào tạo và nghiên cứu các công nghệ này. Thực tiễn đào tạo tại HCMUTE cho thấy sự thành công của dự án này.