I. Giới thiệu
Trong bối cảnh công nghệ 4.0, việc nhận diện video chính trị trên nền tảng TikTok Việt Nam trở thành một nhiệm vụ cấp thiết. Đặc biệt, với sự ra đời của luật An ninh mạng Việt Nam năm 2018, việc phân loại tự động các video thành danh mục chính trị hoặc phi chính trị đã thu hút sự chú ý của nhiều nhà quản lý. Các video này không chỉ chứa đựng hình ảnh và âm thanh mà còn có văn bản, mỗi đặc trưng đều mang lại thông tin giá trị. Tuy nhiên, việc phân loại hiệu quả yêu cầu phải phân tích đồng bộ tất cả các thông tin từ các đặc trưng khác nhau. Đề tài này trình bày một framework kết hợp đa mô hình học sâu, sử dụng các kỹ thuật như Word Embedding với FastText để phân tích văn bản, cùng với các mô hình CNN như Inception-V3 và VGG-Face để trích xuất đặc trưng hình ảnh và gương mặt. Qua đó, framework này có khả năng phân loại video ngay cả khi một số đặc trưng bị thiếu.
1.1 Tính ứng dụng của đề tài
Đề tài này không chỉ là một nghiên cứu lý thuyết mà còn có tính ứng dụng cao trong thực tiễn. Các nhà quản lý Việt Nam đang phải đối mặt với nhiều khó khăn trong việc nắm bắt thông tin trên mạng xã hội, đặc biệt là TikTok. Nhiều video có nội dung xuyên tạc, bóp méo sự thật và ảnh hưởng tiêu cực đến xã hội. Việc phát hiện và phân loại tự động các video này là rất cần thiết, nhằm bảo vệ an ninh quốc gia và trật tự xã hội. Framework được đề xuất sẽ giúp tự động thu thập và phân loại các video có yếu tố chính trị, từ đó tiết kiệm thời gian cho các nhà quản lý trong việc theo dõi thông tin trên mạng xã hội.
II. Kiến thức nền tảng
Để xây dựng framework hiệu quả, việc hiểu rõ các khái niệm cơ bản về mạng nơron nhân tạo (ANN) và các kỹ thuật xử lý dữ liệu là rất quan trọng. Mạng nơron tích chập (CNN) là một trong những kỹ thuật phổ biến nhất trong phân loại hình ảnh và video. Các hàm kích hoạt như ReLU và sigmoid đóng vai trò quan trọng trong việc tối ưu hóa quá trình học. Bên cạnh đó, mô hình Word2Vec và FastText cũng được sử dụng để chuyển đổi văn bản thành các vector có nghĩa, giúp cho việc phân tích văn bản trở nên hiệu quả hơn. Các kỹ thuật này được kết hợp trong một framework nhằm tối ưu hóa khả năng phân loại video có yếu tố chính trị trên TikTok.
2.1 Các mô hình học sâu
Trong nghiên cứu này, các mô hình học sâu như Inception-V3, MTCNN, và VGG-Face được sử dụng để trích xuất đặc trưng từ video. MTCNN giúp phát hiện gương mặt trong các khung hình chính, trong khi VGG-Face được sử dụng để vector hóa các gương mặt này. Việc kết hợp các mô hình này giúp tối ưu hóa độ chính xác trong việc phân loại video. Thêm vào đó, mô hình Light GBM được áp dụng để tổng hợp thông tin từ các đặc trưng khác nhau và đưa ra kết quả phân loại cuối cùng.
III. Phương pháp thực hiện
Đề tài sử dụng phương pháp thu thập và xử lý dữ liệu từ TikTok để xây dựng bộ dữ liệu gồm 10.000 video có yếu tố chính trị và phi chính trị. Quá trình này bao gồm việc tải video, gán nhãn và trích xuất các khung hình chính. Đặc biệt, việc sử dụng Google API để chuyển đổi giọng nói thành văn bản giúp tăng cường chất lượng dữ liệu đầu vào. Các đặc trưng hình ảnh và văn bản được xử lý thông qua các mô hình học sâu đã được huấn luyện trước, nhằm đảm bảo tính chính xác trong phân loại. Kết quả thử nghiệm cho thấy framework đạt độ chính xác cao hơn so với các mô hình phân loại đơn lẻ.
3.1 Kết quả thử nghiệm
Kết quả thử nghiệm cho thấy framework có khả năng phân loại video chính xác với độ chính xác đạt 0.93, vượt trội hơn so với các phương pháp kết hợp thông thường. Điều này chứng tỏ rằng việc sử dụng một cách tiếp cận đa mô hình với nhiều đặc trưng khác nhau không chỉ nâng cao khả năng phân loại mà còn giúp giải quyết vấn đề thiếu dữ liệu khi một số đặc trưng không có sẵn. Điều này mở ra nhiều cơ hội cho việc ứng dụng công nghệ học máy trong việc giám sát và phân loại nội dung trên mạng xã hội.