## Tổng quan nghiên cứu

Trong bối cảnh hiện nay, kho dữ liệu khổng lồ và đa dạng ngày càng phát triển mạnh mẽ nhờ sự bùng nổ của công nghệ thông tin. Tại Việt Nam, tỷ lệ người dùng Internet đã đạt khoảng 52% dân số với hơn 36 triệu thuê bao băng rộng di động, trong đó thời gian sử dụng Internet trung bình là 5,2 giờ/ngày, đứng thứ 4 thế giới. Đặc biệt, mạng xã hội như Facebook, Twitter, Zalo ngày càng phổ biến và ảnh hưởng sâu rộng đến đời sống xã hội, với Facebook là mạng xã hội lớn nhất với hơn 1,55 tỷ người dùng toàn cầu. Trong thương mại điện tử, việc phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản là một bài toán quan trọng giúp tối ưu hóa tư vấn và quảng cáo.

Mục tiêu nghiên cứu của luận văn là phát triển phương pháp phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản, ứng dụng kỹ thuật Word2Vec để biểu diễn từ dưới dạng vector nhằm cải thiện độ chính xác phân loại. Phạm vi nghiên cứu tập trung vào dữ liệu người dùng mạng xã hội tại Việt Nam trong giai đoạn gần đây, với trọng tâm là khai thác dữ liệu văn bản tiếng Việt. Nghiên cứu có ý nghĩa thiết thực trong việc nâng cao hiệu quả khai thác thông tin từ mạng xã hội, hỗ trợ các doanh nghiệp trong việc cá nhân hóa dịch vụ và quảng cáo.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Khai phá dữ liệu (Data Mining):** Quá trình chắt lọc tri thức từ lượng lớn dữ liệu thô, bao gồm các bước làm sạch, tích hợp, trích chọn, chuyển đổi dữ liệu, khai phá, đánh giá và biểu diễn tri thức. Các chức năng chính gồm mô tả khái niệm, luật kết hợp, phân loại, phân cụm, khai phá chuỗi và phát hiện biến đổi.

- **Mô hình ngôn ngữ n-gram:** Mô hình xác suất dựa trên tần suất xuất hiện của các chuỗi từ liên tiếp (1-gram, 2-gram, 3-gram), được sử dụng phổ biến trong xử lý ngôn ngữ tự nhiên để trích chọn đặc trưng văn bản.

- **Word2Vec:** Mô hình học máy biểu diễn từ dưới dạng vector liên tục, bao gồm hai kiến trúc chính là Continuous Bag-of-Words (CBOW) và Skip-gram. Word2Vec giúp nắm bắt mối quan hệ ngữ nghĩa và cú pháp giữa các từ, cho phép biểu diễn các từ có nghĩa gần nhau bằng các vector gần nhau trong không gian đa chiều.

- **Phân loại Logistic:** Thuật toán học máy dùng để phân loại nhị phân, mô hình hóa mối quan hệ giữa các đặc trưng đầu vào và biến mục tiêu nhị phân (giới tính nam/nữ) thông qua hàm hồi quy logistic.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Thu thập dữ liệu tin nhắn văn bản từ người dùng mạng xã hội Việt Nam, gồm khoảng 347 hồ sơ người dùng với dữ liệu thô được lưu trữ dưới dạng XML. Dữ liệu bổ sung để huấn luyện Word2Vec được thu thập từ các bài báo trên trang web 24h.vn với dung lượng khoảng 1,2GB.

- **Tiền xử lý:** Sử dụng công cụ vn.vitk-master để tách từ và chuẩn hóa dữ liệu tiếng Việt, loại bỏ từ vô nghĩa (stopwords) và chuẩn hóa cú pháp.

- **Xây dựng Word2Vec:** Áp dụng mô hình Skip-gram với vector 300 chiều, bỏ qua các từ xuất hiện dưới 40 lần, sử dụng thư viện Gensim để huấn luyện trên tập dữ liệu lớn.

- **Phân loại:** Sử dụng bộ phân lớp Logistic với đặc trưng đầu vào là các n-gram (1-gram, 2-gram) và vector từ Word2Vec. Dữ liệu được chia thành các tập huấn luyện và kiểm thử với tỷ lệ 75%-25%, 80%-20%, và 85%-15%. Mỗi tỷ lệ được thực nghiệm 10 lần để lấy kết quả trung bình.

- **Phân tích:** Đánh giá độ chính xác phân loại dựa trên tỷ lệ phần trăm mẫu phân lớp chính xác trên tổng số mẫu kiểm thử.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả của Word2Vec:** Việc bổ sung đặc trưng vector từ Word2Vec vào mô hình phân loại đã cải thiện đáng kể độ chính xác phân loại giới tính người dùng so với chỉ sử dụng n-gram truyền thống. Ví dụ, với tỷ lệ 80% huấn luyện và 20% kiểm thử, độ chính xác tăng từ khoảng 78% lên 81,6%.

- **Ảnh hưởng của tỷ lệ dữ liệu:** Khi tăng tỷ lệ dữ liệu huấn luyện từ 75% lên 85%, độ chính xác phân loại cũng có xu hướng tăng, cho thấy việc có nhiều dữ liệu huấn luyện hơn giúp mô hình học tốt hơn.

- **Khả năng xử lý dữ liệu thưa:** Word2Vec giúp khắc phục vấn đề thưa dữ liệu trong mô hình n-gram bằng cách tìm kiếm các từ có vector gần nhau để thay thế, từ đó tăng khả năng liên kết đặc trưng giữa tập huấn luyện và kiểm thử.

- **Tính đặc thù của tiếng Việt:** Việc sử dụng công cụ tách từ tiếng Việt và xây dựng Word2Vec trên dữ liệu tiếng Việt giúp mô hình nắm bắt được đặc trưng ngôn ngữ riêng biệt, nâng cao hiệu quả phân loại.

### Thảo luận kết quả

Kết quả thực nghiệm cho thấy việc kết hợp Word2Vec với mô hình n-gram truyền thống giúp cải thiện độ chính xác phân loại giới tính người dùng mạng xã hội. Nguyên nhân chính là Word2Vec biểu diễn từ dưới dạng vector liên tục, giúp mô hình nhận diện các từ có ngữ cảnh và ý nghĩa tương tự, từ đó giảm thiểu ảnh hưởng của dữ liệu thưa và tăng khả năng tổng quát hóa. So với các nghiên cứu trước đây chỉ sử dụng n-gram hoặc các đặc trưng truyền thống, phương pháp này cho thấy ưu thế vượt trội trong xử lý dữ liệu văn bản tiếng Việt.

Dữ liệu được trình bày qua các bảng so sánh độ chính xác giữa các phương pháp, minh họa rõ ràng sự cải thiện khi sử dụng Word2Vec. Ngoài ra, việc áp dụng mô hình Logistic giúp đơn giản hóa quá trình phân loại mà vẫn đảm bảo hiệu quả, phù hợp với đặc điểm dữ liệu và mục tiêu nghiên cứu.

## Đề xuất và khuyến nghị

- **Mở rộng dữ liệu huấn luyện:** Tăng cường thu thập dữ liệu người dùng mạng xã hội để nâng cao chất lượng và độ đa dạng của tập huấn luyện, từ đó cải thiện độ chính xác phân loại.

- **Tối ưu tham số Word2Vec:** Thử nghiệm các cấu hình khác nhau của mô hình Word2Vec như số chiều vector, kích thước cửa sổ ngữ cảnh để tìm ra cấu hình tối ưu cho tiếng Việt.

- **Kết hợp thêm các kỹ thuật học sâu:** Áp dụng các mô hình mạng nơ-ron sâu (Deep Learning) như LSTM, CNN để khai thác sâu hơn các đặc trưng ngữ nghĩa và ngữ cảnh trong văn bản.

- **Phát triển công cụ tự động hóa:** Xây dựng hệ thống tự động thu thập, tiền xử lý và phân loại dữ liệu người dùng mạng xã hội để ứng dụng trong thực tế, hỗ trợ các doanh nghiệp trong việc cá nhân hóa quảng cáo.

- **Đào tạo và nâng cao nhận thức người dùng:** Tổ chức các chương trình đào tạo về bảo mật thông tin cá nhân và sử dụng mạng xã hội an toàn, giảm thiểu các tác hại tiêu cực từ mạng xã hội.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Khoa học Máy tính:** Có thể áp dụng phương pháp và kết quả nghiên cứu để phát triển các đề tài liên quan đến xử lý ngôn ngữ tự nhiên và khai phá dữ liệu.

- **Doanh nghiệp hoạt động trong lĩnh vực thương mại điện tử và marketing số:** Sử dụng kết quả nghiên cứu để cải thiện hiệu quả quảng cáo, tư vấn sản phẩm dựa trên phân loại giới tính người dùng mạng xã hội.

- **Các tổ chức phát triển mạng xã hội và ứng dụng truyền thông:** Áp dụng kỹ thuật phân loại để cá nhân hóa trải nghiệm người dùng, nâng cao chất lượng dịch vụ.

- **Cơ quan quản lý và hoạch định chính sách:** Tham khảo để xây dựng các chính sách quản lý, bảo vệ thông tin cá nhân và phát triển bền vững mạng xã hội tại Việt Nam.

## Câu hỏi thường gặp

1. **Word2Vec là gì và tại sao lại quan trọng trong phân loại văn bản?**  
Word2Vec là mô hình biểu diễn từ dưới dạng vector liên tục, giúp máy tính hiểu được mối quan hệ ngữ nghĩa giữa các từ. Nó quan trọng vì giúp cải thiện độ chính xác phân loại bằng cách nhận diện các từ có ý nghĩa tương tự, giảm thiểu vấn đề thưa dữ liệu.

2. **Tại sao chọn mô hình Logistic cho phân loại giới tính?**  
Logistic là mô hình phân loại nhị phân đơn giản, hiệu quả và dễ triển khai. Nó phù hợp với bài toán phân loại giới tính (nam/nữ) và cho kết quả thực nghiệm tốt hơn so với các mô hình khác như SVM trong nghiên cứu này.

3. **Làm thế nào để xử lý đặc trưng thưa trong mô hình n-gram?**  
Sử dụng Word2Vec để tìm các từ có vector gần nhau, thay thế các đặc trưng không tìm thấy trong tập huấn luyện bằng các từ tương tự, giúp tăng khả năng liên kết và cải thiện độ chính xác phân loại.

4. **Phân loại giới tính người dùng mạng xã hội có ứng dụng thực tế nào?**  
Giúp các doanh nghiệp cá nhân hóa quảng cáo, tư vấn sản phẩm phù hợp với từng nhóm giới tính, nâng cao hiệu quả marketing và trải nghiệm người dùng.

5. **Có thể áp dụng phương pháp này cho các ngôn ngữ khác không?**  
Có thể, nhưng cần điều chỉnh công cụ tiền xử lý và xây dựng Word2Vec phù hợp với đặc trưng ngôn ngữ đó để đạt hiệu quả cao nhất.

## Kết luận

- Đề tài đã phát triển thành công phương pháp phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản kết hợp Word2Vec, nâng cao độ chính xác phân loại so với phương pháp truyền thống.  
- Word2Vec giúp biểu diễn từ dưới dạng vector liên tục, khắc phục vấn đề thưa dữ liệu và tăng khả năng nhận diện ngữ nghĩa.  
- Kết quả thực nghiệm trên dữ liệu người dùng mạng xã hội Việt Nam cho thấy độ chính xác phân loại đạt trên 80% với tỷ lệ dữ liệu huấn luyện 80%-20%.  
- Nghiên cứu góp phần mở rộng ứng dụng khai phá dữ liệu và xử lý ngôn ngữ tự nhiên trong môi trường mạng xã hội, đặc biệt với ngôn ngữ tiếng Việt.  
- Đề xuất các hướng nghiên cứu tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình Word2Vec và áp dụng các kỹ thuật học sâu để nâng cao hiệu quả phân loại.  

**Hành động tiếp theo:** Áp dụng phương pháp nghiên cứu vào các dự án thực tế, phát triển hệ thống phân loại tự động và mở rộng nghiên cứu sang các lĩnh vực khai thác dữ liệu khác trên mạng xã hội.