Phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt

Luận văn thạc sĩ nghiên cứu máy tính phân loại nhóm tuổi người dùng mạng xã hội, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

LỜI CAM ĐOAN

DANH MỤC TỪ VIẾT TẮT

DANH SÁCH CÁC BẢNG

DANH SÁCH CÁC HÌNH

1. CHƯƠNG 1: TỔNG QUAN

1.1. Nghiên cứu trong nước

1.2. Các nghiên cứu quốc tế

1.3. Những kết quả nghiên cứu liên quan

1.4. Kết quả đạt được và những đóng góp

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. SVM tuyến tính

2.2. Phân lớp nhị phân

2.3. Hàm nhân kernel

2.4. Chiến thuật phân loại nhiều lớp

2.5. Kiểm tra chéo (Cross validation)

2.6. Ngôn ngữ sử dụng trên mạng xã hội

2.7. Môi liên hệ nhóm tuổi và đặc trưng của ngôn ngữ sử dụng trên mạng xã hội

2.8. Biểu diễn văn bản

2.9. Kỹ thuật TF-IDF (Term Frequency - Inverse Document Frequency)

2.10. Mô hình ngôn ngữ n-gram

2.11. Lựa chọn đặc trưng

2.12. Phương pháp Support Vector Machine - SVM

2.13. Phương pháp đánh giá

2.13.1. Precision và Recall

2.13.2. Precision-recall cho bài toán phân lớp nhiều lớp

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Phân chia tập dữ liệu và tiền xử lý

3.2. Làm sạch text

3.3. Các bước thực hiện

3.4. Loại bỏ Stopword

3.5. Chuẩn hóa từ

3.6. Vector hóa từ

3.7. Lựa chọn đặc trưng

3.8. Sử dụng giải thuật SVM và thực hiện tìm kiếm bộ thông số tối ưu

3.9. Sử dụng giải thuật SVM

3.10. Phân tích kết quả và tìm cách nâng cao hiệu suất phân loại

4. CHƯƠNG 4: HIỆN THỰC VÀ ĐÁNH GIÁ PHƯƠNG PHÁP

4.1. Thư viện tính toán chính Sklearn

4.2. Thư viện Pyvi

4.3. Cấu hình máy thực nghiệm và môi trường

4.4. Dữ liệu thực nghiệm

4.5. Kết quả thực nghiệm

4.6. Phân tích kết quả

5. CHƯƠNG 5: TỔNG KẾT

5.1. Những kết quả đạt được

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC CÁC GIẢI THUẬT CỦA CHƯƠNG TRÌNH

Tóm tắt

I. Tổng Quan Về Phân Loại Nhóm Tuổi Người Dùng Mạng Xã Hội

Sự phát triển của Internet và mạng xã hội đã tạo ra một cuộc cách mạng trong lĩnh vực thông tin và truyền thông. Mạng xã hội trở thành một phần không thể thiếu trong cuộc sống hàng ngày của nhiều người, là phương tiện để thể hiện bản thân, tìm kiếm thông tin, chia sẻ và liên kết. Tuy nhiên, do nhiều nguyên nhân, người dùng thường không cập nhật đầy đủ thông tin cá nhân, cung cấp thông tin giả hoặc che giấu thông tin vì lý do riêng tư, gây khó khăn trong việc xác định và sử dụng thông tin. Việc phân loại nhóm tuổi người dùng mạng xã hội trở nên quan trọng trong công tác quản lý nhà nước, hoạt động kinh doanh và quảng cáo thương mại. Các nội dung do người dùng tạo ra trên mạng xã hội như hình ảnh, văn bản, video, liên kết đến các trang web, thể hiện các cảm xúc và thông tin về hồ sơ người dùng như tuổi, giới tính, địa chỉ, sở thích, việc làm,... là những dữ liệu quan trọng để dự đoán độ tuổi người dùng.

1.1. Tầm Quan Trọng Của Phân Tích Độ Tuổi Trên Mạng Xã Hội

Việc xác định chính xác độ tuổi người dùng giúp các cơ quan quản lý xác định đúng đối tượng cần quản lý, xác định thông tin giả và thực hiện các hoạt động quản lý cần thiết. Các tổ chức doanh nghiệp có thể cung cấp thông tin đến đúng nhóm đối tượng mong muốn, phân tích và dự báo được các khuynh hướng hành vi của từng nhóm. Từ đó, phân tích hành vi người dùng theo độ tuổi có thể giúp cải thiện hiệu quả hoạt động marketing và nghiên cứu thị trường.

1.2. Thách Thức Trong Nhận Dạng Độ Tuổi Từ Dữ Liệu Mạng Xã Hội

Một trong những thách thức lớn nhất là sự không đầy đủ và không chính xác của thông tin cá nhân do người dùng cung cấp. Nhiều người dùng sử dụng thông tin giả hoặc che giấu thông tin thực tế. Ngoài ra, ngôn ngữ sử dụng trên mạng xã hội thường biến đổi, chứa nhiều từ lóng, viết tắt, và biểu tượng cảm xúc, gây khó khăn cho việc nhận dạng độ tuổi từ văn bản. Bài toán dự đoán độ tuổi từ thông tin cá nhân trên mạng xã hội đòi hỏi phải có các phương pháp xử lý dữ liệu và phân tích ngôn ngữ phù hợp.

II. Vấn Đề Nghiên Cứu Phân Loại Tuổi Cho Tiếng Việt

Đề tài này tập trung vào việc nghiên cứu và áp dụng giải thuật máy học để phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt. Theo sự tìm hiểu, hiện chưa có công trình nghiên cứu chuyên sâu nào về vấn đề này cho tiếng Việt, cả trong nước lẫn ngoài nước. Tiếng Việt là ngôn ngữ đơn lập, mỗi âm tiết được phát âm tách rời và thể hiện bằng một chữ viết. Điều này đòi hỏi các bước xử lý phức tạp hơn để trích xuất các đặc trưng ngôn ngữ. Ngôn ngữ trên mạng xã hội tiếng Việt mang tính biến thể, với các câu ngắn, biểu tượng cảm xúc, viết tắt, và cách điệu, ảnh hưởng đến kết quả xử lý. Luận án này phân loại độ tuổi người dùng thành 4 nhóm, nhằm xây dựng mô hình giải thuật phân loại và thử nghiệm trên các nhóm tuổi.

2.1. Đặc Thù Của Ngôn Ngữ Tiếng Việt Trên Mạng Xã Hội

Ngôn ngữ tiếng Việt trên mạng xã hội có nhiều đặc điểm riêng biệt so với ngôn ngữ chuẩn. Người dùng thường sử dụng các từ lóng, viết tắt, biểu tượng cảm xúc, và các biến thể ngôn ngữ khác. Điều này gây khó khăn cho việc xử lý ngôn ngữ tự nhiên và trích xuất các đặc trưng quan trọng cho việc phân loại độ tuổi. Cần có các phương pháp đặc biệt để xử lý và chuẩn hóa ngôn ngữ mạng trước khi áp dụng các thuật toán machine learning cho phân tích nhân khẩu học.

2.2. Hạn Chế Của Nghiên Cứu Hiện Tại Về Phân Loại Tuổi Tiếng Việt

Hiện tại, có rất ít nghiên cứu về phân loại độ tuổi từ dữ liệu mạng xã hội bằng tiếng Việt. Các nghiên cứu hiện có chủ yếu tập trung vào các ngôn ngữ phổ biến như tiếng Anh. Việc thiếu dữ liệu huấn luyện và các công cụ xử lý ngôn ngữ tiếng Việt cũng là một thách thức lớn. Cần có những nghiên cứu chuyên sâu hơn để phát triển các mô hình dự đoán độ tuổi người dùng hiệu quả cho tiếng Việt.

III. Phương Pháp Đề Xuất Sử Dụng SVM Phân Loại Tuổi

Trong đề tài này, tác giả nghiên cứu và áp dụng giải thuật máy học vector hỗ trợ (SVM) để phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt. Đối với ngôn ngữ tiếng Việt, theo sự tìm hiểu của tác giả thì cho đến nay chưa có một công trình nào liên quan đến vấn đề này, kể cả trong nước lẫn ngoài nước. Tiếng Việt thuộc ngôn ngữ đơn lập, mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết, về ngữ âm, từ vựng và ngữ pháp. Đặc điểm này dẫn đến việc xử lý, rút trích các đặc trưng của ngôn ngữ làm cơ sở để phân nhóm đòi hỏi cần phải thực hiện thêm các bước xử lý như tách đúng các từ láy, các từ có nhiều âm tiết. Bên cạnh đó, ngôn ngữ trên mạng xã hội tiếng Việt được xem như là biến thể đặc thù của tiếng Việt, bên cạnh những đặc điểm chung, ngôn ngữ mạng tiếng Việt còn có những đặc điểm riêng chỉ ở trên mạng mới có như sử dụng các câu ngắn, các biểu tượng cảm xúc (icon), các biến thế viết tắt, cách điệu, giản thế (ngôn ngữ teen) ảnh hưởng đến kết quả xử lý. Trong luận án này tác giả phần loại người dùng mạng xã hội thành 4 nhóm.

3.1. Tổng Quan Về Giải Thuật Support Vector Machine SVM

SVM là một thuật toán học máy mạnh mẽ, đặc biệt hiệu quả trong các bài toán phân loại. SVM tìm kiếm một siêu phẳng tối ưu để phân tách các lớp dữ liệu, đồng thời tối đa hóa khoảng cách giữa các lớp. Điều này giúp SVM đạt được độ chính xác cao và khả năng khái quát tốt. SVM cũng có thể được sử dụng để giải quyết các bài toán phân loại phi tuyến tính bằng cách sử dụng các hàm kernel.

3.2. Các Bước Xây Dựng Mô Hình Phân Loại Tuổi Bằng SVM

Việc xây dựng mô hình phân loại độ tuổi bằng SVM bao gồm các bước sau: (1) Thu thập và tiền xử lý dữ liệu mạng xã hội tiếng Việt. (2) Trích xuất các đặc trưng ngôn ngữ phù hợp từ dữ liệu văn bản. (3) Huấn luyện mô hình SVM với dữ liệu đã được chuẩn bị. (4) Đánh giá hiệu suất của mô hình trên tập dữ liệu kiểm tra. (5) Tinh chỉnh mô hình để đạt được độ chính xác cao nhất.

3.3. Lựa chọn đặc trưng và Tiền xử lý dữ liệu cho mô hình

Việc chọn lọc và xử lý dữ liệu là rất quan trọng để cho ra kết quả tốt nhất từ mô hình. Cần lọc bỏ các stopword, chuẩn hóa các từ bị sai chính tả, rồi biểu diễn dữ liệu dạng vector để đưa vào mô hình. Sau khi có bộ dữ liệu tốt, chúng ta sẽ lựa chọn đặc trưng phù hợp để tăng độ chính xác của mô hình dự đoán tuổi.

IV. Ứng Dụng Thực Tiễn Và Kết Quả Nghiên Cứu

Phân tích dữ liệu nhân khẩu học người dùng mạng xã hội (analytic data demographic) như nhóm tuổi, giới tính, địa chỉ, nghề nghiệp, sở thích,... là một nhu cầu quan trọng trong công tác quản lý nhà nước cũng như phục vụ cho hoạt động kinh doanh, quảng cáo thương mại. Xác định đúng thông tin về nhân thân bao gồm nhóm tuổi của người sử dụng sẽ giúp cho các cơ quan quản lý xác định được đúng nhóm đối tượng cần quản lý, xác định thông tin, xác định hồ sơ giả và các hoạt động quản lý cần thiết khác. Các cơ quan quản lý, tổ chức doanh nghiệp thực hiện cung cấp thông tin đến đúng nhóm đối tượng mong muốn, cũng như việc phân tích và dự báo được các khuynh hướng hành vi của từng nhóm đối tượng.

4.1. Thu Thập Dữ Liệu Mạng Xã Hội Cho Nghiên Cứu

Dữ liệu được thu thập từ Facebook thông qua Graph API, bao gồm các bài đăng, bình luận và thông tin cá nhân của người dùng. Dữ liệu này sau đó được tiền xử lý để loại bỏ các thông tin không liên quan và chuẩn hóa định dạng. Các vấn đề về privacy in age prediction models cũng cần được xem xét để đảm bảo tuân thủ các quy định về bảo vệ dữ liệu cá nhân.

4.2. Đánh Giá Hiệu Suất Mô Hình SVM Trong Phân Loại Tuổi

Hiệu suất của mô hình SVM được đánh giá bằng các chỉ số như độ chính xác, độ thu hồi và F1-score. Kết quả cho thấy mô hình đạt được độ chính xác khá cao trong việc phân loại nhóm tuổi người dùng mạng xã hội. Các yếu tố ảnh hưởng đến hiệu suất của mô hình bao gồm chất lượng dữ liệu, lựa chọn đặc trưng và tham số của mô hình.

4.3. Phân tích kết quả và cải thiện hiệu suất mô hình

Sau khi chạy mô hình, cần phải đánh giá mô hình dự đoán độ tuổi để phân tích điểm mạnh điểm yếu. Thông qua các kết quả phân tích được, chúng ta có thể cải thiện hiệu suất mô hình phân loại tuổi bằng cách sử dụng các đặc trưng khác, hoặc thay đổi thuật toán phân loại.

V. Kết luận Hướng Phát Triển Nghiên Cứu Phân Loại Tuổi

Luận án đã trình bày phương pháp sử dụng mô hình máy học dự đoán tuổi, SVM để phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt. Kết quả thực nghiệm cho thấy phương pháp này có tiềm năng ứng dụng cao trong thực tế. Tuy nhiên, vẫn còn nhiều hướng phát triển có thể được thực hiện để nâng cao hiệu suất và độ tin cậy của mô hình. Cần có thêm nghiên cứu về các phương pháp xử lý ngôn ngữ tiếng Việt hiệu quả hơn, cũng như việc sử dụng các mô hình máy học phức tạp hơn như mạng nơ-ron cho phân loại độ tuổi.

5.1. Những Kết Quả Đạt Được Và Đóng Góp Của Luận Án

Luận án đã xây dựng thành công mô hình phân loại độ tuổi người dùng mạng xã hội bằng SVM cho ngôn ngữ tiếng Việt. Luận án cũng đưa ra các đề xuất về việc xử lý dữ liệu và lựa chọn đặc trưng phù hợp cho bài toán này. Kết quả nghiên cứu có thể được sử dụng để phát triển các ứng dụng thực tế trong lĩnh vực quản lý thông tin và marketing.

5.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Các hướng nghiên cứu tiềm năng bao gồm việc sử dụng các thuật toán phân loại độ tuổi tiên tiến hơn, kết hợp thông tin từ nhiều nguồn khác nhau (hình ảnh, video,...) và xem xét các yếu tố văn hóa và xã hội ảnh hưởng đến ngôn ngữ sử dụng trên mạng xã hội. Ngoài ra, cần có những nghiên cứu về ethical considerations of age prediction và các biện pháp bảo vệ quyền riêng tư của người dùng.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phân loại nhóm tuổi người dùng mạng xã hội

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet và mạng xã hội, với hơn 60 triệu người dùng Internet tại Việt Nam, chiếm khoảng 66% dân số, mạng xã hội đã trở thành một phần không thể thiếu trong đời sống hàng ngày. Tính đến tháng 7/2017, Việt Nam có khoảng 64 triệu người dùng Facebook, chiếm 3% tổng số tài khoản Facebook toàn cầu. Mạng xã hội không chỉ là phương tiện thể hiện bản thân mà còn là kênh tìm kiếm thông tin, giao tiếp và kết nối xã hội. Tuy nhiên, việc người dùng không cập nhật đầy đủ thông tin cá nhân hoặc cung cấp thông tin giả mạo gây khó khăn trong việc xác định chính xác các đặc điểm nhân khẩu học, đặc biệt là nhóm tuổi.

Mục tiêu của luận văn là xây dựng phương pháp phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt dựa trên nội dung văn bản ngắn và ngôn ngữ biến thể trên mạng xã hội. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ người dùng mạng xã hội tại Việt Nam trong giai đoạn 2017-2018. Nghiên cứu sử dụng thuật toán máy học vector hỗ trợ (SVM) để phân loại nhóm tuổi thành 4 nhóm: dưới 24 tuổi, 25-34 tuổi, 35-40 tuổi và trên 40 tuổi. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ các cơ quan quản lý nhà nước, doanh nghiệp trong việc phân tích, dự báo hành vi người dùng và truyền thông hiệu quả đến từng nhóm tuổi.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mạng xã hội (Social Network Sites)**: Được hiểu là tập hợp các cá nhân và các mối quan hệ giữa họ, được mô hình hóa dưới dạng đồ thị các nút (người dùng) và các liên kết (quan hệ). Mạng xã hội có tính chất mở, cập nhật thông tin theo thời gian thực, thu hút lượng lớn người dùng.

- **Ngôn ngữ mạng xã hội tiếng Việt**: Là biến thể đặc thù của tiếng Việt, bao gồm các đặc điểm như câu ngắn, biểu tượng cảm xúc, cách viết tắt, ngôn ngữ teen, sai chính tả, lệch chuẩn. Ngôn ngữ này phản ánh đặc trưng xã hội và nhóm tuổi người dùng.

- **Biểu diễn văn bản dưới dạng vector**: Sử dụng mô hình Bag of Words (BoW) kết hợp với trọng số TF-IDF (Term Frequency - Inverse Document Frequency) để biểu diễn tần suất và tầm quan trọng của từ trong văn bản.

- **Mô hình ngôn ngữ n-gram**: Chuỗi kết hợp các từ liên tiếp (bigram, trigram) giúp nắm bắt cấu trúc ngôn ngữ và ngữ cảnh trong văn bản.

- **Phương pháp Support Vector Machine (SVM)**: Thuật toán học máy phân loại dữ liệu bằng cách tìm siêu phẳng phân chia tối ưu trong không gian đặc trưng, phù hợp với dữ liệu có số chiều cao và có thể xử lý dữ liệu không tuyến tính qua hàm kernel.

- **Đánh giá mô hình**: Sử dụng các chỉ số Precision, Recall, Accuracy và F1-score để đánh giá hiệu quả phân loại.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Dữ liệu thu thập từ mạng xã hội Facebook thông qua công cụ Graph API, bao gồm bài đăng công khai, tuổi người dùng và các trang fanpage đã thích. Tổng số dữ liệu gồm 13,888 tài khoản, trong đó 9,949 tài khoản dùng để huấn luyện và 2,939 tài khoản dùng để kiểm tra.

- **Phân chia nhóm tuổi**: Người dùng được phân thành 4 nhóm tuổi: A (<24 tuổi), B (25-34 tuổi), C (35-40 tuổi), D (>40 tuổi).

- **Tiền xử lý dữ liệu**: Bao gồm làm sạch văn bản (loại bỏ ký tự nhiễu, chuẩn hóa Unicode, chuyển chữ thường), tách từ tiếng Việt bằng thư viện Pyvi với độ chính xác 92.5%, loại bỏ stopword, chuẩn hóa từ và vector hóa bằng BoW kết hợp TF-IDF và n-gram.

- **Lựa chọn đặc trưng**: Sử dụng phương pháp ngưỡng TF-IDF và thống kê chi bình phương (chi-square) để chọn lọc đặc trưng quan trọng, giảm kích thước dữ liệu và tăng hiệu quả phân loại.

- **Mô hình phân loại**: Áp dụng thuật toán SVM với các kernel khác nhau (linear, polynomial, RBF, sigmoid), sử dụng chiến thuật phân loại nhiều lớp One-vs-Rest và tìm kiếm tham số tối ưu bằng GridSearchCV.

- **Timeline nghiên cứu**: Thu thập và xử lý dữ liệu từ tháng 1 đến tháng 6 năm 2018, huấn luyện và đánh giá mô hình trong cùng khoảng thời gian.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình SVM với kernel RBF và chiến thuật One-vs-Rest đạt độ chính xác phân loại nhóm tuổi cao nhất trên tập dữ liệu lớn.

- Trên tập huấn luyện gồm 939 tài khoản, độ chính xác phân loại nhóm tuổi dưới 24 tuổi đạt 66.0%, các nhóm tuổi cao hơn đạt khoảng 50%.

- Khi mở rộng tập huấn luyện lên 5,362 tài khoản và kiểm tra trên 2,642 tài khoản, độ chính xác nhóm tuổi dưới 24 tuổi tăng lên 73%, cho thấy hiệu quả cải thiện khi tăng kích thước dữ liệu.

- Phân bố đặc trưng ngôn ngữ theo nhóm tuổi thể hiện rõ sự khác biệt trong cách sử dụng từ ngữ, ví dụ nhóm tuổi trẻ thường dùng từ liên quan đến học tập, giải trí, trong khi nhóm tuổi lớn hơn sử dụng từ liên quan đến gia đình, sức khỏe.

- Việc kết hợp dữ liệu về sở thích fanpage giúp tăng độ chính xác phân loại, đặc biệt với các nhóm tuổi trung niên và cao tuổi.

### Thảo luận kết quả

Kết quả cho thấy việc phân loại nhóm tuổi người dùng mạng xã hội dựa trên ngôn ngữ tiếng Việt là khả thi nhưng gặp nhiều thách thức do đặc trưng ngôn ngữ mạng xã hội như biến thể ngôn ngữ, viết tắt, sai chính tả và dữ liệu ngắn. So với các nghiên cứu quốc tế với ngôn ngữ tiếng Anh đạt độ chính xác trên 80%, kết quả của nghiên cứu này thấp hơn do đặc thù ngôn ngữ tiếng Việt và hạn chế về dữ liệu.

Việc sử dụng SVM với các kernel khác nhau và chiến thuật phân loại nhiều lớp đã giúp cải thiện hiệu quả phân loại. Phân tích đặc trưng bằng chi bình phương giúp nhận diện các từ khóa đặc trưng cho từng nhóm tuổi, từ đó nâng cao khả năng phân biệt.

Dữ liệu lớn và đa dạng hơn, cùng với việc cải tiến tiền xử lý và lựa chọn đặc trưng, sẽ giúp nâng cao độ chính xác trong các nghiên cứu tiếp theo. Kết quả nghiên cứu có thể được trình bày qua biểu đồ phân bố độ tuổi, biểu đồ độ chính xác theo nhóm tuổi và bảng so sánh hiệu quả các kernel SVM.

## Đề xuất và khuyến nghị

- **Mở rộng tập dữ liệu**: Thu thập thêm dữ liệu người dùng từ nhiều nguồn mạng xã hội khác nhau để tăng tính đa dạng và độ lớn của tập huấn luyện, nhằm nâng cao độ chính xác phân loại. Thời gian thực hiện: 6-12 tháng, chủ thể: các tổ chức nghiên cứu và doanh nghiệp công nghệ.

- **Cải tiến tiền xử lý ngôn ngữ**: Phát triển các thuật toán tách từ, chuẩn hóa và xử lý biến thể ngôn ngữ mạng xã hội tiếng Việt chuyên sâu hơn, bao gồm nhận diện teencode và biểu tượng cảm xúc. Thời gian: 6 tháng, chủ thể: nhóm nghiên cứu ngôn ngữ tự nhiên.

- **Áp dụng mô hình học sâu (Deep Learning)**: Thử nghiệm các mô hình học sâu như mạng nơ-ron tích chập (CNN) hoặc mạng nơ-ron hồi tiếp (RNN) để khai thác đặc trưng ngữ cảnh và cấu trúc ngôn ngữ phức tạp hơn. Thời gian: 12 tháng, chủ thể: các trung tâm nghiên cứu AI.

- **Tích hợp dữ liệu đa chiều**: Kết hợp dữ liệu văn bản với các thông tin hành vi người dùng như lượt thích fanpage, thời gian hoạt động, mạng lưới kết nối để tăng độ chính xác phân loại nhóm tuổi. Thời gian: 6-9 tháng, chủ thể: doanh nghiệp và tổ chức quản lý mạng xã hội.

- **Phát triển công cụ ứng dụng**: Xây dựng phần mềm hoặc API hỗ trợ phân loại nhóm tuổi người dùng mạng xã hội phục vụ cho các cơ quan quản lý, doanh nghiệp quảng cáo và nghiên cứu thị trường. Thời gian: 6 tháng, chủ thể: doanh nghiệp công nghệ.

## Đối tượng nên tham khảo luận văn

- **Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo**: Nghiên cứu về xử lý ngôn ngữ tự nhiên, học máy và ứng dụng trong phân tích mạng xã hội.

- **Cơ quan quản lý nhà nước về thông tin và truyền thông**: Sử dụng kết quả để xác định chính xác nhóm tuổi người dùng, phục vụ công tác quản lý, phòng chống thông tin giả mạo.

- **Doanh nghiệp quảng cáo và marketing số**: Tận dụng công cụ phân loại nhóm tuổi để thiết kế chiến dịch quảng cáo đúng đối tượng, nâng cao hiệu quả tiếp thị.

- **Các tổ chức nghiên cứu thị trường và xã hội học**: Phân tích hành vi, xu hướng tiêu dùng và tương tác xã hội theo nhóm tuổi dựa trên dữ liệu mạng xã hội.

## Câu hỏi thường gặp

1. **Phân loại nhóm tuổi người dùng mạng xã hội dựa trên ngôn ngữ có khó không?**  
   Việc phân loại gặp nhiều thách thức do ngôn ngữ mạng xã hội biến thể, ngắn gọn và không chuẩn. Tuy nhiên, sử dụng các kỹ thuật học máy như SVM kết hợp tiền xử lý phù hợp giúp đạt độ chính xác khả quan.

2. **Tại sao chọn thuật toán SVM cho bài toán này?**  
   SVM hiệu quả với dữ liệu có số chiều cao, có khả năng xử lý dữ liệu không tuyến tính qua kernel, và đã được chứng minh cho kết quả tốt trong phân loại văn bản.

3. **Dữ liệu thu thập từ đâu và có đảm bảo tính riêng tư không?**  
   Dữ liệu được thu thập từ các bài đăng công khai trên Facebook qua Graph API, đảm bảo không vi phạm quyền riêng tư người dùng.

4. **Độ chính xác phân loại nhóm tuổi đạt bao nhiêu?**  
   Độ chính xác nhóm tuổi dưới 24 tuổi đạt khoảng 66-73%, các nhóm tuổi khác đạt khoảng 50%, phản ánh tính khó khăn của bài toán với ngôn ngữ tiếng Việt.

5. **Có thể áp dụng phương pháp này cho các mạng xã hội khác không?**  
   Có thể áp dụng với điều chỉnh phù hợp cho đặc trưng ngôn ngữ và dữ liệu của từng mạng xã hội, ví dụ Twitter, Zalo, với ngôn ngữ tiếng Việt.

## Kết luận

- Đã xây dựng thành công mô hình phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt dựa trên thuật toán SVM với dữ liệu thực tế.

- Phân loại nhóm tuổi thành 4 nhóm với độ chính xác nhóm tuổi trẻ nhất đạt trên 70% khi sử dụng tập dữ liệu lớn.

- Nghiên cứu làm rõ đặc trưng ngôn ngữ mạng xã hội tiếng Việt và mối liên hệ với nhóm tuổi người dùng.

- Kết quả nghiên cứu cung cấp công cụ hỗ trợ quản lý nhà nước, doanh nghiệp trong việc phân tích và tiếp cận người dùng mạng xã hội hiệu quả.

- Đề xuất hướng phát triển mở rộng dữ liệu, cải tiến kỹ thuật và ứng dụng mô hình học sâu để nâng cao hiệu quả phân loại trong tương lai.

Hành động tiếp theo là triển khai mở rộng thu thập dữ liệu, thử nghiệm các mô hình mới và phát triển công cụ ứng dụng thực tiễn nhằm phục vụ quản lý và kinh doanh trên mạng xã hội.

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH TRUONG DAI HOC BACH KHOA PHAM TIEN PHUC PHAN LOẠI NHÓM TUOI NGƯỜI NGÀNH: KHOA HỌC MÁY TÍNH MÃ NGANH: 60480101 LUAN VAN THAC SI TP. HO CHI MINH, thang 6 nam 2018 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRUONG ĐẠI HOC BACH KHOA —DHQG -HCM Cán bộ hướng dẫn khoa học: PGS. Quản Thanh Tho Cán bộ chấm nhận xét 1: TS. Lê Thanh Vân Cán bộ chấm nhận xét 2: TS.

Nguyễn Thị Thanh Sang Luận văn thạc sĩ được bao vệ tại Truong Đại học Bách Khoa, ĐHQG Tp. HCM ngày 24 tháng 8 năm 2018 Thành phân Hội đồng đánh giá luận văn thạc sĩ gồm: I. Chủ tịch: PGS. Dương Tuan Anh 2 Thư ký: TS.

Võ Thị Ngọc Châu 3 Phản biện 1: TS. Lê Thanh Vân 4. Phản biện 2: TS. Nguyễn Thị Thanh Sang 5 Ủy viên: TS.

Nguyễn Đức Dũng Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI DONG TRƯỞNG KHOA KH&KTMT PGS. Dương Tuấn Anh ĐẠI HỌC QUOC GIA TPHCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc NHIEM VỤ LUẬN VAN THẠC SĨ Họ tên học viên: Phạm Tiễn Phúc.<<<< s52 Nơi sinh: Cần Thơ Ngành: Khoa học May tính. TÊN DE TÀI: PHAN LOẠI NHÓM TUỎI NGƯỜI DUNG MẠNG XA HỘI I.

NHIỆM VU VÀ NỘI DUNG: Phân loại nhóm tudi người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt: - Nghiên cứu lý thuyết về mạng xã hội, ngôn ngữ sử dụng trên mạng xã hội, môi liên hệ nhóm tudi va đặc trưng của ngôn ngữ sử dụng trên mạng xã hội. - Nghiên cứu các phương pháp về phân loại nhóm tuổi người dùng mạng xã hội. - Đề xuất phương pháp phân loại nhóm tuổi người dùng mạng xã hội sử dụng ngôn ngữ tiêng Việt. - Hiện thực, đánh giá và phân tích kết quả thực nghiệm.

NGÀY GIAO NHIỆM VU : 15/01/2018 Iv. NGÀY HOÀN THÀNH NHIỆM VU: 17/6/2018 v. CÁN BỘ HƯỚNG DAN : PGS. Quản Thành Thơ Tp.

HCM, ngày 17 tháng 6 năm 2018 CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT PGS. Quản Thành Thơ ii LOI CAM ON Trước hết, tôi xin bay tỏ lòng biết on chân thành và sâu sắc đến Thay hướng dẫn tôi, PGS. Quản Thành Thơ. Trong suốt quá trình làm luận văn, mặc dù rất bận, nhưng Thây đã tận tình, kiên nhẫn chỉ dan, hỗ trợ tôi thực hiện.

Su hướng dẫn, hỗ trợ quý báu của thây là động lực to tớn để tôi có thể hoàn thành được luận văn này. Tôi xin chân thành cảm ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý Thay Cô tại trường Đại học Bách Khoa thành phố Hồ Chí Minh, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính. Tôi xin chân thành cảm ơn Công ty Cô phan Younet Social Media đã giúp đỡ, hỗ trợ về công nghệ và dữ liệu cho trong quá trình nghiên cứu và thực hiện đề tài. Tôi xin gửi lời cảm ơn đến Ban lãnh đạo Sở Thông tin và Truyền thông thành phố Cân Thơ, Trung tâm Công nghệ Thông tin Cần Thơ, nơi tôi công tác, đã tạo mọi điều kiện thuận lợi cho tôi trong thời gian tham gia học tập.

tôi xin cảm ơn gia đình và các bạn bè, đồng nghiệp đã luôn ủng hộ, động viên tôi trong suốt quá trình học tập và hoàn thành luận văn. ili TÓM TẮT Ngày nay, Internet và mang xã hội như Facebook, Twitter, Zalo. rat phố biến gần như đã trở thành một phân trong cuộc sống hàng ngày của nhiều người. Không chỉ phương tiện thể hiện bản thân, mạng xã hội còn là phương tiện dé mọi người tìm kiếm thông tin, chia sé và liên kết mọi người.

Tuy nhiên, do nhiều nguyên nhân, người dùng đã không cập nhật đầy đủ vào hồ sơ cá nhân, cung cấp thông tin giả hoặc vi tính riêng tư nên đã che dấu thông tin gây nên sự khó khăn trong xác định và sử dụng thông tin. Mục tiêu của đề tài là thực hiện phương pháp sử dụng máy học vector hỗ trợ (Support Vector Machines - SVM) để xác định phân loại nhóm tuổi của người dùng mạng xã hội sử dụng ngôn ngữ tiếng Việt dựa trên các nội dung mà người dùng đã dùng dưới hình thức các văn bản ngắn, ngôn ngữ biến thé lệch chuẩn. Vì thé dé tài sẽ hữu ích khi đề xuất phương pháp trên cơ sở dựa trên một số thông tin của người dùng dé có thé khai phá được thông tin ấn khác nhằm phục vụ các yêu cầu khác nhau. ABSTRACT Today, Internet and Social networks such as Facebook, Twitter, Zalo.

are very popular with peoples. It became part of the fabric of everyday life around the world. We have the ability to see what others are doing, often within seconds of them doing it. Or even better, browsing, searching, and linking tool.

Peoples will be yourself on Social networks. However, user may be not submit fulfill their information, using fake account, or they set their profile to private mode. The purpose of this thesis is using Support Vector Machines (SVM) to classify groups of user social network using Vietnamese language. The classifier process information via short messages and nonstandard language variations.

It would therefore be useful if user profiles can be checked on the basis of text analysis, and false profiles recovered for other requirements. IV LỜI CAM ĐOAN Tôi xin cam đoan răng, ngoại trừ các kêt quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính tôi thực hiện và chưa có phân nội dung nào của luận văn này được nộp dé lay bằng cấp ở một trường khác. HCM, ngày 17 tháng 6 năm 2018 Phạm Tiến Phúc DANH MUC TU VIET TAT Từ viết tắt Diên giai MXH Mang xã hội kNN k Nearest Neighbors LR Linear Regression CNNs Convolutional Neural Network DT Decision Trees BoW Bag of Word SVM Support Vector Machines TF-IDF Term Frequency — Inverse Document Frequency VỊ DANH SÁCH CAC BANG STT | Bang Tén bang Trang 1 | Bang 1.1 Thong kê cum từ tim kiêm về mạng xã hội 7 2 | Bang 2.1 | Phân bô đặc trưng w trong tập văn bản 19 3 Bang 2.2 Các kernel được hỗ trợ của thu viện 25 Sklearn 4 | Bảng 3.1 | Xác định nhóm tuôi trong đê tài 28 5 | Bảng 4.1 | Câu trúc tập dữ liệu huấn luyện và kiểm tra | 38 6 Bảng 4.2 Câu trúc tập dữ liệu huấn luyện và kiểm tra, 39 sau khi da tién xu ly 7 Phân bô độ tudi của toàn bộ 10949 tài Bảng 4.3 | khoản tập huấn luyện và 2000 tài khoản tập | 41 kiểm tra 8 Bang 4.4 Thong kê SO luong dac trung cua tap dir 42 liệu sau khi vector hóa 9 | Bảng 4.5 | Thông sô tìm kiếm bộ tham sô tôi ưu.6 Danh sách 45 đặc trưng hàng dau của mỗi 45 46 nhóm 11 | 4.13 | S6 lượng các mẫu phân loại sai nhóm 46-50 DANH SÁCH CÁC HÌNH Hình Tên hình Trang 1 Hình 1.1 Mức độ pho biến của các trang mạng xã hội trên 4 toàn thê giới tính đên tháng 8/2017 2 | Hình 1.2 Thong kê số liệu sử dụng internet và mang xã hội | 5 3 |Hìnhl3 | 10 quốc gia và thành pho có số người dùng 5 Facebook lớn nhat thê giới, 4 |Hinh2.1 | Ví dụ về mô hình mạng xã hội nhỏ 12 Hình 2.2 | Dữ liệu thông tin cơ bản người dùng dưới dạng 5 aa 13 cau truc JSON 6 | Hinh 2.3 Vi du vé ngôn ngữ su dụng trên mang xã hội 14 7 |Hình2.4_ | Biểu diễn văn bản dưới dạng vector 16 8 | Hinh 2.5 Biéu diễn văn ban dưới dang vector Bag of Word | 17 9 |Hinh2.6 | Biéu diễn văn bản dưới dang vector tfidf 18 10 | Hinh2.7 | Siêu phang phân cách h phân chia 2 tập 20 ¡¡ |Hình28 | Siêu phăng với lễ cực đại cho một SVM phân " tách dữ liệu thuộc hai lớp Vil 12 Hình 2.9 Minh họa bài toán phân 2 lớp, với dữ liệu không 22 nhiêu 13 Hình 2.10 Minh họa bài toán phân 2 lớp, với dữ liệu có 23 nhiêu Hình 2.11 | Minh họa bài toán phân lớp, không thé phân chia 24 14 ¬" tuyên tính 15 | Hình 3.1 Mô hình hệ thông xử lý 29 16 | Hình 4. | Biéu tượng của sklearn 34 17 Hình 4.

| Dang ký tài khoản nhà phát trién phục vụ cho 35 việc thu thập dữ liệu từ Facebook Hình 4. | Sử dụng trình Graph API thu thập dữ liệu từ 18 35 Facebook 19 Hình 44. | Mã truy cập người dùng và mã truy cập ứng dung 36 Facabook Graph API 20 Hình 45. | Graph API hỗ trợ truy xuất các thông tin liên 36 quan dén người dùng Hình 4.

| Thu thập tuổi người dùng phục vu gan nhãn qua 21 ` k AC SA Là ˆ. 37 trình huân luyện mô hình phân loại 22 Hình 4.7 Không thê lây được thông tin ngày sinh do người 37 dùng đã thiêt lập chê độ bảo vệ 23 | Hinh4.8 | Phân chia tập dữ liệu 38 24 | Hinh4.9 | Phân bố độ tudi của 939 tài khoản tập huấn luyện | 39 2s | Hình4.10 | Phân bồ độ tudi của 10949 tài khoản tập huấn 40 luyện 26 | Hình4.11 | Phân bố độ tuổi của 939 tài khoản tập kiêm tra | 40 27 | Hinh 4.12 | Phân bố độ tuôi của 2000 tài khoản tập kiêm tra | 41 28 | Hình 4.13 | Bộ dữ liệu sau khi xử lý, chia tách 42 Hình 4.14 | Kết quả thực thi của các giải thuật trên tập dữ 29 liệu 700 tài khoản huấn luyện và 300 tài khoản 43 kiểm tra Hình 4.15 | Kết quả thực thi trên tập dữ liệu huân luyện 939 30 ` TỐ TA LA ore 44 tài khoản với bộ thông sô tôi ưu ạ¡ | Hình 4.16 Kết quả thực thi trên tập dir liệu huân luyện 5362 AA tài khoản va 2642 kiểm tra với bộ thông số tối ưu Vill MỤC LỤC LOI CAM ON ili TOM TAT iv ABSTRACT iv DANH MUC TU VIET TAT vi DANH SACH CAC BANG Vii DANH SACH CAC HINH vi CHUONG 1 2AwWORD TONG QUAN 1.2 Bài toán và phạm vi 1.3 Những kết quả nghiên cứu liên quan 1.1 Nghiên cứu trong nước 1.2 Các nghiên cứu quốc tế 1.4 Kết quả đạt được và những đóng góp CHƯƠNG 2 CƠ SỞ LÝ THUYET 2.2 Ngôn ngữ sử dụng trên mạng xã hội 2.3 Môi liên hệ nhóm tuôi và đặc trưng của ngôn ngữ sử dụng trên mạng xã hội 2.4 Biêu điện văn bản 2.5 Kỹ thuật TF —IDF (Term Frequency x Inverse Document Frequency) 2.6 Mô hình ngôn ngữ n-gram 2.7 Lựa chọn đặc trưng 2.8 Phương pháp Support Vector Machine - SVM 2.1 SVM tuyến tính 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân loại nhóm tuổi người dùng mạng xã hội bằng máy học" cung cấp cái nhìn sâu sắc về cách mà công nghệ máy học có thể được áp dụng để phân loại người dùng mạng xã hội theo độ tuổi. Bằng cách sử dụng các thuật toán học máy, nghiên cứu này không chỉ giúp xác định các nhóm tuổi khác nhau mà còn phân tích hành vi và sở thích của họ trên các nền tảng mạng xã hội. Điều này mang lại lợi ích lớn cho các nhà tiếp thị và doanh nghiệp, giúp họ tối ưu hóa chiến lược tiếp cận và nội dung phù hợp với từng nhóm đối tượng.

Để mở rộng thêm kiến thức về các yếu tố ảnh hưởng đến quyết định sử dụng mạng xã hội, bạn có thể tham khảo tài liệu Các yếu tố ảnh hưởng đến quyết định sử dụng mạng xã hội tiktok của người dùng trên địa bàn tp hồ chí minh 2023. Tài liệu này sẽ giúp bạn hiểu rõ hơn về các yếu tố tác động đến hành vi người dùng. Ngoài ra, bạn cũng có thể tìm hiểu thêm qua tài liệu Các yếu tố ảnh hưởng đến quyết định sử dụng mạng xã hội tiktok của người dùng trên địa bàn tp hồ chí minh, nơi cung cấp cái nhìn chi tiết hơn về các yếu tố này. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về hành vi người dùng trên mạng xã hội, từ đó nâng cao hiệu quả trong các chiến lược tiếp thị của mình.

#phân tích hành vi người dùng

#tương tác mạng xã hội

#người dùng mạng xã hội

#ngôn ngữ tiếng Việt

#phân tích dữ liệu người dùng

#phân loại nhóm tuổi

Chủ đề

Tác động của mạng xã hội đến người dùng

Ứng dụng máy học trong phân tích dữ liệu

Phân tích hành vi người dùng trên mạng

Xu hướng sử dụng mạng xã hội theo độ tuổi