Tổng quan nghiên cứu

Trong bối cảnh công nghệ số phát triển nhanh chóng, người dùng thường xuyên sử dụng nhiều thiết bị điện tử khác nhau như máy tính cá nhân, máy tính bảng và điện thoại thông minh để truy cập Internet. Theo ước tính, khoảng 76% các thiết bị (CDP ID) trong dữ liệu thu thập được từ trang web FPT Shop chỉ có từ 1 đến 3 bản ghi nhật ký (log), điều này làm tăng độ phức tạp trong việc xác định danh tính người dùng trên nhiều thiết bị. Vấn đề nghiên cứu chính của luận văn là phát triển một mô hình định danh khách hàng ẩn danh dựa trên hành vi web, nhằm giải quyết thách thức ghép nối các thiết bị khác nhau thuộc cùng một người dùng trong điều kiện dữ liệu bị ẩn danh và phân tán.

Mục tiêu cụ thể của nghiên cứu là thiết kế và triển khai một khung làm việc Cross-Device Matching có khả năng xử lý dữ liệu hành vi web thực tế từ FPT Shop, bao gồm hai giai đoạn chính: truy xuất (retrieval) và xếp hạng lại (re-ranking). Giai đoạn truy xuất sử dụng phương pháp dựa trên quy tắc đơn giản, so sánh số lượng địa chỉ IP chia sẻ giữa các thiết bị để lọc ra các cặp thiết bị tiềm năng. Giai đoạn xếp hạng lại áp dụng các kỹ thuật học máy giám sát, bao gồm các mô hình phân loại nhị phân và mạng nơ-ron Siamese, nhằm xác định xác suất các cặp thiết bị thuộc về cùng một người dùng.

Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ trang web thương mại điện tử FPT Shop trong khoảng thời gian gần đây, với trọng tâm là các thiết bị có số lượng nhật ký truy cập khác nhau. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trong việc nhận diện người dùng đa thiết bị, góp phần cải thiện trải nghiệm cá nhân hóa, tối ưu hóa chiến dịch quảng cáo và tăng hiệu quả kinh doanh trong lĩnh vực bán lẻ kỹ thuật số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

  • Cross-Device Matching: Phương pháp xác định và liên kết các thiết bị khác nhau thuộc cùng một người dùng dựa trên dữ liệu hành vi web ẩn danh. Hai hướng tiếp cận chính là phương pháp xác định (Deterministic) và phương pháp xác suất (Probabilistic). Luận văn chọn hướng Probabilistic, sử dụng học máy giám sát để dự đoán mối quan hệ giữa các thiết bị.

  • Học máy giám sát (Supervised Learning): Bao gồm các thuật toán phân loại nhị phân (Binary Classification) như Logistic Regression, Random Forest, XGBoost và mạng nơ-ron Siamese. Mục tiêu là xây dựng mô hình dự đoán xác suất hai thiết bị thuộc cùng một người dùng dựa trên các đặc trưng trích xuất.

  • Kỹ thuật trích xuất đặc trưng (Feature Engineering): Sử dụng các đặc trưng thiết bị (loại thiết bị, hệ điều hành, trình duyệt), đặc trưng hành vi (lịch sử duyệt web, tần suất truy cập), đặc trưng ngữ cảnh (địa chỉ IP, thời gian truy cập). Ngoài ra, áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên như TF-IDF và Doc2Vec để biểu diễn dữ liệu dạng văn bản thành vector số.

  • Mô hình học xếp hạng (Learning to Rank): Áp dụng phương pháp xếp hạng cặp thiết bị dựa trên xác suất ghép nối, sử dụng hàm mất mát logistic và tối ưu bằng gradient descent.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu thực tế thu thập từ trang web thương mại điện tử FPT Shop, bao gồm nhật ký truy cập web (log), thông tin thiết bị, địa chỉ IP, và thông tin sản phẩm. Dữ liệu được xử lý và làm sạch, loại bỏ các IP công cộng và IP di động gây nhiễu.

  • Phương pháp phân tích: Nghiên cứu được chia thành hai giai đoạn chính:

    1. Giai đoạn truy xuất (Retrieval): Sử dụng phương pháp quy tắc đơn giản dựa trên số lượng địa chỉ IP chia sẻ để lọc ra các cặp thiết bị tiềm năng. Đặc biệt, với nhóm thiết bị có ít hơn 3 bản ghi log, chỉ xét các cặp thiết bị có ít nhất một địa chỉ IP chung.

    2. Giai đoạn xếp hạng lại (Re-ranking): Áp dụng các mô hình học máy giám sát như XGBoost, Random Forest, Logistic Regression và mạng nơ-ron Siamese để phân loại các cặp thiết bị đã được lọc, dự đoán xác suất hai thiết bị thuộc cùng một người dùng. Các đặc trưng được trích xuất từ chuỗi user-agent, vector hóa bằng TF-IDF, tính toán các chỉ số tương đồng như Levenshtein, Jaro-Winkler, Jaccard và cosine similarity.

  • Cỡ mẫu và chọn mẫu: Dữ liệu huấn luyện được xây dựng từ các cặp CDP ID có nhãn dựa trên FID (cùng người dùng hoặc không), với tỷ lệ nhãn dương khoảng 5%. Bộ dữ liệu kiểm thử gồm khoảng 8.600 cặp thiết bị.

  • Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 1/2024, hoàn thành thu thập và xử lý dữ liệu trong quý 1, phát triển mô hình và thử nghiệm trong quý 2, hoàn thiện luận văn và bảo vệ vào tháng 6/2024.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Phân bố nhật ký truy cập: Khoảng 76% CDP ID có từ 1 đến 3 bản ghi log, cho thấy phần lớn thiết bị có dữ liệu hành vi rất hạn chế, ảnh hưởng đến khả năng ghép nối chính xác.

  2. Hiệu quả phương pháp truy xuất dựa trên IP: Việc sử dụng quy tắc lọc các cặp thiết bị có ít nhất một địa chỉ IP chung giúp giảm đáng kể số lượng cặp cần phân tích, từ N² xuống mức khả thi, đồng thời giữ được độ bao phủ cao các cặp thiết bị cùng người dùng.

  3. Hiệu suất các mô hình phân loại: Trong nhóm các mô hình phân loại nhị phân, XGBoost kết hợp với kỹ thuật undersampling đạt điểm trung bình chính xác (Average Precision) cao nhất, với AP@1000 đạt khoảng 0.2, vượt trội so với Logistic Regression (khoảng 0.13) và Random Forest (khoảng 0.133).

  4. Tác động của kỹ thuật trích xuất đặc trưng: Việc sử dụng các chỉ số tương đồng chuỗi (Levenshtein, Jaro-Winkler, Jaccard) kết hợp với vector hóa TF-IDF và cosine similarity giúp mô hình phân loại cải thiện khả năng phân biệt các cặp thiết bị cùng người dùng, đặc biệt trong trường hợp dữ liệu sparse.

Thảo luận kết quả

Nguyên nhân chính của sự thành công trong việc áp dụng mô hình XGBoost là khả năng xử lý tốt dữ liệu không cân bằng và tận dụng hiệu quả các đặc trưng phức tạp được trích xuất từ dữ liệu hành vi và thiết bị. So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng sử dụng các mô hình boosting trong các bài toán phân loại nhị phân phức tạp.

Việc phân chia dữ liệu thành hai nhóm (Under-3-logs và Over-3-logs) cho phép thiết kế các chiến lược xử lý phù hợp với đặc điểm dữ liệu, từ đó nâng cao hiệu quả tổng thể của hệ thống. Các phương pháp trích xuất đặc trưng dựa trên chuỗi user-agent và kỹ thuật vector hóa văn bản đã chứng minh tính khả thi trong việc biểu diễn hành vi người dùng ẩn danh.

Dữ liệu có thể được trình bày qua biểu đồ phân bố số lượng log trên mỗi CDP ID, biểu đồ so sánh hiệu suất các mô hình phân loại theo các ngưỡng AP@K, và bảng tổng hợp các chỉ số tương đồng chuỗi được sử dụng làm đặc trưng.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống lọc dựa trên địa chỉ IP: Áp dụng quy tắc lọc các cặp thiết bị có ít nhất một địa chỉ IP chung để giảm thiểu số lượng cặp cần phân tích, giúp tiết kiệm tài nguyên tính toán. Thời gian thực hiện: 3 tháng. Chủ thể: Bộ phận phát triển dữ liệu và kỹ thuật của doanh nghiệp.

  2. Phát triển mô hình phân loại XGBoost với kỹ thuật undersampling: Tập trung xây dựng và tối ưu mô hình XGBoost để xử lý dữ liệu không cân bằng, nâng cao độ chính xác trong việc xác định các cặp thiết bị cùng người dùng. Thời gian thực hiện: 4 tháng. Chủ thể: Nhóm nghiên cứu và phát triển AI.

  3. Mở rộng trích xuất đặc trưng từ chuỗi user-agent và hành vi: Áp dụng các chỉ số tương đồng chuỗi và kỹ thuật vector hóa TF-IDF để biểu diễn dữ liệu hành vi, giúp mô hình học máy có thêm thông tin phân biệt. Thời gian thực hiện: 2 tháng. Chủ thể: Nhóm phân tích dữ liệu.

  4. Phân loại và xử lý riêng biệt nhóm thiết bị có ít và nhiều bản ghi log: Thiết kế hai khung xử lý riêng biệt cho nhóm Under-3-logs và Over-3-logs để tối ưu hóa hiệu quả mô hình. Thời gian thực hiện: 3 tháng. Chủ thể: Nhóm phát triển sản phẩm.

  5. Đào tạo và nâng cao nhận thức về bảo mật dữ liệu: Đảm bảo tuân thủ các quy định về bảo mật và ẩn danh dữ liệu người dùng trong quá trình thu thập và xử lý thông tin. Thời gian thực hiện: liên tục. Chủ thể: Ban quản lý và pháp chế.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ Nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học máy giám sát trong bài toán Cross-Device Matching, giúp phát triển kỹ năng nghiên cứu và ứng dụng thực tế.

  2. Chuyên gia phân tích dữ liệu và kỹ sư dữ liệu trong lĩnh vực thương mại điện tử: Cung cấp phương pháp và mô hình xử lý dữ liệu hành vi người dùng đa thiết bị, hỗ trợ tối ưu hóa chiến dịch marketing và cá nhân hóa trải nghiệm khách hàng.

  3. Nhà quản lý sản phẩm và phát triển công nghệ số: Hiểu rõ các thách thức và giải pháp trong việc nhận diện người dùng đa thiết bị, từ đó định hướng phát triển sản phẩm phù hợp với xu hướng thị trường.

  4. Chuyên viên pháp lý và bảo mật thông tin: Nắm bắt các yêu cầu về ẩn danh dữ liệu và bảo vệ quyền riêng tư trong quá trình thu thập và xử lý dữ liệu người dùng trên nền tảng số.

Câu hỏi thường gặp

  1. Cross-Device Matching là gì và tại sao nó quan trọng?
    Cross-Device Matching là kỹ thuật xác định và liên kết các thiết bị khác nhau thuộc cùng một người dùng dựa trên dữ liệu hành vi web. Nó quan trọng vì giúp doanh nghiệp hiểu rõ hành trình khách hàng, cá nhân hóa trải nghiệm và tối ưu hóa chiến dịch quảng cáo.

  2. Tại sao phương pháp probabilistic được chọn thay vì deterministic?
    Phương pháp probabilistic sử dụng học máy để dự đoán mối quan hệ giữa các thiết bị mà không cần dữ liệu đăng nhập trực tiếp, phù hợp với môi trường dữ liệu ẩn danh và đa dạng thiết bị, đồng thời có khả năng mở rộng cao hơn.

  3. Các đặc trưng nào được sử dụng để phân loại các cặp thiết bị?
    Các đặc trưng bao gồm thông tin thiết bị (loại, hệ điều hành, trình duyệt), hành vi truy cập (lịch sử duyệt web, tần suất), địa chỉ IP, chuỗi user-agent được xử lý bằng các chỉ số tương đồng chuỗi và vector hóa TF-IDF.

  4. Mạng nơ-ron Siamese có vai trò gì trong mô hình?
    Mạng nơ-ron Siamese được sử dụng để học biểu diễn đặc trưng của từng thiết bị và so sánh trực tiếp hai thiết bị nhằm xác định khả năng chúng thuộc cùng một người dùng, giúp cải thiện độ chính xác trong việc ghép nối.

  5. Làm thế nào để đánh giá hiệu quả của mô hình Cross-Device Matching?
    Hiệu quả được đánh giá bằng các chỉ số như Average Precision@K (AP@K), F1-score, Precision và Recall trên tập dữ liệu kiểm thử, phản ánh khả năng mô hình xác định chính xác các cặp thiết bị cùng người dùng trong top K dự đoán.

Kết luận

  • Luận văn đã phát triển thành công một khung làm việc Cross-Device Matching dựa trên dữ liệu hành vi web thực tế từ FPT Shop, bao gồm hai giai đoạn truy xuất và xếp hạng lại.

  • Phương pháp sử dụng quy tắc lọc dựa trên địa chỉ IP kết hợp với mô hình học máy giám sát như XGBoost và mạng nơ-ron Siamese giúp nâng cao độ chính xác trong việc xác định các cặp thiết bị cùng người dùng.

  • Kỹ thuật trích xuất đặc trưng từ chuỗi user-agent và vector hóa TF-IDF đóng vai trò quan trọng trong việc biểu diễn dữ liệu sparse và cải thiện hiệu quả mô hình.

  • Phân chia dữ liệu thành nhóm Under-3-logs và Over-3-logs cho phép thiết kế các chiến lược xử lý phù hợp, tối ưu hóa hiệu quả tổng thể.

  • Các bước tiếp theo bao gồm triển khai thực tế mô hình trong môi trường sản xuất, mở rộng nghiên cứu với dữ liệu đa dạng hơn và nâng cao khả năng bảo mật dữ liệu người dùng.

Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các kỹ thuật trong luận văn nhằm nâng cao hiệu quả nhận diện người dùng đa thiết bị trong các ứng dụng thực tế.