Luận văn thạc sĩ về phân tích danh tính thiết bị từ dữ liệu trên web

Luận văn thạc sĩ nghiên cứu máy tính identity resolution of devices from web data, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Ho Chi Minh City University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

master’s thesis

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGEMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN THẠC SĨ

DECLARATION OF AUTHORSHIP

1. Chapter 1: Topic Introduction

1.1. General Introduction

1.2. Overview about Cross-Device matching

1.3. Thesis Objectives

1.4. Scope of Thesis

2. Chapter 2: Related Work

2.1. An Overview of Cross-Device matching techniques

2.1.1. Deterministic Approach

2.1.2. Probabilistic Approach

3. Ho Chi Minh University of Technology Faculty of Computer Science and Engineering

4. Chapter 4

5. Conclusion

5.1. Conclusion

5.2. Ongoing Issues and Challenges

List of Figures

List of Tables

Tóm tắt

I. Giới thiệu về phân tích danh tính thiết bị

Trong bối cảnh công nghệ phát triển nhanh chóng, người dùng thường xuyên sử dụng nhiều thiết bị điện tử khác nhau để truy cập Internet. Điều này tạo ra những thách thức trong việc xác định và liên kết các hoạt động của người dùng trên các thiết bị khác nhau. Phân tích dữ liệu từ hành vi web trở nên cần thiết để hiểu rõ hơn về hành vi tiêu dùng của người dùng. Luận văn này phát triển một khung làm việc để giải quyết vấn đề danh tính thiết bị bằng cách sử dụng dữ liệu thực tế từ trang web FPT. Các ứng dụng của công nghệ này bao gồm việc tối ưu hóa quảng cáo, nâng cao khả năng chuyển đổi và hiểu rõ hơn về đối tượng khách hàng.

1.1. Tầm quan trọng của phân tích danh tính

Việc xác định danh tính người dùng từ nhiều thiết bị là rất quan trọng trong việc cung cấp trải nghiệm cá nhân hóa. Công nghệ thông tin hiện đại yêu cầu các phương pháp theo dõi người dùng chính xác hơn, không chỉ dựa vào cookie. Các phương pháp truyền thống đang gặp khó khăn trong việc theo dõi hành vi người dùng khi họ sử dụng nhiều thiết bị khác nhau. Thông qua việc phân tích dữ liệu từ hành vi web, các nhà nghiên cứu có thể phát triển các mô hình giúp nhận diện người dùng một cách hiệu quả hơn, từ đó cải thiện chiến lược marketing và tăng cường sự hài lòng của khách hàng.

II. Khung làm việc cho phân tích danh tính thiết bị

Khung làm việc được đề xuất trong luận văn này bao gồm hai giai đoạn chính: truy xuất và xếp hạng lại. Trong giai đoạn truy xuất, một phương pháp đơn giản dựa trên số lượng địa chỉ IP chia sẻ được áp dụng, giúp xác định các thiết bị có thể thuộc về cùng một người dùng. Giai đoạn xếp hạng lại sử dụng các kỹ thuật phức tạp hơn như học máy có giám sát và mạng nơ-ron Siamese để đánh giá khả năng của các cặp thiết bị thuộc về cùng một người dùng. Sự kết hợp giữa các phương pháp này cho phép xây dựng một mô hình mạnh mẽ để giải quyết vấn đề nhận diện thiết bị.

2.1. Các phương pháp truy xuất và xếp hạng lại

Giai đoạn truy xuất sử dụng các phương pháp như phân tích dữ liệu và truy xuất thông tin để xác định các thiết bị có thể liên kết với nhau. Các phương pháp này bao gồm việc sử dụng các mô hình học máy để phân tích hành vi người dùng và đánh giá khả năng kết nối giữa các thiết bị. Giai đoạn xếp hạng lại áp dụng các kỹ thuật như TF-IDF và Doc2Vec để tạo ra vector cho thiết bị, từ đó cải thiện độ chính xác trong việc xác định danh tính người dùng. Các kết quả thử nghiệm cho thấy mô hình này có thể tăng cường khả năng nhận diện danh tính thiết bị một cách hiệu quả.

III. Đánh giá và ứng dụng thực tiễn

Luận văn đã chỉ ra rằng việc áp dụng khung làm việc này có thể mang lại nhiều lợi ích cho các doanh nghiệp trong việc hiểu rõ hơn về hành vi của khách hàng. Các phương pháp phân tích thôgn tin và quản lý dữ liệu giúp các doanh nghiệp tối ưu hóa các chiến dịch marketing và cải thiện trải nghiệm người dùng. Hơn nữa, việc nhận diện danh tính thiết bị cũng góp phần bảo vệ quyền riêng tư của người dùng, khi dữ liệu được ẩn danh và không tiết lộ thông tin cá nhân. Điều này không chỉ giúp doanh nghiệp tuân thủ các quy định về bảo mật thông tin mà còn xây dựng lòng tin từ phía khách hàng.

3.1. Tác động đến ngành công nghiệp

Việc phát triển và áp dụng các phương pháp nhận diện thiết bị từ dữ liệu web có thể tạo ra những thay đổi lớn trong ngành công nghiệp quảng cáo và marketing. Các công ty có thể sử dụng những thông tin này để điều chỉnh các chiến dịch quảng cáo của mình, đảm bảo rằng người dùng không bị làm phiền bởi các quảng cáo không liên quan. Hơn nữa, việc hiểu rõ hơn về hành vi người tiêu dùng trên các thiết bị khác nhau sẽ giúp doanh nghiệp tối ưu hóa quy trình bán hàng và cải thiện mối quan hệ với khách hàng.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính identity resolution of devices from web data

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ số phát triển nhanh chóng, người dùng thường xuyên sử dụng nhiều thiết bị điện tử khác nhau như máy tính cá nhân, máy tính bảng và điện thoại thông minh để truy cập Internet. Theo ước tính, khoảng 76% các thiết bị (CDP ID) trong dữ liệu thu thập được từ trang web FPT Shop chỉ có từ 1 đến 3 bản ghi nhật ký (log), điều này làm tăng độ phức tạp trong việc xác định danh tính người dùng trên nhiều thiết bị. Vấn đề nghiên cứu chính của luận văn là phát triển một mô hình định danh khách hàng ẩn danh dựa trên hành vi web, nhằm giải quyết thách thức ghép nối các thiết bị khác nhau thuộc cùng một người dùng trong điều kiện dữ liệu bị ẩn danh và phân tán.

Mục tiêu cụ thể của nghiên cứu là thiết kế và triển khai một khung làm việc Cross-Device Matching có khả năng xử lý dữ liệu hành vi web thực tế từ FPT Shop, bao gồm hai giai đoạn chính: truy xuất (retrieval) và xếp hạng lại (re-ranking). Giai đoạn truy xuất sử dụng phương pháp dựa trên quy tắc đơn giản, so sánh số lượng địa chỉ IP chia sẻ giữa các thiết bị để lọc ra các cặp thiết bị tiềm năng. Giai đoạn xếp hạng lại áp dụng các kỹ thuật học máy giám sát, bao gồm các mô hình phân loại nhị phân và mạng nơ-ron Siamese, nhằm xác định xác suất các cặp thiết bị thuộc về cùng một người dùng.

Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ trang web thương mại điện tử FPT Shop trong khoảng thời gian gần đây, với trọng tâm là các thiết bị có số lượng nhật ký truy cập khác nhau. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trong việc nhận diện người dùng đa thiết bị, góp phần cải thiện trải nghiệm cá nhân hóa, tối ưu hóa chiến dịch quảng cáo và tăng hiệu quả kinh doanh trong lĩnh vực bán lẻ kỹ thuật số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

Cross-Device Matching: Phương pháp xác định và liên kết các thiết bị khác nhau thuộc cùng một người dùng dựa trên dữ liệu hành vi web ẩn danh. Hai hướng tiếp cận chính là phương pháp xác định (Deterministic) và phương pháp xác suất (Probabilistic). Luận văn chọn hướng Probabilistic, sử dụng học máy giám sát để dự đoán mối quan hệ giữa các thiết bị.
Học máy giám sát (Supervised Learning): Bao gồm các thuật toán phân loại nhị phân (Binary Classification) như Logistic Regression, Random Forest, XGBoost và mạng nơ-ron Siamese. Mục tiêu là xây dựng mô hình dự đoán xác suất hai thiết bị thuộc cùng một người dùng dựa trên các đặc trưng trích xuất.
Kỹ thuật trích xuất đặc trưng (Feature Engineering): Sử dụng các đặc trưng thiết bị (loại thiết bị, hệ điều hành, trình duyệt), đặc trưng hành vi (lịch sử duyệt web, tần suất truy cập), đặc trưng ngữ cảnh (địa chỉ IP, thời gian truy cập). Ngoài ra, áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên như TF-IDF và Doc2Vec để biểu diễn dữ liệu dạng văn bản thành vector số.
Mô hình học xếp hạng (Learning to Rank): Áp dụng phương pháp xếp hạng cặp thiết bị dựa trên xác suất ghép nối, sử dụng hàm mất mát logistic và tối ưu bằng gradient descent.

Phương pháp nghiên cứu

Nguồn dữ liệu: Dữ liệu thực tế thu thập từ trang web thương mại điện tử FPT Shop, bao gồm nhật ký truy cập web (log), thông tin thiết bị, địa chỉ IP, và thông tin sản phẩm. Dữ liệu được xử lý và làm sạch, loại bỏ các IP công cộng và IP di động gây nhiễu.
Phương pháp phân tích: Nghiên cứu được chia thành hai giai đoạn chính:
1. Giai đoạn truy xuất (Retrieval): Sử dụng phương pháp quy tắc đơn giản dựa trên số lượng địa chỉ IP chia sẻ để lọc ra các cặp thiết bị tiềm năng. Đặc biệt, với nhóm thiết bị có ít hơn 3 bản ghi log, chỉ xét các cặp thiết bị có ít nhất một địa chỉ IP chung.
2. Giai đoạn xếp hạng lại (Re-ranking): Áp dụng các mô hình học máy giám sát như XGBoost, Random Forest, Logistic Regression và mạng nơ-ron Siamese để phân loại các cặp thiết bị đã được lọc, dự đoán xác suất hai thiết bị thuộc cùng một người dùng. Các đặc trưng được trích xuất từ chuỗi user-agent, vector hóa bằng TF-IDF, tính toán các chỉ số tương đồng như Levenshtein, Jaro-Winkler, Jaccard và cosine similarity.
Cỡ mẫu và chọn mẫu: Dữ liệu huấn luyện được xây dựng từ các cặp CDP ID có nhãn dựa trên FID (cùng người dùng hoặc không), với tỷ lệ nhãn dương khoảng 5%. Bộ dữ liệu kiểm thử gồm khoảng 8.600 cặp thiết bị.
Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 1/2024, hoàn thành thu thập và xử lý dữ liệu trong quý 1, phát triển mô hình và thử nghiệm trong quý 2, hoàn thiện luận văn và bảo vệ vào tháng 6/2024.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Phân bố nhật ký truy cập: Khoảng 76% CDP ID có từ 1 đến 3 bản ghi log, cho thấy phần lớn thiết bị có dữ liệu hành vi rất hạn chế, ảnh hưởng đến khả năng ghép nối chính xác.
Hiệu quả phương pháp truy xuất dựa trên IP: Việc sử dụng quy tắc lọc các cặp thiết bị có ít nhất một địa chỉ IP chung giúp giảm đáng kể số lượng cặp cần phân tích, từ N² xuống mức khả thi, đồng thời giữ được độ bao phủ cao các cặp thiết bị cùng người dùng.
Hiệu suất các mô hình phân loại: Trong nhóm các mô hình phân loại nhị phân, XGBoost kết hợp với kỹ thuật undersampling đạt điểm trung bình chính xác (Average Precision) cao nhất, với AP@1000 đạt khoảng 0.2, vượt trội so với Logistic Regression (khoảng 0.13) và Random Forest (khoảng 0.133).
Tác động của kỹ thuật trích xuất đặc trưng: Việc sử dụng các chỉ số tương đồng chuỗi (Levenshtein, Jaro-Winkler, Jaccard) kết hợp với vector hóa TF-IDF và cosine similarity giúp mô hình phân loại cải thiện khả năng phân biệt các cặp thiết bị cùng người dùng, đặc biệt trong trường hợp dữ liệu sparse.

Thảo luận kết quả

Nguyên nhân chính của sự thành công trong việc áp dụng mô hình XGBoost là khả năng xử lý tốt dữ liệu không cân bằng và tận dụng hiệu quả các đặc trưng phức tạp được trích xuất từ dữ liệu hành vi và thiết bị. So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng sử dụng các mô hình boosting trong các bài toán phân loại nhị phân phức tạp.

Việc phân chia dữ liệu thành hai nhóm (Under-3-logs và Over-3-logs) cho phép thiết kế các chiến lược xử lý phù hợp với đặc điểm dữ liệu, từ đó nâng cao hiệu quả tổng thể của hệ thống. Các phương pháp trích xuất đặc trưng dựa trên chuỗi user-agent và kỹ thuật vector hóa văn bản đã chứng minh tính khả thi trong việc biểu diễn hành vi người dùng ẩn danh.

Dữ liệu có thể được trình bày qua biểu đồ phân bố số lượng log trên mỗi CDP ID, biểu đồ so sánh hiệu suất các mô hình phân loại theo các ngưỡng AP@K, và bảng tổng hợp các chỉ số tương đồng chuỗi được sử dụng làm đặc trưng.

Đề xuất và khuyến nghị

Triển khai hệ thống lọc dựa trên địa chỉ IP: Áp dụng quy tắc lọc các cặp thiết bị có ít nhất một địa chỉ IP chung để giảm thiểu số lượng cặp cần phân tích, giúp tiết kiệm tài nguyên tính toán. Thời gian thực hiện: 3 tháng. Chủ thể: Bộ phận phát triển dữ liệu và kỹ thuật của doanh nghiệp.
Phát triển mô hình phân loại XGBoost với kỹ thuật undersampling: Tập trung xây dựng và tối ưu mô hình XGBoost để xử lý dữ liệu không cân bằng, nâng cao độ chính xác trong việc xác định các cặp thiết bị cùng người dùng. Thời gian thực hiện: 4 tháng. Chủ thể: Nhóm nghiên cứu và phát triển AI.
Mở rộng trích xuất đặc trưng từ chuỗi user-agent và hành vi: Áp dụng các chỉ số tương đồng chuỗi và kỹ thuật vector hóa TF-IDF để biểu diễn dữ liệu hành vi, giúp mô hình học máy có thêm thông tin phân biệt. Thời gian thực hiện: 2 tháng. Chủ thể: Nhóm phân tích dữ liệu.
Phân loại và xử lý riêng biệt nhóm thiết bị có ít và nhiều bản ghi log: Thiết kế hai khung xử lý riêng biệt cho nhóm Under-3-logs và Over-3-logs để tối ưu hóa hiệu quả mô hình. Thời gian thực hiện: 3 tháng. Chủ thể: Nhóm phát triển sản phẩm.
Đào tạo và nâng cao nhận thức về bảo mật dữ liệu: Đảm bảo tuân thủ các quy định về bảo mật và ẩn danh dữ liệu người dùng trong quá trình thu thập và xử lý thông tin. Thời gian thực hiện: liên tục. Chủ thể: Ban quản lý và pháp chế.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ Nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học máy giám sát trong bài toán Cross-Device Matching, giúp phát triển kỹ năng nghiên cứu và ứng dụng thực tế.
Chuyên gia phân tích dữ liệu và kỹ sư dữ liệu trong lĩnh vực thương mại điện tử: Cung cấp phương pháp và mô hình xử lý dữ liệu hành vi người dùng đa thiết bị, hỗ trợ tối ưu hóa chiến dịch marketing và cá nhân hóa trải nghiệm khách hàng.
Nhà quản lý sản phẩm và phát triển công nghệ số: Hiểu rõ các thách thức và giải pháp trong việc nhận diện người dùng đa thiết bị, từ đó định hướng phát triển sản phẩm phù hợp với xu hướng thị trường.
Chuyên viên pháp lý và bảo mật thông tin: Nắm bắt các yêu cầu về ẩn danh dữ liệu và bảo vệ quyền riêng tư trong quá trình thu thập và xử lý dữ liệu người dùng trên nền tảng số.

Câu hỏi thường gặp

Cross-Device Matching là gì và tại sao nó quan trọng?
Cross-Device Matching là kỹ thuật xác định và liên kết các thiết bị khác nhau thuộc cùng một người dùng dựa trên dữ liệu hành vi web. Nó quan trọng vì giúp doanh nghiệp hiểu rõ hành trình khách hàng, cá nhân hóa trải nghiệm và tối ưu hóa chiến dịch quảng cáo.
Tại sao phương pháp probabilistic được chọn thay vì deterministic?
Phương pháp probabilistic sử dụng học máy để dự đoán mối quan hệ giữa các thiết bị mà không cần dữ liệu đăng nhập trực tiếp, phù hợp với môi trường dữ liệu ẩn danh và đa dạng thiết bị, đồng thời có khả năng mở rộng cao hơn.
Các đặc trưng nào được sử dụng để phân loại các cặp thiết bị?
Các đặc trưng bao gồm thông tin thiết bị (loại, hệ điều hành, trình duyệt), hành vi truy cập (lịch sử duyệt web, tần suất), địa chỉ IP, chuỗi user-agent được xử lý bằng các chỉ số tương đồng chuỗi và vector hóa TF-IDF.
Mạng nơ-ron Siamese có vai trò gì trong mô hình?
Mạng nơ-ron Siamese được sử dụng để học biểu diễn đặc trưng của từng thiết bị và so sánh trực tiếp hai thiết bị nhằm xác định khả năng chúng thuộc cùng một người dùng, giúp cải thiện độ chính xác trong việc ghép nối.
Làm thế nào để đánh giá hiệu quả của mô hình Cross-Device Matching?
Hiệu quả được đánh giá bằng các chỉ số như Average Precision@K (AP@K), F1-score, Precision và Recall trên tập dữ liệu kiểm thử, phản ánh khả năng mô hình xác định chính xác các cặp thiết bị cùng người dùng trong top K dự đoán.

Kết luận

Luận văn đã phát triển thành công một khung làm việc Cross-Device Matching dựa trên dữ liệu hành vi web thực tế từ FPT Shop, bao gồm hai giai đoạn truy xuất và xếp hạng lại.
Phương pháp sử dụng quy tắc lọc dựa trên địa chỉ IP kết hợp với mô hình học máy giám sát như XGBoost và mạng nơ-ron Siamese giúp nâng cao độ chính xác trong việc xác định các cặp thiết bị cùng người dùng.
Kỹ thuật trích xuất đặc trưng từ chuỗi user-agent và vector hóa TF-IDF đóng vai trò quan trọng trong việc biểu diễn dữ liệu sparse và cải thiện hiệu quả mô hình.
Phân chia dữ liệu thành nhóm Under-3-logs và Over-3-logs cho phép thiết kế các chiến lược xử lý phù hợp, tối ưu hóa hiệu quả tổng thể.
Các bước tiếp theo bao gồm triển khai thực tế mô hình trong môi trường sản xuất, mở rộng nghiên cứu với dữ liệu đa dạng hơn và nâng cao khả năng bảo mật dữ liệu người dùng.

Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các kỹ thuật trong luận văn nhằm nâng cao hiệu quả nhận diện người dùng đa thiết bị trong các ứng dụng thực tế.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERISTY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGO TRIEU LONG IDENTITY RESOLUTION OF DEVICES FROM WEB DATA Major: COMPUTER SCIENCE Major code: 8480101 MASTER’S THESIS HO CHI MINH CITY, June 2024 THIS THESIS IS COMPLETED AT HO CHI MINH UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisors: Assoc. Huynh Tuong Nguyen Assoc. Quan Thanh Tho Examiner 1: Dr. Vo Thi Ngoc Chau Examiner 2: Dr.

Nguyen Thi Thuy Loan This master’s thesis is defended at Ho Chi Minh City University of Technology (HCMUT) – VNU-HCM on 17th June 2024. Master’s Thesis Committee: 1. Le Hong Trang Chairman 2. Vo Thi Ngoc Chau Examiner 1 3.

Nguyen Thi Thuy Loan Examiner 2 4. Mai Hoang Bao An Commissioner 5. Le Thanh Van Secretary Approval of the Chairperson of the Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis being corrected (If any). CHAIRMAN OF DEAN OF FACULTY OF THESIS COMMITTEE COMPUTER SCIENCE AND ENGINEERING VIỆT NAM NANTIONAL UNIVERSITY – HO CHI MINH CITY SOCIALIST REPUBLIC OF VIET NAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: Ngo Trieu Long Student ID: 2270386 Date of birth: 09/06/1996 Place of birth: Quang Ngai Major: Computer Science Major ID: 8480101 I.

THESIS TITLE (in English): Identity resolution based on web script II. THESIS TITLE (in Vietnamese): Định danh khách hàng ẩn danh dựa trên hành vi web III. TASKS AND CONTENTS: a. Research and design a model capable of identifying users from web browsing data.

Implement, test and evaluate the model. THESIS START DAY: 15/01/2024 V. THESIS COMPLETION DAY: 20/05/2024 VI. HUYNH TUONG NGUYEN 2.

QUAN THANH THO Ho Chi Minh City, date 05/08/2024 SUPERVISOR SUPERVISOR CHAIRMAN OF PROGRAM (Full name and signature) (Full name and signature) COMMITTEE (Full name and signature) DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING (Full name and signature) VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness i ACKNOWLEDGEMENTS To complete this thesis, I received substantial support from many sources. First and foremost, I would like to extend my sincere gratitude to my direct supervisors, Assoc. Quan Thanh Tho and Assoc. Huynh Tuong Nguyen.

They have been the principal guides, providing resources, monitoring the progress of this topic, and offering support whenever I encountered difficulties. Above all, they have inspired me with a passion for machine learning, deep learning, natural language processing, and many other areas in the field of Computer Science since my days as a student at the Polytechnic University. My heartfelt gratitude also goes to the dedicated teachers and assistants in the Department of Computer Science and Engineering at Ho Chi Minh City University of Technology. The knowledge I have gained from them is invaluable and has greatly assisted me in completing this thesis.

I also wish to express my thanks to the Center for Applied Data Science at FPT Corporation for providing me with the opportunity to delve into research and enhance my professional knowledge, as well as for supporting resources for model training which contributed to the completion of this thesis. Lastly, I want to thank my family, relatives, and friends, all of whom have shown concern, encouraged, and supported me both physically and mentally, enabling me to maintain the strength and health needed to successfully complete this thesis. With sincere gratitude, I wish health and all the best to all the professors and lecturers in the Department of Computer Science and Engineering at Ho Chi Minh City University of Technology, National University of Ho Chi Minh City." This revision ensures consistency in verb tenses and agreement, provides clearer attribution of support and inspiration, and maintains a formal but heartfelt tone appropriate for thesis acknowledgments. ii VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness ABSTRACT In the context of rapid technological diversification, individuals frequently use multiple electronic devices—such as personal computers, tablets, and smartphones—to access the Internet.

This multiplicity enhances the complexity of consumer behaviors, which now vary significantly across different platforms. Moreover, with the tightening of personal privacy regulations, user data on the Internet increasingly requires anonymization, complicating the tracking of user activities across devices. This thesis develops a cross- device matching framework to address these challenges using real-world data from the website fpt. The framework is designed to accommodate both device groups that receive sparse logs and those that receive frequent logs, encompassing two main stages: retrieval and re-ranking.

In the retrieval stage, a simple rule-based method utilizing the number of shared IP addresses is employed. The re-ranking stage, however, applies more sophisticated techniques. Initially, various methods were explored to represent device information, employing advanced NLP techniques such as TF-IDF and Doc2Vec for device embedding. Subsequently, extensive feature engineering on the input vectors was conducted, and different supervised classification models, as well as a Siamese Network, were utilized to determine the likelihood of device pairs belonging to the same user.

iii VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness TÓM TẮT LUẬN VĂN THẠC SĨ Trong bối cảnh công nghệ đang phát triển nhanh chóng, người dùng thường xuyên sử dụng nhiều thiết bị điện tử khác nhau—như máy tính cá nhân, máy tính bảng và điện thoại thông minh—để truy cập Internet. Sự đa dạng này làm tăng độ phức tạp của hành vi tiêu dùng, vốn thay đổi đáng kể trên các nền tảng khác nhau. Hơn nữa, với việc thắt chặt các quy định về bảo mật thông tin cá nhân, dữ liệu người dùng trên Internet ngày càng cần phải được ẩn danh, làm phức tạp hóa việc theo dõi các hoạt động của người dùng trên nhiều thiết bị. Luận văn này phát triển một khung làm việc để ghép nối các thiết bị chéo nhằm giải quyết các thách thức này bằng cách sử dụng dữ liệu thực tế từ trang web fpt.

Khung làm việc này được thiết kế để đáp ứng cả những nhóm thiết bị nhận được ít nhật ký và những nhóm nhận được nhật ký thường xuyên, bao gồm hai giai đoạn chính: truy xuất và xếp hạng lại. Trong giai đoạn truy xuất, một phương pháp đơn giản dựa trên quy tắc sử dụng số lượng địa chỉ IP chia sẻ được áp dụng. Tuy nhiên, giai đoạn xếp hạng lại áp dụng các kỹ thuật tinh vi hơn. Ban đầu, nhiều phương pháp khác nhau đã được khám phá để đại diện cho thông tin thiết bị, sử dụng các kỹ thuật NLP tiên tiến như TF-IDF và Doc2Vec để tạo vector cho thiết bị.

Sau đó, việc kỹ thuật tính năng rộng rãi trên các vector đầu vào đã được thực hiện, và các mô hình phân loại có giám sát khác nhau cũng như Mạng nơ-ron Siamese đã được sử dụng để xác định khả năng các cặp thiết bị thuộc về cùng một người dùng. iv VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness DECLARATION OF AUTHORSHIP I hereby declare that the thesis titled: “IDENTITY RESOLUTION OF DEVICES FROM WEB DATA” is my own research work. The documentation used in this thesis has been clearly stated in the References section. The data and results presented in this thesis are entirely truthful, and I am fully responsible for any inaccuracies and will accept any discipline set forth by the department and the university.

SUPERVISOR SUPERVISOR STUDENT (Full name and signature) (Full name and signature) (Full name and signature) Ngo Trieu Long v Contents 1 Topic Introduction 1 1.2 Overview about Cross-Device matching .4 Scope of Thesis .1 An Overview of Cross-Device matching techniques .2 Supervised Machine learning method .3 Candidate Filtering Techniques .3 Graph-Based method .1 Logistic Regression: A Key Technique .3 Learning to Rank. 20 vi Ho Chi Minh University of Technology Faculty of Computer Science and Engineering 3.2 Optimization and Learning .1 Gradient Boosting Framework .5 Text Information Retrieval .2 Dataset and data pre-processing method .3 Proposed Model and Evaluation Metrics .1 Supervised Training Set Construction .4 Under-3-logs Framework .1 Motivation and idea .2 Feature Extraction and Engineering .3 Experimental results and discussion .5 Over-3-logs Framework .1 Motivation and Idea .2 Vectorization and Feature Extraction .3 Experimental results and discussion. 47 5 Conclusion 50 vii Ho Chi Minh University of Technology Faculty of Computer Science and Engineering 5.2 Ongoing Issues and Challenges. 54 viii List of Figures 1.1 Overview of the Cross-Device User Linking problem.

Events are grouped into sessions in preprocessing.1 Overall Flow and Architecture of Cross-Device matching pipeline (Phan, 2017) [4].2 Candidate Filtering method of (Lin, 2021) [11].3 Resolving user identity: Transitioning from device-level to user- level view using device graph [12].1 Supervised Learning Model.2 An overview of Learning to Rank method.3 A simple Information Retrieval pipeline.1 Overview of the solution process [11].2 Data taken from fptshop.3 The distribution of log entries per CDP ID.4 Illustration of classification training set construction.5 Parsing of user agent string for feature extraction.6 Extract similarity feature for matching comparison.7 Transformation of CDP ID to vector form by the Doc2vec algorithm.8 Extract similarity feature from CDP ID vector.9 Example of siamese network. 45 ix List of Tables 4.1 Evaluation scores on CIKM Cup 2016 [11] .2 Performance of different algorithms at various AP thresholds .3 Performance of different algorithms at various AP thresholds .4 Performance comparison of different log usage strategies. 47 x Chapter 1 Topic Introduction 1.1 General Introduction The advent of the digital era has fundamentally changed the way we inter- act with the internet. As the digital landscape evolves, users are no longer limited to traditional PCs for web access; smartphones, tablets, and smartwatches have become equally prevalent.

This shift presents a unique challenge: accurately linking the multiple device activities of users to a single identity. Addressing this challenge is crucial for creating a comprehensive view of the customer jour- ney, which is instrumental in delivering personalized experiences that enhance customer satisfaction and drive business growth. Various applications of this technology, such as: • Impression Capping: Ensuring a user doesn’t encounter the same adver- tisement excessively across devices. • Conversion Uplift: Identifying effective media channels to increase user conversion into permanent subscribers.

• Audience Understanding: Gaining accurate audience insights by consoli- dating user identities across devices. 1 Ho Chi Minh University of Technology Faculty of Computer Science and Engineering Historically, these professionals have depended on cookies to track and tar- get users across the web. However, as users increasingly diversify their device usage beyond traditional web browsers, cookies are losing their effectiveness in tracking user behavior comprehensively. To overcome these limitations, there is a growing need for a new paradigm Cross-Device Matching [1], which proposes sophisticated methods for consistent and accurate user tracking that does not overly depend on cookie-based mapping.

This thesis is driven by the necessity of developing such innovative frameworks to meet the demands of modern digital analytics.2 Overview about Cross-Device matching Cross-Device matching is a methodological challenge in data science that aims to identify and associate multiple online user activities to a single individual across a range of personal devices. The input of the problem often contains: • Anonymized User Data: This includes browsing logs and clickstream data, with identifiers that are unique to each device but do not reveal the actual identity of the user. • Device Logs: These contain anonymized records of user activities across different devices, including timestamps, visited URLs (obfuscated), and HTML titles. There are two main approaches for solving cross-device matching task.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ về phân tích danh tính thiết bị từ dữ liệu trên web của tác giả Ngô Triệu Long, dưới sự hướng dẫn của PGS.TS Huỳnh Tường Nguyên và PGS.TS Quản Thành Thơ, được thực hiện tại Trường Đại Học Bách Khoa TP. Hồ Chí Minh vào năm 2024. Nghiên cứu này tập trung vào việc phát triển các giải pháp để phân tích và xác định danh tính thiết bị thông qua dữ liệu thu thập từ web. Những điểm chính của bài luận văn bao gồm phương pháp thu thập dữ liệu, kỹ thuật phân tích và ứng dụng trong thực tế. Độc giả sẽ tìm thấy nhiều lợi ích từ việc hiểu rõ hơn về cách mà dữ liệu web có thể được sử dụng để xác định danh tính thiết bị, từ đó có thể áp dụng vào các lĩnh vực như bảo mật mạng, phân tích hành vi người dùng và tối ưu hóa trải nghiệm người dùng.

Để mở rộng thêm kiến thức về các khía cạnh liên quan, bạn có thể tham khảo các bài viết sau đây: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi trình bày về việc sử dụng dữ liệu để cải thiện nhận diện giọng nói, hay Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép, bài viết này có thể giúp bạn hiểu rõ hơn về việc ứng dụng công nghệ trong việc bảo mật và phân tích dữ liệu. Cuối cùng, Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ cũng mang lại cái nhìn sâu sắc về cách dữ liệu có thể được áp dụng trong lĩnh vực nhận diện giọng nói. Những tài liệu này sẽ cung cấp cho bạn nhiều góc nhìn bổ ích và mở rộng kiến thức trong lĩnh vực công nghệ thông tin và phân tích dữ liệu.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#an ninh mạng

#công nghệ thông tin

#truyền thông số

#phân tích danh tính thiết bị

Chủ đề

Công nghệ thông tin và truyền thông

An ninh mạng và bảo mật dữ liệu

Phân tích dữ liệu lớn

Nghiên cứu và phát triển trong lĩnh vực công nghệ