I. Giới thiệu
Luận văn thạc sĩ này tập trung vào việc khai thác mẫu tuần tự để phân tích hành vi chuyến đi người dùng. Nghiên cứu sử dụng dữ liệu từ ứng dụng Grab, nơi lịch sử chuyến đi của người dùng được lưu trữ dưới dạng các giao dịch tuần tự. Mục tiêu chính là phát triển một mô hình phân tích dữ liệu để dự đoán hành vi người dùng dựa trên các mẫu tuần tự phổ biến. Khoa học máy tính và khoa học dữ liệu là hai lĩnh vực chính được áp dụng trong nghiên cứu này.
1.1 Tổng quan vấn đề
Dữ liệu chuyến đi người dùng từ ứng dụng Grab được xem như một chuỗi các giao dịch tuần tự. Khai thác mẫu tuần tự là một kỹ thuật quan trọng trong phân tích dữ liệu, giúp phát hiện các mẫu phổ biến trong dữ liệu có yếu tố thời gian. Nghiên cứu này tập trung vào việc áp dụng các thuật toán như Apriori và GSP để phân tích dữ liệu chuyến đi.
1.2 Mục tiêu đề tài
Mục tiêu chính của luận văn là phân tích hành vi chuyến đi người dùng thông qua việc khai thác mẫu tuần tự. Các bước cụ thể bao gồm nghiên cứu lý thuyết, thu thập dữ liệu, xử lý dữ liệu, và thử nghiệm các thuật toán để đưa ra dự đoán hành vi người dùng.
II. Nghiên cứu liên quan
Chương này trình bày các nghiên cứu nổi bật về khai thác mẫu tuần tự, bao gồm các thuật toán như Apriori, GSP, và SPAM. Các phương pháp này được đánh giá dựa trên hiệu quả và khả năng áp dụng vào bài toán phân tích hành vi người dùng.
2.1 Phương pháp tiếp cận dựa trên Apriori
Các thuật toán dựa trên Apriori sử dụng phương pháp tạo-tỉa để giảm thiểu không gian tìm kiếm. GSP là một thuật toán phổ biến trong nhóm này, hoạt động bằng cách duyệt dữ liệu nhiều lần để tìm các mẫu tuần tự phổ biến.
2.2 Phương pháp tiếp cận dựa trên phát triển mẫu
Các thuật toán như PrefixSpan sử dụng phương pháp chia để trị, giảm không gian tìm kiếm bằng cách tạo cơ sở dữ liệu quy chiếu. Phương pháp này hiệu quả trong việc xử lý dữ liệu lớn.
III. Kiến thức nền
Chương này cung cấp các khái niệm cơ bản về khai thác mẫu tuần tự, bao gồm định nghĩa về sequence, itemset, và độ hỗ trợ. Các khái niệm này là nền tảng cho việc hiểu và áp dụng các thuật toán trong nghiên cứu.
3.1 Các khái niệm cơ bản
Một sequence là một danh sách có thứ tự các itemset. Độ hỗ trợ của một sequence được định nghĩa là số lượng khách hàng hỗ trợ sequence đó. Các sequence phổ biến là những sequence đáp ứng ngưỡng hỗ trợ tối thiểu.
3.2 Khai phá mẫu tuần tự
Quá trình khai phá mẫu tuần tự bao gồm các giai đoạn sắp xếp dữ liệu, tìm litemsets, chuyển đổi dữ liệu, và tìm kiếm các sequence phổ biến. Các giai đoạn này được thực hiện tuần tự để đảm bảo hiệu quả trong việc xử lý dữ liệu.
IV. Đề xuất giải pháp
Chương này đề xuất một mô hình hệ thống để phân tích hành vi chuyến đi người dùng thông qua khai thác mẫu tuần tự. Mô hình bao gồm các bước thu thập dữ liệu, xử lý dữ liệu, và dự đoán hành vi dựa trên các mẫu tuần tự phổ biến.
4.1 Mô hình hệ thống
Mô hình hệ thống được thiết kế để thu thập dữ liệu từ ứng dụng Grab, xử lý dữ liệu để tạo các sequence, và áp dụng các thuật toán khai thác mẫu tuần tự để tìm các mẫu phổ biến.
4.2 Dự đoán hành vi
Dựa trên các mẫu tuần tự phổ biến, mô hình đưa ra dự đoán về hành vi chuyến đi của người dùng. Các dự đoán này có thể được sử dụng để cải thiện dịch vụ và tối ưu hóa trải nghiệm người dùng.
V. Thí nghiệm và kết quả
Chương này trình bày quá trình thí nghiệm và kết quả thu được từ việc áp dụng các thuật toán khai thác mẫu tuần tự trên tập dữ liệu chuyến đi người dùng. Các kết quả được đánh giá dựa trên hiệu suất và độ chính xác của các dự đoán.
5.1 Thu thập dữ liệu
Dữ liệu chuyến đi người dùng được thu thập từ ứng dụng Grab và được xử lý để tạo các sequence. Quá trình thu thập và xử lý dữ liệu đảm bảo tính chính xác và đầy đủ của dữ liệu đầu vào.
5.2 Kết quả thí nghiệm
Các thuật toán GSP và PrefixSpan được thử nghiệm trên tập dữ liệu thu thập. Kết quả cho thấy PrefixSpan có hiệu suất tốt hơn trong việc xử lý dữ liệu lớn và tìm các mẫu tuần tự phổ biến.
VI. Kết luận
Luận văn kết luận rằng việc khai thác mẫu tuần tự là một phương pháp hiệu quả để phân tích hành vi chuyến đi người dùng. Các kết quả nghiên cứu có thể được áp dụng trong thực tế để cải thiện dịch vụ và tối ưu hóa trải nghiệm người dùng. Nghiên cứu cũng đề xuất các hướng phát triển trong tương lai, bao gồm việc cải tiến các thuật toán và mở rộng phạm vi ứng dụng.