I. Tính cấp thiết của luận án
Sự phát triển mạnh mẽ của Internet đã tạo ra một lượng lớn dữ liệu từ hành vi người dùng. Hành vi người dùng trên web không chỉ phản ánh nhu cầu mà còn là cơ sở để các doanh nghiệp tối ưu hóa dịch vụ. Việc khai phá dữ liệu từ các nhật ký truy cập web giúp phát hiện xu hướng và nhu cầu của người dùng. Dữ liệu tuần tự từ các phiên truy cập web có thể được sử dụng để dự đoán hành vi trong tương lai. Điều này không chỉ có ý nghĩa trong lĩnh vực thương mại điện tử mà còn trong các ứng dụng khác như trò chơi trực tuyến và IoT. Nghiên cứu này nhằm mục đích phát triển các mô hình dự đoán hiệu quả hơn, từ đó nâng cao trải nghiệm người dùng và tối ưu hóa quy trình kinh doanh.
II. Mục tiêu của luận án
Luận án đặt ra bốn mục tiêu chính nhằm giải quyết bài toán dự đoán hành vi truy cập web. Mục tiêu đầu tiên là nghiên cứu các bài báo liên quan để tìm ra những ưu điểm và hạn chế của các phương pháp hiện tại. Mục tiêu thứ hai là tìm một mô hình cơ sở dữ liệu phù hợp cho việc dự đoán hành vi. Mục tiêu thứ ba là nâng cao độ chính xác của dự đoán thông qua các giải pháp mới. Cuối cùng, mục tiêu thứ tư là giảm thời gian thực thi dự đoán. Những mục tiêu này sẽ được thực hiện thông qua việc phát triển các phương pháp machine learning và thuật toán dự đoán hiệu quả.
III. Các phương pháp nghiên cứu
Luận án sử dụng nhiều phương pháp nghiên cứu để đạt được các mục tiêu đã đề ra. Phương pháp thu thập dữ liệu từ các bộ dữ liệu click-stream và Weblog là bước đầu tiên. Tiếp theo, phương pháp hỏi ý kiến chuyên gia được áp dụng để nhận được những góp ý quý báu từ các nhà nghiên cứu trong lĩnh vực. Cuối cùng, phương pháp nghiên cứu định lượng được sử dụng để phân tích và đánh giá các mô hình dự đoán. Các phương pháp này không chỉ giúp xây dựng cơ sở dữ liệu tuần tự mà còn nâng cao độ chính xác và hiệu quả về thời gian cho việc khai phá dữ liệu.
IV. Đề xuất mô hình dự đoán
Mô hình dự đoán hành vi truy cập web được đề xuất trong luận án dựa trên việc tích hợp các giải pháp nâng cao độ chính xác và giảm thời gian dự đoán. Mô hình này sử dụng Cây dự đoán nén (CPT+) kết hợp với giải thuật PageRank để tối ưu hóa quá trình dự đoán. Việc áp dụng các phương pháp này không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý, từ đó nâng cao trải nghiệm người dùng. Mô hình này có thể được áp dụng rộng rãi trong các lĩnh vực khác nhau, từ thương mại điện tử đến các ứng dụng web phức tạp.
V. Kết luận và kiến nghị
Luận án đã chỉ ra rằng việc khai phá dữ liệu tuần tự có thể mang lại nhiều lợi ích cho việc dự đoán hành vi truy cập web. Các mô hình và giải pháp được đề xuất không chỉ nâng cao độ chính xác mà còn cải thiện hiệu quả về thời gian. Kết quả nghiên cứu này có thể được áp dụng trong thực tiễn để tối ưu hóa các dịch vụ trực tuyến. Đề xuất cho các nghiên cứu tiếp theo là mở rộng mô hình dự đoán để bao quát nhiều lĩnh vực khác nhau, từ đó tạo ra những giá trị thực tiễn cao hơn cho người dùng và doanh nghiệp.