I. MỞ ĐẦU
Sự phát triển mạnh mẽ của Internet đã tạo ra những thay đổi lớn trong xã hội. Người dùng có thể dễ dàng truy cập thông tin mà không cần cung cấp thông tin cá nhân. Điều này tạo ra thách thức cho các nhà cung cấp dịch vụ trong việc cá nhân hóa trải nghiệm người dùng. Luận án này nghiên cứu việc xác định đặc điểm người dùng thông qua phân tích văn bản và hành vi, sử dụng các phương pháp học máy. Việc này không chỉ giúp tối ưu hóa hệ thống mà còn hỗ trợ trong việc điều tra tội phạm trực tuyến.
1.1 Lý do lựa chọn đề tài
Xác định đặc điểm người dùng là mối quan tâm hàng đầu của các nhà cung cấp dịch vụ trên Internet. Việc có thông tin về giới tính, độ tuổi, và nghề nghiệp giúp tối ưu hóa hệ thống và quảng cáo. Hơn nữa, việc xác định đặc điểm người dùng còn hỗ trợ trong điều tra tội phạm trực tuyến. Tuy nhiên, người dùng thường không cung cấp thông tin cá nhân, tạo ra thách thức cho việc xác định đặc điểm. Do đó, nghiên cứu này tập trung vào việc dự đoán từ các dấu vết người dùng để lại trên hệ thống.
1.2 Mục tiêu của luận án
Luận án đặt ra các mục tiêu nghiên cứu như xác định đặc điểm tác giả văn bản trên các bài viết diễn đàn tiếng Việt và nghiên cứu các phương pháp trích chọn đặc trưng mới. Mục tiêu cũng bao gồm việc nghiên cứu xác định đặc điểm người dùng dựa trên hành vi trong các hệ thống TMĐT. Các phương pháp trích chọn đặc trưng hiệu quả sẽ được đề xuất nhằm nâng cao độ chính xác trong việc nhận diện người dùng.
1.3 Phạm vi nghiên cứu
Luận án tập trung vào người dùng Internet, đặc biệt là người dùng của các hệ thống như website, email, và TMĐT. Nghiên cứu sẽ thực hiện trên các văn bản tiếng Việt, một lĩnh vực chưa được khai thác nhiều. Đối với phân tích hành vi, nghiên cứu sẽ dự đoán giới tính khách hàng dựa trên dữ liệu truy cập hệ thống TMĐT, một lĩnh vực có tiềm năng ứng dụng cao.
1.4 Các đóng góp của luận án
Luận án đóng góp vào lĩnh vực xác định đặc điểm tác giả văn bản và người dùng dựa trên hành vi. Nghiên cứu sẽ ứng dụng các loại đặc trưng và phương pháp nhận diện khác nhau, đặc biệt là trên ngôn ngữ tiếng Việt. Đề xuất các phương pháp trích chọn đặc trưng mới sẽ giúp nâng cao độ chính xác trong việc nhận diện người dùng và tác giả văn bản.
1.5 Bố cục của luận án
Luận án được chia thành ba chương chính. Chương 1 khảo sát và đánh giá các công trình nghiên cứu trong lĩnh vực phân tích tác giả văn bản và dự đoán đặc điểm người dùng. Chương 2 trình bày về xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt. Chương 3 mô tả các kết quả nghiên cứu về dự đoán giới tính khách hàng dựa trên dữ liệu lịch sử truy cập hệ TMĐT.
II. TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG
Chương này trình bày tổng quan về xác định đặc điểm người dùng thông qua phân tích văn bản và hành vi. Các nghiên cứu mới nhất trong hai lĩnh vực này sẽ được đánh giá, tập trung vào các đặc trưng nhận diện và kỹ thuật phân tích. Việc xác định đặc điểm người dùng không chỉ giúp tối ưu hóa trải nghiệm mà còn hỗ trợ trong nhiều lĩnh vực như quảng cáo và điều tra tội phạm.
2.1 Xác định đặc điểm người dùng thông qua phân tích văn bản
Phân tích tác giả văn bản là quá trình phân tích tài liệu để xác định tác giả hoặc các đặc điểm của tác giả. Việc này rất cần thiết trong trường hợp tài liệu không rõ tác giả. Các ứng dụng của phân tích tác giả văn bản bao gồm quảng cáo, phát triển sản phẩm, và điều tra tội phạm. Nghiên cứu đã chỉ ra rằng việc xác định đặc điểm tác giả có thể giúp tối ưu hóa các chiến dịch quảng cáo và hỗ trợ trong việc phát hiện tội phạm.
2.2 Đặc điểm của văn bản trực tuyến
Văn bản trực tuyến có những đặc điểm riêng biệt so với văn bản truyền thống. Chúng thường ngắn gọn và ít tuân thủ quy tắc ngữ pháp. Điều này tạo ra thách thức trong việc phân tích tác giả. Tuy nhiên, số lượng mẫu có thể thu thập dễ dàng hơn từ Internet, giúp cho việc phân tích trở nên khả thi. Các thông tin đi kèm như metadata cũng có thể hỗ trợ trong việc nhận diện tác giả.
2.3 Các dạng thức trong phân tích tác giả văn bản
Nhận diện tác giả là việc xác định một văn bản có phải do một tác giả cụ thể tạo ra hay không. Nghiên cứu đã chỉ ra rằng có nhiều kỹ thuật phân tích khác nhau, từ phương pháp bất biến đơn nhất đến các kỹ thuật học máy. Các phương pháp học máy đã cho thấy hiệu quả cao hơn trong việc phân tích tác giả văn bản, đặc biệt là khi xử lý các tập đặc trưng lớn.