Tổng quan nghiên cứu

Tính đến năm 2018, trên toàn cầu có khoảng 1,24 tỷ website, với hàng nghìn trang web mới được phát triển mỗi ngày. Lượng dữ liệu truy cập khổng lồ từ người dùng tạo ra nguồn thông tin quý giá về hành vi và sở thích của họ khi tương tác với các trang web. Log truy cập website, hay nhật ký truy cập, là tập hợp các bản ghi ghi lại các yêu cầu truy cập tài nguyên của website từ người dùng. Việc thu thập và phân tích log truy cập không chỉ giúp đánh giá hiệu năng hệ thống mà còn hỗ trợ nâng cao trải nghiệm người dùng thông qua việc hiểu rõ hơn về hành vi và nhu cầu của họ.

Luận văn tập trung vào phát triển giải pháp thu thập và phân tích log truy cập website sử dụng kỹ thuật học không giám sát, nhằm xác định các nhóm người dùng có nhu cầu thông tin tương tự nhau. Nghiên cứu được thực hiện trong bối cảnh các hệ thống website phân tán và sự gia tăng sử dụng thiết bị di động, với phạm vi thu thập dữ liệu từ phía máy khách để ghi nhận chính xác các hành vi tương tác như mở trang, click, cuộn chuột. Mục tiêu cụ thể là xây dựng công cụ thu thập log, phát triển thuật toán phân cụm người dùng dựa trên dữ liệu log, và trực quan hóa kết quả phân tích để hỗ trợ quản trị viên website cải thiện cấu trúc, nội dung và trải nghiệm người dùng.

Nghiên cứu có ý nghĩa quan trọng trong việc cung cấp giải pháp tối ưu cho việc thu thập dữ liệu hành vi người dùng thực tế, đồng thời ứng dụng kỹ thuật học không giám sát để khai thác thông tin tiềm ẩn, góp phần nâng cao hiệu quả quản lý và phát triển website trong thời đại số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: học không giám sát và phân cụm dữ liệu. Học không giám sát là kỹ thuật học máy không sử dụng nhãn dữ liệu đầu ra, nhằm khám phá cấu trúc tiềm ẩn trong dữ liệu đầu vào. Phân cụm dữ liệu là một dạng học không giám sát, phân chia tập dữ liệu thành các nhóm sao cho các phần tử trong cùng nhóm có sự tương đồng cao, còn giữa các nhóm thì khác biệt rõ rệt.

Ba khái niệm trọng tâm được sử dụng gồm:

  • Log truy cập website: tập hợp các bản ghi ghi lại các hành vi tương tác của người dùng với website như xem trang, click, cuộn chuột.
  • Đồ thị tương tự người dùng: biểu diễn mối quan hệ tương đồng giữa các người dùng dựa trên hành vi truy cập, với các đỉnh là người dùng và cạnh thể hiện mức độ tương tự.
  • Phân cụm phân cấp: thuật toán phân cụm tạo ra hệ thống phân cấp các nhóm người dùng, giúp phân tích sâu sắc các mức độ mối quan tâm khác nhau.

Ngoài ra, mô hình Latent Dirichlet Allocation (LDA) được áp dụng để xác định chủ đề của các trang web, hỗ trợ phân loại nội dung và phân tích mối quan tâm người dùng theo chủ đề.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là log truy cập website thu thập từ phía máy khách thông qua mã nhúng JavaScript, được xử lý và lưu trữ trên máy chủ thu thập log. Dữ liệu bao gồm các bản ghi hành vi như lượt xem trang, sự kiện click chuột, tìm kiếm, với tổng số bản ghi sau xử lý là khoảng 136,521 lượt xem trang và 210,092 sự kiện chuột.

Phương pháp phân tích sử dụng kỹ thuật phân cụm phân cấp trên đồ thị tương tự người dùng, trong đó độ tương tự được tính dựa trên số lượt truy cập chung theo trang web, chuyên mục và chủ đề. Các bước chính gồm:

  • Loại bỏ dữ liệu dư thừa và chuẩn hóa địa chỉ trang web.
  • Xác định chuyên mục và chủ đề trang web bằng cách sử dụng LDA.
  • Xây dựng đồ thị tương tự người dùng dựa trên các chỉ số truy cập.
  • Áp dụng thuật toán phân cụm đồ thị phân cấp để phân nhóm người dùng.
  • Giải thích ý nghĩa các cụm dựa trên phân tích chuyên mục và chủ đề phổ biến trong từng nhóm.

Quá trình nghiên cứu được thực hiện trên bộ dữ liệu thực nghiệm thu thập từ website PTIT Portal, với timeline nghiên cứu từ năm 2019 đến 2020, bao gồm giai đoạn thu thập dữ liệu, phát triển công cụ, thực nghiệm và phân tích kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả thu thập log phía máy khách: Sau khi loại bỏ dữ liệu dư thừa, số bản ghi lượt xem trang giảm từ 153,085 xuống còn 136,521, sự kiện chuột giảm từ 461,041 xuống còn 210,092, cho thấy việc xử lý dữ liệu giúp giảm tải đáng kể cho quá trình phân tích mà vẫn giữ được thông tin quan trọng.

  2. Xây dựng đồ thị tương tự người dùng: Đồ thị vô hướng với các đỉnh là người dùng và cạnh thể hiện độ tương tự dựa trên lượt truy cập chung theo trang web, chuyên mục và chủ đề được xây dựng thành công. Ví dụ, số lượt truy cập chung theo trang web giữa hai người dùng được tính bằng tổng tích số lượt truy cập các trang chung, với giá trị tương tự nằm trong khoảng 0 đến 1.

  3. Phân cụm người dùng theo mối quan tâm: Thuật toán phân cụm đồ thị phân cấp đã phân chia tập người dùng thành các nhóm có mối quan tâm tương đồng. Ví dụ, một cụm người dùng thường xuyên truy cập các trang thuộc chuyên mục thể thao như bóng đá, quần vợt, bóng chuyền, trong khi cụm khác tập trung vào các chủ đề giáo dục như học bổng, tuyển sinh.

  4. Ý nghĩa phân cụm đa cấp: Hệ thống phân cấp cụm cho phép phân tích sâu hơn về các nhóm người dùng, từ nhóm lớn đến các nhóm con nhỏ hơn, giúp quản trị viên website hiểu rõ hơn về đa dạng nhu cầu và sở thích của người dùng.

Thảo luận kết quả

Kết quả cho thấy việc thu thập log phía máy khách là phương pháp phù hợp để ghi nhận chính xác hành vi người dùng, khắc phục hạn chế của log phía máy chủ do bộ đệm và proxy. Việc sử dụng kỹ thuật học không giám sát, đặc biệt là phân cụm phân cấp trên đồ thị tương tự, giúp phát hiện các nhóm người dùng có nhu cầu thông tin tương tự nhau một cách hiệu quả.

So với các nghiên cứu trước đây tập trung chủ yếu vào phân tích log phía máy chủ hoặc sử dụng các phương pháp phân tích đơn giản, nghiên cứu này đã mở rộng phạm vi thu thập dữ liệu và áp dụng mô hình phân cụm đồ thị phức tạp hơn, mang lại kết quả phân nhóm người dùng có tính chính xác và chi tiết cao hơn.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố số lượng người dùng theo từng cụm, bảng thống kê số lượt truy cập theo chuyên mục và chủ đề trong từng nhóm, giúp trực quan hóa mối quan tâm của người dùng và hỗ trợ ra quyết định cải tiến website.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống thu thập log phía máy khách rộng rãi: Khuyến nghị các tổ chức, doanh nghiệp phát triển website tích hợp mã nhúng JavaScript thu thập log phía máy khách để ghi nhận đầy đủ hành vi người dùng, nâng cao chất lượng dữ liệu phục vụ phân tích. Thời gian thực hiện: 3-6 tháng, chủ thể: bộ phận phát triển web.

  2. Phát triển công cụ phân tích log dựa trên phân cụm phân cấp: Xây dựng hoặc tùy chỉnh phần mềm phân tích log sử dụng thuật toán phân cụm đồ thị phân cấp để phân nhóm người dùng theo mối quan tâm, giúp quản trị viên có cái nhìn sâu sắc về hành vi người dùng. Thời gian: 6-9 tháng, chủ thể: nhóm nghiên cứu và phát triển phần mềm.

  3. Tối ưu hóa nội dung và cấu trúc website dựa trên kết quả phân cụm: Sử dụng thông tin từ các nhóm người dùng để điều chỉnh chuyên mục, nội dung, giao diện nhằm tăng trải nghiệm người dùng và giữ chân khách truy cập lâu hơn. Thời gian: 3-6 tháng, chủ thể: quản trị website và đội ngũ nội dung.

  4. Đào tạo nhân sự về khai phá dữ liệu và phân tích hành vi người dùng: Tổ chức các khóa đào tạo về kỹ thuật học không giám sát, phân cụm dữ liệu và phân tích log truy cập để nâng cao năng lực phân tích và ứng dụng dữ liệu trong quản lý website. Thời gian: liên tục, chủ thể: phòng nhân sự và đào tạo.

Đối tượng nên tham khảo luận văn

  1. Quản trị viên website và nhà phát triển web: Nhận được hướng dẫn chi tiết về cách thu thập và phân tích log truy cập người dùng, từ đó cải thiện hiệu quả quản lý và phát triển website.

  2. Chuyên gia phân tích dữ liệu và học máy: Tham khảo phương pháp ứng dụng học không giám sát và phân cụm phân cấp trên dữ liệu log thực tế, mở rộng kiến thức và ứng dụng trong các dự án tương tự.

  3. Nhà nghiên cứu trong lĩnh vực hệ thống thông tin và công nghệ web: Có cơ sở lý thuyết và thực nghiệm để phát triển các nghiên cứu sâu hơn về khai phá dữ liệu hành vi người dùng trên nền tảng web.

  4. Doanh nghiệp thương mại điện tử và truyền thông số: Áp dụng giải pháp để hiểu rõ hơn về khách hàng, tối ưu hóa trải nghiệm người dùng và tăng hiệu quả kinh doanh trực tuyến.

Câu hỏi thường gặp

  1. Tại sao chọn thu thập log phía máy khách thay vì phía máy chủ?
    Thu thập log phía máy khách ghi nhận chính xác các hành vi tương tác như click, cuộn chuột mà log phía máy chủ không thể ghi nhận do bộ đệm và proxy. Ví dụ, khi người dùng xem lại trang từ bộ đệm trình duyệt, máy chủ không nhận được yêu cầu, dẫn đến thiếu dữ liệu.

  2. Phân cụm phân cấp có ưu điểm gì so với các phương pháp phân cụm khác?
    Phân cụm phân cấp tạo ra hệ thống phân cấp các nhóm, giúp phân tích đa cấp độ mối quan tâm người dùng, phù hợp với dữ liệu phức tạp và không cần xác định trước số lượng cụm. Điều này giúp quản trị viên hiểu sâu sắc hơn về cấu trúc nhóm người dùng.

  3. Làm thế nào để xác định chủ đề của các trang web?
    Sử dụng mô hình Latent Dirichlet Allocation (LDA) để phân tích tiêu đề và nội dung trang web, từ đó xác định các chủ đề ẩn và phân loại trang web theo chủ đề tương ứng, hỗ trợ phân tích mối quan tâm người dùng.

  4. Giá trị ngưỡng trong tính độ tương tự người dùng được xác định như thế nào?
    Các giá trị ngưỡng (αpage, αcate, αtopic) được thiết lập dựa trên phân tích thống kê dữ liệu thực nghiệm, nhằm loại bỏ các lượt truy cập không đáng kể và tập trung vào các mối quan tâm thực sự của người dùng.

  5. Có thể áp dụng giải pháp này cho các website có lượng truy cập lớn không?
    Có thể, tuy nhiên cần cân đối dung lượng lưu trữ và hiệu năng máy chủ thu thập log. Việc loại bỏ dữ liệu dư thừa và xử lý dữ liệu hiệu quả giúp giảm tải, đồng thời có thể mở rộng hệ thống bằng cách phân tán lưu trữ và xử lý.

Kết luận

  • Luận văn đã phát triển thành công giải pháp thu thập và phân tích log truy cập website sử dụng học không giám sát, tập trung vào thu thập dữ liệu phía máy khách để ghi nhận hành vi người dùng chính xác.
  • Áp dụng kỹ thuật phân cụm phân cấp trên đồ thị tương tự người dùng giúp xác định các nhóm người dùng có mối quan tâm tương đồng, hỗ trợ quản trị viên website trong việc tối ưu nội dung và trải nghiệm.
  • Kết quả thực nghiệm trên bộ dữ liệu thực tế cho thấy hiệu quả trong việc giảm dữ liệu dư thừa và phân nhóm người dùng có ý nghĩa.
  • Đề xuất các giải pháp triển khai hệ thống thu thập log, phát triển công cụ phân tích và đào tạo nhân sự nhằm ứng dụng rộng rãi trong thực tế.
  • Các bước tiếp theo bao gồm mở rộng thử nghiệm trên các website khác, tối ưu thuật toán phân cụm và phát triển giao diện trực quan cho người quản trị.

Hành động ngay hôm nay: Các tổ chức và doanh nghiệp nên bắt đầu tích hợp giải pháp thu thập log phía máy khách và áp dụng phân tích phân cụm để nâng cao hiệu quả quản lý website và trải nghiệm người dùng.