Luận văn thạc sĩ phát triển giải pháp thu thập và phân tích log truy cập website sử dụng học không giám sát

Luận văn thạc sĩ phân tích phát triển giải pháp thu thập và phân tích log truy cập website sử dụng học không giám sát, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ LOG TRUY CẬP WEBSITE

1.1. Bài toán thu thập và phân tích log truy cập website

1.2. Các phương pháp thu thập log

1.2.1. Phương pháp thu thập log phía máy chủ

1.2.2. Phương pháp thu thập log phía máy khách

1.2.3. Phương pháp thu thập log qua proxy

1.3. Phương pháp phân tích log

1.4. Giới thiệu học không giám sát

1.5. Một số kỹ thuật phân cụm dữ liệu

1.6. Kết luận chương

2. CHƯƠNG 2: PHƯƠNG PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE

2.1. Xây dựng công cụ thu thập log

2.2. Xây dựng đồ thị tương tự. Loại bỏ các bản ghi dư thừa. Xác định các chuyên mục, chủ đề

2.3. Xác định độ tương tự của người dùng

2.4. Phân cụm người dùng

2.5. Xác định ý nghĩa các cụm người dùng. Kết luận chương

3. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ

3.1. Cài đặt công cụ thu thập log truy cập website

3.2. Yêu cầu hệ thống

3.3. Cài đặt hệ thống

3.4. Phân tích log truy cập website

3.5. Tập dữ liệu thực nghiệm

3.6. Xác dịnh số cụm dữ liệu

3.7. Kết quả thực nghiệm. Xây dựng giao diện công cụ phân tích log truy cập

3.8. Kết luận chương

KẾT LUẬN VÀ KIẾN NGHỊ

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về log truy cập website

Log truy cập website là một phần quan trọng trong việc phân tích hành vi người dùng. Thu thập log truy cập giúp ghi lại các tương tác của người dùng với website, từ đó cung cấp dữ liệu quý giá cho việc cải thiện trải nghiệm người dùng. Các phương pháp phân tích log website hiện nay chủ yếu bao gồm thu thập log từ máy chủ, máy khách và qua proxy. Mỗi phương pháp có những ưu điểm và nhược điểm riêng. Việc phân tích dữ liệu từ log truy cập không chỉ giúp phát hiện lỗi mà còn giúp tối ưu hóa hiệu suất website. Theo nghiên cứu của Jaideep Srivastava và L. Joshila Grace, việc phân tích hành vi người dùng từ log truy cập có thể giúp xác định các nhóm người dùng có nhu cầu thông tin tương tự nhau, từ đó đưa ra các giải pháp cải thiện website.

1.1. Bài toán thu thập log truy cập website

Bài toán thu thập log truy cập website là quá trình ghi lại các tương tác của người dùng với các tài nguyên trên website. Các tài nguyên này bao gồm hình ảnh, file định dạng và mã Javascript. Việc ghi lại các yêu cầu truy cập giúp các nhà phát triển nắm bắt được hành vi người dùng. Phân tích log giúp xác định các vấn đề tồn đọng trong hệ thống, từ đó cải thiện chất lượng dịch vụ. Các phương pháp thu thập log hiện nay bao gồm thu thập log ở máy chủ, máy khách và qua proxy. Mỗi phương pháp đều có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp là rất quan trọng để đảm bảo hiệu quả trong việc phân tích dữ liệu.

1.2. Phương pháp thu thập log

Có ba phương pháp chính để thu thập log truy cập: thu thập log ở máy chủ, máy khách và qua proxy. Phương pháp thu thập log ở máy chủ thường được sử dụng rộng rãi vì tính đơn giản và hiệu quả. Tuy nhiên, nó có nhược điểm là không ghi lại được các tương tác của người dùng khi sử dụng bộ nhớ đệm. Ngược lại, phương pháp thu thập log ở máy khách cho phép ghi lại hành vi người dùng một cách chi tiết hơn, nhưng yêu cầu người dùng phải bật chức năng hỗ trợ. Việc sử dụng các công cụ như Google Analytics và Countly giúp tối ưu hóa quá trình phân tích log website và cung cấp thông tin chi tiết về hành vi người dùng.

II. Phương pháp phân tích log truy cập website

Phân tích log truy cập website là một quá trình quan trọng trong việc hiểu rõ hành vi người dùng. Phân tích dữ liệu từ log giúp xác định các xu hướng và thói quen của người dùng, từ đó đưa ra các quyết định cải thiện website. Kỹ thuật học không giám sát được áp dụng để phân cụm người dùng dựa trên hành vi truy cập. Việc xác định các nhóm người dùng có thể giúp các nhà quản trị website tối ưu hóa nội dung và cấu trúc trang web. Các phương pháp phân tích log hiện nay bao gồm phân tích hành vi người dùng, xác định độ tương tự và phân cụm người dùng. Những kỹ thuật này không chỉ giúp phát hiện các vấn đề mà còn cung cấp thông tin quý giá cho việc phát triển website.

2.1. Xây dựng công cụ phân tích log

Việc xây dựng công cụ phân tích log là một bước quan trọng trong quá trình thu thập và phân tích dữ liệu. Công cụ này cần phải có khả năng xử lý dữ liệu lớn và cung cấp các báo cáo chi tiết về hành vi người dùng. Các công cụ hiện nay thường sử dụng các thuật toán học máy để phân tích và phân cụm dữ liệu. Việc xác định các chuyên mục và chủ đề từ log truy cập giúp các nhà quản trị hiểu rõ hơn về nhu cầu của người dùng. Các công cụ như Google Analytics và Countly cung cấp các tính năng mạnh mẽ cho việc phân tích log, giúp tối ưu hóa trải nghiệm người dùng trên website.

2.2. Phân cụm người dùng

Phân cụm người dùng là một kỹ thuật quan trọng trong phân tích log website. Kỹ thuật này giúp xác định các nhóm người dùng có hành vi tương tự nhau, từ đó đưa ra các giải pháp cải thiện trải nghiệm người dùng. Việc phân cụm dựa trên các chỉ số như thời gian truy cập, số lần nhấp chuột và các hành động khác trên website. Kết quả phân cụm có thể được sử dụng để tối ưu hóa nội dung và cấu trúc website, giúp tăng cường sự hài lòng của người dùng. Kỹ thuật học không giám sát cho phép phân tích dữ liệu mà không cần có nhãn, giúp phát hiện các mẫu hành vi mới mà không bị giới hạn bởi các giả định trước đó.

III. Thực nghiệm và kết quả

Thực nghiệm là bước quan trọng để kiểm tra tính khả thi của các giải pháp thu thập và phân tích log truy cập website. Việc cài đặt công cụ thu thập log và thực hiện phân tích trên bộ dữ liệu thực nghiệm giúp đánh giá hiệu quả của các phương pháp đã đề xuất. Kết quả thực nghiệm cho thấy việc thu thập log truy cập từ phía máy khách mang lại nhiều thông tin hữu ích hơn so với phương pháp thu thập log ở máy chủ. Các chỉ số như tỷ lệ nhấp chuột, thời gian truy cập và hành vi người dùng được ghi lại chi tiết hơn, từ đó giúp các nhà quản trị có cái nhìn rõ ràng hơn về hành vi người dùng. Kết quả phân tích cũng cho thấy sự khác biệt rõ rệt trong hành vi của các nhóm người dùng khác nhau, từ đó đưa ra các giải pháp cải thiện website.

3.1. Cài đặt công cụ thu thập log

Cài đặt công cụ thu thập log là bước đầu tiên trong quá trình thực nghiệm. Các công cụ như Google Analytics và Countly được sử dụng để thu thập dữ liệu từ người dùng. Việc cài đặt cần đảm bảo rằng các mã nhúng được tích hợp đúng cách vào website để ghi lại các hành vi của người dùng. Sau khi cài đặt, công cụ sẽ bắt đầu thu thập dữ liệu và cung cấp các báo cáo chi tiết về hành vi người dùng. Việc theo dõi và phân tích dữ liệu thu thập được giúp các nhà quản trị có cái nhìn tổng quan về hiệu suất của website và hành vi của người dùng.

3.2. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy việc phân tích log truy cập website mang lại nhiều thông tin quý giá cho việc cải thiện trải nghiệm người dùng. Các chỉ số như tỷ lệ nhấp chuột, thời gian truy cập và hành vi người dùng được ghi lại chi tiết hơn, từ đó giúp các nhà quản trị có cái nhìn rõ ràng hơn về hành vi người dùng. Kết quả phân tích cũng cho thấy sự khác biệt rõ rệt trong hành vi của các nhóm người dùng khác nhau, từ đó đưa ra các giải pháp cải thiện website. Việc áp dụng kỹ thuật học không giám sát trong phân tích log giúp phát hiện các mẫu hành vi mới, từ đó tối ưu hóa nội dung và cấu trúc website.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát triển giải pháp thu thập và phân tích log truy cập website sử dụng học không giám sát

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tính đến năm 2018, trên toàn cầu có khoảng 1,24 tỷ website, với hàng nghìn trang web mới được phát triển mỗi ngày. Lượng dữ liệu truy cập khổng lồ từ người dùng tạo ra nguồn thông tin quý giá về hành vi và sở thích của họ khi tương tác với các trang web. Log truy cập website, hay nhật ký truy cập, là tập hợp các bản ghi ghi lại các yêu cầu truy cập tài nguyên của website từ người dùng. Việc thu thập và phân tích log truy cập không chỉ giúp đánh giá hiệu năng hệ thống mà còn hỗ trợ nâng cao trải nghiệm người dùng thông qua việc hiểu rõ hơn về hành vi và nhu cầu của họ.

Luận văn tập trung vào phát triển giải pháp thu thập và phân tích log truy cập website sử dụng kỹ thuật học không giám sát, nhằm xác định các nhóm người dùng có nhu cầu thông tin tương tự nhau. Nghiên cứu được thực hiện trong bối cảnh các hệ thống website phân tán và sự gia tăng sử dụng thiết bị di động, với phạm vi thu thập dữ liệu từ phía máy khách để ghi nhận chính xác các hành vi tương tác như mở trang, click, cuộn chuột. Mục tiêu cụ thể là xây dựng công cụ thu thập log, phát triển thuật toán phân cụm người dùng dựa trên dữ liệu log, và trực quan hóa kết quả phân tích để hỗ trợ quản trị viên website cải thiện cấu trúc, nội dung và trải nghiệm người dùng.

Nghiên cứu có ý nghĩa quan trọng trong việc cung cấp giải pháp tối ưu cho việc thu thập dữ liệu hành vi người dùng thực tế, đồng thời ứng dụng kỹ thuật học không giám sát để khai thác thông tin tiềm ẩn, góp phần nâng cao hiệu quả quản lý và phát triển website trong thời đại số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: học không giám sát và phân cụm dữ liệu. Học không giám sát là kỹ thuật học máy không sử dụng nhãn dữ liệu đầu ra, nhằm khám phá cấu trúc tiềm ẩn trong dữ liệu đầu vào. Phân cụm dữ liệu là một dạng học không giám sát, phân chia tập dữ liệu thành các nhóm sao cho các phần tử trong cùng nhóm có sự tương đồng cao, còn giữa các nhóm thì khác biệt rõ rệt.

Ba khái niệm trọng tâm được sử dụng gồm:

Log truy cập website: tập hợp các bản ghi ghi lại các hành vi tương tác của người dùng với website như xem trang, click, cuộn chuột.
Đồ thị tương tự người dùng: biểu diễn mối quan hệ tương đồng giữa các người dùng dựa trên hành vi truy cập, với các đỉnh là người dùng và cạnh thể hiện mức độ tương tự.
Phân cụm phân cấp: thuật toán phân cụm tạo ra hệ thống phân cấp các nhóm người dùng, giúp phân tích sâu sắc các mức độ mối quan tâm khác nhau.

Ngoài ra, mô hình Latent Dirichlet Allocation (LDA) được áp dụng để xác định chủ đề của các trang web, hỗ trợ phân loại nội dung và phân tích mối quan tâm người dùng theo chủ đề.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là log truy cập website thu thập từ phía máy khách thông qua mã nhúng JavaScript, được xử lý và lưu trữ trên máy chủ thu thập log. Dữ liệu bao gồm các bản ghi hành vi như lượt xem trang, sự kiện click chuột, tìm kiếm, với tổng số bản ghi sau xử lý là khoảng 136,521 lượt xem trang và 210,092 sự kiện chuột.

Phương pháp phân tích sử dụng kỹ thuật phân cụm phân cấp trên đồ thị tương tự người dùng, trong đó độ tương tự được tính dựa trên số lượt truy cập chung theo trang web, chuyên mục và chủ đề. Các bước chính gồm:

Loại bỏ dữ liệu dư thừa và chuẩn hóa địa chỉ trang web.
Xác định chuyên mục và chủ đề trang web bằng cách sử dụng LDA.
Xây dựng đồ thị tương tự người dùng dựa trên các chỉ số truy cập.
Áp dụng thuật toán phân cụm đồ thị phân cấp để phân nhóm người dùng.
Giải thích ý nghĩa các cụm dựa trên phân tích chuyên mục và chủ đề phổ biến trong từng nhóm.

Quá trình nghiên cứu được thực hiện trên bộ dữ liệu thực nghiệm thu thập từ website PTIT Portal, với timeline nghiên cứu từ năm 2019 đến 2020, bao gồm giai đoạn thu thập dữ liệu, phát triển công cụ, thực nghiệm và phân tích kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thu thập log phía máy khách: Sau khi loại bỏ dữ liệu dư thừa, số bản ghi lượt xem trang giảm từ 153,085 xuống còn 136,521, sự kiện chuột giảm từ 461,041 xuống còn 210,092, cho thấy việc xử lý dữ liệu giúp giảm tải đáng kể cho quá trình phân tích mà vẫn giữ được thông tin quan trọng.
Xây dựng đồ thị tương tự người dùng: Đồ thị vô hướng với các đỉnh là người dùng và cạnh thể hiện độ tương tự dựa trên lượt truy cập chung theo trang web, chuyên mục và chủ đề được xây dựng thành công. Ví dụ, số lượt truy cập chung theo trang web giữa hai người dùng được tính bằng tổng tích số lượt truy cập các trang chung, với giá trị tương tự nằm trong khoảng 0 đến 1.
Phân cụm người dùng theo mối quan tâm: Thuật toán phân cụm đồ thị phân cấp đã phân chia tập người dùng thành các nhóm có mối quan tâm tương đồng. Ví dụ, một cụm người dùng thường xuyên truy cập các trang thuộc chuyên mục thể thao như bóng đá, quần vợt, bóng chuyền, trong khi cụm khác tập trung vào các chủ đề giáo dục như học bổng, tuyển sinh.
Ý nghĩa phân cụm đa cấp: Hệ thống phân cấp cụm cho phép phân tích sâu hơn về các nhóm người dùng, từ nhóm lớn đến các nhóm con nhỏ hơn, giúp quản trị viên website hiểu rõ hơn về đa dạng nhu cầu và sở thích của người dùng.

Thảo luận kết quả

Kết quả cho thấy việc thu thập log phía máy khách là phương pháp phù hợp để ghi nhận chính xác hành vi người dùng, khắc phục hạn chế của log phía máy chủ do bộ đệm và proxy. Việc sử dụng kỹ thuật học không giám sát, đặc biệt là phân cụm phân cấp trên đồ thị tương tự, giúp phát hiện các nhóm người dùng có nhu cầu thông tin tương tự nhau một cách hiệu quả.

So với các nghiên cứu trước đây tập trung chủ yếu vào phân tích log phía máy chủ hoặc sử dụng các phương pháp phân tích đơn giản, nghiên cứu này đã mở rộng phạm vi thu thập dữ liệu và áp dụng mô hình phân cụm đồ thị phức tạp hơn, mang lại kết quả phân nhóm người dùng có tính chính xác và chi tiết cao hơn.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố số lượng người dùng theo từng cụm, bảng thống kê số lượt truy cập theo chuyên mục và chủ đề trong từng nhóm, giúp trực quan hóa mối quan tâm của người dùng và hỗ trợ ra quyết định cải tiến website.

Đề xuất và khuyến nghị

Triển khai hệ thống thu thập log phía máy khách rộng rãi: Khuyến nghị các tổ chức, doanh nghiệp phát triển website tích hợp mã nhúng JavaScript thu thập log phía máy khách để ghi nhận đầy đủ hành vi người dùng, nâng cao chất lượng dữ liệu phục vụ phân tích. Thời gian thực hiện: 3-6 tháng, chủ thể: bộ phận phát triển web.
Phát triển công cụ phân tích log dựa trên phân cụm phân cấp: Xây dựng hoặc tùy chỉnh phần mềm phân tích log sử dụng thuật toán phân cụm đồ thị phân cấp để phân nhóm người dùng theo mối quan tâm, giúp quản trị viên có cái nhìn sâu sắc về hành vi người dùng. Thời gian: 6-9 tháng, chủ thể: nhóm nghiên cứu và phát triển phần mềm.
Tối ưu hóa nội dung và cấu trúc website dựa trên kết quả phân cụm: Sử dụng thông tin từ các nhóm người dùng để điều chỉnh chuyên mục, nội dung, giao diện nhằm tăng trải nghiệm người dùng và giữ chân khách truy cập lâu hơn. Thời gian: 3-6 tháng, chủ thể: quản trị website và đội ngũ nội dung.
Đào tạo nhân sự về khai phá dữ liệu và phân tích hành vi người dùng: Tổ chức các khóa đào tạo về kỹ thuật học không giám sát, phân cụm dữ liệu và phân tích log truy cập để nâng cao năng lực phân tích và ứng dụng dữ liệu trong quản lý website. Thời gian: liên tục, chủ thể: phòng nhân sự và đào tạo.

Đối tượng nên tham khảo luận văn

Quản trị viên website và nhà phát triển web: Nhận được hướng dẫn chi tiết về cách thu thập và phân tích log truy cập người dùng, từ đó cải thiện hiệu quả quản lý và phát triển website.
Chuyên gia phân tích dữ liệu và học máy: Tham khảo phương pháp ứng dụng học không giám sát và phân cụm phân cấp trên dữ liệu log thực tế, mở rộng kiến thức và ứng dụng trong các dự án tương tự.
Nhà nghiên cứu trong lĩnh vực hệ thống thông tin và công nghệ web: Có cơ sở lý thuyết và thực nghiệm để phát triển các nghiên cứu sâu hơn về khai phá dữ liệu hành vi người dùng trên nền tảng web.
Doanh nghiệp thương mại điện tử và truyền thông số: Áp dụng giải pháp để hiểu rõ hơn về khách hàng, tối ưu hóa trải nghiệm người dùng và tăng hiệu quả kinh doanh trực tuyến.

Câu hỏi thường gặp

Tại sao chọn thu thập log phía máy khách thay vì phía máy chủ?
Thu thập log phía máy khách ghi nhận chính xác các hành vi tương tác như click, cuộn chuột mà log phía máy chủ không thể ghi nhận do bộ đệm và proxy. Ví dụ, khi người dùng xem lại trang từ bộ đệm trình duyệt, máy chủ không nhận được yêu cầu, dẫn đến thiếu dữ liệu.
Phân cụm phân cấp có ưu điểm gì so với các phương pháp phân cụm khác?
Phân cụm phân cấp tạo ra hệ thống phân cấp các nhóm, giúp phân tích đa cấp độ mối quan tâm người dùng, phù hợp với dữ liệu phức tạp và không cần xác định trước số lượng cụm. Điều này giúp quản trị viên hiểu sâu sắc hơn về cấu trúc nhóm người dùng.
Làm thế nào để xác định chủ đề của các trang web?
Sử dụng mô hình Latent Dirichlet Allocation (LDA) để phân tích tiêu đề và nội dung trang web, từ đó xác định các chủ đề ẩn và phân loại trang web theo chủ đề tương ứng, hỗ trợ phân tích mối quan tâm người dùng.
Giá trị ngưỡng trong tính độ tương tự người dùng được xác định như thế nào?
Các giá trị ngưỡng (αpage, αcate, αtopic) được thiết lập dựa trên phân tích thống kê dữ liệu thực nghiệm, nhằm loại bỏ các lượt truy cập không đáng kể và tập trung vào các mối quan tâm thực sự của người dùng.
Có thể áp dụng giải pháp này cho các website có lượng truy cập lớn không?
Có thể, tuy nhiên cần cân đối dung lượng lưu trữ và hiệu năng máy chủ thu thập log. Việc loại bỏ dữ liệu dư thừa và xử lý dữ liệu hiệu quả giúp giảm tải, đồng thời có thể mở rộng hệ thống bằng cách phân tán lưu trữ và xử lý.

Kết luận

Luận văn đã phát triển thành công giải pháp thu thập và phân tích log truy cập website sử dụng học không giám sát, tập trung vào thu thập dữ liệu phía máy khách để ghi nhận hành vi người dùng chính xác.
Áp dụng kỹ thuật phân cụm phân cấp trên đồ thị tương tự người dùng giúp xác định các nhóm người dùng có mối quan tâm tương đồng, hỗ trợ quản trị viên website trong việc tối ưu nội dung và trải nghiệm.
Kết quả thực nghiệm trên bộ dữ liệu thực tế cho thấy hiệu quả trong việc giảm dữ liệu dư thừa và phân nhóm người dùng có ý nghĩa.
Đề xuất các giải pháp triển khai hệ thống thu thập log, phát triển công cụ phân tích và đào tạo nhân sự nhằm ứng dụng rộng rãi trong thực tế.
Các bước tiếp theo bao gồm mở rộng thử nghiệm trên các website khác, tối ưu thuật toán phân cụm và phát triển giao diện trực quan cho người quản trị.

Hành động ngay hôm nay: Các tổ chức và doanh nghiệp nên bắt đầu tích hợp giải pháp thu thập log phía máy khách và áp dụng phân tích phân cụm để nâng cao hiệu quả quản lý website và trải nghiệm người dùng.

Trích đoạn nội dung tài liệu

Chương 1 giới thiệu tổng quan về log truy cập, các khái niệm. Tìm hiểu phương pháp phân tích log truy cập bằng kỹ thuật học không giám sát. Hai bài toán chính cần giải quyết là bài toán thu thập log truy cập website (ghi lại tương tác của người dùng với nội dung trên website như mở trang, click vào đường link trên trang, click vào nút trên trang web, …) và bài toán phân tích log truy cập website (xác định các nhóm người dùng có nhu cầu thông tin tương tự nhau dựa trên log tương tác ghi lại) 1. Bài toán thu thập và phân tích log truy cập website Log truy cập hay nhật ký, hoặc vết truy cập (gọi tắt là log) là một danh sách các bản ghi mà một hệ thống ghi lại khi xuất hiện các yêu cầu truy cập các tài nguyên của hệ thống.

Log truy cập website (gọi tắt là web log) chứa tất cả các yêu cầu truy cập các tài nguyên của một website. Các tài nguyên của một website như các file ảnh, các mẫu định dạng và file mã Javascript. Khi một người dùng ghé thăm một trang web để tìm một sản phẩm, máy chủ web sẽ tải xuống thông tin và ảnh của sản phẩm và log truy cập sẽ ghi lại các yêu cầu của người dùng đến các tài nguyên thông tin và ảnh của sản phẩm. Trong những năm gần đây, sự phát triển mạnh của dữ liệu lớn, các hệ thống phân tán phục vụ hàng triệu người dùng.

Các hệ thống lớn như website thương mại điện tử, cổng thông tin điện tử mỗi ngày ghi nhận hàng trăm ngàn cho đến hàng triệu bản ghi log truy cập. Dựa trên các dữ liệu đã thu thập được, các nhà phát triển phải tiến hành xử lý, phân tích dữ liệu này để nắm bắt được hiện trạng thực tế của hệ thống. Bài toán phân tích log truy cập là bài toán đang được nhiều nghiên cứu quan tâm, mục tiêu của bài toán là giải quyết các vấn đề còn tồn đọng được ghi nhận (ví dụ các lỗi, các tính năng không hoạt động hoặc hoạt động chưa tốt, …) của hệ thống hiện tại để cải thiện và nâng cao chất lượng của hệ thống. Luan van 4 Thu thập log truy cập website là quá trình ghi lại các tương tác của người dùng với website, ví dụ như: - Xem trang web - Click vào đường dẫn, nút trên trang web - Cuộn chuột trên trang web - Điền dữ liệu vào biểu mẫu, tìm kiếm, … Bài toán phân tích log truy cập website là một bài toán thuộc lĩnh vực khai phá dữ liệu có: - Đầu vào: Các bản ghi dữ liệu truy cập hệ thống về hành vi người dùng.

- Đầu ra: Các kết quả phân tích về hệ thống làm cơ sở để đánh giá, cải thiện chất lượng của website. Để giải quyết hai bài toán trên, chúng ta cần phải tìm hiểu các phương pháp thu thập và phân tích log hiện nay, xem xét các ưu, nhược điểm các phương pháp để lựa chọn các phương pháp phù hợp. Các phương pháp thu thập log. Thông thường, có nhiều hình thức thu thập log truy cập.

Tuy nhiên theo nhóm tác giả Jaideep Srivastava [5] và L. Joshila Grace [7] thu thập log website có ba hình thức phổ biến: Thu thập log ở máy chủ, thu thập log ở máy khách và thu thập log thông qua proxy. Phương pháp thu thập log phía máy chủ Các phần mềm Web server cho phép lưu lại lịch sử tương tác (log tương tác) giữa người dùng với website. Cụ thể khi trình duyệt gửi yêu cầu của người dùng về máy chủ, các thao tác này được ghi lại trong file log.1 là ví dụ một đoạn log như vậy.

Luan van 5 Hình 1.1: Dữ liệu log thu thập trên máy chủ Log phía máy chủ web là một nguồn quan trọng để thực hiện khai thác sử dụng web bởi vì từng bản ghi log sẽ được lưu trữ lại cùng những thông tin về người dùng web được cung cấp bởi trình duyệt. Dữ liệu được ghi trong nhật log máy chủ phản ánh việc truy cập (có thể đồng thời) của trang web bởi nhiều người dùng khác nhau. Những tập tin log có thể được lưu trữ dưới định dạng chung hoặc dạng mở rộng. Máy chủ web cũng dựa vào các tiện ích khác như tập lệnh CGI để xử lý dữ liệu được gửi lại từ trình duyệt của người dùng.

Các máy chủ web triển khai tiêu chuẩn CGI phân tích URI của tệp được yêu cầu để xác định xem đó có phải là chương trình ứng dụng hay không. URI cho các chương trình CGI có thể chứa các giá trị tham số bổ sung được truyền cho ứng dụng CGI. Khi chương trình CGI đã hoàn thành việc thực thi, máy chủ Web sẽ gửi đầu ra của ứng dụng CGI trở lại trình duyệt.2 mô tả quá trình thu thập log phía máy chủ. Giống như các hệ thống bình thường, phía máy chủ ứng dụng web cũng được tích hợp các công cụ để lưu lại các tác động trên hệ thống.

Thông thường, các máy chủ web đều được tích hợp sẵn tính năng này. Một số được cấu hình mặc định, một số trường hợp quản trị viên phải tiến hành cấu hình các thông tin cần lưu log truy cập. Luan van 6 Ưu điểm của phương pháp thu thập log phía máy chủ là thường đi kèm các bộ cài đặt máy chủ web, người quản trị không cần cài đặt thêm phần mềm bên thứ ba, cũng không cần thay đổi mã nguồn website cả phía backend và frontend. Tuy nhiên, cũng có nhiều công cụ được phát triển sẵn với nhiều tính năng nâng cao cho việc thu thập log truy cập.2: Mô hình thu thập log phía máy chủ Tuy nhiên, giải pháp thu thập log phía máy chủ cũng có một số nhược điểm.

Công nghệ web hiện nay có nhiều mức độ lưu bộ đệm ở nhiều bước khác nhau trong môi trường web. Dữ liệu bộ đệm có thể được lưu ở trình duyệt của người sử dụng, hoặc một máy chủ proxy trung gian. Ví dụ, một trang web người dùng vừa truy cập, sau đó không lâu, người dùng lại tiếp tục truy cập lại trang web này, trình duyệt có thể lấy kết quả đã được lưu trước đó để hiển thị cho người dùng. Trong trường hợp này, người dùng vẫn xem được nội dung của trang web, nhưng máy chủ hoàn toàn không biết việc người dùng đang xem trang web đó, dẫn đến dữ liệu log cũng không được ghi lại.

Có thể thấy, các giải pháp thu thập log phía máy chủ phù hợp để sử dụng trong các hệ thống website, với nhiều ưu điểm về hiệu năng, các giải pháp đều hỗ trợ các báo cáo tổng quan về hiệu năng của máy chủ, theo dõi những hoạt động bất thường Luan van 7 của hệ thống. Tuy nhiên các giải pháp thu thập log này không ghi lại được các tương tác của người dùng với hệ thống để giải quyết bài toán đã đưa ra. Phương pháp thu thập log phía máy khách Thu thập log ở phía máy có thể được cài đặt và bằng cách sử dụng các mã hỗ trợ bởi trình duyệt (như Javascripts hoặc Java applets) hoặc bằng cách thay đổi mã nguồn có sẵn của trình duyệt(như Mosaic hay Mozilla) để tăng cường khả năng thu thập dữ liệu. Việc cài đặt thu thập dữ liệu log phía máy khách đòi hỏi phải có sự hợp tác từ phía người dùng, họ cần phải bật chức năng cho phép JavaScripts hay Java applets.

Thật may mắn, ngày nay, các trình duyệt phổ biến đều hỗ trợ Javascripts và mặc định được bật khi trình duyệt được cài đặt, các tính năng chạy trên công nghệ web hiện tại cũng sử dụng rất nhiều mã JavaScripts do đó phần lớn người sử dụng đều bật tính năng này để có thể trải nghiệm tốt nhất với trang web. Ưu điểm của phương pháp này giảm tải được công việc phải xử lý cho máy chủ. Thu thập log phía máy khách giải quyết được các vấn đề liên quan đến dữ liệu được lưu trên bộ nhớ đệm ở phía máy khách hoặc qua các máy chủ proxy, hành vi duyệt web của người dùng vẫn được thu thập do mã nguồn Javascripts được thực thi trên chính trình duyệt mà người dùng sử dụng. Thu thập log phía máy khách bao gồm 2 thành phần, mã nguồn Javascripts được thực thi tại máy khách chỉ thực hiện công việc nhận biết hành vi người dùng, có thể xử lý dữ liệu thô thành dạng dữ liệu đã được tùy biến.

Đằng sau quá trình này, vẫn cần một máy chủ để lưu trữ dữ liệu phục vụ cho quá trình phân tích, khai phá dữ liệu sau này. Sau khi dữ liệu được xử lý sơ bộ ở máy khác, mã nhúng Javascripts sẽ thực hiện quá trình gửi thông tin về phía máy chủ. Máy chủ thu thập log này không nhất thiết phải đặt cùng với máy chủ web. Nó có thể hoạt động độc lập và một máy chủ thu thập log có thể thu thập dữ liệu log cho nhiều trang web thuộc nhiều máy chủ khác nhau.3 mô tả cách hoạt động của phương pháp thu thập log phía máy khách.

Luan van 8 Các website trên toàn cầu ngày càng phát triển, nhu cầu thu thập log trên các webiste cũng ngày càng gia tăng, các dịch vụ thu thập log cũng được các ông lớn trong làng công nghệ chú trọng phát triển. Các công cụ thu thập log được xây dựng sẵn để dễ dàng triển khai, tùy vào tính chất và tính năng các công cụ này có thể miễn phí hoặc trả phí.3: Mô hình thu thập log phía máy khách Trong luận văn này sẽ giới thiệu 2 phần mềm thu thập log phía máy khách là Google Analytics (do Google phát triển) và Countly (Mã nguồn mở - có thể tự cài đặt) 1. Phần mềm thu thập log Google Analytics Google Analytics là một dịch vụ phân tích trang web miễn phí cung cấp cho người quản trị các công cụ để đo lường sự thành công của trang web liên quan đến tiếp thị, tối ưu hóa nội dung hoặc thương mại điện tử. Google Analytics sử dụng kết hợp các cookie và phiên tạm thời để theo dõi hành vi trực tuyến của khách truy cập.

Google Analytics sử dụng cookie của bên thứ nhất để xác định duy nhất từng khách truy cập. Bằng cách truy cập trang web, khách truy cập kích hoạt JavaScript này, thông tin cookie sẽ được chuyển đến tài khoản Google Analytics của người quản trị. Luan van 9 Hình 1.4: Mô hình hoạt động của Google Analytics Quyền riêng tư đã trở thành một chủ đề quan trọng trong phân tích trang web. Là một vấn đề thực tiễn tốt nhất, không nên theo dõi Thông tin nhận dạng cá nhân (Personally Identifiable Information - PII).

Dưới đây là tóm tắt nhanh về thông tin liên quan đến quyền riêng tư liên quan đến Google Analytics: - Google Analytics không báo cáo về thông tin nhận dạng cá nhân.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phát triển giải pháp thu thập và phân tích log truy cập website sử dụng học không giám sát" của tác giả Nguyễn Văn Tiến, dưới sự hướng dẫn của GS. Từ Minh Phương tại Học viện Công nghệ Bưu chính Viễn thông, tập trung vào việc phát triển các giải pháp thu thập và phân tích log truy cập website bằng phương pháp học không giám sát. Nghiên cứu này không chỉ giúp cải thiện khả năng phân tích dữ liệu truy cập mà còn tối ưu hóa trải nghiệm người dùng trên website. Bài viết cung cấp cái nhìn sâu sắc về cách thức mà học máy có thể được áp dụng để phân tích hành vi người dùng, từ đó đưa ra các quyết định chiến lược cho việc phát triển website.

Nếu bạn quan tâm đến các khía cạnh khác của công nghệ thông tin và học máy, bạn có thể tham khảo thêm bài viết "Nghiên cứu ứng dụng học máy trong sửa lỗi tự động các lỗ hổng bảo mật", nơi mà học máy cũng được áp dụng để cải thiện bảo mật hệ thống. Ngoài ra, bài viết "Cài đặt và thực nghiệm SQLCipher trên hệ điều hành Android cho luận văn thạc sĩ" có thể cung cấp cho bạn những hiểu biết về việc bảo vệ dữ liệu trong các ứng dụng di động, một lĩnh vực liên quan mật thiết đến việc phân tích log truy cập. Cuối cùng, bài viết "Luận Văn Thạc Sĩ Về Ngăn Chặn Lan Truyền Thông Tin Xấu Trên Mạng Xã Hội" cũng đề cập đến việc sử dụng công nghệ để phân tích và xử lý thông tin, mở rộng thêm góc nhìn về ứng dụng của học máy trong các lĩnh vực khác nhau.

#học không giám sát

#thu thập log truy cập

#phân tích log website

#giải pháp phân tích dữ liệu

#analyze web traffic

#log analysis techniques

Chủ đề

Công nghệ thông tin và truyền thông

Phân tích dữ liệu lớn

Học máy và ứng dụng

Quản lý và bảo mật website

Luận văn thạc sĩ phát triển giải pháp thu thập và phân tích log truy cập website sử dụng học không giám sát

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ LOG TRUY CẬP WEBSITE

1.1. Bài toán thu thập và phân tích log truy cập website

1.2. Các phương pháp thu thập log

1.2.1. Phương pháp thu thập log phía máy chủ

1.2.2. Phương pháp thu thập log phía máy khách

1.2.3. Phương pháp thu thập log qua proxy

1.3. Phương pháp phân tích log

1.4. Giới thiệu học không giám sát

1.5. Một số kỹ thuật phân cụm dữ liệu

1.6. Kết luận chương

2. CHƯƠNG 2: PHƯƠNG PHÁP THU THẬP VÀ PHÂN TÍCH LOG TRUY CẬP WEBSITE

2.1. Xây dựng công cụ thu thập log

2.2. Xây dựng đồ thị tương tự. Loại bỏ các bản ghi dư thừa. Xác định các chuyên mục, chủ đề

2.3. Xác định độ tương tự của người dùng

2.4. Phân cụm người dùng

2.5. Xác định ý nghĩa các cụm người dùng. Kết luận chương

3. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ

3.1. Cài đặt công cụ thu thập log truy cập website

3.2. Yêu cầu hệ thống

3.3. Cài đặt hệ thống

3.4. Phân tích log truy cập website

3.5. Tập dữ liệu thực nghiệm

3.6. Xác dịnh số cụm dữ liệu

3.7. Kết quả thực nghiệm. Xây dựng giao diện công cụ phân tích log truy cập

3.8. Kết luận chương

KẾT LUẬN VÀ KIẾN NGHỊ

DANH MỤC TÀI LIỆU THAM KHẢO

I. Tổng quan về log truy cập website

1.1. Bài toán thu thập log truy cập website

1.2. Phương pháp thu thập log

II. Phương pháp phân tích log truy cập website

2.1. Xây dựng công cụ phân tích log

2.2. Phân cụm người dùng

III. Thực nghiệm và kết quả

3.1. Cài đặt công cụ thu thập log

3.2. Kết quả thực nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Văn Tiến

Người hướng dẫn: GS. Từ Minh Phương

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Hệ thống thông tin

Đề tài: Giải Pháp Thu Thập Và Phân Tích Log Truy Cập Website Bằng Học Không Giám Sát

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2020

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm