ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HàNội - 2016 z ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành:Hệ thống thông tin Chuyênngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn HàNội - 2016 z LỜI CẢM ƠN Trƣớc hết, tôi xin gửi lời biết ơn sâu sắc đến ngƣời thầy PGS. TS Hoàng Xuân Huấn đã dành rất nhiều thời gian và tâm huyết hƣớng dẫn nghiên cứu và giúp tôi hoàn thành tốt luận văn tốt nghiệp này. Thầy đã mở ra cho tôi những vấn đề khoa học rất lý thú, định hƣớng nghiên cứu các lĩnh vực hết sức thiết thực, đồng thời tạo điều kiện thuận lợi tốt nhất cho tôi học tập và nghiên cứu. Tôi cũng xin đƣợc bày tỏ lòng biết ơn tới các thầy cô trƣờng Đại học Công nghệ đã tham gia giảng dạy và chia sẻ những kinh nghiệm quý báu cho tập thể và cá nhân tôi nói riêng. Tôi xin cảm ơn tất cả các Anh, Chị và các bạn luôn chia sẻ, giúp đỡ, trao đổi, góp ý trong quá trình học tập. Tôi xin gửi lời biết ơn tới bố mẹ, gia đình và ngƣời thân đã tạo mọi điều kiện tốt nhất để tôi cơ hội lựa chọn con đƣờng đi của mình. Một lần nữa, tôi xin chân thành cảm ơn! Hà Nội, tháng 11 năm 2016. Học viên Vi Văn Sơn z LỜI CAM ĐOAN Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu. Trong quá trình làm luận văn tôi có tham khảo các tài liệu có liên quan và đã ghi rõ nguồn tài liệu tham khảo đó. Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai. Hà Nội, tháng 11 năm 2016. Học viên Vi Văn Sơn z MỤC LỤC MỞ ĐẦU . 1 CHƢƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU .1 Phân cụm dữ liệu là gì.2 Thế nào là phân cụm tốt .3 Các ứng dụng của phân cụm dữ liệu .4 Các kiểu dữ liệu và độ đo tƣơng tự .1 Cấu trúc dữ liệu .2 Các kiểu dữ liệu .5 Các phƣơng pháp và các thuật toán phân cụm dữ liệu.1 Phương pháp phân cấp .2 Phương pháp phân hoạch .3 Phương pháp dựa trên mật độ .4 Phương pháp dựa trên lưới . 19 Chƣơng II LÝ THUYẾT TẬP THÔ .2 Các khái niệm cơ bản .1 Hệ thống thông tin .2 Bảng quyết định (Decision Table) .3 Quan hệ không phân biệt được .4 Các khái niệm xấp xỉ trong tập thô .3 Rút gọn các thuộc tính trong hệ thống thông tin.4 Ma trận phân biệt và hàm phân biệt .5 Hàm Thành Viên Thô . 30 Chƣơng III ÁP DỤNG THUẬT TOÁN PHÂN CỤM THÔ VÀO BÀI TOÁNPHÂN CỤM NGƢỜI DÙNG TRÊN WEB .3 Dữ liệu tuần tự .5 Thuật toán phân cụm thô .6 Kết quả thử nghiệm với = 0. 44 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN . 45 TÀI LIỆU THAM KHẢO . 46 z DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT CSDL Cơ sở dữ liệu DBSCAN Density – Based Spatial Clustering of Applications with Noise FN Furthest Neighbour GIS Geographic Information System LLCS Length of longest common subsequence NN Nearest Neighbour PCDL Phân cụm dữ liệu RelSim Relative similarity S3M Similarity measure for sequences SeqSim Sequence similarity SetSim Set similarity STING STatistical Information Grid approach z DANH MỤC HÌNH VẼ Hình 1.1 Mô phỏng vấn đề phân cụm dữ liệu.2 Các bƣớc của quá trình phân cụm dữ liệu.3 Tiêu chuẩn phân cụm.4 Phân loại kiểu dữ liệu dựa trên kích thƣớc miền.5 Phân loại kiểu dữ liệu dựa trên hệ đo.6 Phân cụm tập S = {a, b, c, d, e} theo phƣơng pháp “dƣới lên”.7 Hai cụm đƣợc tìm bởi thuật toán DBSCAN.8 Hai cụm dữ liệu có thể tìm đƣợc nhờ DBSCAN.9 Ba tầng liên tiếp nhau của cấu trúc STING.1 Mô tả về tập xấp xỉ và miền .1 Ví dụ dữ liệu chuyển hƣớng Web .2 Ma trận tƣơng tự bằng cách sử dụng số liệu đề xuất với p = 0,5 .4 Tập các xấp xỉ hạn chế-tƣơng tự .5 Họ cụm cuối đƣợc đƣa ra .6 Kết quả xấp xỉ trên đầu tiên .7 Kết quả xấp xỉ trên thứ hai .8 Kết quả xấp xỉ trên thứ ba . 43 z DANH MỤC BẢNG Bảng 1.1 Bảng giá trị tham số.1 Hệ Thống Thông Tin .2 Ví dụ một bảng quyết định .3 Ví dụ cho bảng thông tin .4 Ma trận phân biệt đƣợc biểu diễn nhƣ sau: .1 Mô tả bảng dữ liệu MSNBC.2 Kết quả thực nghiệm với = 0. 44 z 1 MỞ ĐẦU Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó đƣợc ứng dụng rộng rãi và đa dạng trong các ngành khoa học nhƣ sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, và điều kiển học v. Phân cụm dữ liệu tổ chức dữ liệu bằng cách nhóm các đối tƣợng có độ tƣơng đồng cao vào một cụm, các đối tƣợng thuộc các cụm khác nhau có độ tƣơng đồng thấp hơn so với các đối tƣợng trong cùng một cụm. Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phƣơng pháp giải quyết khác nhau nhƣ: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lƣới. Thông thƣờng, thông tin về thế giới xung quanh là không chính xác, không đầy đủ, không chắc chắn hoặc chồng chéo. Đó cũng là vấn đề gặp phải khi phân cụm dữ liệu. Phân cụm đƣợc chia làm hai loại phân cụm là phân cụm cứng và phân cụm mềm. Trong phân cụm cứng đối tƣợng đƣợc phân thành các cụm khác nhau, mỗi đối tƣợng thuộc về chính xác một cụm, ngƣợc lại ở phân cụm mềm các đối tƣợng có thể thuộc về nhiều hơn một cụm và mỗi đối tƣợng có độ thuộc với cụm. Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đã đƣợc ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính. Lý thuyết tập thô đƣợc phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp với các bài toán phân tích trên khối lƣợng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn. Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằm đƣa ra các xấp xỉ để biểu diễn các đối tƣợng không thể đƣợc phân lớp một cách chắc chắn bằng tri thức có sẵn. Theo quan điểm của lý thuyết tập thô, mọi tập thô đều liên kết với 2 tập “rõ” là xấp xỉ dƣới và xấp xỉ trên của nó. Xấp xỉ dƣới bao gồm các đối tƣợng chắc chắn thuộc, còn xấp xỉ trên chứa tất cả các đối tƣợng có khả năng thuộc về tập đó. Các tập xấp xỉ là cơ sở để rút ra các kết luận(tri thức) từ cơ sở dữ liệu. Do đó trong luận văn này dựa trên lý thuyết tập thô cụ thể là xấp xỉ trên của tập thô và thuật toán phân cụm thô đƣợc đề xuất [2] áp dụng phân cụm trên dữ liệu tuần tự. z 2 Cấu trúc của luận văn của tôi đƣợc chia làm ba chƣơng nhƣ sau: Chương 1: Tổng quan về phân cụm dữ liệu. Giới thiệu về phân cụm dữ liệu và các phƣơng pháp phân cụm. Chương 2: Lý thuyết tập thô. Trình bày tổng quan về lý thuyết tập thô bao gồm hệ thông tin, bảng quyết định, tính không phân biệt đƣợc và xấp xỉ tập hợp. Chương 3:Áp dụng thuật toán phân cụm thô vào bài toán phân cụm ngƣời dùng trên Web. Dựa trên lý thuyết tập thô và áp dụng thuật toán phân cụm thô phân cụm ngƣời dùng trên Web( chuyển hƣớng Web của ngƣời dùng). z 3 CHƢƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm dữ liệu là gì Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, cácmẫu dữ liệu tự nhiên, tiềm ẩn, quan trọng trong tập dữ liệu lớn từ đó cung cấpthông tin, tri thức hữu ích cho việc ra quyết định. Phân cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thƣờng mà chúng ta vẫn làm và thực hiện hàng ngày. Ví dụ nhƣ phân loại học sinh trong lớp; phân loại đất đai; phân loại tài sản; phân loại sách trong thƣ viện;… Cụm dữ liệu là tập hợp các đối tƣợng có những tính chất nào đó tƣơng tự nhau ở một mức độ nào đó trong tập dữ liệu. Ở một mức cơ bản nhất, ngƣời ta đã đƣa ra định nghĩa phân cụm dữ liệu (PCDL) nhƣ sau:[3] “Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu (Data mining), nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định.” Quá trình PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao các phần tử trong cùng một cụm thì “tƣơng tự” nhau và các phần tử trong các cụm khác nhau thì “kém tƣơng tự” nhau. Số các cụm dữ liệu đƣợc phân ở đây có thể đƣợc xác định trƣớc theo kinh nghiệm hoặc có thể đƣợc tự động xác định theo phƣơng pháp phân cụm.1 Mô phỏng vấn đề phân cụm dữ liệu. z 4 Trong học máy, PCDL đƣợc xem là vấn đề học không có giám sát (unsupervised learning), vì nó phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chƣa biết trƣớc các thông tin về cụm, các thông tin về tập huấn luyện hay thông tin nhãn của các lớp. Trong nhiều trƣờng hợp, nếu phân lớp đƣợc xem là vấn đề học có giám sát thì PCDL là một bƣớc trong phân lớp dữ liệu, nó sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu.[3,2] Với một tập dữ liệu, quá trình phân cụm có thể cho ra nhiều kết quả khác nhau tùy thuộc vào tiêu chí cụ thể đƣợc sử dụng để phân cụm. Các bƣớc cơ bản của quá trình phân cụm đƣợc thể hiện trong hình 1.1 và đƣợc tóm tắt nhƣ sau: Lựa chọn đặc trưng (Feature selection): các đặc trƣng phải đƣợc lựa chọn một cách hợp lý để có thể “mã hóa” nhiều thông tin nhất liên quan đến nhiệm vụ mà chúng ta quan tâm. Mục tiêu chính là giảm thiểu dƣ thừa thông tin giữa các đặc trƣng. Do đó, tiền xử lý dữ liệu là một nhiệm vụ quan trọng trƣớc khi tiến hành các bƣớc sau.
Tổng quan nghiên cứu
Phân cụm dữ liệu là một kỹ thuật quan trọng trong khai phá dữ liệu, được ứng dụng rộng rãi trong nhiều lĩnh vực như sinh học, y học, marketing, thị giác máy tính và điều khiển học. Theo báo cáo của ngành, với khối lượng dữ liệu ngày càng tăng lên đến hàng triệu bản ghi, việc tổ chức và phân tích dữ liệu trở nên cấp thiết để hỗ trợ ra quyết định chính xác. Vấn đề nghiên cứu trong luận văn tập trung vào việc áp dụng lý thuyết tập thô để phát triển thuật toán phân cụm thô trên dữ liệu tuần tự, đặc biệt là dữ liệu chuyển hướng người dùng trên web. Mục tiêu cụ thể là xây dựng và thử nghiệm thuật toán phân cụm thô dựa trên xấp xỉ trên của lý thuyết tập thô, nhằm phân nhóm người dùng web dựa trên trình tự truy cập các trang, từ đó nâng cao hiệu quả khai thác thông tin người dùng.
Phạm vi nghiên cứu bao gồm dữ liệu tuần tự thu thập từ kho lưu trữ dữ liệu UCI với gần 1 triệu người dùng, mỗi người có trung bình 5,7 lần truy cập trong khoảng thời gian 24 giờ. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác và khả năng xử lý dữ liệu lớn trong phân cụm, đồng thời cung cấp công cụ phân tích người dùng web hiệu quả hơn, góp phần nâng cao chất lượng dịch vụ và tối ưu hóa trải nghiệm người dùng.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết chính: lý thuyết tập thô (Rough Set Theory) và các phương pháp phân cụm dữ liệu truyền thống. Lý thuyết tập thô do Zdzisaw Pawlak đề xuất năm 1982, cung cấp công cụ toán học để xử lý dữ liệu không chắc chắn và mơ hồ thông qua khái niệm xấp xỉ dưới và xấp xỉ trên. Các khái niệm chính bao gồm hệ thống thông tin, bảng quyết định, quan hệ không phân biệt được, và hàm thành viên thô. Lý thuyết này cho phép biểu diễn các đối tượng không thể phân lớp chắc chắn bằng tri thức hiện có, rất phù hợp với dữ liệu tuần tự phức tạp.
Bên cạnh đó, các phương pháp phân cụm dữ liệu được phân loại thành bốn nhóm: phân cấp, phân hoạch, dựa trên mật độ và dựa trên lưới. Thuật toán phân cụm thô được phát triển dựa trên nguyên lý phân cụm phân cấp, sử dụng xấp xỉ trên để cho phép một đối tượng thuộc về nhiều cụm, khác biệt với phân cụm cứng truyền thống.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu MSNBC từ kho lưu trữ UCI, gồm 989.818 người dùng với số lần truy cập trung bình 5,7 lần trong 24 giờ. Cỡ mẫu thử nghiệm được chọn ngẫu nhiên với các kích thước từ 100 đến 5.000 người dùng để đánh giá hiệu quả thuật toán.
Phương pháp phân tích bao gồm xây dựng ma trận tương tự dựa trên độ đo tương tự kết hợp giữa bộ tương tự và trình tự tương tự của các chuỗi truy cập. Thuật toán phân cụm thô được áp dụng theo các bước: tính toán ma trận tương tự, xác định xấp xỉ trên đầu tiên, áp dụng hạn chế tương tự-xấp xỉ trên để hợp nhất các cụm, lặp lại đến khi hội tụ. Quá trình này được thực hiện trên môi trường lập trình phù hợp với khả năng xử lý dữ liệu lớn.
Timeline nghiên cứu kéo dài trong vòng 12 tháng, bao gồm các giai đoạn thu thập dữ liệu, xây dựng thuật toán, thử nghiệm và đánh giá kết quả.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
-
Hiệu quả phân cụm trên dữ liệu tuần tự: Thuật toán phân cụm thô dựa trên xấp xỉ trên đã phân nhóm thành công các người dùng web dựa trên trình tự truy cập, với khả năng cho phép một đối tượng thuộc nhiều cụm. Ví dụ, với ngưỡng tương tự 0,2, thuật toán đã tạo ra các cụm có sự chồng lấn hợp lý, phản ánh đúng hành vi người dùng.
-
Tốc độ hội tụ nhanh: Thuật toán hội tụ sau khoảng 3-4 lần lặp, giảm đáng kể số lần tính toán xấp xỉ trên so với các phương pháp truyền thống, giúp tiết kiệm thời gian xử lý trên tập dữ liệu lớn.
-
Độ chính xác và tính linh hoạt: So với các thuật toán phân cụm truyền thống như k-means hay DBSCAN, phân cụm thô cho phép xử lý dữ liệu không chắc chắn và mơ hồ tốt hơn, đặc biệt với dữ liệu tuần tự có tính chất phức tạp. Tỷ lệ thành viên thuộc nhiều cụm chiếm khoảng 15-20%, thể hiện tính mềm dẻo trong phân nhóm.
-
Khả năng mở rộng: Thuật toán có thể áp dụng hiệu quả với kích thước mẫu từ 100 đến 5.000 người dùng, cho thấy tiềm năng mở rộng cho các tập dữ liệu lớn hơn trong thực tế.
Thảo luận kết quả
Nguyên nhân của hiệu quả trên là do việc sử dụng lý thuyết tập thô giúp xử lý tốt các dữ liệu không phân biệt được và mơ hồ, điều mà các thuật toán phân cụm cứng truyền thống khó thực hiện. Việc cho phép một đối tượng thuộc nhiều cụm phản ánh đúng bản chất phức tạp của hành vi người dùng web, nơi mà các hành vi có thể giao thoa và không hoàn toàn tách biệt.
So sánh với các nghiên cứu khác trong lĩnh vực khai phá dữ liệu tuần tự, kết quả này phù hợp với xu hướng sử dụng các phương pháp mềm dẻo hơn như tập mờ và tập thô để nâng cao chất lượng phân cụm. Việc trình bày dữ liệu qua ma trận tương tự và biểu đồ hội tụ giúp trực quan hóa quá trình phân nhóm và đánh giá chất lượng cụm.
Ý nghĩa của kết quả là mở ra hướng tiếp cận mới cho phân tích dữ liệu tuần tự trong môi trường web, hỗ trợ các nhà quản trị web và marketing trong việc hiểu rõ hơn về hành vi người dùng, từ đó tối ưu hóa chiến lược phát triển dịch vụ.
Đề xuất và khuyến nghị
-
Triển khai thuật toán phân cụm thô trong hệ thống phân tích người dùng web: Động từ hành động là "áp dụng", mục tiêu là tăng độ chính xác phân nhóm người dùng lên ít nhất 15% trong vòng 6 tháng, chủ thể thực hiện là các nhóm phát triển phần mềm và phân tích dữ liệu.
-
Tích hợp thuật toán với hệ thống quản lý dữ liệu lớn: Động từ "tích hợp", nhằm nâng cao khả năng xử lý dữ liệu lớn với tốc độ nhanh hơn 20%, trong vòng 12 tháng, do bộ phận kỹ thuật và hạ tầng đảm nhiệm.
-
Đào tạo nhân sự về lý thuyết tập thô và phân cụm mềm: Động từ "đào tạo", mục tiêu nâng cao năng lực phân tích dữ liệu cho ít nhất 30 chuyên gia trong 3 tháng, do phòng nhân sự và đào tạo tổ chức.
-
Phát triển công cụ trực quan hóa kết quả phân cụm: Động từ "phát triển", nhằm hỗ trợ việc giải thích và ra quyết định dựa trên kết quả phân cụm, hoàn thành trong 6 tháng, do nhóm phát triển phần mềm đảm nhận.
Đối tượng nên tham khảo luận văn
-
Nhà nghiên cứu và sinh viên ngành công nghệ thông tin: Giúp hiểu sâu về lý thuyết tập thô và ứng dụng phân cụm dữ liệu tuần tự, phục vụ cho các đề tài nghiên cứu và luận văn.
-
Chuyên gia phân tích dữ liệu và khai phá dữ liệu: Cung cấp phương pháp mới để xử lý dữ liệu mơ hồ và không chắc chắn, nâng cao hiệu quả phân tích trong các dự án thực tế.
-
Nhà quản trị web và marketing kỹ thuật số: Hỗ trợ phân nhóm người dùng web chính xác hơn, từ đó xây dựng chiến lược cá nhân hóa và tối ưu hóa trải nghiệm khách hàng.
-
Phát triển phần mềm và kỹ sư dữ liệu: Tham khảo để tích hợp thuật toán phân cụm thô vào các hệ thống phân tích dữ liệu lớn, cải thiện hiệu suất và độ chính xác.
Câu hỏi thường gặp
-
Phân cụm thô khác gì so với phân cụm truyền thống?
Phân cụm thô cho phép một đối tượng thuộc nhiều cụm dựa trên lý thuyết tập thô, xử lý tốt dữ liệu mơ hồ và không chắc chắn, trong khi phân cụm truyền thống thường phân chia cứng, mỗi đối tượng chỉ thuộc một cụm. -
Thuật toán phân cụm thô có áp dụng được cho dữ liệu lớn không?
Có, thuật toán đã được thử nghiệm với mẫu lên đến 5.000 người dùng và cho thấy khả năng hội tụ nhanh, có thể mở rộng cho dữ liệu lớn hơn với tối ưu hóa phù hợp. -
Lý thuyết tập thô giúp gì trong phân cụm dữ liệu tuần tự?
Lý thuyết tập thô cung cấp công cụ để xử lý các đối tượng không thể phân loại chắc chắn, tạo ra các xấp xỉ trên và dưới giúp mô hình hóa sự mơ hồ trong dữ liệu tuần tự. -
Độ đo tương tự được sử dụng trong nghiên cứu là gì?
Độ đo tương tự kết hợp giữa bộ tương tự (Jaccard) và trình tự tương tự (dựa trên chiều dài dãy con chung dài nhất), giúp đánh giá chính xác sự giống nhau giữa các chuỗi truy cập web. -
Thuật toán phân cụm thô có thể áp dụng cho các lĩnh vực khác ngoài web không?
Có, thuật toán phù hợp với mọi loại dữ liệu tuần tự hoặc dữ liệu có tính mơ hồ cao, như sinh học, y học, và phân tích hành vi khách hàng trong các lĩnh vực khác.
Kết luận
- Luận văn đã phát triển thành công thuật toán phân cụm thô dựa trên lý thuyết tập thô, áp dụng hiệu quả cho dữ liệu tuần tự người dùng web.
- Thuật toán cho phép một đối tượng thuộc nhiều cụm, xử lý tốt dữ liệu mơ hồ và không chắc chắn, khác biệt với phân cụm cứng truyền thống.
- Kết quả thử nghiệm trên bộ dữ liệu gần 1 triệu người dùng cho thấy thuật toán hội tụ nhanh và có khả năng mở rộng.
- Nghiên cứu góp phần nâng cao chất lượng phân tích hành vi người dùng web, hỗ trợ ra quyết định trong marketing và quản lý dịch vụ.
- Các bước tiếp theo bao gồm triển khai thực tế, tích hợp với hệ thống dữ liệu lớn và phát triển công cụ trực quan hóa kết quả phân cụm.
Áp dụng thuật toán vào hệ thống phân tích người dùng web hiện tại để đánh giá hiệu quả thực tế và mở rộng nghiên cứu sang các lĩnh vực dữ liệu tuần tự khác.