Luận văn thạc sĩ: Phân cụm dữ liệu lớn bằng phương pháp lấy mẫu và nền tảng Spank

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

82
1
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu về phân cụm dữ liệu lớn

Trong bối cảnh công nghệ hiện đại, phân cụm dữ liệu lớn trở thành một trong những lĩnh vực quan trọng trong machine learningkhai thác dữ liệu. Sự bùng nổ của dữ liệu từ nhiều nguồn khác nhau như Internet, thiết bị IoT, và các ứng dụng di động đã tạo ra những thách thức mới cho việc xử lý và phân tích dữ liệu. Đề tài này tập trung vào việc phát triển các phương pháp phân cụm cho các tập dữ liệu lớn bằng cách áp dụng các phương pháp lấy mẫu dữ liệu. Theo đó, phương pháp lấy mẫu giúp giảm thiểu khối lượng tính toán mà vẫn đảm bảo tính đại diện của tập dữ liệu gốc. Điều này đặc biệt quan trọng trong việc sử dụng Apache Spark, một nền tảng mạnh mẽ cho việc xử lý dữ liệu lớn.

1.1. Tầm quan trọng của phân cụm

Phân cụm là một kỹ thuật phổ biến trong khai thác dữ liệuhọc máy, giúp nhóm các đối tượng tương tự lại với nhau. Việc phân nhóm này không chỉ hỗ trợ trong việc phân tích dữ liệu mà còn đóng vai trò quan trọng trong các ứng dụng thực tiễn như hệ thống gợi ý, nhận diện hình ảnh, và khai thác thông tin. Các phương pháp phân cụm như k-meansDBSCAN đã được nghiên cứu và áp dụng rộng rãi. Tuy nhiên, bài toán phân cụm cho các tập dữ liệu lớn vẫn còn nhiều thách thức, đặc biệt là về hiệu suất và độ chính xác của các thuật toán.

II. Các phương pháp lấy mẫu dữ liệu

Phương pháp lấy mẫu dữ liệu là một trong những kỹ thuật quan trọng để xử lý dữ liệu lớn. Bằng cách lấy mẫu, người ta có thể giảm kích thước của tập dữ liệu mà vẫn giữ được các đặc điểm chính của nó. Trong nghiên cứu này, hai phương pháp chính được đề xuất cho việc xây dựng tập coreset: phương pháp Farthest-First-TraversalProTraS. Những phương pháp này không chỉ giúp giảm thiểu độ phức tạp trong tính toán mà còn đảm bảo rằng tập con được tạo ra vẫn đại diện cho tập dữ liệu gốc. Việc áp dụng các phương pháp này trong Apache Spark giúp tăng tốc độ xử lý và cải thiện hiệu quả phân tích dữ liệu.

2.1. Tập coreset và ứng dụng của nó

Tập coreset là một khái niệm quan trọng trong việc xử lý dữ liệu lớn. Nó được định nghĩa là một tập con của dữ liệu gốc nhưng có kích thước nhỏ hơn và vẫn giữ được các đặc trưng đại diện cần thiết. Việc sử dụng tập coreset giúp giảm thiểu chi phí tính toán trong các bài toán phân cụm. Các nghiên cứu trước đây đã chỉ ra rằng việc xây dựng tập coreset hiệu quả có thể cải thiện đáng kể hiệu suất của các thuật toán phân cụm như k-means. Điều này đặc biệt quan trọng trong các ứng dụng thực tế nơi mà dữ liệu lớn thường xuyên được cập nhật và cần được phân tích nhanh chóng.

III. Nền tảng Apache Spark

Nền tảng Apache Spark đã trở thành một công cụ phổ biến trong việc xử lý dữ liệu lớn nhờ vào khả năng xử lý song song và hiệu suất cao. Spark hỗ trợ nhiều ngôn ngữ lập trình và cung cấp các API mạnh mẽ cho việc xử lý dữ liệu. Việc áp dụng Spark trong nghiên cứu này giúp tối ưu hóa quá trình phân tích dữ liệu và cải thiện tốc độ xử lý. Bằng cách tích hợp các thuật toán phân cụm với Spark, người dùng có thể xử lý hàng triệu bản ghi dữ liệu một cách nhanh chóng và hiệu quả.

3.1. Lợi ích của việc sử dụng Spark

Việc sử dụng Apache Spark mang lại nhiều lợi ích cho việc xử lý dữ liệu lớn. Spark cho phép thực hiện các tác vụ tính toán phức tạp trên các tập dữ liệu lớn mà không gặp phải vấn đề về hiệu suất. Ngoài ra, Spark còn hỗ trợ các tính năng như visualization dữ liệu, giúp người dùng dễ dàng theo dõi và phân tích kết quả. Sự kết hợp giữa các phương pháp phân cụm và Spark mở ra nhiều cơ hội mới cho việc nghiên cứu và phát triển các ứng dụng trong lĩnh vực khai thác dữ liệu.

IV. Kết quả thực nghiệm và đánh giá

Các thử nghiệm được thực hiện để đánh giá hiệu quả của các phương pháp đã đề xuất trong việc phân cụm dữ liệu lớn. Kết quả cho thấy rằng các thuật toán xây dựng tập coreset không chỉ giảm thiểu độ phức tạp trong tính toán mà còn duy trì độ chính xác cao trong việc phân cụm. Thông qua việc sử dụng Apache Spark, thời gian xử lý được rút ngắn đáng kể, cho phép người dùng có thể phân tích dữ liệu lớn một cách nhanh chóng và hiệu quả hơn. Những kết quả này khẳng định giá trị và ứng dụng thực tiễn của nghiên cứu trong việc giải quyết các bài toán thực tế liên quan đến khai thác dữ liệu.

4.1. So sánh với các phương pháp khác

Kết quả thực nghiệm cho thấy rằng các phương pháp đề xuất có ưu thế rõ rệt so với các phương pháp phân cụm truyền thống. Sử dụng tập coreset giúp giảm thiểu khối lượng tính toán mà vẫn đảm bảo độ chính xác trong việc phân nhóm. Việc áp dụng Apache Spark không chỉ tăng tốc độ xử lý mà còn mở rộng khả năng làm việc với các tập dữ liệu lớn hơn. Những phát hiện này cung cấp một cái nhìn sâu sắc về cách mà công nghệ có thể cải thiện quy trình phân tích dữ liệu trong các lĩnh vực khác nhau.

05/01/2025
Luận văn thạc sĩ khoa học máy tính phân cụm các tập dữ liệu có kích thước lớn dựa vào lấy mẫu và nền tảng spank
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính phân cụm các tập dữ liệu có kích thước lớn dựa vào lấy mẫu và nền tảng spank

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ: Phân cụm dữ liệu lớn bằng phương pháp lấy mẫu và nền tảng Spark của tác giả Nguyễn Lê Hoàng, dưới sự hướng dẫn của PGS. Đặng Trần Khánh và TS. Lê Hồng Trang, được thực hiện tại Đại học Quốc gia TP. HCM vào năm 2020. Bài luận văn này tập trung vào việc áp dụng phương pháp phân cụm dữ liệu lớn thông qua việc sử dụng Spark, một nền tảng mạnh mẽ cho xử lý dữ liệu lớn, cùng với các kỹ thuật lấy mẫu để tối ưu hóa quy trình phân tích. Độc giả sẽ được tìm hiểu về các phương pháp hiện đại trong lĩnh vực khoa học máy tính, cũng như cách thức mà Spark có thể được áp dụng để cải thiện hiệu suất xử lý dữ liệu.

Để mở rộng kiến thức về các chủ đề liên quan đến khoa học máy tính, độc giả có thể tham khảo thêm các tài liệu sau: Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi nghiên cứu về việc áp dụng Active Learning trong lĩnh vực nhận diện giọng nói, hay Luận văn về tâm lý học mạng xã hội và ảnh hưởng đến người lớn, một nghiên cứu thú vị về tác động của mạng xã hội trong bối cảnh hiện đại. Những tài liệu này không chỉ giúp độc giả có cái nhìn sâu sắc hơn về các ứng dụng công nghệ trong khoa học máy tính mà còn mở rộng hiểu biết về các lĩnh vực liên quan khác.

Tải xuống (82 Trang - 2.58 MB)