Nghiên cứu giải pháp lấy mẫu đa luồng trong phân tích dữ liệu khoa học máy tính

Luận văn thạc sĩ toán học phân tích máy tính nghiên cứu và đề xuất giải pháp lấy mẫu đa luồng phục vụ bài toán phân tích dữ liệu, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải

Trường đại học

Đại học Quốc gia TP.HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu

Trong bối cảnh hiện nay, lượng dữ liệu được sinh ra từ các nguồn khác nhau ngày càng lớn và đa dạng. Việc lưu trữ và xử lý dữ liệu này thường gặp khó khăn do chi phí vận chuyển và thời gian xử lý. Đặc biệt, trong lĩnh vực khoa học máy tính, việc huấn luyện mô hình học máy thường yêu cầu một lượng lớn dữ liệu được gửi về một nơi trung tâm. Điều này dẫn đến việc cần thiết phải áp dụng các giải pháp lấy mẫu hiệu quả. Nghiên cứu này tập trung vào việc phát triển giải pháp lấy mẫu đa luồng nhằm tối ưu hóa quy trình phân tích dữ liệu. Bằng cách chỉ gửi những mẫu có giá trị về trung tâm, nghiên cứu không chỉ giảm thiểu chi phí mà còn nâng cao hiệu suất của mô hình học máy.

1.1 Đóng góp của nghiên cứu

Nghiên cứu này đóng góp vào việc phát triển các phương pháp lấy mẫu cho dữ liệu dòng. Các phương pháp như Biased Reservoir Sampling và Biased Stratified Reservoir Sampling được đề xuất nhằm giải quyết vấn đề lựa chọn mẫu trong điều kiện dữ liệu mất cân bằng. Việc ưu tiên lấy những mẫu mà mô hình dự đoán sai sẽ giúp cải thiện độ chính xác của mô hình. Hơn nữa, nghiên cứu cũng chỉ ra cách thức phân bổ số lượng mẫu cần lấy cho mỗi dòng dữ liệu, từ đó đảm bảo tính đồng bộ và hiệu quả trong quá trình phân tích dữ liệu.

II. Giải pháp lấy mẫu đa luồng

Giải pháp lấy mẫu đa luồng được đề xuất nhằm giải quyết hai vấn đề chính: lựa chọn mẫu nào từ mỗi dòng dữ liệu và xác định số lượng mẫu cần lấy cho mỗi dòng. Đầu tiên, việc lựa chọn mẫu sẽ dựa trên các tiêu chí như độ chính xác của mô hình và giá trị của mẫu đối với việc cập nhật mô hình. Thứ hai, trong trường hợp các dòng dữ liệu không đồng nhất, việc phân bổ số lượng mẫu cần lấy cho mỗi dòng là rất quan trọng. Nghiên cứu đã chỉ ra rằng việc áp dụng các phương pháp lấy mẫu này không chỉ giúp giảm thiểu chi phí mà còn đảm bảo tính chính xác của mô hình qua thời gian.

2.1 Vấn đề 1 Những mẫu nào sẽ được chọn trên mỗi dòng dữ liệu con

Để xác định mẫu nào sẽ được chọn từ mỗi dòng dữ liệu, nghiên cứu đã áp dụng phương pháp Biased Reservoir Sampling. Phương pháp này tập trung vào việc ưu tiên những mẫu mà mô hình dự đoán sai, từ đó đảm bảo rằng những mẫu này sẽ mang lại giá trị cao nhất cho việc cập nhật mô hình. Việc lựa chọn mẫu không chỉ dựa trên ngẫu nhiên mà còn dựa vào các yếu tố như độ tin cậy và độ chính xác của mô hình. Điều này giúp tối ưu hóa quy trình phân tích dữ liệu và nâng cao hiệu suất của mô hình học máy.

2.2 Vấn đề 2 Số lượng mẫu cần lấy cho mỗi dòng dữ liệu con

Trong trường hợp các dòng dữ liệu mất cân bằng, việc xác định số lượng mẫu cần lấy cho mỗi dòng là rất quan trọng. Nghiên cứu đã đề xuất giải pháp Biased Stratified Reservoir Sampling, trong đó số lượng mẫu được phân bổ dựa trên các tiêu chí như độ lớn và tính chất của từng dòng dữ liệu. Giải pháp này không chỉ giúp đảm bảo tính đồng bộ giữa các dòng mà còn tối ưu hóa việc sử dụng dữ liệu trong quá trình huấn luyện mô hình. Kết quả cho thấy rằng việc áp dụng các phương pháp này mang lại hiệu quả cao hơn so với các phương pháp truyền thống.

III. Đánh giá kết quả

Đánh giá kết quả của nghiên cứu cho thấy rằng các phương pháp lấy mẫu đề xuất đã mang lại hiệu quả rõ rệt trong việc cải thiện độ chính xác của mô hình học máy. Qua các thử nghiệm thực nghiệm, mô hình được huấn luyện bằng các mẫu được lấy bằng phương pháp Biased Reservoir Sampling và Biased Stratified Reservoir Sampling cho thấy tính ổn định về độ chính xác qua thời gian. Việc chỉ gửi về trung tâm 10% số lượng mẫu nhưng vẫn đạt được hiệu quả gần tương đương với việc gửi toàn bộ mẫu về trung tâm là một minh chứng cho tính khả thi và hiệu quả của giải pháp này.

3.1 Thiết kế và cài đặt hệ thống thực nghiệm

Hệ thống thực nghiệm được thiết kế để kiểm tra hiệu quả của các phương pháp lấy mẫu đề xuất. Các tham số như số lượng mẫu, độ chính xác của mô hình và thời gian xử lý được ghi nhận và phân tích. Kết quả cho thấy rằng việc áp dụng các phương pháp lấy mẫu này không chỉ giúp giảm thiểu chi phí mà còn nâng cao hiệu suất của mô hình học máy. Điều này mở ra hướng đi mới cho việc áp dụng các giải pháp lấy mẫu trong các lĩnh vực khác nhau của khoa học máy tính.

09/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính nghiên cứu và đề xuất giải pháp lấy mẫu đa luồng phục vụ bài toán phân tích dữ liệu

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu Ngày nay lượng dữ liệu ở các doanh nghiệp được sinh ra liên tục và rất lớn. Với nhu cầu rút trích và sử dụng giá trị từ lượng dữ liệu lớn đó vào các hoạt động kinh doanh thường ngày của các doanh nghiệp. Thông thường, dữ liệu sinh ra sẽ được lưu trữ phân tán ở nhiều nơi và lúc cần sử dụng sẽ đưa những dữ liệu cần thiết về một nơi tập trung để tiến hành phân tích. Và các mô hình học máy ngày nay cũng được triển khai chủ yếu dựa vào kiến trúc đó, được gọi là mô hình học tập trung.

Nghĩa là, dữ liệu sinh ra và lưu trữ tại các nút biên cục bộ, sau đó dữ liệu sẽ được đưa về một nơi tập trung để thực hiện huấn luyện mô hình cũng như huấn luyện lại mô hình qua thời gian. Tuy nhiên vấn đề là nếu đưa tất cả lượng dữ liệu lớn được lưu trữ ở các nút cạnh đó về một nơi trung tâm để huấn luyện mô hình thì chi phí sẽ rất lớn và quá tải hệ thống. Chi phí tải, vận chuyển, lưu trữ, tính toán và thời gian xử lý, cũng như những giới hạn về băng thông sẽ là thách thức lớn khi triển khai theo cách tiếp cận này. Để giải quyết những vấn đề đó, kĩ thuật lấy mẫu sẽ được áp dụng.

Và trong ngữ cảnh dữ liệu lớn, nghiên cứu này đề xuất những giải pháp lấy mẫu đa luồng và trực tuyến tại các nút cạnh để tránh nút thắt cổ chai (bottleneck) và quá tải hệ thống nếu thực hiện đơn luồng. Không cần phải đưa toàn bộ dữ liệu về trung tâm huấn luyện, chỉ cần đưa một lượng nhỏ mẫu được chọn lọc nhưng vẫn đảm bảo tính chính xác của mô hình. Nghiên cứu đóng góp những điểm sau: 1.1 Đóng góp của nghiên cứu Kĩ thuật lấy mẫu đa luồng trên dữ liệu dòng: Những nghiên cứu về lấy mẫu cho dữ liệu dòng chủ yếu tập trung vào đơn luồng. Tuy nhiên trong thực tế dữ liệu được sinh ra đa luồng và làm thế nào để lấy mẫu trực tuyến trên mỗi luồng đó, để khi được kích hoạt, ngay lập tức những mẫu này sẽ được gửi về trung tâm để thực hiện phân tích và xây dựng mô hình.

Với vấn đề nên lựa chọn những mẫu nào ở mỗi dòng để mang lại giá trị tốt nhất cho mô hình ở trung tâm, nghiên cứu cứu đề xuất giải pháp Biased Reservoir Sampling. Giải pháp này tập trung vào việc ưu tiên những mẫu mà mô hình dự đoán sai để đưa về trung tâm cập nhật mô hình. Giải pháp cho vấn đề mất cân bằng dữ liệu giữa các dòng dữ liệu: Mặc dù giải quyết được vấn đề nên lựa chọn những mẫu nào ở mỗi dòng dữ liệu. Chúng ta cần phải xác định thêm mỗi dòng cần lấy là bao nhiêu, cụ thể trong trường hợp các dòng dữ liệu mất cân bằng, khi đó việc phân bố hợp lý số lượng cần lấy cho mỗi dòng là quan trọng để đảm bảo phân bổ dữ liệu trong tập mẫu so với tổng thể.

Để giải quyết vấn đề tối ưu trong phân bố số lượng dữ liệu cần lấy cho mỗi dòng, nghiên cứu đề xuất giải pháp Biased Stratified Reservoir Sampling, giải pháp này cũng ưu tiên lấy những mẫu mà mô hình dự đoán sai. Và sẽ có cơ chế giao tiếp giữa các vị 1 trí cục bộ với trung tâm để từ đó tính toán số lượng phân bổ cho mỗi dòng cho phù hợp.2 Nghiên cứu liên quan Có nhiều kiến trúc trong việc huấn luyện một mô hình học máy, học sâu. Có thể học theo mô hình phân tán, mang việc huấn luyện mô hình về cục bộ mỗi vị trí. Hoặc một cách khác có thể thực hiện huấn luyện ở một nơi trung tâm, nhưng chỉ sử dụng tập dữ liệu con từ tập dữ liệu tổng thể để phục vụ cho việc huấn luyện.

Ở nghiên cứu này, tác giả đã nghiên cứu vấn đề khi dữ liệu nằm phân tán ở nhiều vị trí khác nhau, và việc đưa dữ liệu về trung tâm bị hạn chế bởi giới hạn của băng thông. Để giải quyết vấn đề đó, nghiên cứu đã đề xuất các phương pháp lấy mẫu như lấy theo một cách đồng bộ (uniform sampling), dựa hoàn toàn vào tiêu chí độ tin cậy (confidence obvious), dựa vào cả 2 tiêu chí là độ chính (correctness) xác và độ tin cậy (confidence). Tác đã đã so sánh độ hiệu quả của các phương pháp lấy mẫu nêu trên với nhau và so sánh với việc không lấy mẫu, nghĩa là gửi toàn bộ dữ liệu về trung tâm để huấn luyện. Tuy nhiên nghiên cứu này chưa đề cập đến vấn đề lấy mẫu trên dữ liệu dòng (streaming data) Cũng cùng mục đích là làm sao để lấy mẫu một cách hiệu quả gửi về một nơi trung tâm và phục vụ cho việc huấn luyện lại mô hình một cách liên tục trong ứng dụng về internet vạn vật (IoT) như xe tự lái, camera nhận diện khuân mặt, vv.

Ý tưởng chính của HARVESTNET là tập trung khai thác thêm nhiều mẫu huấn luyện về các điểm mà mô hình đang dự đoán sai (known weakpoints) để từ đó cải thiện mô hình. Nghiên cứu không tập trung vào việc lấy những mẫu mà giúp mô hình có thể cải thiện được vấn đề dự đoán sai ở các điểm mà mô hình cũng không biết trước được (unknown weakpoints). Tác giả cũng so sánh giải pháp HARVESTNET với những phương pháp lấy mẫu khác đối với dữ liệu robots như Oracle, Non-adaptive, ngẫu nhiên (random) và HNetPrioQue. Nghiên cứu này, chưa xem xét đến việc mất cân bằng giữa những dòng dữ liệu (streams) và đó là điểm sẽ được trình bày ở nghiên cứu của chúng tôi.

Và ở nghiên cứu [4] cũng đã để xuất giải pháp lấy mẫu đối với dữ liệu dòng và tập trung vào dữ liệu có nhiều dòng khác nhau và các dòng này sẽ không đồng nhất về mặt thống kê. Nghĩa là tại mỗi thời điểm, các dòng dữ liệu con sẽ khác nhau cả về mặt số lượng lẫn độ lớn thống kê. Nghiên cứu tập trung vào vấn đề là làm sao với sự không đồng nhất của các dòng qua thời gian đó, sau khi lấy mẫu, mẫu vẫn phải giữ được tính đồng bộ (uniformity). Đảm bảo tính đồng bộ và làm sao tối ưu số lượng phân bố cho các dòng con, và Stratified Reservoir Sampling là giải pháp cho các vấn đề đã nêu.

Tuy nhiên với nghiên cứu này, tác giả chưa đề cập đến việc sử dụng những dữ liệu đã lấy mẫu đó phục vụ cho việc huấn luyện mô hình học máy thì sẽ như thế nào? và chúng ta có thể tận dụng những sai số qua những vòng học để cải thiện mô hình không? Và nghiên cứu của chúng tôi, sẽ không xem xét chi tiết đến việc dữ liệu từ các dòng con sẽ thay đổi cả về mặt số lượng lẫn thống kê, mà chỉ xem xét sự mất cân bằng về số lượng. Bên cạnh đó, nghiên cứu của chúng tôi xem xét việc sử dụng kết quả lấy mẫu phục vụ cho việc huấn luyện mô hình và từ đó nhắm đến mục tiêu cải thiện mô hình với độ chính xác tốt nhất. Lấy mẫu theo tổ cho dữ liệu tĩnh đã biết trước tổng thể đã được nghiên cứu từ lâu. Đối với dạng dữ liệu này, sẽ có 2 lần duyệt qua toàn bộ dữ liệu để làm 2 việc.

Thứ nhất là phân bổ số lượng cần lấy cho mỗi tổ và thứ 2 là với tỷ lệ phân bố số lượng đó, thực hiện lấy mẫu cho mỗi tổ [5]. Phương pháp tính toán phân bố số lượng được trình bày ở [6] (Neyman) và [7] (Power 2 allocation). Và đôi với giai đoạn 2, các phương pháp có thể được áp dụng như hồ chứa mẫu (Reservoir Sampling) như trình bày ở [8] hay hồ chứa mẫu có trọng số (Weighted Reservoir Sampling) được trình bày ở [9]. Ngoài ra có nghiên cứu như [10], sử dụng mô hình máy học để dự đoán xác suất được lựa chọn vào tập mẫu cho mỗi mẫu dữ liệu bằng cách phân tích những câu truy vấn dữ liệu trước đó (query workload).

Đối với lấy mẫu theo tổ cho dữ liệu dòng (streaming stratified random sampling) được nghiên cứu và trình bày ở [5]. Tại đây tác giả đã đề xuất những giải pháp tối ưu cho việc làm thế nào để thực hiện tính toán phân bố số lượng cần lấy cho mỗi tổ và thực hiện lấy mẫu cho mỗi tổ. 2 bước này được thực hiện đồng thời như thế nào cho hiệu quả trên dữ liệu dòng và tối ưu. Để tối ưu việc phân bố số lượng cần lấy cho mỗi tổ, thay vì dùng phương pháp phổ biến như Neyman, nghiên cứu đề xuất giải pháp S-VOILA và SW-VOILA.

Tuy nhiên nghiên cứu này chỉ xét trên dữ liệu đến từ 1 dòng, và khác với nghiên cứu chúng tôi là thực hiện trên dữ liệu dòng đa luồng. Reservoir sampling và stratified reservoir sampling là những giải thuật lấy mẫu đã được nghiên cứu từ lâu, Reservoir Sampling (1985) và Stratified Reservoir Sampling (2010). Nhiều biến thể của giải thuật được phát triển như Weighted Reservoir Sampling [9, 11, 12, 13], trong đó các dòng dữ liệu hoặc các mẫu dữ liệu được đánh trọng số khác nhau. Hay Adaptive Reservoir Sampling [14, 15], trong đó độ dài của mẫu R cần lấy thay đổi trong quá trình lấy mẫu.

Ứng dụng của những giải thuật này rất đa dạng, từ đó đến nay nhiều nghiên cứu giải quyết những vấn như: tính toán gần đúng (approximate computing) [16, 17], thay vì tính toán chính xác và xử lý trên toàn bộ lượng dữ liệu rất lớn, thì chỉ cần tính toán gần đúng trên các mẫu đại diện. Nghiên cứu [18] sử dụng Reservoir Sampling để lưu lại những mẫu có xác suất cao trong ứng dụng nhận dạng mẫu (Pattern Recognition) và nhận diện sự kiện (Event Detection) trên một hệ thống IoT data-streams. Hay nghiên cứu [19], ứng dụng Adaptive Stratified Sampling để linh hoạt thay đổi số lượng mẫu cần lấy ở mỗi tổ dựa vào sự thay đổi của phương sai trên tổ đó, và triển khai giải thuật này trong kiến trúc hệ thống tính toán biên trên dữ liệu IoT. Rất nhiều ứng dụng sử dụng những giải thuật Reservoir-Based và đề tài này cũng là một trong những ứng dụng sử dụng phương pháp lấy mẫu theo Reservoir.

3 Cấu trúc của bài nghiên cứu sẽ được chia làm 5 phần chính. Đầu tiên là phần cơ sở lý thuyết, ở phần này, các kiến thức nền cần thiết để hiểu những thuật ngữ và những kỹ thuật được trình bày trong bài nghiên cứu. Tại đây sẽ trình bày sơ bộ về các lý thuyết lấy mẫu, các phương pháp, kiến trúc sử dụng để huấn luyện các mô hình học máy ngày nay và những kiến thức cơ bản về dữ liệu dạng dòng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Giải pháp lấy mẫu đa luồng cho phân tích dữ liệu trong khoa học máy tính" trình bày những phương pháp tiên tiến trong việc thu thập và phân tích dữ liệu, giúp tối ưu hóa quy trình nghiên cứu và phát triển trong lĩnh vực khoa học máy tính. Các giải pháp này không chỉ nâng cao hiệu quả phân tích mà còn giảm thiểu thời gian xử lý, từ đó mang lại lợi ích lớn cho các nhà nghiên cứu và lập trình viên.

Để mở rộng thêm kiến thức về các ứng dụng và công nghệ liên quan, bạn có thể tham khảo bài viết "Luận văn thạc sĩ khoa học máy tính kỹ thuật tìm kiếm dựa trên giai điệu", nơi khám phá các kỹ thuật tìm kiếm thông minh trong dữ liệu. Ngoài ra, bài viết "Luận văn thạc sĩ kỹ thuật viễn thông phân loại chủ đề bản tin online sử dụng máy học" sẽ giúp bạn hiểu rõ hơn về cách phân loại và xử lý thông tin trong môi trường trực tuyến. Cuối cùng, bài viết "Luận văn thạc sĩ khoa học máy tính nghiên cứu các phương pháp trích xuất thông tin trong ảnh tài liệu và ứng dụng" cung cấp cái nhìn sâu sắc về các phương pháp trích xuất thông tin từ hình ảnh, một lĩnh vực ngày càng quan trọng trong phân tích dữ liệu.

Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực khoa học máy tính.

#Phân tích dữ liệu

#khoa học máy tính

#tối ưu hóa hiệu suất

#xử lý dữ liệu lớn

#lấy mẫu đa luồng

#thuật toán lấy mẫu

Chủ đề

Công nghệ thông tin

Khoa học Dữ liệu

Phân tích dữ liệu

Thuật toán và mô hình hóa

Nghiên cứu giải pháp lấy mẫu đa luồng trong phân tích dữ liệu khoa học máy tính

I. Giới thiệu

1.1 Đóng góp của nghiên cứu

II. Giải pháp lấy mẫu đa luồng

2.1 Vấn đề 1 Những mẫu nào sẽ được chọn trên mỗi dòng dữ liệu con

2.2 Vấn đề 2 Số lượng mẫu cần lấy cho mỗi dòng dữ liệu con

III. Đánh giá kết quả

3.1 Thiết kế và cài đặt hệ thống thực nghiệm

THÔNG TIN CHI TIẾT

Tác giả: Phạm Anh Dũng

Người hướng dẫn: PGS.TS Thoại Nam

Trường học: Đại học Quốc gia TP.HCM

Chuyên ngành: Khoa học máy tính

Đề tài: Giải Pháp Lấy Mẫu Đa Luồng Cho Phân Tích Dữ Liệu

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: TP. Hồ Chí Minh

Nghiên cứu giải pháp lấy mẫu đa luồng trong phân tích dữ liệu khoa học máy tính

I. Giới thiệu

1.1 Đóng góp của nghiên cứu

II. Giải pháp lấy mẫu đa luồng

2.1 Vấn đề 1 Những mẫu nào sẽ được chọn trên mỗi dòng dữ liệu con

2.2 Vấn đề 2 Số lượng mẫu cần lấy cho mỗi dòng dữ liệu con

III. Đánh giá kết quả

3.1 Thiết kế và cài đặt hệ thống thực nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phạm Anh Dũng

Người hướng dẫn: PGS.TS Thoại Nam

Trường học: Đại học Quốc gia TP.HCM

Chuyên ngành: Khoa học máy tính

Đề tài: Giải Pháp Lấy Mẫu Đa Luồng Cho Phân Tích Dữ Liệu

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: TP. Hồ Chí Minh

Có thể bạn quan tâm