Nghiên cứu về Big Data và Ứng dụng trong Phân tích Kinh doanh

Phân tích Big Data & ứng dụng kinh doanh. Nghiên cứu chuyên sâu (Luận văn Thạc sĩ) về các vấn đề Big Data, tiềm năng phân tích, và ứng dụng thực tiễn. Khám phá ngay!

Trường đại học

Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông, Đại Học Thái Nguyên

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BIG DATA VÀ QUY TRÌNH PHÂN TÍCH DỮ LIỆU LỚN

1.1. Giới thiệu tổng quan về Big Data

1.2. Những định nghĩa và đặc trưng của Big Data

1.3. Sự phát triển của Big Data

1.4. Những thách thức mà Big Data mang lại

1.5. Những công nghệ trong Big Data

Tóm tắt

I. Khái niệm đặc trưng và sự phát triển của Big Data

Luận văn bắt đầu bằng việc giới thiệu tổng quan về Big Data, nhấn mạnh sự tăng trưởng bùng nổ của dữ liệu trong những năm qua. Tác giả dẫn chứng báo cáo của IDC về dung lượng dữ liệu toàn cầu, minh họa cho quy mô và tốc độ gia tăng của dữ liệu. Luận văn cũng nêu bật sự quan tâm ngày càng tăng đối với Big Data từ các ngành công nghiệp, chính phủ, và giới truyền thông.

Tác giả phân tích sâu vào khái niệm Big Data, đưa ra nhiều định nghĩa từ các nguồn khác nhau như Apache Hadoop, McKinsey & Company, và IDC. Các mô hình "3Vs", "4Vs", và "5Vs" được trình bày chi tiết, làm rõ các đặc trưng cốt lõi của Big Data bao gồm dung lượng (Volume), tốc độ (Velocity), tính đa dạng (Variety), tính chính xác (Veracity), và giá trị (Value). "Giá trị của dữ liệu là đặc điểm quan trọng nhất trong mô hình '5Vs' của Big Data" - một điểm nhấn quan trọng của luận văn.

Phần tiếp theo tóm tắt lịch sử phát triển của Big Data, từ những máy cơ sở dữ liệu đầu tiên đến sự ra đời của các hệ thống cơ sở dữ liệu song song như Teradata. Tác giả đề cập đến vai trò của Google trong việc phát triển các mô hình lập trình như GFS và MapReduce để xử lý dữ liệu ở quy mô Internet. Báo cáo "Trích xuất giá trị từ sự hỗn độn" của EMC/IDC được đánh giá là một bước ngoặt quan trọng, đánh dấu sự quan tâm rộng rãi đến Big Data từ cả giới công nghiệp và học thuật.

II. Thách thức và công nghệ cốt lõi của Big Data

Luận văn tiếp tục trình bày những thách thức mà Big Data mang lại, bao gồm biểu diễn dữ liệu, giảm sự dư thừa, quản lý vòng đời dữ liệu, cơ chế phân tích, bảo mật dữ liệu, quản lý năng lượng, khả năng mở rộng, và sự hợp tác. Tác giả chỉ ra rằng các hệ thống quản lý cơ sở dữ liệu quan hệ truyền thống (RDBMS) gặp khó khăn trong việc xử lý dữ liệu phi cấu trúc và dung lượng lớn của Big Data.

Về công nghệ, luận văn tập trung vào điện toán đám mây, IoT, trung tâm dữ liệu và Hadoop. Điện toán đám mây được nhấn mạnh là cơ sở hạ tầng quan trọng cho Big Data, cung cấp khả năng tính toán và lưu trữ lớn. Mối quan hệ tương hỗ giữa Big Data và điện toán đám mây được phân tích rõ ràng: "Sự phát triển của Big Data được thúc đẩy bởi sự tăng trưởng nhanh chóng của nhu cầu ứng dụng và điện toán đám mây được phát triển từ công nghệ ảo hóa. Đến một lúc nào đó, các tiến bộ của điện toán đám mây cũng thúc đẩy sự phát triển của Big Data, cả hai sẽ bổ sung cho nhau." IoT được xem là một nguồn dữ liệu quan trọng cho Big Data trong tương lai, với hàng nghìn tỷ cảm biến được triển khai. Trung tâm dữ liệu không chỉ là nơi lưu trữ mà còn đảm nhiệm các chức năng thu thập, quản lý, và khai thác giá trị dữ liệu. Cuối cùng, Hadoop được giới thiệu là một framework mã nguồn mở quan trọng, cho phép xử lý phân tán dữ liệu lớn trên các cụm máy tính.

III. Quy trình phân tích dữ liệu lớn và ngôn ngữ Python

Luận văn mô tả quy trình phân tích dữ liệu lớn gồm bốn giai đoạn: tạo ra dữ liệu, thu thập dữ liệu, lưu trữ dữ liệu và phân tích dữ liệu. Mỗi giai đoạn được phân tích chi tiết, bao gồm các phương pháp và kỹ thuật cụ thể. Ví dụ, giai đoạn thu thập dữ liệu được chia thành thu nhận dữ liệu (qua log file, cảm biến, web crawler), truyền tải dữ liệu (Inter-DCN và Intra-DCN), và tiền xử lý dữ liệu (tích hợp, dọn dẹp, loại bỏ dư thừa). Giai đoạn lưu trữ dữ liệu được phân loại theo hệ thống tập tin (như GFS), cơ sở dữ liệu (NoSQL như key-value, column-oriented, document-oriented), và các mô hình lập trình (MapReduce, Dryad, GraphLab). "Phân tích dữ liệu là giai đoạn cuối cùng và quan trọng nhất trong chuỗi giá trị của Big Data" - nhấn mạnh mục tiêu cuối cùng của toàn bộ quy trình.

Luận văn chuyển sang giới thiệu ngôn ngữ lập trình Python và ứng dụng của nó trong phân tích dữ liệu. Các đặc điểm nổi bật của Python như dễ học, dễ hiểu, tính di động cao, thư viện phong phú, và cộng đồng sử dụng lớn được đề cập. Tác giả nhấn mạnh vai trò quan trọng của Python trong khoa học dữ liệu và máy học, dẫn chứng kết quả thống kê từ KDnuggets. Các thư viện quan trọng của Python cho phân tích dữ liệu như NumPy, Pandas, và Matplotlib được giới thiệu chi tiết, kèm theo các ví dụ về chức năng và cách sử dụng.

IV. Máy học trong phân tích kinh doanh và các phương pháp phân tích

Luận văn giới thiệu khái niệm máy học (Machine Learning) như một nhánh của trí tuệ nhân tạo, tập trung vào khả năng tự học của máy tính từ dữ liệu. Tác giả giải thích các khái niệm quan trọng như nhiệm vụ, phép đánh giá, và kinh nghiệm trong máy học. Mối quan hệ tương hỗ giữa Big Data và máy học được làm rõ: "Big Data chưa chắc đã có ý nghĩa nếu như không hiểu được những giá trị thông tin ẩn chứa trong khối dữ liệu khổng lồ đó. Máy học lúc này chính là thành phần chủ chốt". Các bước xây dựng mô hình máy học được trình bày tuần tự, từ thu thập dữ liệu đến áp dụng mô hình, bao gồm cả vấn đề overfitting trong huấn luyện mô hình. Hai loại kỹ thuật máy học chính, học có giám sát (Supervised Learning) và học không giám sát (Unsupervised Learning), được phân tích và minh họa bằng các ví dụ ứng dụng.

Luận văn đi sâu vào hai phương pháp cụ thể: hồi quy tuyến tính (Linear Regression) và phân cụm K-means. Mô hình hồi quy tuyến tính được giải thích chi tiết, từ ký hiệu toán học, định nghĩa, đến phân tích toán học để tìm điểm tối ưu. Một ví dụ ứng dụng trong kinh doanh, dự báo mức độ yêu thích của khách hàng, được sử dụng để minh họa. Phương pháp phân cụm K-means cũng được trình bày rõ ràng, bao gồm phân tích toán học, thuật toán lặp, và vấn đề lựa chọn số cụm k. Cuối cùng, luận văn thảo luận về việc sử dụng hàm mất mát và tham số mô hình trong máy học, cũng như phương pháp Gradient descent để tìm cực tiểu địa phương của hàm số.

18/11/2024

Bạn đang xem trước tài liệu:

Nghiên cứu một số vân đề về big data và ứng dụng trong phân tích kinh doanh luận văn thạc sĩ

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong hơn hai thập kỷ qua, sự gia tăng dữ liệu toàn cầu diễn ra với tốc độ bùng nổ, tạo ra những thách thức và cơ hội mới trong lĩnh vực công nghệ thông tin và phân tích kinh doanh. Theo báo cáo của Tập đoàn Dữ liệu Quốc tế (IDC), năm 2011, dung lượng dữ liệu toàn cầu đạt 1.8 Zettabyte (ZB), tăng gần chín lần trong vòng năm năm và dự kiến sẽ tiếp tục tăng gấp đôi ít nhất mỗi hai năm. Big Data, hay dữ liệu lớn, không chỉ là tập hợp các dữ liệu có dung lượng lớn mà còn bao gồm các dữ liệu phi cấu trúc, đa dạng và được xử lý trong thời gian thực, tạo ra giá trị tiềm ẩn cho các doanh nghiệp và tổ chức.

Luận văn tập trung nghiên cứu các vấn đề liên quan đến Big Data và ứng dụng trong phân tích kinh doanh, với mục tiêu làm rõ các đặc trưng, thách thức và công nghệ hỗ trợ xử lý dữ liệu lớn, đồng thời đề xuất các phương pháp ứng dụng hiệu quả trong môi trường kinh doanh hiện đại. Phạm vi nghiên cứu bao gồm các công nghệ lưu trữ, xử lý và phân tích dữ liệu lớn, cùng với việc ứng dụng ngôn ngữ lập trình Python và các thuật toán máy học trong phân tích kinh doanh. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả khai thác dữ liệu, hỗ trợ ra quyết định và phát triển chiến lược kinh doanh dựa trên dữ liệu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu về Big Data, bao gồm:

Mô hình 5Vs của Big Data: Bao gồm năm đặc trưng chính là Khối lượng (Volume), Tốc độ (Velocity), Tính đa dạng (Variety), Tính chính xác (Veracity) và Giá trị (Value). Mô hình này giúp phân tích toàn diện các đặc điểm của dữ liệu lớn và những thách thức trong quản lý, xử lý.
Mô hình lập trình MapReduce: Là mô hình lập trình song song cho phép xử lý phân tán các tập dữ liệu lớn trên các cụm máy tính, bao gồm hai hàm chính là Map và Reduce, được sử dụng rộng rãi trong các hệ thống Big Data như Hadoop.
Lý thuyết máy học (Machine Learning): Bao gồm các thuật toán học có giám sát và không giám sát, được ứng dụng để khai thác tri thức từ dữ liệu lớn, hỗ trợ phân tích và dự báo trong kinh doanh.
Mô hình hồi quy tuyến tính và phân cụm K-means: Là các phương pháp thống kê và phân tích dữ liệu truyền thống được áp dụng trong phân tích kinh doanh để dự báo và phân nhóm khách hàng.

Các khái niệm chính bao gồm Big Data, dữ liệu phi cấu trúc, điện toán đám mây, Internet vạn vật (IoT), Hadoop, Python, máy học, phân tích dữ liệu truyền thống và phân tích dữ liệu lớn.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp tổng hợp lý thuyết, phân tích tài liệu và thực nghiệm ứng dụng công nghệ trong phân tích kinh doanh. Nguồn dữ liệu chính bao gồm các báo cáo ngành, tài liệu học thuật, dữ liệu thực tế từ các doanh nghiệp và các bộ dữ liệu mẫu phục vụ cho việc thử nghiệm mô hình.

Phương pháp phân tích bao gồm:

Phân tích định lượng: Sử dụng các thuật toán hồi quy tuyến tính và phân cụm K-means để phân tích dữ liệu khách hàng, dự báo mức độ yêu thích sản phẩm và phân nhóm khách hàng.
Phân tích định tính: Đánh giá các thách thức và giải pháp công nghệ trong quản lý và xử lý Big Data.
Thực nghiệm lập trình: Ứng dụng ngôn ngữ Python và các thư viện như NumPy, Pandas, Matplotlib để xử lý và trực quan hóa dữ liệu, đồng thời sử dụng các thuật toán máy học để xây dựng mô hình phân tích.

Cỡ mẫu nghiên cứu khoảng vài nghìn bản ghi dữ liệu khách hàng, được chọn mẫu ngẫu nhiên từ các tập dữ liệu có sẵn nhằm đảm bảo tính đại diện. Thời gian nghiên cứu kéo dài từ năm 2018 đến đầu năm 2019, tập trung tại các doanh nghiệp kinh doanh dịch vụ trực tuyến và bán lẻ.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Đặc trưng và thách thức của Big Data: Big Data được xác định qua mô hình 5Vs với khối lượng dữ liệu từ vài Terabyte đến Petabyte, tốc độ thu thập và xử lý dữ liệu cao, tính đa dạng về cấu trúc dữ liệu, tính chính xác và giá trị tiềm ẩn. Các thách thức lớn bao gồm quản lý vòng đời dữ liệu, bảo mật, khả năng mở rộng và hiệu quả phân tích trong thời gian thực.
Hiệu quả của công nghệ lưu trữ và xử lý: Hệ thống Hadoop với kiến trúc phân tán và mô hình MapReduce cho phép xử lý dữ liệu lớn hiệu quả, hỗ trợ mở rộng quy mô từ hàng chục đến hàng nghìn máy chủ. Ví dụ, Facebook sử dụng cụm Hadoop xử lý 100 PB dữ liệu, tăng 0,5 PB mỗi ngày.
Ứng dụng Python trong phân tích dữ liệu: Python với các thư viện NumPy, Pandas và Matplotlib hỗ trợ mạnh mẽ trong việc xử lý, phân tích và trực quan hóa dữ liệu lớn. Python cũng là ngôn ngữ phổ biến trong khoa học dữ liệu và máy học, được sử dụng rộng rãi trong các doanh nghiệp để xây dựng mô hình dự báo và phân nhóm khách hàng.
Hiệu quả mô hình máy học trong phân tích kinh doanh: Mô hình hồi quy tuyến tính giúp dự báo mức độ yêu thích sản phẩm dựa trên các biến như độ tuổi, diện tích cửa hàng, khoảng cách đến trung tâm, với sai số dự báo được tối ưu hóa qua hàm mất mát. Thuật toán phân cụm K-means phân nhóm khách hàng dựa trên các đặc trưng hành vi, giúp doanh nghiệp xây dựng chính sách ưu đãi phù hợp, tăng hiệu quả kinh doanh.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy sự phát triển nhanh chóng của Big Data đòi hỏi các giải pháp công nghệ tiên tiến để quản lý và khai thác hiệu quả. Việc áp dụng mô hình 5Vs giúp nhận diện rõ các đặc điểm và thách thức của dữ liệu lớn, từ đó lựa chọn công nghệ phù hợp như Hadoop và điện toán đám mây để xử lý.

Ứng dụng Python trong phân tích dữ liệu lớn không chỉ giúp tăng tốc độ xử lý mà còn nâng cao khả năng trực quan hóa và xây dựng mô hình máy học. So với các nghiên cứu trước đây, việc kết hợp các thuật toán truyền thống như hồi quy tuyến tính và phân cụm K-means với công nghệ Big Data mang lại hiệu quả cao hơn trong phân tích kinh doanh thực tế.

Dữ liệu có thể được trình bày qua các biểu đồ hồi quy tuyến tính, biểu đồ tán xạ phân nhóm khách hàng, và bảng thống kê mô tả đặc điểm dữ liệu, giúp minh họa rõ ràng các phát hiện và hỗ trợ ra quyết định.

Đề xuất và khuyến nghị

Xây dựng hệ thống lưu trữ và xử lý dữ liệu phân tán: Doanh nghiệp cần đầu tư vào các hệ thống như Hadoop hoặc các nền tảng điện toán đám mây để đảm bảo khả năng mở rộng và xử lý dữ liệu lớn hiệu quả. Thời gian thực hiện trong vòng 12 tháng, chủ thể là bộ phận CNTT và quản lý dữ liệu.
Ứng dụng ngôn ngữ Python và các thư viện phân tích dữ liệu: Đào tạo nhân viên phân tích dữ liệu sử dụng Python, tận dụng các thư viện như Pandas, NumPy để xử lý và trực quan hóa dữ liệu, nâng cao năng lực phân tích. Thời gian triển khai 6-9 tháng, chủ thể là phòng phân tích dữ liệu và đào tạo nhân sự.
Áp dụng các thuật toán máy học trong phân tích kinh doanh: Sử dụng mô hình hồi quy tuyến tính để dự báo và thuật toán phân cụm K-means để phân nhóm khách hàng, từ đó xây dựng các chiến lược marketing và ưu đãi phù hợp. Thời gian thực hiện 6 tháng, chủ thể là bộ phận marketing và phân tích dữ liệu.
Tăng cường bảo mật và quản lý vòng đời dữ liệu: Thiết lập các chính sách bảo mật dữ liệu nghiêm ngặt, đồng thời xây dựng quy trình quản lý vòng đời dữ liệu nhằm loại bỏ dữ liệu không cần thiết, giảm chi phí lưu trữ và tăng hiệu quả phân tích. Thời gian thực hiện 9-12 tháng, chủ thể là bộ phận an ninh thông tin và quản lý dữ liệu.

Đối tượng nên tham khảo luận văn

Nhà quản lý doanh nghiệp: Giúp hiểu rõ về tiềm năng và thách thức của Big Data trong kinh doanh, từ đó đưa ra các quyết định đầu tư công nghệ và chiến lược phát triển dựa trên dữ liệu.
Chuyên gia phân tích dữ liệu và khoa học dữ liệu: Cung cấp kiến thức về các công nghệ lưu trữ, xử lý và phân tích dữ liệu lớn, cũng như ứng dụng các thuật toán máy học trong thực tế.
Nhà nghiên cứu và giảng viên trong lĩnh vực CNTT và kinh doanh: Là tài liệu tham khảo để phát triển các nghiên cứu sâu hơn về Big Data, máy học và ứng dụng trong phân tích kinh doanh.
Sinh viên và học viên cao học ngành công nghệ thông tin, khoa học dữ liệu và quản trị kinh doanh: Hỗ trợ học tập, nghiên cứu và phát triển kỹ năng thực hành trong lĩnh vực phân tích dữ liệu lớn và ứng dụng máy học.

Câu hỏi thường gặp

Big Data khác gì so với dữ liệu truyền thống?
Big Data có dung lượng lớn hơn nhiều, bao gồm dữ liệu phi cấu trúc và bán cấu trúc, được xử lý trong thời gian thực với tốc độ và đa dạng cao hơn. Dữ liệu truyền thống thường có cấu trúc rõ ràng và dung lượng nhỏ hơn.
Tại sao Python được ưa chuộng trong phân tích dữ liệu lớn?
Python có cú pháp đơn giản, thư viện phong phú như NumPy, Pandas, Matplotlib hỗ trợ xử lý và trực quan hóa dữ liệu hiệu quả, đồng thời có cộng đồng lớn và nhiều tài nguyên học tập.
Mô hình hồi quy tuyến tính có thể áp dụng trong những bài toán nào?
Mô hình này phù hợp với các bài toán dự báo giá trị liên tục, ví dụ dự báo mức độ yêu thích sản phẩm dựa trên các đặc trưng như độ tuổi, diện tích cửa hàng, giúp doanh nghiệp đưa ra quyết định chiến lược.
Làm thế nào để chọn số cụm k trong thuật toán K-means?
Không có con số k cố định cho mọi bài toán, thường phải thử nghiệm với các giá trị khác nhau và đánh giá kết quả phân cụm để chọn k phù hợp nhất với dữ liệu.
Big Data và máy học có mối quan hệ như thế nào?
Big Data cung cấp nguồn dữ liệu lớn và đa dạng, trong khi máy học là công cụ khai thác tri thức từ dữ liệu đó. Hai lĩnh vực này hỗ trợ và thúc đẩy lẫn nhau trong việc tạo ra giá trị từ dữ liệu.

Kết luận

Big Data với mô hình 5Vs là nền tảng để hiểu và quản lý dữ liệu lớn trong kinh doanh hiện đại.
Công nghệ Hadoop và điện toán đám mây là giải pháp hiệu quả cho lưu trữ và xử lý dữ liệu lớn.
Python và các thư viện hỗ trợ là công cụ quan trọng trong phân tích và trực quan hóa dữ liệu lớn.
Mô hình máy học như hồi quy tuyến tính và phân cụm K-means giúp doanh nghiệp dự báo và phân nhóm khách hàng chính xác.
Các bước tiếp theo bao gồm triển khai hệ thống công nghệ, đào tạo nhân lực và áp dụng mô hình phân tích trong thực tế kinh doanh để nâng cao hiệu quả và cạnh tranh.

Hãy bắt đầu áp dụng các giải pháp Big Data và máy học để khai thác tối đa giá trị dữ liệu, nâng cao năng lực phân tích và ra quyết định trong doanh nghiệp của bạn ngay hôm nay!

Trích đoạn nội dung tài liệu

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BIG DATA VÀ QUY TRÌNH PHÂN TÍCH DỮ LIỆU LỚN 1.1 Giới thiệu tổng quan về Big Data Trong 22 năm qua, dữ liệu đã tăng lên với một quy mô lớn trong các lĩnh vực khác nhau. Theo một báo cáo từ Tập đoàn Dữ liệu Quốc tế (IDC), trong năm 2011 dung lượng dữ liệu được tạo ra và sao chép trên toàn thế giới là 1.8ZB, tăng gần chín lần trong năm năm [1]. Con số này sẽ không dừng lại ở đó mà sẽ tăng gấp đôi ít nhất hai năm một lần trong tương lai gần. Dưới sự phát triển mạnh mẽ của CNTT và sự gia tăng một cách bùng nổ của dữ liệu toàn cầu, thuật ngữ Big Data đã trở nên quen thuộc và thường được dùng để mô tả các hệ thống dữ liệu lớn.

So với các tập dữ liệu truyền thống trước đây, dữ liệu lớn thường bao gồm các khối dữ liệu phi cấu trúc cần thêm phân tích trong thời gian thực. Ngoài ra, dữ liệu lớn cũng mang lại những cơ hội mới để khám phá giá trị mới, giúp chúng ta có được một sự hiểu biết một cách sâu sắc về các giá trị tiềm ẩn, cũng như những thách thức mới. Ví dụ là làm thế nào để tổ chức và quản lý các tập dữ liệu như vậy một cách hiệu quả. Trong những năm trở lại đây, nhiều ngành công nghiệp đang trở nên quan tâm đến tiềm năng to lớn của Big Data, nhiều cơ quan chính phủ đã công bố kế hoạch lớn trong việc phát triển nghiên cứu và ứng dụng Big Data [2].

Không chỉ vậy, các vấn đề liên quan tới Big Data cũng luôn được nhắc đến trên các phương tiện truyền thông công cộng, chẳng hạn như Economist [3][4], New York Times [5] và Nation Public Radio [6][7]. Hai tạp chí khoa học đầu ngành là Nature và Science cũng đã mở mục riêng để thảo luận về những thách thức và các tác động của Big Data [8][9]. Tới đây, có thể nói rằng kỷ nguyên của Big Data đã đến [10]. Ngày nay, Big Data có liên quan đến dịch vụ của các công ty về Internet đều phát triển nhanh chóng.

Ví dụ, Google xử lý dữ liệu khoảng hàng trăm Petabyte (PB), Facebook đã tạo khoảng hơn 10 PB dữ liệu log mỗi tháng, Taobao một công ty con của Alibaba tạo ra hàng chục Terabyte (TB) dữ liệu về giao dịch trực tuyến mỗi ngày.1 Những định nghĩa và đặc trưng của Big Data Big Data là một khái niệm trừu tượng và có rất nhiều định nghĩa về Big Data. Ngay như tên gọi là dữ liệu lớn hay dữ liệu khổng lồ thì nó còn có một số đặc trưng 2 khác trong đó xác định sự khác biệt giữa nó và “dữ liệu lớn” hay “dữ liệu rất lớn”. Hiện nay, mặc dù tầm quan trọng của Big Data đã được thừa nhận rộng rãi, nhưng vẫn có nhiều những ý kiến về định nghĩa của nó. Một cách tổng quát có thể định nghĩa rằng Big Data có nghĩa là các bộ dữ liệu không thể được nhận diện, thu hồi, quản lý và xử lý bằng CNTT truyền thống và các công cụ phần mềm/ phần cứng trong một khoảng thời gian có thể chấp nhận được.

Phát sinh từ nhiều sự quan tâm, các doanh nghiệp khoa học và công nghệ, các nhà nghiên cứu, các nhà phân tích dữ liệu và các kỹ thuật viên có những định nghĩa khác nhau về Big Data. Sau đây là một số định nghĩa về Big Data mang tới một sự hiểu biết tốt hơn về những ý nghĩa xã hội, kinh tế và công nghệ rộng lớn của Big Data. Năm 2010, Apache Hadoop định nghĩa dữ liệu lớn như “bộ dữ liệu mà không thể thu thập, quản lý và xử lý bởi các máy tính nói chung trong một phạm vi chấp nhận được”. Cũng trên cơ sở đó, vào tháng 5 năm 2011, McKinsey & Company, một công ty tư vấn toàn cầu công bố Big Data như một địa hạt mới cho sự đổi mới, cạnh tranh và hiệu suất.

Big Data có nghĩa là những bộ dữ liệu mà không có thể được thu lại, lưu trữ và quản lý bởi phần mềm cơ sở dữ liệu cổ điển. Định nghĩa này gồm hai ý nghĩa: Thứ nhất, dung lượng của các tập dữ liệu mà phù hợp với tiêu chuẩn Big Data đang thay đổi và có thể tăng trưởng theo thời gian hoặc với những tiến bộ công nghệ. Thứ hai, dung lượng của các tập dữ liệu mà phù hợp với tiêu chuẩn của Big Data trong các ứng dụng khác nhau trong mỗi ứng dụng. Hiện nay, Big Data thường từ vài TB đến vài PB [10].

Từ định nghĩa của McKinsey & Company, có thể thấy rằng dung lượng của một tập dữ liệu không phải là tiêu chí duy nhất cho Big Data. Quy mô dữ liệu ngày càng phát triển và việc quản lý nó mà không thể xử lý bằng công nghệ cơ sử dữ liệu truyền thống là hai đăng trưng quan trọng tiếp theo. Dữ liệu lớn đã được định nghĩa từ sớm những năm 2001. Doug Laney, một nhà phân tích của META (nay có tên là công ty nghiên cứu Gartner) định nghĩa những thách thức và cơ hội mang lại của sự tăng trưởng dữ liệu với một mô hình “3Vs”, tức là sự gia tăng của dung lượng, tốc độ và tính đa dạng trong một báo cáo nghiên cứu [11].

Mặc dù, mô hình này ban đầu không được sử dụng để xác định Big Data, tuy nhiên Gatrtner cùng nhiều doanh nghiệp khác bao gồm cả IBM và một số cơ sở nghiên cứu của Microsoft vẫn còn sử dụng mô hình “3Vs” để mô tả về dữ liệu lớn trong vòng 10 năm tiếp theo.1: Mô hình 3Vs của Big Data Mô hình “3Vs” được giải thích như sau: - Dung lượng (Volume): Sự sản sinh và thu thập các dữ liệu lớn, quy mô dữ liệu trở nên ngày càng lớn. - Tốc độ (Velocity): Tính kịp thời của dữ liệu lớn, cụ thể là việc thu thập và phân tích dữ liệu phải được tiến hành nhanh chóng và kịp thời để sử dụng một cách tối đa các giá trị thương mại của Big Data. - Tính đa dạng (Variety): Các loại dữ liệu khác nhau bao gồm dữ liệu bán cấu trúc và phi cấu trúc như âm thanh, video, web, văn bản,…cũng như dữ liệu có cấu trúc truyền thống. Đến năm 2011, định nghĩa về Big Data đã có sự thay đổi khi một báo cáo của IDC đã đưa ra một định nghĩa như sau: “Công nghệ Big Data mô tả một thế hệ mới của những công nghệ và kiến trúc, được thiết kế để lấy ra giá trị kinh tế từ dung lượng rất lớn của một loạt các dữ liệu bằng cách cho phép tốc độ cao trong việc thu thập, khám phá hoặc phân tích” [1].

Với định nghĩa này, dữ liệu lớn mang trong mình bốn đặc trưng và được hiểu như một mô hình “4Vs”. Năm 2014, Gartner lại đưa ra một khái niệm mới về Big Data qua mô hình “5Vs” với năm tính chất quan trọng của Big Data.2: Mô hình 5vs của Big Data Mô hình “5Vs” được giải thích như sau: - Khối lượng (Volume): Sự sản sinh và thu thập các dữ liệu lớn, quy mô dữ liệu trở nên ngày càng lớn. - Tốc độ (Velocity): Tính kịp thời của dữ liệu lớn, cụ thể là việc thu thập và phân tích dữ liệu phải được tiến hành nhanh chóng và kịp thời để sử dụng một cách tối đa các giá trị thương mại của Big Data. - Tính đa dạng (Variety): Các loại dữ liệu khác nhau bao gồm dữ liệu bán cấu trúc và phi cấu trúc như âm thanh, video, web, văn bản,…cũng như dữ liệu có cấu trúc truyền thống.

- Tính chính xác (Veracity): Tính hỗn độn hoặc tin cậy của dữ liệu. Với rất nhiều dạng thức khác nhau của dữ liệu lớn, chất lượng và tính chính xác của dữ liệu rất khó kiểm soát. Khối lượng dữ liệu lớn sẽ đi kèm với tính xác thực của dữ liệu. - Giá trị (Value): Đây được coi là đặc điểm quan trọng nhất của dữ liệu lớn.

Việc tiếp cận dữ liệu lớn sẽ không có ý nghĩa nếu không được chuyển thành những thứ có giá trị. Giá trị của dữ liệu là đặc điểm quan trọng nhất trong mô hình “5Vs” của Big Data. Ngoài ra, Viện tiêu chuẩn và kỹ thuật quốc gia của Hoa Kỳ (NIST) định nghĩa “Dữ liệu lớn có nghĩa là các dữ liệu mà dung lượng dữ liệu, tốc độ thu thập hoặc biểu diễn dữ liệu hạn chế khả năng của việc sử dụng các phương pháp quan hệ truyền thống để tiến hành phân tích hiệu quả hoặc các dữ liệu mà có thể được xử lý một cách hiệu quả với các công nghệ”. Định nghĩa này tập trung vào các khía cạnh công nghệ của 5 Big Data.

Nó chỉ ra rằng phương pháp hay công nghệ hiệu quả cần phải được phát triển và được sử dụng để phân tích và xử lý dữ liệu lớn.2 Sự phát triển của Big Data Cuối những năm 1970, khái niệm “máy cơ sở dữ liệu” nổi lên, đó là một công nghệ đặc biệt sử dụng cho việc lưu trữ và phân tích dữ liệu. Với sự gia tăng của dung lượng dữ liệu, khả năng lưu trữ và xử lý của một hệ thống máy tính lớn duy nhất trở nên không đủ. Trong những năm 1980, hệ thống “không chia sẻ”- một hệ thống cơ sở dữ liệu song song được đề xuất để đáp ứng nhu cầu của dung lượng dữ liệu ngày càng tăng [12]. Kiến trúc hệ thống không chia sẻ được dựa trên việc sử dụng các cụm và mỗi máy có riêng bộ xử lý, lưu trữ và đĩa cứng.

Hệ thống Teradata là hệ thống cơ sở dữ liệu song song thương mại thành công đầu tiên. Ngày 2 tháng 6 năm 1986, một sự kiện bước ngoặt xảy ra khi Teradata giao hệ thống cơ sở dữ liệu song song đầu tiên với dung lượng lưu trữ 1TB cho Kmart để giúp các công ty bán lẻ quy mô lớn tại Bắc Mỹ mở rộng kho dữ liệu [13]. Trong những năm 1990, những ưu điểm của cơ sở dữ liệu song song đã được công nhận rộng rãi trong lĩnh vực cơ sở dữ liệu. Tuy nhiên, Big Data vẫn còn nhiều thách thức phát sinh.

Với sự phát triển của dịch vụ Internet, các nội dung chỉ mục và truy vấn đã được phát triển nhanh chóng. Do đó, công cụ tìm kiếm của các công ty đều phải đối mặt với những thách thức của việc xử lý dữ liệu lớn. Google tạo ra mô hình lập trình GFS [14] và MapReduce [15] để đối phó với những thách thức mang lại về việc quản lý và phân tích dữ liệu ở quy mô Internet.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Nghiên cứu một số vấn đề về big data và ứng dụng trong phân tích kinh doanh" của tác giả Phạm Việt Anh, dưới sự hướng dẫn của GS.TS Vũ Đức Thi, được thực hiện tại Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông, Đại Học Thái Nguyên vào năm 2019. Bài viết tập trung vào việc khám phá các khía cạnh của big data và cách nó có thể được ứng dụng hiệu quả trong phân tích kinh doanh. Những điểm chính của bài luận văn bao gồm các phương pháp phân tích dữ liệu lớn, lợi ích của việc áp dụng big data trong việc ra quyết định kinh doanh, và các thách thức mà doanh nghiệp phải đối mặt khi triển khai công nghệ này. Độc giả sẽ nhận được cái nhìn sâu sắc về tầm quan trọng của big data trong việc tối ưu hóa quy trình kinh doanh và nâng cao hiệu suất làm việc.

Nếu bạn quan tâm đến các chủ đề liên quan đến quản trị kinh doanh và phân tích dữ liệu, bạn có thể tham khảo thêm bài viết "Công tác đãi ngộ nhân sự tại công ty cổ phần kinh đô luận văn ths 2015", nơi đề cập đến các yếu tố quản lý nhân lực trong doanh nghiệp. Ngoài ra, bài viết "Luận văn thạc sĩ cấu trúc vốn và hiệu quả hoạt động của các công ty niêm yết tại sở giao dịch chứng khoán tp hồ chí minh" cũng cung cấp cái nhìn về hiệu quả hoạt động tài chính trong bối cảnh doanh nghiệp hiện đại. Cuối cùng, bài viết "Luận văn thạc sĩ các yếu tố ảnh hưởng đến quyết định mua hàng thái lan của người tiêu dùng tại thành phố hồ chí minh" sẽ giúp bạn hiểu rõ hơn về các yếu tố quyết định trong hành vi tiêu dùng, một phần quan trọng trong phân tích kinh doanh. Những bài viết này sẽ mở rộng thêm kiến thức của bạn về các vấn đề liên quan đến big data và ứng dụng trong kinh doanh.

Nghiên cứu về Big Data và Ứng dụng trong Phân tích Kinh doanh

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BIG DATA VÀ QUY TRÌNH PHÂN TÍCH DỮ LIỆU LỚN

1.1. Giới thiệu tổng quan về Big Data

1.2. Những định nghĩa và đặc trưng của Big Data

1.3. Sự phát triển của Big Data

1.4. Những thách thức mà Big Data mang lại

1.5. Những công nghệ trong Big Data

I. Khái niệm đặc trưng và sự phát triển của Big Data

II. Thách thức và công nghệ cốt lõi của Big Data

III. Quy trình phân tích dữ liệu lớn và ngôn ngữ Python

IV. Máy học trong phân tích kinh doanh và các phương pháp phân tích

THÔNG TIN CHI TIẾT

Tác giả: Phạm Việt Anh

Người hướng dẫn: GS.TS Vũ Đức Thi

Trường học: Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông, Đại Học Thái Nguyên

Chuyên ngành: Công nghệ thông tin

Đề tài: Nghiên cứu một số vấn đề về Big Data và ứng dụng trong phân tích kinh doanh

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: Thái Nguyên

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Nghiên cứu về Big Data và Ứng dụng trong Phân tích Kinh doanh

1. CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ BIG DATA VÀ QUY TRÌNH PHÂN TÍCH DỮ LIỆU LỚN

1.1. Giới thiệu tổng quan về Big Data

1.2. Những định nghĩa và đặc trưng của Big Data

1.3. Sự phát triển của Big Data

1.4. Những thách thức mà Big Data mang lại

1.5. Những công nghệ trong Big Data

I. Khái niệm đặc trưng và sự phát triển của Big Data

II. Thách thức và công nghệ cốt lõi của Big Data

III. Quy trình phân tích dữ liệu lớn và ngôn ngữ Python

IV. Máy học trong phân tích kinh doanh và các phương pháp phân tích

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phạm Việt Anh

Người hướng dẫn: GS.TS Vũ Đức Thi

Trường học: Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông, Đại Học Thái Nguyên

Chuyên ngành: Công nghệ thông tin

Đề tài: Nghiên cứu một số vấn đề về Big Data và ứng dụng trong phân tích kinh doanh

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: Thái Nguyên

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm