Nghiên cứu về Big Data và Ứng dụng trong Phân tích Kinh doanh

2019

64
74
1

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Khái niệm đặc trưng và sự phát triển của Big Data

Luận văn bắt đầu bằng việc giới thiệu tổng quan về Big Data, nhấn mạnh sự tăng trưởng bùng nổ của dữ liệu trong những năm qua. Tác giả dẫn chứng báo cáo của IDC về dung lượng dữ liệu toàn cầu, minh họa cho quy mô và tốc độ gia tăng của dữ liệu. Luận văn cũng nêu bật sự quan tâm ngày càng tăng đối với Big Data từ các ngành công nghiệp, chính phủ, và giới truyền thông.

Tác giả phân tích sâu vào khái niệm Big Data, đưa ra nhiều định nghĩa từ các nguồn khác nhau như Apache Hadoop, McKinsey & Company, và IDC. Các mô hình "3Vs", "4Vs", và "5Vs" được trình bày chi tiết, làm rõ các đặc trưng cốt lõi của Big Data bao gồm dung lượng (Volume), tốc độ (Velocity), tính đa dạng (Variety), tính chính xác (Veracity), và giá trị (Value). "Giá trị của dữ liệu là đặc điểm quan trọng nhất trong mô hình '5Vs' của Big Data" - một điểm nhấn quan trọng của luận văn.

Phần tiếp theo tóm tắt lịch sử phát triển của Big Data, từ những máy cơ sở dữ liệu đầu tiên đến sự ra đời của các hệ thống cơ sở dữ liệu song song như Teradata. Tác giả đề cập đến vai trò của Google trong việc phát triển các mô hình lập trình như GFS và MapReduce để xử lý dữ liệu ở quy mô Internet. Báo cáo "Trích xuất giá trị từ sự hỗn độn" của EMC/IDC được đánh giá là một bước ngoặt quan trọng, đánh dấu sự quan tâm rộng rãi đến Big Data từ cả giới công nghiệp và học thuật.

II. Thách thức và công nghệ cốt lõi của Big Data

Luận văn tiếp tục trình bày những thách thức mà Big Data mang lại, bao gồm biểu diễn dữ liệu, giảm sự dư thừa, quản lý vòng đời dữ liệu, cơ chế phân tích, bảo mật dữ liệu, quản lý năng lượng, khả năng mở rộng, và sự hợp tác. Tác giả chỉ ra rằng các hệ thống quản lý cơ sở dữ liệu quan hệ truyền thống (RDBMS) gặp khó khăn trong việc xử lý dữ liệu phi cấu trúc và dung lượng lớn của Big Data.

Về công nghệ, luận văn tập trung vào điện toán đám mây, IoT, trung tâm dữ liệu và Hadoop. Điện toán đám mây được nhấn mạnh là cơ sở hạ tầng quan trọng cho Big Data, cung cấp khả năng tính toán và lưu trữ lớn. Mối quan hệ tương hỗ giữa Big Data và điện toán đám mây được phân tích rõ ràng: "Sự phát triển của Big Data được thúc đẩy bởi sự tăng trưởng nhanh chóng của nhu cầu ứng dụng và điện toán đám mây được phát triển từ công nghệ ảo hóa. Đến một lúc nào đó, các tiến bộ của điện toán đám mây cũng thúc đẩy sự phát triển của Big Data, cả hai sẽ bổ sung cho nhau." IoT được xem là một nguồn dữ liệu quan trọng cho Big Data trong tương lai, với hàng nghìn tỷ cảm biến được triển khai. Trung tâm dữ liệu không chỉ là nơi lưu trữ mà còn đảm nhiệm các chức năng thu thập, quản lý, và khai thác giá trị dữ liệu. Cuối cùng, Hadoop được giới thiệu là một framework mã nguồn mở quan trọng, cho phép xử lý phân tán dữ liệu lớn trên các cụm máy tính.

III. Quy trình phân tích dữ liệu lớn và ngôn ngữ Python

Luận văn mô tả quy trình phân tích dữ liệu lớn gồm bốn giai đoạn: tạo ra dữ liệu, thu thập dữ liệu, lưu trữ dữ liệu và phân tích dữ liệu. Mỗi giai đoạn được phân tích chi tiết, bao gồm các phương pháp và kỹ thuật cụ thể. Ví dụ, giai đoạn thu thập dữ liệu được chia thành thu nhận dữ liệu (qua log file, cảm biến, web crawler), truyền tải dữ liệu (Inter-DCN và Intra-DCN), và tiền xử lý dữ liệu (tích hợp, dọn dẹp, loại bỏ dư thừa). Giai đoạn lưu trữ dữ liệu được phân loại theo hệ thống tập tin (như GFS), cơ sở dữ liệu (NoSQL như key-value, column-oriented, document-oriented), và các mô hình lập trình (MapReduce, Dryad, GraphLab). "Phân tích dữ liệu là giai đoạn cuối cùng và quan trọng nhất trong chuỗi giá trị của Big Data" - nhấn mạnh mục tiêu cuối cùng của toàn bộ quy trình.

Luận văn chuyển sang giới thiệu ngôn ngữ lập trình Python và ứng dụng của nó trong phân tích dữ liệu. Các đặc điểm nổi bật của Python như dễ học, dễ hiểu, tính di động cao, thư viện phong phú, và cộng đồng sử dụng lớn được đề cập. Tác giả nhấn mạnh vai trò quan trọng của Python trong khoa học dữ liệu và máy học, dẫn chứng kết quả thống kê từ KDnuggets. Các thư viện quan trọng của Python cho phân tích dữ liệu như NumPy, Pandas, và Matplotlib được giới thiệu chi tiết, kèm theo các ví dụ về chức năng và cách sử dụng.

IV. Máy học trong phân tích kinh doanh và các phương pháp phân tích

Luận văn giới thiệu khái niệm máy học (Machine Learning) như một nhánh của trí tuệ nhân tạo, tập trung vào khả năng tự học của máy tính từ dữ liệu. Tác giả giải thích các khái niệm quan trọng như nhiệm vụ, phép đánh giá, và kinh nghiệm trong máy học. Mối quan hệ tương hỗ giữa Big Data và máy học được làm rõ: "Big Data chưa chắc đã có ý nghĩa nếu như không hiểu được những giá trị thông tin ẩn chứa trong khối dữ liệu khổng lồ đó. Máy học lúc này chính là thành phần chủ chốt". Các bước xây dựng mô hình máy học được trình bày tuần tự, từ thu thập dữ liệu đến áp dụng mô hình, bao gồm cả vấn đề overfitting trong huấn luyện mô hình. Hai loại kỹ thuật máy học chính, học có giám sát (Supervised Learning) và học không giám sát (Unsupervised Learning), được phân tích và minh họa bằng các ví dụ ứng dụng.

Luận văn đi sâu vào hai phương pháp cụ thể: hồi quy tuyến tính (Linear Regression) và phân cụm K-means. Mô hình hồi quy tuyến tính được giải thích chi tiết, từ ký hiệu toán học, định nghĩa, đến phân tích toán học để tìm điểm tối ưu. Một ví dụ ứng dụng trong kinh doanh, dự báo mức độ yêu thích của khách hàng, được sử dụng để minh họa. Phương pháp phân cụm K-means cũng được trình bày rõ ràng, bao gồm phân tích toán học, thuật toán lặp, và vấn đề lựa chọn số cụm k. Cuối cùng, luận văn thảo luận về việc sử dụng hàm mất mát và tham số mô hình trong máy học, cũng như phương pháp Gradient descent để tìm cực tiểu địa phương của hàm số.

18/11/2024
Nghiên cứu một số vân đề về big data và ứng dụng trong phân tích kinh doanh luận văn thạc sĩ
Bạn đang xem trước tài liệu : Nghiên cứu một số vân đề về big data và ứng dụng trong phân tích kinh doanh luận văn thạc sĩ

để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tiêu đề "Nghiên cứu một số vấn đề về big data và ứng dụng trong phân tích kinh doanh" của tác giả Phạm Việt Anh, dưới sự hướng dẫn của GS.TS Vũ Đức Thi, được thực hiện tại Trường Đại Học Công Nghệ Thông Tin Và Truyền Thông, Đại Học Thái Nguyên vào năm 2019. Bài viết tập trung vào việc khám phá các khía cạnh của big data và cách nó có thể được ứng dụng hiệu quả trong phân tích kinh doanh. Những điểm chính của bài luận văn bao gồm các phương pháp phân tích dữ liệu lớn, lợi ích của việc áp dụng big data trong việc ra quyết định kinh doanh, và các thách thức mà doanh nghiệp phải đối mặt khi triển khai công nghệ này. Độc giả sẽ nhận được cái nhìn sâu sắc về tầm quan trọng của big data trong việc tối ưu hóa quy trình kinh doanh và nâng cao hiệu suất làm việc.

Nếu bạn quan tâm đến các chủ đề liên quan đến quản trị kinh doanh và phân tích dữ liệu, bạn có thể tham khảo thêm bài viết "Công tác đãi ngộ nhân sự tại công ty cổ phần kinh đô luận văn ths 2015", nơi đề cập đến các yếu tố quản lý nhân lực trong doanh nghiệp. Ngoài ra, bài viết "Luận văn thạc sĩ cấu trúc vốn và hiệu quả hoạt động của các công ty niêm yết tại sở giao dịch chứng khoán tp hồ chí minh" cũng cung cấp cái nhìn về hiệu quả hoạt động tài chính trong bối cảnh doanh nghiệp hiện đại. Cuối cùng, bài viết "Luận văn thạc sĩ các yếu tố ảnh hưởng đến quyết định mua hàng thái lan của người tiêu dùng tại thành phố hồ chí minh" sẽ giúp bạn hiểu rõ hơn về các yếu tố quyết định trong hành vi tiêu dùng, một phần quan trọng trong phân tích kinh doanh. Những bài viết này sẽ mở rộng thêm kiến thức của bạn về các vấn đề liên quan đến big data và ứng dụng trong kinh doanh.

Tải xuống (64 Trang - 3.53 MB )