Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1. Khoa học dữ liệu là gì? - Khoa học dữ liệu (hay còn được gọi là Data Science) là một lĩnh vực nghiên cứu và ứng dụng các phương pháp, công cụ và kỹ thuật để hiểu và phân tích dữ liệu. Mục tiêu chính của khoa học dữ liệu là trích xuất kiến thức, thông tin hữu ích và đưa ra dự đoán từ các tập dữ liệu lớn và phức tạp. - Khoa học dữ liệu kết hợp các phương pháp từ nhiều lĩnh vực như thống kê, toán học, máy học, khai phá dữ liệu và lập trình để xử lý, phân tích và hiển thị thông tin từ dữ liệu.
Quá trình này bao gồm thu thập dữ liệu, tiền xử lý (cleaning), biểu diễn, rút trích đặc trưng, xây dựng mô hình dự đoán và phân tích kết quả để đưa ra những quyết định hỗ trợ và giải quyết các vấn đề phức tạp. - Khoa học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ liệu, phân tích dữ liệu, và áp dụng kết quả phân tích thành những hành động có giá trị. Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê toán học - Mathematical Statistics), công nghệ thông tin (máy học - Machine Learning) và tri thức của lĩnh vực ứng dụng cụ thể. Tất cả ba phần này đều liên kết chặt chẽ và tương tác với nhau để đạt được sự hiểu biết và giá trị từ dữ liệu.
Việc thực hiện một quy trình khoa học dữ liệu hiệu quả và đạt được kết quả tốt yêu cầu kiến thức sâu sắc về các phương pháp, công cụ và kỹ thuật trong lĩnh vực này Hình 1: Data Science và các lĩnh vực liên quan 2. Công dụng của KHDL? 2. Dự đoán và đưa ra quyết định Khoa học dữ liệu giúp xây dựng các mô hình dự đoán để dự đoán các sự kiện và xu hướng trong tương lai. Các mô hình này có thể được áp dụng trong kinh doanh, tài chính, y tế và nhiều lĩnh vực khác để đưa ra quyết định thông minh và tối ưu hóa hiệu quả hoạt động.
Trang | 10 Downloaded by mon hon (monmon1@gmail. Phân tích và hiểu biết dữ liệu Khoa học dữ liệu giúp phân tích và khám phá thông tin tiềm ẩn trong dữ liệu. Nó có thể giúp hiểu rõ hơn về mối quan hệ giữa các biến, tìm kiếm những xu hướng ẩn trong dữ liệu và đưa ra các nhận định, giả định có giá trị 2. Tối ưu hóa quy trình và hiệu suất Khi được áp dụng vào các công nghiệp và tổ chức, khoa học dữ liệu có thể giúp tối ưu hóa các quy trình và hoạt động.
Việc sử dụng dữ liệu để tối ưu hóa quy trình sản xuất, quản lý lượng tồn kho, tối ưu hóa vận chuyển và lên kế hoạch sản xuất có thể giúp giảm chi phí và tăng hiệu suất. Phát triển sản phẩm và dịch vụ thông minh Khoa học dữ liệu là cơ sở cho phát triển các sản phẩm và dịch vụ thông minh. Các ứng dụng trí tuệ nhân tạo, học máy và các công nghệ khác dựa trên dữ liệu đã mở ra khả năng tạo ra các sản phẩm và dịch vụ tiên tiến, như chatbot, hệ thống tự động lái xe, hệ thống gợi ý và phân loại nội dung. Nghiên cứu và phát triển mới Khoa học dữ liệu có vai trò quan trọng trong việc nghiên cứu và phát triển mới.
Nó giúp các nhà khoa học và nhà nghiên cứu tìm hiểu về dữ liệu, khám phá kiến thức mới và giúp định hình các lĩnh vực nghiên cứu tiềm năng. Phân tích xã hội và chính trị Khoa học dữ liệu có thể được áp dụng để phân tích và hiểu biết về hành vi xã hội và chính trị. Nó có thể giúp đánh giá hiệu quả chính sách công, phân tích ý kiến của công chúng, và tìm hiểu xu hướng và tư duy trong cộng đồng. Quy trình khoa học dữ liệu là gì? Quy trình khoa học dữ liệu bao gồm một loạt các bước và giai đoạn để phân tích dữ liệu và đưa ra những hiểu biết hữu ích từ các tập dữ liệu.
Mặc dù quy trình này có thể có sự biến đổi tùy thuộc vào từng dự án cụ thể, tuy nhiên, có thể tóm tắt quy trình khoa học dữ liệu chung như sau: - Xác định vấn đề và mục tiêu Bước đầu tiên trong quy trình khoa học dữ liệu là xác định rõ ràng vấn đề hoặc câu hỏi mà bạn muốn giải quyết và mục tiêu bạn muốn đạt được từ việc phân tích dữ liệu. Điều này sẽ giúp định hình phạm vi của dự án và xác định những dữ liệu cần thiết để trả lời các câu hỏi này - Thu thập dữ liệu Tiếp theo, bạn cần thu thập dữ liệu từ các nguồn khác nhau phù hợp với mục tiêu của bạn. Dữ liệu có thể được thu thập từ cơ sở dữ liệu, bộ thu thập dữ liệu trực tuyến, các tập tin lưu trữ, trang web, cảm biến, hoặc bất kỳ nguồn dữ liệu nào liên quan đến vấn đề bạn đang nghiên cứu. - Tiền xử lý dữ liệu Sau khi thu thập dữ liệu, bước tiếp theo là tiền xử lý dữ liệu.
Trong giai đoạn này, dữ liệu sẽ được kiểm tra và làm sạch để loại bỏ các giá trị thiếu, nhiễu và dữ liệu không hợp lệ. Bạn cần chuẩn hóa dữ liệu và biến đổi nó để sẵn sàng cho phân tích Trang | 11 Downloaded by mon hon (monmon1@gmail.com) lOMoARcPSD|39211872 - Khám phá và phân tích dữ liệu Sau khi dữ liệu đã được tiền xử lý, bạn có thể bắt đầu khám phá và phân tích dữ liệu. Các phương pháp thống kê và khai phá dữ liệu được sử dụng để tìm kiếm các mẫu, xu hướng và thông tin hữu ích từ dữ liệu - Xây dựng mô hình dự đoán Trong bước này, bạn sẽ xây dựng các mô hình dự đoán sử dụng các kỹ thuật máy học và học máy. Mô hình này có thể được sử dụng để dự đoán các sự kiện trong tương lai hoặc phân loại các dữ liệu mới.
- Đánh giá và tinh chỉnh mô hình Mô hình dự đoán cần được đánh giá và tinh chỉnh để đảm bảo hiệu suất tốt và đáng tin cậy. Bạn có thể sử dụng các phương pháp đánh giá mô hình như cross-validation để kiểm tra độ chính xác của mô hình trên dữ liệu thử nghiệm - Trình bày kết quả Cuối cùng, bạn sẽ trình bày kết quả của quá trình khoa học dữ liệu một cách rõ ràng và dễ hiểu. Báo cáo, biểu đồ, biểu đồ và tóm tắt được sử dụng để hiển thị các kết quả và giải thích ý nghĩa của chúng - Ứng dụng kết quả Kết quả của quá trình khoa học dữ liệu có thể được áp dụng vào các lĩnh vực khác nhau, từ đưa ra quyết định trong kinh doanh, tối ưu hóa quy trình sản xuất, cải thiện hiệu suất, phát triển sản phẩm thông minh, đưa ra chính sách công, và nhiều ứng dụng khác 4. Một số ứng dụng tiêu biểu của khoa học dữ liệu: - Amazon và Netflix: Cả Amazon và Netflix sử dụng khoa học dữ liệu để tạo ra gợi ý sản phẩm và nội dung cá nhân hóa dựa trên hành vi mua sắm và xem phim của khách hàng.
Điều này giúp cải thiện trải nghiệm người dùng và tăng doanh số bán hàng. - Uber và Grab: Các dịch vụ gọi xe như Uber và Grab sử dụng khoa học dữ liệu để dự đoán và tối ưu hóa thời gian đợi, tuyến đường và giá cước dựa trên thông tin giao thông thời gian thực và mô hình học máy. - Google Maps: Google Maps sử dụng khoa học dữ liệu và học máy để cung cấp thông tin lưu lượng giao thông thời gian thực, đề xuất tuyến đường tối ưu và dự báo thời gian đến đích. - Spotify: Spotify sử dụng khoa học dữ liệu để tạo ra danh sách phát và gợi ý âm nhạc cá nhân dựa trên sở thích âm nhạc và lịch sử nghe nhạc của người dùng.
- IBM Watson: IBM Watson là một hệ thống trí tuệ nhân tạo dựa trên khoa học dữ liệu. Nó được sử dụng trong nhiều lĩnh vực, bao gồm y tế (phân tích hình ảnh y khoa, - chẩn đoán bệnh), quản lý tri thức doanh nghiệp, dịch vụ khách hàng và nhiều ứng dụng khác. - Facebook: Facebook sử dụng khoa học dữ liệu để phân tích hành vi người dùng, gợi ý bạn bè, hiển thị nội dung và quảng cáo cá nhân hóa, và phát hiện hoạt động giả mạo và spam. Trang | 12 Downloaded by mon hon (monmon1@gmail.
Lý do chọn đề tài Với sự phát triển không ngừng của thương mại điện tử và sự tối ưu của nền tảng công nghệ cho phép khả năng truy cập trực tuyến của Netflix trở nên thuận tiện và độc đáo trong nhiều năm qua, không có nhiều công ty truyền thông cung cấp như vậy, điều này làm cho nền tảng này trở nên hấp dẫn. Việc thu thập và nắm bắt dữ liệu của người dùng giúp nhà quản lý hiểu rõ hơn về nhu cầu thị hiếu và sở thích của họ. Bằng cách thu thập và phân tích dữ liệu từ các thông tin người đăng ký trên hệ thống, loại hình đăng ký, nơi đăng ký,. chúng ta có thể tạo ra những báo cáo dự đoán và phân tích về xu hướng của người dùng cho việc đăng ký gói Netflix.
Vì vậy nhóm quyết định chọn đề tài “Phân tích và dự báo dữ liệu người dùng đăng ký Netflix” để chúng ta sẽ có bức tranh và nhìn thấy được thị hiếu của khách hàng về kênh Netflix trong tương lai là như thế nào. Nhờ đó nhà quản lý có thể chuẩn bị trước cho mình các chiến lược và sự đầu tư để phát triển lĩnh vực này. Trang | 13 Downloaded by mon hon (monmon1@gmail.com) lOMoARcPSD|39211872 Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 1. Các phương pháp sử dụng Excel để khai thác dữ liệu 1.
Phương pháp thống kê mô tả a. Thống kê bằng công cụ Descriptive Statistics - Thống kê mô tả (Descriptive Statistics) là một phương pháp trong thống kê dùng để mô tả và tổng hợp các dữ liệu quan sát được. Thống kê mô tả cho phép bạn biết được giá trị trung bình, phương sai, độ lệch chuẩn, phân vị, min, max và các đặc tính khác của dữ liệu. Những thông tin này giúp bạn có cái nhìn tổng quan về dữ liệu, giúp bạn hiểu rõ hơn về sự phân bố và tính chất của dữ liệu.
- Cách thực hiện: Bước 1: Chuẩn bị bảng số liệu cần thống kê Bước 2: Chọn lệnh Data -> Data Analysis -> Descriptive Statistics, sau đó hộp thoại Descriptive Statistics xuất hiện.