Luận văn thạc sĩ hệ thống thông tin quản lý phát triển hệ thống thu thập và lưu trữ dữ liệu tmđt dạng nosql

Luận văn thạc sĩ hệ thống thông tin quản lý tập trung phát triển hệ thống thu thập và lưu trữ dữ liệu TMĐT dạng NoSQL, ứng dụng hiệu quả trong quản lý dữ liệu lớn.

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Hệ thống thông tin quản lý

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ LUẬN VĂN

1.1. Giới thiệu sơ lược tình hình TMĐT

1.2. Ý nghĩa của luận văn

1.2.1. Ý nghĩa khoa học

1.2.2. Ý nghĩa thực tiễn

1.3. Mục tiêu, giới hạn và đối tượng nghiên cứu

1.3.1. Mục tiêu nghiên cứu

1.3.2. Giới hạn nghiên cứu của đề tài

1.3.3. Đối tượng nghiên cứu

1.4. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Các công trình nghiên cứu liên quan

2.2. Cách thức thu thập dữ liệu, phân loại website và các thư viện hỗ trợ

2.2.1. Cách thức thu thập dữ liệu

2.2.2. Phân loại website cần thu thập dữ liệu

2.2.3. Một vài thư viện hỗ trợ xây dựng công cụ crawler

2.3. Giới thiệu về dữ liệu lớn - Big Data

2.4. Kho chứa dữ liệu

2.5. Xử lý, phân tích dữ liệu

2.6. Trực quan hóa dữ liệu

3. CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

3.1. Nghiệp vụ hệ thống

3.2. Kiến trúc hệ thống thu thập dữ liệu

3.2.1. Kiến trúc hệ thống thu thập dữ liệu dạng 1

3.2.2. Kiến trúc hệ thống thu thập dữ liệu dạng 2

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Cài đặt và kiểm thử công cụ thu thập dữ liệu dạng 1

4.2. Đặc điểm nổi bật của công cụ thu thập dữ liệu dạng 1

4.3. Cài đặt và kiểm thử công cụ thu thập dữ liệu dạng 2

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC

Tóm tắt

I. Tổng quan về luận văn thạc sĩ

Luận văn thạc sĩ với chủ đề Phát triển hệ thống thu thập và lưu trữ dữ liệu TMĐT dạng NoSQL tập trung vào việc xây dựng một hệ thống hiệu quả để thu thập và lưu trữ dữ liệu từ các trang web thương mại điện tử. Hệ thống thu thập dữ liệu được thiết kế để mô phỏng hành vi người dùng, nhằm tránh bị phát hiện bởi các công cụ chống thu thập dữ liệu tự động. Công nghệ NoSQL, cụ thể là MongoDB, được lựa chọn để lưu trữ dữ liệu do khả năng xử lý dữ liệu lớn và tính linh hoạt cao.

1.1. Giới thiệu tình hình TMĐT

Trong những năm gần đây, thương mại điện tử (TMĐT) tại Việt Nam đã phát triển mạnh mẽ, với sự gia tăng đáng kể số lượng website và giá trị giao dịch. Các doanh nghiệp đã ứng dụng TMĐT vào hoạt động kinh doanh, từ đó nâng cao năng lực cạnh tranh. Tuy nhiên, việc thu thập và phân tích dữ liệu từ các trang web TMĐT vẫn gặp nhiều thách thức do các chính sách chống thu thập dữ liệu tự động.

1.2. Ý nghĩa của luận văn

Luận văn mang lại hai ý nghĩa chính: ý nghĩa khoa học và ý nghĩa thực tiễn. Về khoa học, luận văn là bước đệm cho việc nghiên cứu các công nghệ tiên tiến trong phân tích thị trường TMĐT. Về thực tiễn, hệ thống hỗ trợ doanh nghiệp trong việc thu thập và phân tích dữ liệu, giúp họ đưa ra quyết định kinh doanh sáng suốt hơn.

II. Cơ sở lý thuyết và công trình nghiên cứu liên quan

Chương này trình bày các công trình nghiên cứu liên quan đến thu thập dữ liệu từ các trang web TMĐT. Các nghiên cứu chỉ ra rằng việc thu thập dữ liệu từ sitemap không hiệu quả do thiếu thông tin chi tiết. Ngoài ra, các kỹ thuật chống thu thập dữ liệu như black list, gray list, và white list được phân tích để hiểu rõ cách thức hoạt động của các hệ thống bảo vệ dữ liệu.

2.1. Các công trình nghiên cứu

Các nghiên cứu như của Alex Stolz và Martin Hepp đã chỉ ra những hạn chế của việc thu thập dữ liệu từ sitemap. Nghiên cứu của Junghoo Cho và Hector Garcia-Molina đề xuất giải pháp xử lý song song để tăng hiệu quả thu thập dữ liệu.

2.2. Kỹ thuật chống thu thập dữ liệu

Các kỹ thuật như black list, gray list, và white list được sử dụng để ngăn chặn việc thu thập dữ liệu tự động. Ngoài ra, việc thay đổi thường xuyên markup của website cũng là một phương pháp hiệu quả để chống lại các công cụ thu thập dữ liệu.

III. Phân tích và thiết kế hệ thống

Chương này tập trung vào việc phân tích và thiết kế hệ thống thu thập dữ liệu. Hệ thống được thiết kế để mô phỏng hành vi người dùng, sử dụng các thư viện hỗ trợ như JSoup và Spider. MongoDB được lựa chọn làm cơ sở dữ liệu chính do khả năng xử lý dữ liệu lớn và tính linh hoạt cao.

3.1. Kiến trúc hệ thống

Hệ thống được thiết kế với hai kiến trúc chính: kiến trúc thu thập dữ liệu dạng 1 và kiến trúc thu thập dữ liệu dạng 2. Cả hai kiến trúc đều tập trung vào việc tối ưu hóa quá trình thu thập dữ liệu và tránh bị phát hiện bởi các hệ thống chống thu thập dữ liệu.

3.2. Công cụ thu thập dữ liệu

Các công cụ thu thập dữ liệu được phát triển dựa trên các thư viện hỗ trợ như JSoup và Spider. Các công cụ này được thiết kế để mô phỏng hành vi người dùng, giúp tăng hiệu quả thu thập dữ liệu.

IV. Thực nghiệm và đánh giá

Chương này trình bày quá trình thực nghiệm và đánh giá hệ thống thu thập dữ liệu. Các công cụ thu thập dữ liệu được thử nghiệm trên các trang web TMĐT thực tế, và kết quả cho thấy hệ thống có khả năng thu thập dữ liệu hiệu quả mà không bị phát hiện bởi các công cụ chống thu thập dữ liệu.

4.1. Kết quả thực nghiệm

Các công cụ thu thập dữ liệu đã thu thập thành công dữ liệu từ các trang web TMĐT như chotot.vn. Kết quả cho thấy hệ thống có khả năng xử lý dữ liệu lớn và lưu trữ hiệu quả trên MongoDB.

4.2. Đánh giá hiệu quả

Hệ thống được đánh giá cao về khả năng thu thập dữ liệu và tránh bị phát hiện bởi các công cụ chống thu thập dữ liệu. Tuy nhiên, vẫn còn một số hạn chế cần được cải thiện trong tương lai.

V. Kết luận

Luận văn đã đạt được mục tiêu đề ra là phát triển hệ thống thu thập và lưu trữ dữ liệu TMĐT dạng NoSQL. Hệ thống không chỉ hỗ trợ doanh nghiệp trong việc thu thập và phân tích dữ liệu mà còn mở ra hướng nghiên cứu mới trong lĩnh vực big data và công nghệ NoSQL.

5.1. Đóng góp của luận văn

Luận văn đã đóng góp vào việc phát triển các công nghệ thu thập và lưu trữ dữ liệu, đồng thời cung cấp một công cụ hiệu quả cho các doanh nghiệp TMĐT.

5.2. Hướng phát triển trong tương lai

Trong tương lai, hệ thống có thể được mở rộng để hỗ trợ nhiều loại dữ liệu hơn và tích hợp các công nghệ phân tích dữ liệu tiên tiến như machine learning và AI.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hệ thống thông tin quản lý phát triển hệ thống thu thập và lưu trữ dữ liệu tmđt dạng nosql

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong vòng 5 năm trở lại đây, thương mại điện tử (TMĐT) tại Việt Nam đã có sự phát triển vượt bậc với gần 100% doanh nghiệp tổ chức triển khai ứng dụng TMĐT ở nhiều quy mô khác nhau. Theo báo cáo của Bộ Công Thương năm 2015, giá trị mua hàng trực tuyến bình quân một người đạt khoảng 160 USD, với doanh số TMĐT B2C lên tới 4,07 tỷ USD. Số lượng website TMĐT đăng ký chính thức cũng tăng nhanh, với gần 9.490 website trong năm 2015, trong đó các trang B2C chiếm ưu thế nhưng các trang C2C như chotot.vn đang phát triển mạnh mẽ, phản ánh xu hướng tiêu dùng thông minh và tiết kiệm hơn.

Tuy nhiên, việc thu thập dữ liệu từ các trang TMĐT để phục vụ phân tích thị trường còn gặp nhiều khó khăn do các chính sách chống thu thập dữ liệu (anti-crawling) và khối lượng dữ liệu lớn, đa dạng. Mục tiêu nghiên cứu của luận văn là phát triển một hệ thống thu thập và lưu trữ dữ liệu TMĐT dạng NoSQL, sử dụng công nghệ MongoDB để lưu trữ dữ liệu phi cấu trúc, đồng thời xây dựng công cụ thu thập dữ liệu mô phỏng hành vi người dùng nhằm vượt qua các cơ chế chống thu thập dữ liệu.

Phạm vi nghiên cứu tập trung vào các website TMĐT tại Việt Nam trong giai đoạn 2013-2017, với trọng tâm là các trang C2C và B2C phổ biến. Ý nghĩa của nghiên cứu không chỉ giúp doanh nghiệp nâng cao hiệu quả phân tích thị trường mà còn hỗ trợ các cơ quan quản lý nhà nước trong việc đánh giá và phát triển TMĐT bền vững.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Lý thuyết thu thập dữ liệu web (Web Crawling):** Bao gồm các phương pháp thu thập dữ liệu từ HTML, JavaScript, và API của website, phân loại website thành ba loại dựa trên cách thức hiển thị dữ liệu (loại I, II, III).
- **Mô hình chống thu thập dữ liệu (Anti-Crawling):** Các kỹ thuật như Blacklist, Graylist, White list, phân tích lưu lượng dữ liệu, phân tích URL, và sử dụng honeypots để phát hiện và ngăn chặn thu thập dữ liệu tự động.
- **Khái niệm Big Data và hệ quản trị NoSQL:** Đặc biệt là MongoDB với khả năng lưu trữ dữ liệu phi cấu trúc, hỗ trợ mở rộng theo chiều ngang và hiệu năng cao trong xử lý dữ liệu lớn.
- **Mô hình phân phối tác vụ với RabbitMQ:** Sử dụng message broker để phân phối và quản lý các tác vụ thu thập dữ liệu song song, đảm bảo hiệu quả và ổn định hệ thống.
- **Framework xử lý dữ liệu Apache Spark:** Tăng tốc xử lý và phân tích dữ liệu lớn trên cluster, phù hợp với các ứng dụng học máy và phân tích thời gian thực.

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là các website TMĐT phổ biến tại Việt Nam, đặc biệt là các trang C2C như chotot.vn và các trang B2C. Cỡ mẫu nghiên cứu bao gồm hàng trăm nghìn mẫu tin quảng cáo được thu thập trong giai đoạn 2013-2017.

Phương pháp phân tích sử dụng kết hợp:

- **Phân tích định tính:** Nghiên cứu các kỹ thuật thu thập dữ liệu, chống thu thập dữ liệu, và các thư viện hỗ trợ như Jsoup, HTMLUnit, PhantomJS.
- **Phân tích định lượng:** Đánh giá hiệu quả hệ thống thu thập qua các chỉ số như tốc độ thu thập, tỷ lệ dữ liệu hợp lệ, khả năng vượt qua các cơ chế chống thu thập.
- **Thiết kế và triển khai hệ thống:** Phân tích, thiết kế kiến trúc hệ thống thu thập dữ liệu dạng NoSQL, cài đặt MongoDB, sử dụng RabbitMQ để phân phối tác vụ, và kiểm thử thực tế trên các website TMĐT.

Timeline nghiên cứu kéo dài từ tháng 7/2017 đến tháng 12/2017, bao gồm các giai đoạn: khảo sát thị trường, nghiên cứu lý thuyết, thiết kế hệ thống, triển khai và kiểm thử, đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả thu thập dữ liệu:** Hệ thống thu thập dữ liệu dạng NoSQL với MongoDB cho phép lưu trữ linh hoạt các dữ liệu phi cấu trúc, xử lý hàng trăm nghìn mẫu tin quảng cáo mỗi ngày với tỷ lệ dữ liệu hợp lệ trên 95%.
- **Khả năng vượt qua anti-crawling:** Công cụ giả lập hành vi người dùng dựa trên thư viện PhantomJS và HTMLUnit giúp giảm thiểu việc bị chặn IP, với tỷ lệ phát hiện và chặn giảm khoảng 30% so với các công cụ thu thập truyền thống.
- **Phân phối tác vụ hiệu quả:** Sử dụng RabbitMQ để phân phối các tác vụ thu thập song song giúp tăng tốc độ thu thập lên gấp 3 lần so với phương pháp tuần tự.
- **Xử lý và phân tích dữ liệu lớn:** Áp dụng Apache Spark trên cluster YARN giúp xử lý dữ liệu thu thập nhanh hơn 100 lần so với MapReduce truyền thống, hỗ trợ phân tích thời gian thực và học máy.

### Thảo luận kết quả

Nguyên nhân của hiệu quả trên là do việc kết hợp các công nghệ hiện đại như MongoDB cho lưu trữ NoSQL, RabbitMQ cho phân phối tác vụ, và PhantomJS để giả lập trình duyệt, giúp hệ thống thu thập dữ liệu gần giống hành vi người dùng thật, từ đó tránh bị các hệ thống chống thu thập phát hiện. So với các nghiên cứu trước đây chỉ tập trung vào thu thập dữ liệu từ sitemap hoặc API, hệ thống này có khả năng thu thập dữ liệu chi tiết và đa dạng hơn.

Kết quả có thể được trình bày qua biểu đồ so sánh tốc độ thu thập dữ liệu giữa các phương pháp, bảng thống kê tỷ lệ dữ liệu hợp lệ và biểu đồ thể hiện tỷ lệ chặn IP giảm theo thời gian sử dụng công cụ giả lập hành vi.

Ý nghĩa của nghiên cứu là tạo nền tảng cho các doanh nghiệp và tổ chức chính phủ trong việc thu thập và phân tích dữ liệu TMĐT một cách hiệu quả, từ đó nâng cao năng lực cạnh tranh và quản lý thị trường.

## Đề xuất và khuyến nghị

- **Phát triển thêm các thuật toán giả lập hành vi người dùng:** Tăng cường khả năng mô phỏng đa dạng hành vi duyệt web để giảm thiểu tối đa việc bị phát hiện, hướng tới tỷ lệ chặn IP dưới 10% trong vòng 12 tháng tới, do nhóm phát triển hệ thống thực hiện.
- **Mở rộng hệ thống phân phối tác vụ:** Tích hợp thêm các message broker khác như Kafka để nâng cao khả năng mở rộng và độ ổn định, nhằm tăng tốc độ thu thập dữ liệu lên 5 lần trong 6 tháng tiếp theo, do bộ phận kỹ thuật chịu trách nhiệm.
- **Tích hợp công cụ phân tích dữ liệu nâng cao:** Áp dụng các thuật toán học máy để phân tích xu hướng thị trường TMĐT từ dữ liệu thu thập, giúp doanh nghiệp dự báo chính xác hơn, triển khai trong vòng 1 năm, do phòng nghiên cứu và phát triển đảm nhiệm.
- **Xây dựng giao diện trực quan cho người dùng cuối:** Phát triển dashboard trực quan giúp người dùng dễ dàng truy cập, phân tích và báo cáo dữ liệu TMĐT, hoàn thành trong 9 tháng, do nhóm phát triển phần mềm thực hiện.
- **Tăng cường bảo mật và tuân thủ pháp luật:** Đảm bảo hệ thống thu thập dữ liệu tuân thủ các quy định về bảo vệ dữ liệu cá nhân và quyền riêng tư, phối hợp với các cơ quan quản lý để cập nhật chính sách, thực hiện liên tục.

## Đối tượng nên tham khảo luận văn

- **Doanh nghiệp TMĐT:** Giúp nâng cao hiệu quả thu thập và phân tích dữ liệu thị trường, từ đó tối ưu chiến lược kinh doanh và cạnh tranh.
- **Các nhà nghiên cứu và sinh viên ngành Hệ thống thông tin quản lý:** Cung cấp kiến thức thực tiễn về xây dựng hệ thống thu thập dữ liệu NoSQL và các kỹ thuật chống thu thập dữ liệu.
- **Cơ quan quản lý nhà nước:** Hỗ trợ đánh giá chính xác tình hình TMĐT, xây dựng chính sách phát triển bền vững dựa trên dữ liệu thực tế.
- **Các công ty phát triển phần mềm và công nghệ:** Tham khảo mô hình kiến trúc hệ thống, công nghệ sử dụng và các giải pháp kỹ thuật để phát triển các sản phẩm tương tự.

## Câu hỏi thường gặp

1. **Hệ thống thu thập dữ liệu này có thể áp dụng cho các lĩnh vực khác ngoài TMĐT không?**  
Có, với khả năng lưu trữ dữ liệu phi cấu trúc và xử lý dữ liệu lớn, hệ thống có thể được tùy chỉnh để thu thập dữ liệu trong nhiều lĩnh vực như y tế, giáo dục, tài chính.

2. **Làm thế nào để hệ thống vượt qua các cơ chế chống thu thập dữ liệu của website?**  
Hệ thống sử dụng công cụ giả lập hành vi người dùng như PhantomJS, HTMLUnit để mô phỏng trình duyệt thật, kết hợp thay đổi IP qua proxy và xử lý CAPTCHA yếu, giúp giảm thiểu bị phát hiện.

3. **MongoDB có ưu điểm gì so với các cơ sở dữ liệu quan hệ truyền thống?**  
MongoDB linh hoạt trong lưu trữ dữ liệu phi cấu trúc, không cần định nghĩa schema trước, hỗ trợ mở rộng theo chiều ngang và hiệu năng cao khi xử lý dữ liệu lớn.

4. **Phân phối tác vụ với RabbitMQ giúp gì cho hệ thống?**  
RabbitMQ cho phép phân phối các tác vụ thu thập dữ liệu song song, tăng tốc độ xử lý, đảm bảo tính ổn định và khả năng mở rộng của hệ thống.

5. **Hệ thống có thể xử lý dữ liệu thời gian thực không?**  
Có, nhờ sử dụng Apache Spark trên cluster YARN, hệ thống có thể xử lý và phân tích dữ liệu gần như thời gian thực, hỗ trợ các ứng dụng học máy và báo cáo nhanh.

## Kết luận

- Đã phát triển thành công hệ thống thu thập và lưu trữ dữ liệu TMĐT dạng NoSQL với MongoDB, đáp ứng nhu cầu lưu trữ dữ liệu phi cấu trúc lớn.  
- Công cụ thu thập dữ liệu mô phỏng hành vi người dùng giúp vượt qua các cơ chế chống thu thập, nâng cao hiệu quả thu thập.  
- Phân phối tác vụ với RabbitMQ và xử lý dữ liệu bằng Apache Spark giúp tăng tốc độ và hiệu năng hệ thống đáng kể.  
- Nghiên cứu góp phần hỗ trợ doanh nghiệp và cơ quan quản lý trong việc phân tích và phát triển thị trường TMĐT.  
- Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng tính năng, nâng cao bảo mật và phát triển giao diện người dùng trực quan.

Hành động tiếp theo là triển khai các giải pháp đề xuất, mở rộng hệ thống và ứng dụng trong thực tế để nâng cao giá trị nghiên cứu. Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm dựa trên nền tảng này.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về báo cáo: o Giới thiệu tóm tắt sơ lược nội dung yêu câu va độ cấp thiết của bài toán xây dựng công cụ crawler trong việc thu thập dữ liệu từ các trang web thương mại điện tử. o Các đối tượng cần nghiên cứu. o Tóm lược lý do chon dé tài, mục tiêu cần phải thực hiện được của bài toán, các giới hạn, phạm vi, hướng tiếp cận của luận văn. o Giới thiệu về cau trúc luận văn.

e Chương 2: Cơ sở lý thuyết và các công trình nghiên cứu liên quan o Giới thiệu các công trình nghiên cứu liên quan đến đề tài. o Cách thức thu thập dữ liệu, các thư viện hỗ trợ o Thu thập dữ liệu o Giới thiệu về dữ liệu lớn- Big Data o Kho chứa dt liệu o Xử lý, phân tích dữ liệu o Trực quan hóa dt liệu e_ Chương 3 : Phân tích và thiết kế hệ thong o Phân tích dữ liệu từ các trang web thương mai điện tử o Xây dựng công cu crawler dữ liệu gia lập hành vi khách hang e Chương 4: Thực nghiệm và đánh gia o Đưa vào thử nghiệm công cụ crawler dữ liệu o Thu thập dữ liệu e Chương 5: Kết luận o Kết quả đạt được o Các hạn chê còn tôn đọng Phát triển hệ thông thu thập và lưu trữ dit liệu TMĐT dạng NoSOL o Đóng góp của dé tài o Ý nghĩa khoa học va thực tiễn e Phan cuôi cùng của bài báo cáo là danh mục tài liệu tham khảo va phan phụ lục. Phát triển hệ thông thu thập và lưu trữ dit liệu TMĐT dạng NoSOL CHUONG 2 CƠ SỞ LÝ THUYET VA CAC CONG TRINH NGHIEN CUU LIEN QUAN 2.1 Cac công trình nghiên cứu liên quan a. Trong một nghiên cứu của Alex Stolz và Martin Hepp với tên bài báo là Towards Crawling the Web for Structured Data: Pitfalls of Common Crawl for E-Commerce dén tir dai hoc Bundeswehr Munich, Duc.

Nghiên cứu đã chi ra rằng việc thu thập dữ liệu từ các site map do website thương mại điện tử cung cấp là không chính xác vì nó thiểu phần lớn các trang chỉ tiết của sản phẩm. Từ đó rút ra kết luận rằng quá trình thu thập dữ liệu từ các trang TMĐT không được dựa vào các sitemap được cung cấp bởi chính các website đó. Một nghiên cứu khác đến từ Junghoo Cho Đại học California, Los Angeles và Hector Garcia-Molina đến từ đại học Stanford đồng đứng tên cho một bài báo nghién cứu có tên : Parallel Crawlers. Bài nghiên cứu đã đưa ra giải pháp cho việc thu thập dữ liệu thông qua xử lý song song trong trường hợp dir việc cua web site cần lay tăng lên quá nhanh và quá lớn.

Bai báo của Sanjay Singh từ Manipal University mang tên Anti-Scraping Application Development đã đưa ra các cách khác nhau để chống lại việc thu thập dữ liệu. o Black list : khi có phát hiện thu thập dữ liệu từ 1 IP nào đó thì người quản tri sẽ đưa IP này vào danh sách IP bị cam và sẽ không có phép bat kỳ giao tiếp nào từ IP này đến website của mình. o Gray list: danh sách các IP có các hành động đáng ngờ khi truy cập đến website, nếu từ IP nay thao tác liên tục điền sai CAPTCHAs thì khi đó IP này sẽ được đưa vào Gray list để theo dõi các sai phạm. 10 Phát triển hệ thông thu thập và lưu trữ dit liệu TMĐT dạng NoSOL o White list: Day là một danh sách các IP hoàn toàn bình thường và hợp pháp.

Từ đây web site chỉ việc căn cứ vào danh sách này để chấp nhận việc truy cập. Một kỹ thuật quan trọng khác là chi dia chỉ IP thành các bang nhỏ dựa vào từng khu vựa khác nhau. Từ các bảng này web site sẽ tiến hành lọc các IP thuộc black list, gray list hay chưa xác định. Chúng ta có thé chia nhỏ khu vực ra nếu như số lượng truy cập website từ 1 khu vực nào đó rất lớn.

Các kỹ thuật phát hiện xâm nhập còn đến từ: e Thong tin của trình duyệt Hau hết các chương trình thu thập dữ liệu tự động thường không thé cung cấp các thông tin như phông chữ hệ thống. chỉ tiết plugin trình duyệt như khi dùng một trình duyệt nào đó. Ngoài ra mỗi trình duyệt thường có các đặc trưng rất độc đáo khó mà có thê làm giả. Do đó chỉ cần xây dựng bộ lọc để nhận các thông tin được cung cấp khi có giao tác duyệt web xảy ra, nếu không thể cung cấp các thông tin trên thì lập tức được đưa vào gray list và buộc phải xác thực thông qua CAPTCHA_ nếu muốn vào white list e Thường xuyên thay đối Markup Markup của một website nên được thường xuyên thay đối một các tự động nhưng không phải là thay đổi trên diện rộng hay toàn bộ cau trúc website.

Hầu hết các chương trình thu thập dữ liệu dựa vào tên của các lớp và id của các thẻ đánh dấu để xác định phan can thu thập dữ liệu. Thường xuyên thay đổi tên lớp và id của các phần khác nhau một cách tự động là cách được chứng minh là khác hiệu quả trong việc phá vỡ quá trình thu thập dữ liệu của chương trình. Tuy nhiên việc thay đổi thường xuyên cau trúc sẽ gây khó chịu cho nhưng người dùng thực. e Hiến thị thông tin dưới dạng hình ảnh 11 Phát triển hệ thông thu thập và lưu trữ dit liệu TMĐT dạng NoSOL Một phương pháp để ngăn chặn quá trình thu thập là trình bày các thông tin như là một phan của hình ảnh, và không phải là văn bản dang text.

Thông tin văn bản bình thường có thé được chuyển đổi sang hình ảnh trên phía máy chủ và sau đó có thé được hiển thị đến người dùng. Những người thu thập dữ liệu có thế dùng phần mềm Optical Character Recognition (OCR) để lấy được dữ liệu từ hình ảnh. Tuy nhiên, phương pháp hién thị thông tin dưới dạng hình ảnh không phải hiệu quả trong thời đại ngày ngày nay, bởi vì các thư viện OCR đã trở nên rất phát triển. Ngoài ra việc cố ý làm nhòe dữ liệu trong hình ảnh sẽ dẫn đến phiên toái từ người sử dụng chân chính và có thé ảnh hưởng đến lượng truy cập của trang web.

Dữ liệu còn có thé được trình bày như là các đoạn flash hoặc HTMLS canvas thay vì hình ảnh. e Phân tích tan suất Đây là phương pháp dựa vào số lần truy cập của khách đến trang web tại từng thời điểm. Khi đã có số lần truy cập thì một lần nữa các danh sách đen, xám và trắng sẽ được sử dụng. Tuy nhiên phương pháp này cũng không chính xác tuyệt đối vì việc truy xuất nhiều ít của người dùng tùy thuộc vào nhu cau và nội dung của trang web tại thời điểm đó.

e Phân tích lưu lượng dir liệu Đây là một phương pháp quan trọng được sử dung trong những năm gan đây. Thực tế cho thấy rằng các hệ thống thu thập dữ liệu thường dùng giải pháp thay đối IP liên tục hoặc dùng proxy dé tránh bi phát hiện. Tuy nhiên việc lưu lượng đữ liệu bi thu thập từ một nguon nào đó là không thé che giấu được. Phương pháp được dé xuất là việc thu thập lưu lượng dữ liệu đi đến một đích nào đó, ở lần đầu tiên ta sẽ gom cum đữ liệu sau đó dùng biên rôi rạc Fourier đê làm giảm kích thước của mâu.

Tuy nhiên 12 Phát triển hệ thông thu thập và lưu trữ dit liệu TMĐT dạng NoSOL phương pháp này đòi hỏi các mẫu thử phải day đủ và phải được thu thập trong một thời gian dài. e Phan tích URL Phương pháp phân tích URL được viéng thăm cũng là một các phát hiện xâm nhập. Việc phân tích này dựa vào quá trình viếng thăm lặp di lặp lại một URL nào đó cua trang web. Hay các URL được duyệt theo một thứ tự nhất định thì việc theo dõi đối tượng sẽ được thiết lập.

e Honeypots và Honeynets Một số công ty kinh doanh trong lĩnh vực mạng ví dụ như Amazon Cloud Front và CloudFlare sử dụng một mạng lưới các honeypots, còn được gọi là honeynets hoặc honeyfarms khắp thế giới dé nam bắt thông tin về các hệ thống thu thập, và chuyển tiếp thông tin này cho các ứng dụng của họ trên toàn thế giới qua bản cập nhật định kỳ hoặc các phương pháp khác. Các trang honeypot nhỏ có thé được triển khai trên các trang web dé phát hiện hoàn toàn tự động thu thập thông tin của các hệ thống thu thập dữ liệu. Một số công cụ giúp thu thập dữ liệu từ các website: > Winweb crawler WVY FMiner Screen Scraper OutWit Hub Helium scraper Visual Web Ripper Scraper Wiki Kimono Labs 13 Phát triển hệ thông thu thập và lưu trữ dit liệu TMĐT dạng NoSOL e. Công trình nghiên cứu trong nước : Dé tài nghiên cứu khoa học của sinh viên khoa Khoa học và Kỹ Thuật Máy Tính thuộc Đại Học Bách Khoa TP.

HCM năm 2016 về phát triển hệ thống thu thập. lưu trữ và thong kê dữ liệu của các website TMĐT ở Việt Nam. > Thu thập dữ liệu Kiến trúc thu thập dữ liệu của hệ thống: website website website website https://nhattao.com/ http:/www.com/home http:/www.vn/ ¬ Crawler Process Process Process Process Process Master Crawler1 Crawler2 Crawler3 CrawlerN RabbitMQ ____—— Data Data Data Data set N / set N / set N / set N / Checking Data Report Error i< Bad Data Import to Data Warehouse Hình 2 Kiến trúc hệ thông thu thập dữ liệu Kiến trúc hệ thông gồm ba tầng căn bản: e Crawler: Thu thập dữ liệu từ các website và lưu trữ thành một tập dữ liệu e Kiểm tra dữ liệu crawl: Kiểm tra từng dữ liệu lấy được từ tang crawler có bị sai lệch hay không (quá nhiều giá trị null liên tiếp trên một thuộc tính bất kỳ). Nếu dữ liệu bị sai lệch quá nhiều trên một tập dữ liệu bất kỳ thì hệ thông sẽ cảnh báo cho người vận hành biệt đê có thê điêu chỉnh lại việc 14 Phát triển hệ thong thu thập và lưu trữ dữ liệu TMĐT dạng NoSOL crawler và tự động xóa tập dt liệu này, ngược lại thì tập dữ liệu sẽ được đưa xuông tâng dưới đê thực hiện việc lưu trữ.

° Day dữ liệu vào kho: Dung dé thực hiện việc đưa dữ liệu vào trong kho chứa dữ liệu lớn. > Phân phối tác vụ Phân phối tác vụ với RabbitMQ, RabbitMQ là một message broker (message- oriented middleware) sử dụng giao thức AMQP - Advanced Message Queue Protocol (Đây là giao thức phô biến, thực tế RabbitMQ hỗ trợ nhiều giao thức). RabbitMQ được lập trình bằng ngôn ngữ Erlang. RabbitMQ cung cấp cho lập trình viên một phương tiện trung gian để giao tiếp giữa nhiều thành phân trong một hệ thống lớn (ví dụ openstack).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận Văn Thạc Sĩ: Phát Triển Hệ Thống Thu Thập & Lưu Trữ Dữ Liệu TMĐT Dạng NoSQL là một nghiên cứu chuyên sâu về việc ứng dụng công nghệ NoSQL trong việc thu thập và lưu trữ dữ liệu thương mại điện tử (TMĐT). Tài liệu này tập trung vào việc giải quyết các thách thức liên quan đến khối lượng dữ liệu lớn, tốc độ xử lý và tính linh hoạt trong hệ thống TMĐT. Bằng cách sử dụng NoSQL, nghiên cứu đề xuất các giải pháp tối ưu hóa hiệu suất và khả năng mở rộng của hệ thống, mang lại lợi ích cho các doanh nghiệp trong việc quản lý dữ liệu hiệu quả hơn.

Để mở rộng kiến thức về các yếu tố ảnh hưởng đến TMĐT, bạn có thể tham khảo Luận văn thạc sĩ quản trị kinh doanh các tiền tố và hậu tố của sự tin tưởng của người tiêu dùng trong giao dịch trực tuyến, nghiên cứu này sẽ giúp bạn hiểu rõ hơn về yếu tố tâm lý người dùng. Ngoài ra, Luận văn thạc sĩ khoa học máy tính ecommerce graph-based recommendation system cung cấp cái nhìn sâu sắc về hệ thống gợi ý dựa trên đồ thị, một công nghệ quan trọng trong TMĐT. Cuối cùng, Luận văn thạc sĩ luật học pháp luật về hợp đồng thương mại điện tử ở việt nam thực trạng và giải pháp sẽ giúp bạn hiểu rõ hơn về khía cạnh pháp lý trong TMĐT.

#Luận văn Thạc sĩ

#hệ thống thông tin

#quản lý dữ liệu

#lưu trữ dữ liệu

#phát triển hệ thống

#thu thập dữ liệu

Chủ đề

Thương mại điện tử

Hệ thống thông tin

Quản lý dữ liệu

Luận văn thạc sĩ hệ thống thông tin quản lý phát triển hệ thống thu thập và lưu trữ dữ liệu tmđt dạng nosql

LỜI CÁM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ LUẬN VĂN

1.1. Giới thiệu sơ lược tình hình TMĐT

1.2. Ý nghĩa của luận văn

1.2.1. Ý nghĩa khoa học

1.2.2. Ý nghĩa thực tiễn

1.3. Mục tiêu, giới hạn và đối tượng nghiên cứu

1.3.1. Mục tiêu nghiên cứu

1.3.2. Giới hạn nghiên cứu của đề tài

1.3.3. Đối tượng nghiên cứu

1.4. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Các công trình nghiên cứu liên quan

2.2. Cách thức thu thập dữ liệu, phân loại website và các thư viện hỗ trợ

2.2.1. Cách thức thu thập dữ liệu

2.2.2. Phân loại website cần thu thập dữ liệu

2.2.3. Một vài thư viện hỗ trợ xây dựng công cụ crawler

2.3. Giới thiệu về dữ liệu lớn - Big Data

2.4. Kho chứa dữ liệu

2.5. Xử lý, phân tích dữ liệu

2.6. Trực quan hóa dữ liệu

3. CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

3.1. Nghiệp vụ hệ thống

3.2. Kiến trúc hệ thống thu thập dữ liệu

3.2.1. Kiến trúc hệ thống thu thập dữ liệu dạng 1

3.2.2. Kiến trúc hệ thống thu thập dữ liệu dạng 2

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Cài đặt và kiểm thử công cụ thu thập dữ liệu dạng 1

4.2. Đặc điểm nổi bật của công cụ thu thập dữ liệu dạng 1

4.3. Cài đặt và kiểm thử công cụ thu thập dữ liệu dạng 2

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC

I. Tổng quan về luận văn thạc sĩ

1.1. Giới thiệu tình hình TMĐT

1.2. Ý nghĩa của luận văn

II. Cơ sở lý thuyết và công trình nghiên cứu liên quan

2.1. Các công trình nghiên cứu

2.2. Kỹ thuật chống thu thập dữ liệu

III. Phân tích và thiết kế hệ thống

3.1. Kiến trúc hệ thống

3.2. Công cụ thu thập dữ liệu

IV. Thực nghiệm và đánh giá

4.1. Kết quả thực nghiệm

4.2. Đánh giá hiệu quả

V. Kết luận

5.1. Đóng góp của luận văn

5.2. Hướng phát triển trong tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Bùi Xuân Giang

Người hướng dẫn: PGS.TS Đặng Trần Khánh

Trường học: Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành: Hệ thống thông tin quản lý

Đề tài: Phát triển hệ thống thu thập và lưu trữ dữ liệu TMĐT dạng NoSQL

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2017

Địa điểm: TP. Hồ Chí Minh

Có thể bạn quan tâm