Luận văn thạc sĩ về bảo mật dữ liệu đồ thị trong cơ sở dữ liệu Neo4j

Luận văn thạc sĩ nghiên cứu máy tính ứng dụng đảm bảo tính riêng tư cho dữ liệu đồ thị trong cơ sở dữ liệu neo4j, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải

Trường đại học

Đại học Bách Khoa

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

TÓM TẮT LUẬN VĂN THẠC SỸ

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Tổng quan về cơ sở dữ liệu đồ thị thuộc tính

1.2. Cơ sở dữ liệu đồ thị Neo4j

1.3. Đặt vấn đề đảm bảo tính riêng tư cho dữ liệu đồ thị thuộc tính

1.4. Các công trình liên quan

1.5. Cây khái quát hoá (Generalization hierarchy)

1.6. Thuật toán graph pertubation

1.7. Thuật toán ẩn danh k-Degree anonymity

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP ĐỀ XUẤT

2.1. Thuật toán Mondrian Multidimensional K-Anonymity

2.2. Thuật toán k-Degree anonymity

2.3. Normalized average equivalence class size metric

2.4. Normalized Certainty Penalty metric

2.5. Degree anonymization cost

2.6. Các câu truy vấn cơ bản của ngôn ngữ Cypher

2.6.1. Tạo nút trong mạng

2.6.2. Tạo quan hệ giữa các nút

2.6.3. Xoá nút trong mạng

2.6.4. Xoá quan hệ giữa các nút

2.6.5. Cập nhật giá trị nút

2.6.6. Tìm kiếm nút hay quan hệ trong mạng

3. CHƯƠNG 3: TỔNG QUAN VỀ ỨNG DỤNG

3.1. Kiến trúc ứng dụng

3.2. Các công nghệ để hiện thực ứng dụng

3.2.1. Yêu cầu hệ thống

3.2.2. Thư viện xây dựng giao diện người dùng ReactJS

3.2.3. Phần mềm Node

3.2.4. Ngôn ngữ lập trình Python

3.3. Tổng quan về mã nguồn ứng dụng

3.4. Chức năng ứng dụng

3.4.1. Ẩn danh hoá dữ liệu bằng giải pháp trên cây khái quát

3.4.2. Ẩn danh hoá dữ liệu bằng thuật toán Mondrian Multidimensional K-Anonymity

3.4.3. Áp dụng thuật toán ẩn danh hoá đồ thị k-Degree anonymity

3.4.4. Đăng ký và đăng nhập

3.4.5. Quản lý kết nối đến các cơ sở dữ liệu đồ thị thuộc tính

3.4.6. Xem dữ liệu cơ sở dữ liệu đồ thị (Database Overview)

4. CHƯƠNG 4: KẾT QUẢ KIỂM THỬ ỨNG DỤNG

4.1. Cấu hình máy tính chạy kiểm thử

4.2. Kết quả kiểm thử với thuật toán Mondrian

4.3. Kết quả kiểm thử với thuật toán ẩn danh đồ thị k-Degree anonymity và Graph pertubations

DANH MỤC CÁC TÀI LIỆU THAM KHẢO

DANH SÁCH CÁC HÌNH ẢNH

Tóm tắt

I. Giới thiệu đề tài

Luận văn thạc sĩ này tập trung vào việc bảo mật dữ liệu trong cơ sở dữ liệu đồ thị Neo4j. Dữ liệu đồ thị ngày càng trở nên phổ biến trong các ứng dụng như mạng xã hội và phân tích dữ liệu. Tuy nhiên, việc thu thập và phân tích dữ liệu này có thể dẫn đến việc tiết lộ thông tin cá nhân. Do đó, việc đảm bảo tính riêng tư cho dữ liệu đồ thị là rất quan trọng. Luận văn đề xuất các giải pháp và thuật toán để xây dựng ứng dụng đảm bảo tính riêng tư cho dữ liệu đồ thị trong Neo4j, bao gồm việc áp dụng các thuật toán ẩn danh như k-anonymity và l-diversity.

1.1 Tổng quan về cơ sở dữ liệu đồ thị thuộc tính

Cơ sở dữ liệu đồ thị thuộc tính là hệ thống lưu trữ sử dụng cấu trúc đồ thị với các nút và cạnh để biểu diễn dữ liệu. Mô hình này cho phép lưu trữ thông tin phong phú và có thể mở rộng. Các mối quan hệ giữa các nút được thể hiện qua các cạnh, giúp tạo ra các kết nối có hướng. Việc sử dụng mô hình đồ thị thuộc tính giúp tăng cường khả năng phân tích và truy vấn dữ liệu, đồng thời hỗ trợ việc xử lý dữ liệu kết nối tốc độ cao.

1.2 Cơ sở dữ liệu đồ thị Neo4j

Neo4j là một cơ sở dữ liệu đồ thị gốc, NoSQL, mã nguồn mở, cung cấp khả năng giao dịch tuân thủ ACID. Neo4j cho phép lưu trữ dữ liệu theo mô hình đồ thị thuộc tính, giúp tối ưu hóa việc truy vấn và phân tích dữ liệu. Các tính năng nổi bật của Neo4j bao gồm ngôn ngữ truy vấn Cypher, khả năng mở rộng quy mô và hỗ trợ cho nhiều ngôn ngữ lập trình. Điều này làm cho Neo4j trở thành lựa chọn phổ biến cho các ứng dụng yêu cầu xử lý dữ liệu đồ thị.

1.3 Đặt vấn đề đảm bảo tính riêng tư cho dữ liệu đồ thị thuộc tính

Việc bảo vệ thông tin cá nhân trong dữ liệu đồ thị là một thách thức lớn. Các ứng dụng như mạng xã hội thường chứa thông tin nhạy cảm, và việc tiết lộ thông tin này có thể gây ra hậu quả nghiêm trọng. Luật pháp hiện hành, như GDPR và luật An ninh mạng Việt Nam, yêu cầu các tổ chức phải đảm bảo quyền riêng tư cho cá nhân. Do đó, việc phát triển các công cụ và phương pháp để ẩn danh dữ liệu là cần thiết để bảo vệ quyền lợi của người dùng.

II. Các phương pháp đề xuất

Luận văn đề xuất hai phương pháp chính để đảm bảo tính riêng tư cho dữ liệu đồ thị trong Neo4j. Phương pháp đầu tiên là áp dụng thuật toán k-anonymity, cho phép ẩn danh thông tin cá nhân trong dữ liệu. Phương pháp thứ hai là sử dụng thuật toán k-Degree anonymity, giúp bảo vệ các mối quan hệ giữa các cá nhân trong mạng dữ liệu đồ thị. Cả hai phương pháp này đều nhằm mục đích giảm thiểu khả năng bị tấn công và tiết lộ thông tin cá nhân.

2.1 Thuật toán Mondrian Multidimensional K Anonymity

Thuật toán Mondrian là một trong những phương pháp ẩn danh phổ biến, cho phép phân chia dữ liệu thành các nhóm sao cho mỗi nhóm có ít nhất k cá nhân không thể phân biệt. Phương pháp này giúp bảo vệ thông tin nhạy cảm bằng cách giảm thiểu khả năng nhận diện cá nhân. Việc áp dụng thuật toán này trong dữ liệu đồ thị giúp đảm bảo rằng thông tin cá nhân không bị lộ ra ngoài, đồng thời vẫn giữ được tính hữu ích của dữ liệu cho các nghiên cứu.

2.2 Thuật toán k Degree anonymity

Thuật toán k-Degree anonymity tập trung vào việc bảo vệ các mối quan hệ giữa các cá nhân trong mạng dữ liệu đồ thị. Phương pháp này đảm bảo rằng mỗi cá nhân có ít nhất k mối quan hệ không thể phân biệt với nhau. Điều này giúp ngăn chặn việc xác định danh tính của cá nhân thông qua các mối quan hệ của họ. Việc áp dụng thuật toán này trong Neo4j không chỉ bảo vệ quyền riêng tư mà còn duy trì tính chính xác của dữ liệu trong quá trình phân tích.

III. Tổng quan về ứng dụng

Ứng dụng được phát triển nhằm đảm bảo tính riêng tư cho dữ liệu đồ thị trong Neo4j. Ứng dụng này tích hợp các thuật toán ẩn danh và cung cấp giao diện người dùng thân thiện. Các chức năng chính của ứng dụng bao gồm ẩn danh hóa dữ liệu, quản lý kết nối đến cơ sở dữ liệu đồ thị và xem dữ liệu cơ sở dữ liệu. Ứng dụng không chỉ hỗ trợ các nhà nghiên cứu trong việc bảo vệ thông tin cá nhân mà còn giúp họ khai thác dữ liệu một cách hiệu quả.

3.1 Kiến trúc ứng dụng

Kiến trúc ứng dụng được thiết kế để tối ưu hóa hiệu suất và khả năng mở rộng. Ứng dụng sử dụng các công nghệ hiện đại như ReactJS cho giao diện người dùng và Node.js cho phần backend. Điều này giúp đảm bảo rằng ứng dụng có thể xử lý một lượng lớn dữ liệu đồ thị mà không gặp phải vấn đề về hiệu suất. Kiến trúc này cũng cho phép dễ dàng tích hợp các thuật toán ẩn danh vào quy trình xử lý dữ liệu.

3.2 Các công nghệ để hiện thực ứng dụng

Ứng dụng sử dụng nhiều công nghệ khác nhau để đảm bảo tính hiệu quả và khả năng mở rộng. ReactJS được sử dụng để xây dựng giao diện người dùng, trong khi Node.js đảm nhận vai trò xử lý backend. Python cũng được sử dụng để triển khai các thuật toán ẩn danh. Việc kết hợp các công nghệ này giúp ứng dụng hoạt động mượt mà và đáp ứng nhanh chóng các yêu cầu của người dùng.

IV. Kết quả kiểm thử ứng dụng

Kết quả kiểm thử cho thấy ứng dụng hoạt động hiệu quả trong việc ẩn danh dữ liệu đồ thị. Các thuật toán được áp dụng đã chứng minh khả năng bảo vệ thông tin cá nhân mà không làm giảm chất lượng dữ liệu. Kết quả kiểm thử cũng cho thấy rằng ứng dụng có thể xử lý một lượng lớn dữ liệu mà vẫn duy trì hiệu suất cao. Điều này chứng tỏ rằng ứng dụng có thể đáp ứng nhu cầu ngày càng tăng về việc bảo vệ quyền riêng tư trong phân tích dữ liệu.

4.1 Cấu hình máy tính chạy kiểm thử

Cấu hình máy tính được sử dụng để kiểm thử ứng dụng bao gồm các thông số kỹ thuật cao, đảm bảo khả năng xử lý dữ liệu lớn. Việc sử dụng phần cứng mạnh mẽ giúp ứng dụng hoạt động mượt mà và nhanh chóng trong quá trình kiểm thử. Điều này cũng cho thấy rằng ứng dụng có thể được triển khai trên các hệ thống thực tế mà không gặp phải vấn đề về hiệu suất.

4.2 Kết quả kiểm thử với thuật toán Mondrian

Kết quả kiểm thử với thuật toán Mondrian cho thấy khả năng ẩn danh dữ liệu hiệu quả. Thuật toán này đã thành công trong việc tạo ra các nhóm k-anonymity mà không làm giảm chất lượng dữ liệu. Điều này chứng tỏ rằng thuật toán có thể được áp dụng rộng rãi trong các ứng dụng thực tế mà vẫn đảm bảo tính riêng tư cho người dùng.

09/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính ứng dụng đảm bảo tính riêng tư cho dữ liệu đồ thị trong cơ sở dữ liệu neo4j

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Dữ liệu có cấu trúc đồ thị ngày càng trở nên phổ biến trong nhiều lĩnh vực như mạng xã hội, trang web, và giao tiếp trực tiếp giữa người với người. Theo ước tính, các mạng xã hội lớn có thể chứa hàng tỷ nút và hàng chục tỷ cạnh, phản ánh các mối quan hệ phức tạp giữa các cá nhân. Tuy nhiên, việc thu thập và phân tích dữ liệu đồ thị này tiềm ẩn nguy cơ tiết lộ thông tin cá nhân, gây ảnh hưởng đến quyền riêng tư của người dùng. Luật pháp quốc tế như HIPAA, GDPR và bộ luật An ninh mạng Việt Nam 2018 đã đặt ra các quy định nghiêm ngặt nhằm bảo vệ quyền riêng tư cá nhân trong môi trường số. Mục tiêu nghiên cứu của luận văn là xây dựng một ứng dụng đảm bảo tính riêng tư cho dữ liệu đồ thị trong cơ sở dữ liệu Neo4j, thông qua việc áp dụng các thuật toán ẩn danh như k-anonymity, l-diversity và k-Degree anonymity. Nghiên cứu tập trung vào phạm vi dữ liệu đồ thị thuộc tính, với thời gian thực hiện từ tháng 2 đến tháng 6 năm 2021 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp công cụ hỗ trợ các nhà nghiên cứu khai thác dữ liệu mở một cách an toàn, giảm thiểu rủi ro vi phạm quyền riêng tư, đồng thời nâng cao hiệu quả phân tích dữ liệu đồ thị.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình k-anonymity: Đảm bảo mỗi cá thể trong tập dữ liệu không thể phân biệt được với ít nhất k-1 cá thể khác dựa trên các thuộc tính bán định danh, giảm thiểu nguy cơ tái nhận dạng.
Mô hình l-diversity: Khắc phục điểm yếu của k-anonymity bằng cách đảm bảo mỗi nhóm dữ liệu có ít nhất l giá trị phân biệt cho thuộc tính nhạy cảm, ngăn chặn tấn công đồng nhất.
Thuật toán k-Degree anonymity: Áp dụng cho dữ liệu đồ thị, đảm bảo mỗi nút trong đồ thị có cùng số lượng liên kết (degree) với ít nhất k-1 nút khác, bảo vệ thông tin về các mối quan hệ trong mạng.
Kỹ thuật Generalization và Suppression: Tổng quát hóa hoặc loại bỏ dữ liệu để giảm thiểu rủi ro tiết lộ thông tin cá nhân.
Độ đo đánh giá chất lượng dữ liệu ẩn danh: Discernability metric (CDM), Normalized average equivalence class size metric (CAVG), và Normalized Certainty Penalty (NCP).

Phương pháp nghiên cứu

Nghiên cứu sử dụng dữ liệu thực tế từ hai nguồn chính:

Adult dataset: Tập dữ liệu bảng với các thuộc tính cá nhân, dùng để kiểm thử thuật toán Mondrian Multidimensional K-Anonymity.
Email-Eu-core network: Mạng đồ thị gồm 1005 nút và 16706 cạnh, dùng để kiểm thử thuật toán k-Degree anonymity và graph perturbations.

Phương pháp phân tích bao gồm:

Áp dụng thuật toán ẩn danh k-anonymity và l-diversity trên dữ liệu bảng.
Áp dụng thuật toán k-Degree anonymity trên dữ liệu đồ thị.
Sử dụng ngôn ngữ truy vấn Cypher để truy xuất và xử lý dữ liệu trong cơ sở dữ liệu Neo4j.
Đánh giá kết quả bằng các độ đo CDM, CAVG và NCP.

Quá trình nghiên cứu diễn ra trong khoảng 4 tháng, từ tháng 2 đến tháng 6 năm 2021, với việc phát triển ứng dụng tích hợp các thuật toán ẩn danh và kiểm thử trên các tập dữ liệu thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thuật toán Mondrian trên Adult dataset: Với tham số k=10, thuật toán chạy trong khoảng 0.3 giây, đạt mức độ mất thông tin (NCP) thấp, cho thấy khả năng ẩn danh hiệu quả mà vẫn giữ được tính hữu dụng của dữ liệu.
Thuật toán k-Degree anonymity trên mạng Email-Eu-core: Với k=4, thời gian chạy khoảng 1.26 giây, tạo ra đồ thị ẩn danh mà vẫn giữ được cấu trúc mạng cơ bản, giảm thiểu rủi ro tiết lộ thông tin về các mối quan hệ.
Graph perturbations: Khi làm nhiễu 40% số cạnh, thời gian xử lý tăng lên 33.37 giây, cho thấy phương pháp này có chi phí tính toán cao hơn nhưng có thể tăng cường bảo mật.
Ứng dụng hỗ trợ đa dạng thuật toán ẩn danh: Cho phép người dùng lựa chọn cấu hình ẩn danh phù hợp với nhu cầu, bao gồm ẩn danh trên bảng dữ liệu và trên đồ thị, đồng thời cung cấp giao diện trực quan để quản lý và truy vấn dữ liệu.

Thảo luận kết quả

Kết quả cho thấy việc kết hợp các thuật toán ẩn danh truyền thống với thuật toán ẩn danh đồ thị là một hướng tiếp cận hiệu quả để bảo vệ quyền riêng tư trong dữ liệu đồ thị thuộc tính. Thuật toán Mondrian với độ phức tạp O(n log n) cho phép xử lý nhanh trên dữ liệu bảng lớn, trong khi k-Degree anonymity giữ được đặc trưng cấu trúc đồ thị, hạn chế thay đổi dữ liệu gốc. So sánh với các nghiên cứu trước đây, ứng dụng này cải tiến bằng cách tích hợp trực tiếp với cơ sở dữ liệu Neo4j, giúp các nhà nghiên cứu dễ dàng truy vấn dữ liệu ẩn danh bằng ngôn ngữ Cypher. Dữ liệu có thể được trình bày qua biểu đồ thời gian chạy thuật toán và bảng so sánh các chỉ số NCP, CDM, CAVG để minh họa hiệu quả ẩn danh và mức độ mất thông tin. Việc áp dụng các kỹ thuật này góp phần nâng cao tính bảo mật khi chia sẻ dữ liệu mở, đồng thời đáp ứng các yêu cầu pháp lý về bảo vệ dữ liệu cá nhân.

Đề xuất và khuyến nghị

Triển khai rộng rãi ứng dụng ẩn danh dữ liệu đồ thị: Khuyến khích các tổ chức nghiên cứu và doanh nghiệp sử dụng ứng dụng để đảm bảo quyền riêng tư khi chia sẻ dữ liệu, đặc biệt trong các lĩnh vực y tế, mạng xã hội và giao thông.
Tăng cường đào tạo và hướng dẫn sử dụng: Cung cấp tài liệu và khóa học cho người dùng về cách cấu hình và vận hành các thuật toán ẩn danh, nhằm nâng cao hiệu quả và giảm thiểu sai sót trong quá trình ẩn danh.
Phát triển thêm các thuật toán ẩn danh mới: Nghiên cứu và tích hợp các thuật toán ẩn danh nâng cao như t-closeness hoặc differential privacy để tăng cường bảo vệ dữ liệu.
Cải tiến giao diện và trải nghiệm người dùng: Nâng cấp giao diện web ứng dụng để hỗ trợ trực quan hóa dữ liệu ẩn danh, quản lý kết nối cơ sở dữ liệu và theo dõi tiến trình xử lý một cách thuận tiện.
Thời gian thực hiện: Các giải pháp nên được triển khai trong vòng 6-12 tháng, với sự phối hợp giữa các nhà phát triển phần mềm, chuyên gia bảo mật và người dùng cuối.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu khoa học dữ liệu và bảo mật thông tin: Có thể áp dụng các thuật toán ẩn danh để bảo vệ dữ liệu cá nhân trong các nghiên cứu sử dụng dữ liệu đồ thị.
Chuyên gia phát triển phần mềm và quản trị cơ sở dữ liệu: Học hỏi cách tích hợp các thuật toán ẩn danh vào hệ thống quản lý dữ liệu đồ thị như Neo4j.
Cơ quan quản lý và hoạch định chính sách: Tham khảo các giải pháp kỹ thuật để xây dựng các quy định và hướng dẫn về bảo vệ dữ liệu cá nhân trong môi trường số.
Doanh nghiệp và tổ chức sử dụng dữ liệu lớn: Áp dụng công cụ để đảm bảo tuân thủ các quy định về quyền riêng tư khi chia sẻ và phân tích dữ liệu khách hàng hoặc người dùng.

Câu hỏi thường gặp

Ứng dụng này có thể xử lý dữ liệu đồ thị lớn đến mức nào?
Ứng dụng đã được kiểm thử trên mạng đồ thị với hơn 1000 nút và 16.700 cạnh, có khả năng mở rộng để xử lý dữ liệu lớn hơn nhờ vào hiệu suất truy vấn của Neo4j và thuật toán tối ưu.
Thuật toán k-Degree anonymity bảo vệ thông tin như thế nào?
Thuật toán đảm bảo mỗi nút có cùng số lượng liên kết với ít nhất k-1 nút khác, ngăn chặn việc xác định cá nhân dựa trên số lượng mối quan hệ trong mạng xã hội.
Làm thế nào để lựa chọn tham số k và l phù hợp?
Tham số k và l nên được chọn dựa trên mức độ bảo mật mong muốn và tính chất dữ liệu; ví dụ, k=10 và l=7 thường được sử dụng để cân bằng giữa bảo mật và độ chính xác dữ liệu.
Ứng dụng có hỗ trợ truy vấn dữ liệu sau khi ẩn danh không?
Có, dữ liệu ẩn danh vẫn có thể được truy vấn trực tiếp bằng ngôn ngữ Cypher trong Neo4j, giúp các nhà nghiên cứu tiếp tục phân tích mà không làm mất tính riêng tư.
Có thể tích hợp ứng dụng này vào hệ thống hiện có không?
Ứng dụng được xây dựng với kiến trúc API server và giao diện web, dễ dàng tích hợp vào các hệ thống quản lý dữ liệu hiện có thông qua các kết nối cơ sở dữ liệu và API.

Kết luận

Luận văn đã phát triển thành công ứng dụng đảm bảo tính riêng tư cho dữ liệu đồ thị thuộc tính trong cơ sở dữ liệu Neo4j, tích hợp các thuật toán ẩn danh k-anonymity, l-diversity và k-Degree anonymity.
Ứng dụng cho phép ẩn danh dữ liệu cá nhân và các mối quan hệ trong mạng đồ thị, đáp ứng yêu cầu bảo vệ quyền riêng tư theo các quy định pháp luật hiện hành.
Kết quả kiểm thử trên các tập dữ liệu thực tế cho thấy hiệu quả cao về thời gian xử lý và mức độ bảo vệ thông tin.
Ứng dụng hỗ trợ truy vấn dữ liệu ẩn danh bằng ngôn ngữ Cypher, giúp duy trì khả năng phân tích dữ liệu sau khi ẩn danh.
Đề xuất các bước tiếp theo bao gồm mở rộng thuật toán, cải tiến giao diện và triển khai ứng dụng trong thực tế để hỗ trợ cộng đồng nghiên cứu và doanh nghiệp.

Hãy áp dụng và phát triển thêm các giải pháp bảo vệ quyền riêng tư trong dữ liệu đồ thị để góp phần xây dựng môi trường dữ liệu mở an toàn và bền vững.

Trích đoạn nội dung tài liệu

Đặt vấn đề đảm bảo tính riêng tư cho dữ liệu đồ thị thuộc tính Dữ liệu đồ thị có thông tin và ngữ nghĩa phong phú được biểu thị bằng đồ thị nên được sử dụng trong nhiều ứng dụng, chẳng hạn như mạng xã hội, mạng sinh học, mạng giao thông, biểu đồ web, cơ sở tri thức và biểu đồ RDF. Nhiều ứng dụng mới nổi dựa vào đồ thị lớn để đáp ứng nhu cầu truy vấn của họ, chẳng hạn như đồ thị tri thức của Google và tìm kiếm đồ thị của Facebook. Các ứng dụng này đã trở nên phổ biến để chia sẻ thông tin. Do đó, lượng dữ liệu đồ thị mạng xã hội đã phát triển nhanh chóng và điều này mang lại nhiều cơ hội để khai thác và phân tích dữ liệu, chẳng hạn như để tìm cộng đồng các nhóm và sự tiến hóa của chúng [3] [4].

Tuy nhiên, dữ liệu đồ thị mạng xã hội thường chứa thông tin cá nhân của người dùng; điều quan trọng là phải bảo vệ những thông tin này trong bất kỳ hoạt động chia sẻ và khai thác. Đó là những ví dụ nổi tiếng về việc tiết lộ thông tin cá nhân ngoài ý muốn trong dữ liệu đã phát hành (còn gọi là đã công bố), khiến các tổ chức ngày càng thận trọng trong việc phát hành các tập dữ liệu này. Thậm chí, luật pháp Việt Nam cũng đã đề xuất đảm bảo quyền riêng tư của cá nhân trong bộ luật An ninh mạng năm 2018. Vì vậy, trước khi xuất bản tất cả dữ liệu này để phân tích, dữ liệu khai thác và các mục đích khác, cần đảm bảo rằng dữ liệu đã xuất bản sẽ không chứa bất kỳ thông tin riêng tư nào.

3 Để đảm bảo tính riêng tư cho dữ liệu thì sẽ có nhiều cách tiếp cận [5] như: • Kiểm soát truy cập: trở nên phức tạp trong triển khai và khó quản lý trong cấp phát quyền trong môi trường mở với nhiều bên cùng dụng kho dữ liệu. • Mã hóa dữ liệu: thường dẫn đến chi phí tính toán để mã hoá dữ liệu trong quá trình vận hành, và đánh đổi này sẽ còn nghiêm trọng hơn với dữ liệu đa dạng và lớn. • Ẩn danh dữ liệu: đây là một bước thường có khi công khai dữ liệu và hướng tiếp cận lâu đời được hỗ trợ nhiều bởi giải thuật vững chắc. Luận văn tập trung đề xuất xây dựng ứng dụng tích hợp các kỹ thuật ẩn danh dữ liệu để đảm bảo tính riêng tư cho dữ liệu đồ thị thuộc tính trong cơ sở dữ liệu Neo4j.

Về ý nghĩa khoa học, ứng dụng đề xuất ra một mô hình ứng dụng có thể triển khai các dạng thuật toán ẩn danh trên bảng cho các nốt dữ liệu trong dữ liệu đồ thị thuộc tính. Cùng với đó, ứng dụng còn kết hợp nó với thuật toán ẩn danh trên đồ thị mà tiêu biểu là thuật toán k-Degree anonymity. Về ý nghía thực tiễn, ứng dụng đáp ứng cho nhu cầu ngày càng đa dạng về dữ liệu mở để khai phá của các nhà nghiên cứu. Ứng dụng là công cụ đảm bảo cho việc chia sẽ dữ liệu mở không vi phạm các quy định về quyền riêng tư gây ảnh hưởng đến các cá nhân có trong dữ liệu mở đó.

Ví dụ trong điều tra nghiên cứu những đặc điểm người bị lây nhiễm bệnh do virus thì cần thiết quá trình điều trị thì đi kèm với đó là các thông tin bệnh lý và thông tin cá nhân của các bệnh nhân có thể bị lộ ra ngoài khi dữ liệu được xuất bản mở, chia sẻ với nhau giữa các nhà nghiên cứu. Ngay cả khi các nhà nghiên cứu không công khai mà chia sẻ với nhau họ vẫn có thể vi phạm các quy định của pháp luật về quyền riêng tư như đã đề cập. Vì vậy ứng dụng cần thiết để ẩn danh dữ liệu đồ thị và xuất bản dữ liệu cho các mục đích khai phá, để hỗ trợ các dự án khoa học đem lại nhiều lợi ích cho cộng đồng.4 Các công trình liên quan Nói về ẩn danh hoá dữ liệu, đầu tiên rất nổi tiếng và đơn giản là mô hình k- anonymity [6]. Mô hình đưa ra một ví dụ về tấn công quyền riêng tư như sau.

Giả sử kẻ tấn công có 2 tập dữ liệu (Hình 1-2 Mô tả về 2 tập dữ liệu) [6]: • Tập thứ nhất là bảng dữ liệu danh sách bầu cử có tên, địa chỉ, giới tính, số vùng và ngày sinh. • Tập thứ hai là bảng bệnh án bệnh nhân gồm tên bệnh của nhiều bệnh nhân đã xoá đi cột tên, tuy nhiên vẫn còn các cột như giới tính, số vùng và ngày sinh. Dựa vào các cột dữ liệu trùng nhau, kẻ tấn công có thể liên kết dữ liệu của tập dữ liệu thứ nhất qua tập dữ liệu thứ hai để biết chính xác bệnh nhân nào bị bệnh gì, tên gì và địa chỉ ở đâu. Hình 1-2 Mô tả về 2 tập dữ liệu Từ đó, trong ví dụ này, tên bệnh thuộc tập các cột dữ liệu nhạy cảm.

Thêm nữa, bài báo xem các cột: giới tính, số vùng và ngày sinh là tập các thuộc tính bán định danh hay còn gọi là tập quasi-identifier. Nghĩa là nếu ai đó có được dữ liệu gồm giới tính, số vùng và ngày sinh thì sẽ có thể xác định lại một người cách liên kết lại các dữ liệu từ bảng thứ hai về bảng thứ nhất. Để giải quyết cho vấn đề này, mô hình k-anonymity với ý tưởng chính như sau. Một tập dữ liệu được cho là thoả k-anonymity nếu thông tin của mỗi người không thể phân biệt được với ít nhất k - 1 cá nhân có thông tin cũng xuất hiện trong đó.

Ví dụ, 5 dữ liệu sẽ được biến đổi thoả mô hình k-anonymity (Hình 1-3 Bảng dữ liệu đã biến đổi để thoả mô hình k-anonymity với k=2) [6] với k = 2 Hình 1-3 Bảng dữ liệu đã biến đổi để thoả mô hình k-anonymity với k=2 Tuy nhiên, mô hình k-anonymity vẫn có những điểm yếu nhất nhất định của nó như có thể bi tấn công dựa trên kiến thức đã biết hay bị tấn công đồng nhất. Điều này dẫn đến mô hình khắc phục dạng tấn công đồng nhất cho k-anonymity, là mô hình l- diversity [7]. Mô hình l-diversity với ý tưởng chính là: Một lớp dữ liệu thỏa mãn mô hình l- diversity khi có ít nhất L giá trị biểu diễn tốt phân biệt cho thuộc tính nhạy cảm. Mô hình l-diversity có ưu điểm là có thể cản trở kẻ tấn công tận dụng phân phối toàn cục của tập dữ liệu với các giá trị dữ liệu của thuộc tính để suy ra thông tin về các giá trị dữ liệu nhạy cảm.

Tuy nhiên trong tập dữ liệu thực, các giá trị thuộc tính có thể bị lệch hoặc tương tự về mặt ngữ nghĩa vì vậy mô hình t-closeness được đề xuất để để khắc phục nhược điểm đó. Mô hình t-closeness: Một lớp tương đương được cho là thoả t-closeness nếu khoảng cách giữa phân phối của một thuộc tính nhạy cảm trong lớp này và phân phối của thuộc tính trong toàn bộ bảng không quá ngưỡng t. Một bảng được cho thỏa t- closeness nếu tất cả các lớp tương đương thoả t-closeness. Với kỹ thuật Generalization là kỹ thuật tổng quát hoá dữ liệu, ví dụ ta có 1 giá trị ngày sinh trong bảng dữ liệu là ‘24-01-1994’ chúng ta có thể tổng quát hoá lại thành ‘01-1994’ hay ‘1994’ hay ‘19**’.

Với kỹ thuật Suppression ta sẽ loại bỏ những giá trị trong bảng dữ liệu. Hình 1-4 Ví dụ minh hoạ kỹ thuật Suppression Tổng quát các vấn đề thì có công trình “Graph-Based Privacy-Preserving Data Publication” [10]. Bài báo đề xuất một framework bảo vệ quyền riêng tư dữ liệu mở bao gồm nhiều kiểu dữ liệu như mạng xã hội, định nghĩa mạng ẩn danh và các độ đo hỗ trợ.5 Cây khái quát hoá (Generalization hierarchy) Việc ẩn danh hoá còn được kết hợp với việc mã hoá bằng cây khái quát [11]. Cách mã hoá này có thể áp dụng cho dữ liệu có tính liên tục như số hoặc rời rạc.

Ý 7 tưởng của việc áp dụng cây khái quát nhầm mục tiêu loại bỏ các bảng ghi vi phạm quyền riêng tư và thay thế bằng dữ liệu khái quát hơn trong một cây. Ví dụ dữ liệu là màu sắc có khoảng từ 8 màu. Cấp 0: 4 nhóm gồm: “xanh”, “đỏ”, “tím”, “vàng”. Cấp 1: 2 nhóm gồm “xanh-đỏ” và “tím-vàng”.

Cấp 2: Chia thành 1 nhóm “màu” (tất cả giá trị được khái quát hoá về 1 giá trị màu). Với giá trị đỏ và khái quát hoá cấp 1 thì giá trị sẽ được mã hoá thành nhãn “xanh-đỏ”. Như vậy việc biến đổi giá trị với cấp độ khái quát càng cao, thì mức độ đảm bảo quyền riêng tư càng tốt. Lúc này cây khái quát sẽ được biểu diễn (Hình 1-5 Ví dụ cây khái quát) như sau: Hình 1-5 Ví dụ cây khái quát 1.6 Thuật toán graph pertubation Thuật toán graph pertubations [12] thuộc nhóm thuật toán nhiễu loạn ngẫu nhiên.

Đồ thị mới Gp = (Vp, Ep) được xây dựng từ Gna thông qua một chuỗi xóa m cạnh sau đó là chèn m cạnh. Các phép xóa được chọn ngẫu nhiên đồng nhất từ tập hợp tất cả các cạnh tồn tại trong Gna. Các phần chèn được chọn ngẫu nhiên đồng nhất từ tập hợp tất cả các cạnh không tồn tại của đồ thị tạm thời.7 Thuật toán ẩn danh k-Degree anonymity Nổi bật gần đây nhất có công trình lớn về ẩn danh đồ thị là “Towards Plausible Graph Anonymization” [13]. Bài báo chỉ ra điểm yếu nổi bật nhất của các thuật toán ẩn danh đồ thị đó là: Khi tạo ra thêm các cạnh giả trong đồ thị, thuật toán không tính đến các đặc điểm chính của cấu trúc đồ thị, cụ thể như “Vấn đề dự đoán liên kết cho 8 mạng xã hội” [14].

Từ đó, bài báo đề xuất ra các giải thuật, nổi bật trong đó là giải thuật k-Degree anonymity [15]. Do k-Degree anonymity đáp ứng được khái niệm chính là mô hình k-anonymity trong cơ sở dữ liệu riêng tư mà vẫn hạn chế thay đổi dữ liệu ban đầu nên ứng dụng tập trung vào triển khai k-Degree anonymity. Giải thuật giả định rằng kẻ tấn công có kiến thức trước về số liên kết nút mục tiêu trong mạng xã hội, cụ thể như biết được số lượng liên kết bạn bè của mục tiêu để xác định được mục tiêu. Để gảm thiểu điểm yếu này k-Degree anonymity sửa đổi đồ thị ban đầu, sao cho tạo ra đồ thị ẩn danh, mỗi người chia sẻ cùng một mức độ (degree) với ít nhất k -1 người dùng khác.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Bảo mật dữ liệu đồ thị trong Neo4j: Luận văn thạc sĩ khoa học máy tính ứng dụng" cung cấp cái nhìn sâu sắc về các phương pháp bảo mật dữ liệu trong hệ thống cơ sở dữ liệu đồ thị Neo4j. Luận văn này không chỉ phân tích các thách thức trong việc bảo vệ dữ liệu mà còn đề xuất các giải pháp hiệu quả để đảm bảo an toàn thông tin. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các kỹ thuật bảo mật, giúp nâng cao độ tin cậy và bảo vệ thông tin nhạy cảm trong các ứng dụng thực tiễn.

Để mở rộng kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Giáo trình an toàn và bảo mật thông tin ngành quản trị mạng, nơi cung cấp những kiến thức cơ bản và nâng cao về an toàn thông tin trong quản trị mạng. Tài liệu này sẽ giúp bạn hiểu rõ hơn về các khía cạnh bảo mật cần thiết trong môi trường mạng hiện đại.

#Luận văn Thạc sĩ

#khoa học máy tính

#công nghệ thông tin

#bảo mật thông tin

#quản lý dữ liệu

#bảo mật dữ liệu

Chủ đề

Bảo mật dữ liệu trong cơ sở dữ liệu

Cơ sở dữ liệu đồ thị

Khoa học máy tính ứng dụng

Quản lý và bảo vệ thông tin