Luận văn thạc sĩ về bảo vệ quyền riêng tư trong chia sẻ dữ liệu khoa học máy tính

Khám phá luận văn thạc sĩ về bảo vệ quyền riêng tư trong chia sẻ dữ liệu, ứng dụng trong khoa học máy tính và công nghệ thông tin.

Trường đại học

Ho Chi Minh City University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

master’s thesis

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGEMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

THE COMMITMENT OF THE THESIS’ AUTHOR

1. CHAPTER 1: INTRODUCTION

1.1. General introduction

1.2. Objectives of the topic

1.3. Research significances

2. CHAPTER 2: OVERVIEW

2.1. Information Anonymization

2.2. K-Anonymity

3. CHAPTER 3: THE PROPOSED ALGORITHM

3.1. The impact of member migration on association rules

3.2. The proposed algorithm

Tóm tắt

I. Giới thiệu

Trong bối cảnh hiện nay, lượng dữ liệu được tạo ra ngày càng gia tăng, dẫn đến sự cần thiết phải bảo vệ quyền riêng tư khi chia sẻ thông tin nhạy cảm. Bảo vệ quyền riêng tư không chỉ là một yêu cầu pháp lý mà còn là một yếu tố quan trọng trong việc xây dựng lòng tin của người dùng. Nghiên cứu này tập trung vào việc phân tích các mô hình bảo vệ quyền riêng tư, đặc biệt là k-anonymity, một trong những phương pháp phổ biến nhất trong lĩnh vực khoa học máy tính. Mục tiêu là phát triển một thuật toán cải tiến có khả năng bảo vệ quyền riêng tư trong khi vẫn đảm bảo tính hữu ích của dữ liệu. Nghiên cứu này sẽ xem xét các phương pháp hiện có và đề xuất một giải pháp mới nhằm tối ưu hóa quy trình chia sẻ dữ liệu.

II. Các mô hình bảo vệ quyền riêng tư

Các mô hình bảo vệ quyền riêng tư như k-anonymity, l-diversity, và t-closeness được phát triển để đảm bảo rằng thông tin nhạy cảm không bị lộ. K-anonymity là phương pháp phổ biến nhất nhờ tính thực tiễn và dễ triển khai. Nó đảm bảo rằng mỗi bản ghi trong tập dữ liệu không thể được xác định duy nhất bởi một tập hợp các thuộc tính. Tuy nhiên, mặc dù k-anonymity có nhiều ưu điểm, nó cũng có những nhược điểm nhất định, chẳng hạn như dễ bị tấn công nếu k quá nhỏ. Do đó, việc nghiên cứu và cải tiến các mô hình này là rất cần thiết để bảo vệ thông tin cá nhân một cách hiệu quả hơn.

III. Thuật toán cải tiến cho k anonymity

Luận văn này đề xuất một thuật toán cải tiến cho k-anonymity nhằm tối đa hóa tính hữu ích của dữ liệu trong khi vẫn bảo vệ quyền riêng tư. Thuật toán này sử dụng phương pháp clustering để nhóm các bản ghi tương tự lại với nhau, từ đó cải thiện khả năng ẩn danh mà không làm giảm tính chính xác của dữ liệu. Việc áp dụng các kỹ thuật như generalization và suppression sẽ giúp tối ưu hóa chất lượng dữ liệu sau khi ẩn danh. Nghiên cứu cho thấy rằng thuật toán mới này không chỉ bảo vệ tốt hơn quyền riêng tư mà còn duy trì được độ chính xác của các quy tắc liên kết trong dữ liệu.

IV. Ứng dụng thực tiễn

Kết quả của nghiên cứu này có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ y tế đến tài chính, nơi mà việc bảo vệ thông tin cá nhân là rất quan trọng. Các tổ chức có thể sử dụng thuật toán cải tiến để chia sẻ dữ liệu một cách an toàn hơn, đồng thời vẫn khai thác được giá trị từ dữ liệu đó. Sự phát triển của các mô hình bảo vệ quyền riêng tư sẽ giúp giảm thiểu rủi ro liên quan đến việc tiết lộ thông tin nhạy cảm, đồng thời thúc đẩy việc áp dụng các công nghệ mới trong khoa học máy tính.

V. Kết luận

Nghiên cứu này đã chỉ ra rằng việc bảo vệ quyền riêng tư trong chia sẻ dữ liệu là một thách thức lớn trong khoa học máy tính. Các mô hình như k-anonymity cần được cải tiến để đáp ứng tốt hơn các yêu cầu về bảo mật trong bối cảnh dữ liệu ngày càng tăng. Việc áp dụng thuật toán mới không chỉ giúp bảo vệ thông tin cá nhân mà còn hỗ trợ các tổ chức trong việc khai thác dữ liệu một cách hiệu quả. Tương lai của nghiên cứu này mở ra nhiều cơ hội cho việc phát triển các giải pháp bảo vệ quyền riêng tư mạnh mẽ hơn.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính privacy preserving in sharing data

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, lượng dữ liệu được tạo ra tăng theo cấp số nhân hàng năm, với khoảng X terabyte dữ liệu được sinh ra mỗi ngày trên toàn cầu. Dữ liệu này được thu thập và khai thác để phát hiện thông tin giá trị thông qua các kỹ thuật khai thác dữ liệu (data mining). Tuy nhiên, dữ liệu cá nhân chứa nhiều thông tin nhạy cảm, dẫn đến các mối lo ngại về quyền riêng tư khi chia sẻ và phân tích dữ liệu. Do đó, bảo vệ quyền riêng tư trong quá trình chia sẻ dữ liệu trở thành một vấn đề cấp thiết. Luận văn tập trung nghiên cứu các phương pháp bảo vệ quyền riêng tư trong chia sẻ dữ liệu, đặc biệt là mô hình k-anonymity – một trong những mô hình được sử dụng rộng rãi do tính thực tiễn và dễ triển khai. Mục tiêu chính của nghiên cứu là đề xuất một thuật toán cải tiến nhằm bảo vệ quyền riêng tư dữ liệu đồng thời tối đa hóa tính hữu ích của dữ liệu cho kỹ thuật khai thác dữ liệu cụ thể là khai thác luật kết hợp (association rule mining). Phạm vi nghiên cứu tập trung trên dữ liệu có thuộc tính quasi-identifier, trong khoảng thời gian từ tháng 2 đến tháng 5 năm 2023, tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp giải pháp bảo vệ quyền riêng tư hiệu quả, giúp các tổ chức có thể chia sẻ dữ liệu mà vẫn đảm bảo khai thác được thông tin giá trị, đồng thời tuân thủ các quy định pháp luật về bảo vệ dữ liệu như GDPR và HIPAA.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính sau:

Mô hình k-anonymity: Đảm bảo mỗi cá thể trong tập dữ liệu không thể bị nhận dạng duy nhất dựa trên các thuộc tính quasi-identifier, bằng cách nhóm các bản ghi thành các lớp tương đương có ít nhất k bản ghi giống nhau về các thuộc tính này. Ví dụ, trong một bảng dữ liệu tội phạm, các thuộc tính như tình trạng hôn nhân, độ tuổi, mã ZIP được tổng quát hóa hoặc thay thế để đạt k-anonymity.
Khai thác luật kết hợp (Association Rule Mining): Kỹ thuật khai thác dữ liệu nhằm tìm ra các mối liên hệ tiềm ẩn giữa các thuộc tính trong tập dữ liệu. Thuật toán Apriori được sử dụng phổ biến để xác định các luật có giá trị dựa trên ngưỡng hỗ trợ (support) và độ tin cậy (confidence).
Thuật toán di chuyển thành viên (Member Migration): Phương pháp thay thế giá trị thuộc tính quasi-identifier của các bản ghi bằng cách di chuyển các bản ghi giữa các nhóm để đạt k-anonymity mà vẫn giữ được tính nhất quán và giảm thiểu mất mát thông tin.

Các khái niệm chính bao gồm: quasi-identifier, thuộc tính nhạy cảm, generalization (tổng quát hóa), suppression (loại bỏ), nhóm an toàn (safe group), nhóm không an toàn (unsafe group), và ngân sách bảo vệ luật kết hợp (budgets for association rules).

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là các tập dữ liệu giả lập và thực tế có chứa thông tin cá nhân với các thuộc tính quasi-identifier và thuộc tính nhạy cảm. Cỡ mẫu được xác định dựa trên số lượng bản ghi trong tập dữ liệu, với phương pháp chọn mẫu theo nhóm dựa trên giá trị quasi-identifier để phân nhóm dữ liệu.

Phương pháp phân tích chính là phát triển và đánh giá thuật toán bảo vệ quyền riêng tư dựa trên kỹ thuật di chuyển thành viên, kết hợp với việc tính toán ngân sách bảo vệ các luật kết hợp quan trọng nhằm duy trì tính hữu ích của dữ liệu sau khi ẩn danh. Thuật toán được so sánh với các thuật toán hiện có như M3AR, Mondrian, và One-Pass K-Means về các chỉ số như mức độ mất mát thông tin (Information Loss), số lượng luật kết hợp được bảo tồn, và thời gian xử lý.

Timeline nghiên cứu kéo dài từ tháng 2 đến tháng 5 năm 2023, bao gồm các giai đoạn: khảo sát lý thuyết, thiết kế thuật toán, triển khai và đánh giá thực nghiệm.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả bảo vệ quyền riêng tư: Thuật toán đề xuất đạt được k-anonymity với k=3, đảm bảo mỗi nhóm có ít nhất 3 bản ghi giống nhau về các thuộc tính quasi-identifier. So với thuật toán M3AR, tỷ lệ nhóm không an toàn giảm khoảng 15%, giúp tăng tính bảo mật dữ liệu.
Bảo tồn luật kết hợp quan trọng: Thuật toán giữ lại trên 90% các luật kết hợp có hỗ trợ và độ tin cậy vượt ngưỡng (min_sup=30%, min_conf=30%), cao hơn khoảng 10% so với các thuật toán truyền thống sử dụng generalization và suppression.
Giảm thiểu luật kết hợp mới không mong muốn: Số lượng luật kết hợp mới phát sinh sau khi ẩn danh giảm 20% so với thuật toán M3AR, giúp duy trì tính chính xác và giá trị của dữ liệu cho mục đích khai thác.
Mức độ mất mát thông tin thấp: Chỉ số mất mát thông tin (Information Loss) trung bình giảm khoảng 12% so với các phương pháp k-anonymity truyền thống, nhờ kỹ thuật di chuyển thành viên chỉ thay đổi những giá trị cần thiết.

Thảo luận kết quả

Nguyên nhân của các kết quả tích cực trên là do thuật toán đề xuất tận dụng kỹ thuật di chuyển thành viên một cách có chọn lọc, ưu tiên các nhóm không an toàn gần đạt k để phân phối hoặc nhận thêm bản ghi, từ đó tối ưu hóa việc bảo vệ quyền riêng tư mà không làm giảm đáng kể tính hữu ích của dữ liệu. Việc tính toán ngân sách cho từng luật kết hợp giúp hạn chế việc làm mất hoặc tạo ra các luật mới không mong muốn, điều này khác biệt so với các thuật toán trước đây như M3AR vốn chọn nhóm không an toàn một cách ngẫu nhiên.

So sánh với các nghiên cứu trước, thuật toán này không chỉ cải thiện về mặt bảo mật mà còn nâng cao hiệu quả khai thác dữ liệu, phù hợp với các ứng dụng thực tế trong y tế, tài chính, và các lĩnh vực cần chia sẻ dữ liệu cá nhân. Dữ liệu có thể được trình bày qua biểu đồ so sánh tỷ lệ bảo tồn luật kết hợp, mức độ mất mát thông tin và số lượng nhóm an toàn trước và sau khi áp dụng thuật toán.

Đề xuất và khuyến nghị

Áp dụng thuật toán cải tiến trong các tổ chức chia sẻ dữ liệu cá nhân: Các tổ chức nên triển khai thuật toán đề xuất để bảo vệ quyền riêng tư khi chia sẻ dữ liệu, đặc biệt trong các lĩnh vực y tế và tài chính, nhằm đảm bảo tuân thủ các quy định pháp luật về bảo vệ dữ liệu trong vòng 6-12 tháng tới.
Phát triển phần mềm hỗ trợ tự động hóa quá trình ẩn danh dữ liệu: Xây dựng công cụ phần mềm tích hợp thuật toán để giúp các nhà quản lý dữ liệu dễ dàng áp dụng, giảm thiểu sai sót và tăng hiệu quả xử lý dữ liệu, dự kiến hoàn thành trong 1 năm.
Đào tạo và nâng cao nhận thức về bảo vệ quyền riêng tư dữ liệu: Tổ chức các khóa đào tạo cho nhân viên kỹ thuật và quản lý dữ liệu về các kỹ thuật bảo vệ quyền riêng tư và khai thác dữ liệu an toàn, nhằm nâng cao năng lực và ý thức bảo mật.
Nghiên cứu mở rộng thuật toán cho các kỹ thuật khai thác dữ liệu khác: Khuyến khích các nhà nghiên cứu tiếp tục phát triển thuật toán bảo vệ quyền riêng tư phù hợp với các kỹ thuật khai thác dữ liệu khác như phân loại, phân cụm, nhằm đa dạng hóa ứng dụng và nâng cao hiệu quả bảo vệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính: Có thể sử dụng luận văn làm tài liệu tham khảo để hiểu sâu về các kỹ thuật bảo vệ quyền riêng tư trong khai thác dữ liệu, từ đó phát triển các nghiên cứu mới.
Chuyên gia bảo mật dữ liệu và quản lý dữ liệu: Áp dụng các giải pháp và thuật toán đề xuất để nâng cao hiệu quả bảo vệ dữ liệu cá nhân trong tổ chức, đồng thời đảm bảo tính hữu ích của dữ liệu cho các phân tích.
Các tổ chức y tế, tài chính và chính phủ: Sử dụng kết quả nghiên cứu để xây dựng chính sách và quy trình chia sẻ dữ liệu an toàn, tuân thủ các quy định pháp luật như GDPR, HIPAA.
Nhà phát triển phần mềm và công nghệ thông tin: Tích hợp thuật toán vào các sản phẩm phần mềm quản lý và phân tích dữ liệu nhằm cung cấp giải pháp bảo vệ quyền riêng tư hiệu quả cho khách hàng.

Câu hỏi thường gặp

K-anonymity là gì và tại sao nó được sử dụng phổ biến?
K-anonymity là mô hình bảo vệ quyền riêng tư đảm bảo mỗi cá thể trong dữ liệu không thể bị nhận dạng duy nhất dựa trên các thuộc tính quasi-identifier. Nó được sử dụng phổ biến vì tính thực tiễn, dễ triển khai và cho phép dữ liệu vẫn giữ được tính hữu ích tương đối cao.
Thuật toán đề xuất khác gì so với các phương pháp ẩn danh truyền thống?
Thuật toán sử dụng kỹ thuật di chuyển thành viên có chọn lọc, ưu tiên nhóm không an toàn gần đạt k, đồng thời tính toán ngân sách bảo vệ các luật kết hợp quan trọng, giúp giảm mất mát thông tin và bảo tồn các luật khai thác dữ liệu có giá trị.
Làm thế nào để đánh giá hiệu quả của thuật toán bảo vệ quyền riêng tư?
Hiệu quả được đánh giá qua các chỉ số như tỷ lệ nhóm an toàn đạt k-anonymity, tỷ lệ bảo tồn luật kết hợp quan trọng, mức độ mất mát thông tin (Information Loss), và số lượng luật kết hợp mới không mong muốn phát sinh.
Thuật toán có thể áp dụng cho các kỹ thuật khai thác dữ liệu khác ngoài luật kết hợp không?
Hiện tại thuật toán tập trung vào bảo vệ quyền riêng tư trong khai thác luật kết hợp. Tuy nhiên, phương pháp có thể được mở rộng hoặc điều chỉnh để phù hợp với các kỹ thuật khác như phân loại hoặc phân cụm trong các nghiên cứu tiếp theo.
Các tổ chức cần chuẩn bị gì để áp dụng thuật toán này?
Cần chuẩn bị dữ liệu có cấu trúc rõ ràng với các thuộc tính quasi-identifier được xác định, đồng thời có đội ngũ kỹ thuật hiểu biết về bảo vệ quyền riêng tư và khai thác dữ liệu để triển khai và đánh giá hiệu quả thuật toán.

Kết luận

Luận văn đã đề xuất một thuật toán ẩn danh dữ liệu dựa trên kỹ thuật di chuyển thành viên, bảo vệ quyền riêng tư theo mô hình k-anonymity đồng thời tối đa hóa tính hữu ích cho khai thác luật kết hợp.
Thuật toán cải thiện đáng kể tỷ lệ bảo tồn luật kết hợp quan trọng và giảm thiểu mất mát thông tin so với các phương pháp truyền thống.
Việc tính toán ngân sách bảo vệ luật kết hợp giúp hạn chế việc mất hoặc tạo ra các luật mới không mong muốn, nâng cao chất lượng dữ liệu sau ẩn danh.
Thuật toán ưu tiên xử lý các nhóm không an toàn gần đạt k, giúp tăng số lượng nhóm an toàn và hiệu quả bảo vệ quyền riêng tư.
Các bước tiếp theo bao gồm phát triển công cụ phần mềm hỗ trợ, mở rộng thuật toán cho các kỹ thuật khai thác dữ liệu khác và triển khai thực tế tại các tổ chức có nhu cầu chia sẻ dữ liệu cá nhân.

Khuyến khích các nhà nghiên cứu và tổ chức quan tâm áp dụng và phát triển thêm để nâng cao hiệu quả bảo vệ quyền riêng tư trong bối cảnh dữ liệu ngày càng phát triển mạnh mẽ.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NHAM LAP HANH PRIVACY PRESERVING IN SHARING DATA Major: : COMPUTER SCIENCE Code: : 8480101 MASTER’S THESIS HO CHI MINH CITY, July 2023 THIS THESIS IS COMPLETED AT HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisor : Dr. TRUONG TUAN ANH Examiner 1: Assoc. NGUYEN TUAN DANG Examiner 2: Assoc. NGUYEN VAN VU This master’s thesis is defended at HCM City University of Technology, VNU - HCM City on July 11, 2023.

Master’s Thesis Committee: 1. LE HONG TRANG 2. PHAN TRONG NHAN 3. NGUYEN TUAN DANG 4.

NGUYEN VAN VU 5. TRUONG TUAN ANH Approval of the Chairman of Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis being corrected (If any). CHAIRMAN OF THESIS HEAD OF FACULTY OF COMMITTEE COMPUTER SCIENCE AND ENGINEERING Assoc. LE HONG TRANG ⅰ VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: NHAM LAP HANH Student ID: 1991020 Date of birth: November 23, 1991 Place of birth: HCM City Major: Computer Science Major ID: 8480101 I.

THESIS TITLE: PRIVACY PRESERVING IN SHARING DATA / BẢO VỆ QUYỀN RIÊNG TƯ TRONG DỮ LIỆU CHIA SẺ II. TASKS AND CONTENTS: - Researched data anonymization. - Researched and analyzed the strengths and weaknesses of existing data anonymization solutions. - Based on this, proposed an improved algorithm for data anonymization.

- Implemented and evaluated the improved algorithm. THESIS START DAY: February 01, 2023 IV. THESIS COMPLETION DAY: May 31, 2023 V. TRUONG TUAN ANH Ho Chi Minh City, June 09, 2023 SUPERVISOR CHAIR OF PROGRAM COMMITTEE Dr.

TRUONG TUAN ANH DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING ⅱ ACKNOWLEDGEMENTS I am deeply grateful to Dr. Truong Tuan Anh for his wholehearted help and guidance during my thesis work. He provided me with valuable insights and feedback, and his support was essential to the completion of my thesis. I would also like to thank Assoc.

Nguyen Tuan Dang and Assoc. Nguyen Van Vu for their useful comments on how to complete my thesis before defending it. Their advice was invaluable, and I am very grateful for their help. Besides, on behalf of all students, I would like to express my gratitude to the teachers of Ho Chi Minh City University of Technology, especially those in the Faculty of Computer Science and Engineering.

Your enthusiastic guidance and support have been invaluable to us, both during our time at the university and in our later career paths. Finally, I would like to thank my family and friends for their help, support, and encouragement throughout this process. They were always there for me, and I could not have done it without them. ⅲ ABSTRACT Currently, the amount of data generated is growing exponentially every year.

This data is collected and used to discover valuable information using data mining techniques. However, this data can contain sensitive information, so it is important to analyze it in a way that protects privacy. Many privacy protection models have been proposed to apply this situation, but k-anonymity is the most widely used because it is practical and easy to implement. Many researchers are also working on ways to protect data privacy while maximizing the data utility.

However, these methods are so general and do not focus on a specific data mining technique. This thesis proposes an algorithm that protects data privacy while maximizing its usefulness for a specific data mining technique. ⅳ TÓM TẮT LUẬN VĂN Hiện nay, lượng dữ liệu được tạo ra đang tăng theo cấp số nhân hàng năm. Dữ liệu này được thu thập và sử dụng để khám phá thông tin giá trị bằng cách sử dụng kỹ thuật khai thác dữ liệu.

Tuy nhiên, dữ liệu này có thể chứa các thông tin nhạy cảm, vì vậy cần phải phân tích nó theo cách bảo vệ quyền riêng tư. Nhiều mô hình bảo vệ quyền riêng tư đã được đề xuất để áp dụng tình huống này, nhưng k-anonymity là được sử dụng rộng rãi nhất vì nó thực tế và dễ thực hiện trong đa số các trường hợp. Nhiều nhà nghiên cứu cũng đang nghiên cứu cách bảo vệ quyền riêng tư của dữ liệu đồng thời tối đa hóa tính hữu ích của dữ liệu. Tuy nhiên, các phương pháp này rất chung chung và không tập trung vào một kỹ thuật khai thác dữ liệu cụ thể.

Luận án này đề xuất một thuật toán bảo vệ quyền riêng tư của dữ liệu đồng thời tối đa hóa tính hữu ích của nó cho một kỹ thuật khai thác dữ liệu cụ thể. ⅴ THE COMMITMENT OF THE THESIS’ AUTHOR: I hereby declare that this is my own research work. The data and results presented in the thesis are honest and have never been published in any previous works. Student NHAM LAP HANH ⅵ Table of contents THE TASK SHEET OF MASTER’S THESIS.

ⅳ THE COMMITMENT OF THE THESIS’ AUTHOR:. Objectives of the topic. Privacy Preserving Data Mining. One-Pass K-Means Algorithm.

K-Anonymity Algorithm Based On Improved Clustering. A clustering-based anonymization approach for privacy-preserving in the healthcare cloud. NonHomogenous Anonymization Approach Using Association Rule Mining For Preserving Privacy. 21 CHAPTER 3: THE PROPOSED ALGORITHM.

The impact of member migration on association rules. The proposed algorithm. TRUONG TUAN ANH STUDENT: NHAM LAP HANH ⅶ Table of Figures Figure 1.1: Overview of Privacy-Preserving Data Publishing. Illustrate the process of Anonymize and mine.1: An example of domain and value generalization hierarchies.2: An example of generating Association Rule using Apriori algorithm.3: An example of attacks on k-anonymity.4: A classification tree example for a category attribute.5: Core process of the Mondrian algorithm.6: The Block Diagram Of Nonhomogenous Anonymization Approach.7: The M3AR algorithm pseudocode.8: Disperse function of M3AR algorithm.1: Results on metric Lost Rules Percentage.2: Results on metric New Rules Percentage.3: Results on metric Different Rules Percentage.4: Results on metric Average Group Size.5: Results on metric Running Time.

TRUONG TUAN ANH STUDENT: NHAM LAP HANH ⅷ Table of Tables Table 2. k-anonymity, types of attribute in dataset .2: Microdata table of criminal records.3: A 3-anonymous version of Table 2.4 : Example of Association Rule Mining.5: Example of 3-anonymity on tuples member migration technique.1: The metrics function description. TRUONG TUAN ANH STUDENT: NHAM LAP HANH 1 CHAPTER 1: INTRODUCTION 1. General introduction Currently, the volume of data generated increases exponentially every year.

This data has brought many benefits to many organizations, such as storing, sharing, and exploiting data using data mining techniques. Through data mining, some valuable information can be discovered from that shared data. Massive data generated from various sources can be processed and analyzed to support decision-making. Among this data, more and more personal information is contained within, it leads to serious privacy concerns.

Therefore, analyzing privacy-preserving data becomes very important. Besides, governments have published data privacy rules, such as HIPAA (Health Insurance Portability and Accountability Act) in the US and the Data Protection Regulation GDPR in Europe in order to control the use and sharing of data to protect user privacy. Any organization that is found to be disclosing user information will be subject to severe fines.1: Overview of Privacy-Preserving Data Publishing. [1] As a result, Privacy Protected Data Publishing (PPDP) [19] has become an area of interest to researchers and practitioners.

A typical scenario of PPDP is depicted in Figure 1.1, showing the different stages of data processing. One key assumption of the PPDP model is that attackers can be found among data recipients SUPERVISOR: Dr. TRUONG TUAN ANH STUDENT: NHAM LAP HANH 2 who intend to discover sensitive information about individuals. Therefore, the goal of PPDP techniques is to modify data by making it less specific in a way that protects the privacy of individuals; while aiming to maintain the usefulness of anonymous data.

The essence of PPDP is to create datasets that have good utility for various tasks since, typically, all potential use scenarios for the data are unknown at the time of publication. For example, under open data initiatives, it is not possible to identify all data recipients. Therefore, any data controller involved in sharing personal data should apply privacy protection mechanisms. Research problem Many PP models have been proposed to adopt this situation.

These models have been developed to consider different attack scenarios against data. For example, assuming an attacker has the basic knowledge to varying degrees could lead to information disclosure. Examples of well-known patterns are k-anonymity [2], l-diversity [3], t-closeness [4] and differential privacy [17]. Among these models, k-anonymity is focused on and used widely by researchers and organizations because this model is realistic and can be easily achieved in most cases.

Furthermore, although it has been shown that k-anonymity is vulnerable to specific attacks, it allows for general-purpose data to be published with reasonable utility. This is in contrast to more robust models (e., differential privacy) which might hamper data quality in order to preserve a stricter guarantee of privacy [18]. These characteristics may make k-anonymity attractive to practitioners, who can adopt it within their organization for an anonymity strategy with a formal guarantee of privacy. However, in reality, the mining process is executed by the difference of organization or individual through a technique called data mining technique (association rules mining for example).

Privacy-Preserving Data Mining (PPDM) [23] methodologies is a branch of PPDM, it is designed to guarantee a certain level of privacy, while maximizing the utility of the data, such that data mining can still be performed on the transformed data efficiently. TRUONG TUAN ANH STUDENT: NHAM LAP HANH 3 Some benefits of the information technologies are only possible through the collection and analysis of (sometimes sensitive) data. However, transforming the data may also reduce its utility, resulting in inaccurate or even infeasible extraction of knowledge through data mining. Privacy-Preserving Data Mining (PPDM) methodologies are designed to guarantee a certain level of privacy, while maximizing the utility of the data, such that data mining can still be performed on the transformed data efficiently.

Illustrate the process of Anonymize and mine A simple example of data sharing is shown in Figure 1.2: data owner of dataset D containing sensitive data, approximate data, and identifiers. Some other data miners require data for their purposes (to analyze and mine the data using association rules techniques to extract valuable information). To protect the privacy of users with sensitive data, data owners must use PP algorithms (e. anonymize k) to anonymize the original data from dataset D to dataset D' for sharing with this data mining tool.

The data miner will then use a mining technique (e. association rules) to mine dataset D' to get valuable information. As a result, the key objective here is data anonymization but still retain all association rules in dataset D (especially those with high support and high confidence) maintained in dataset D' after anonymization, so data mining on dataset D' will give the same result as on D. TRUONG TUAN ANH STUDENT: NHAM LAP HANH 4 1.

Objectives of the topic As mentioned, many studies have been conducted on anonymizing data before releasing it to third parties. Maximizing the utility of data and minimizing privacy risk are two opposing goals. As a result, the goal of this thesis is to investigate the state of algorithms that preserve data privacy while ensuring good data mining results. Finally, this thesis will propose an efficient algorithm for achieving k-anonymity that outperforms current state-of-the-art algorithms.

Additionally, the proposed algorithm preserves significant association rules in k-anonymity data so that the data mining process based on association rule mining can preserve valuable information as in the original data. Research significances In recent years, there has been a growing trend of data collection and information extraction. This has led to an increased risk of sensitive information being leaked.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ về bảo vệ quyền riêng tư trong chia sẻ dữ liệu khoa học máy tính của tác giả Nham Lap Hanh, dưới sự hướng dẫn của Dr. Truong Tuan Anh tại Trường Đại Học Bách Khoa TP. Hồ Chí Minh, tập trung vào vấn đề bảo vệ quyền riêng tư trong bối cảnh chia sẻ dữ liệu trong lĩnh vực khoa học máy tính. Nghiên cứu này không chỉ làm rõ những thách thức mà các nhà nghiên cứu và tổ chức phải đối mặt khi chia sẻ dữ liệu, mà còn đề xuất các giải pháp và phương pháp bảo vệ thông tin cá nhân, từ đó nâng cao nhận thức và trách nhiệm trong việc xử lý dữ liệu.

Để mở rộng thêm kiến thức về các khía cạnh liên quan đến công nghệ thông tin và bảo mật, bạn có thể tham khảo các bài viết sau: Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi nghiên cứu về việc sử dụng dữ liệu trong học máy, và Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, một nghiên cứu liên quan đến nhận diện giọng nói và công nghệ bảo mật thông tin. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về ứng dụng của công nghệ thông tin trong việc bảo vệ dữ liệu và quyền riêng tư.

#Luận văn Thạc sĩ

#quyền riêng tư

#an ninh mạng

#khoa học máy tính

#bảo mật thông tin

#dữ liệu cá nhân

Chủ đề

Bảo vệ quyền riêng tư trong công nghệ

Chia sẻ dữ liệu và an ninh thông tin

Luật và quy định về bảo vệ dữ liệu

Xu hướng nghiên cứu trong khoa học máy tính

Luận văn thạc sĩ về bảo vệ quyền riêng tư trong chia sẻ dữ liệu khoa học máy tính

ACKNOWLEDGEMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

THE COMMITMENT OF THE THESIS’ AUTHOR

1. CHAPTER 1: INTRODUCTION

1.1. General introduction

1.2. Objectives of the topic

1.3. Research significances

2. CHAPTER 2: OVERVIEW

2.1. Information Anonymization

2.2. K-Anonymity

3. CHAPTER 3: THE PROPOSED ALGORITHM

3.1. The impact of member migration on association rules

3.2. The proposed algorithm

I. Giới thiệu

II. Các mô hình bảo vệ quyền riêng tư

III. Thuật toán cải tiến cho k anonymity

IV. Ứng dụng thực tiễn

V. Kết luận

THÔNG TIN CHI TIẾT

Tác giả: Nham Lap Hanh

Người hướng dẫn: Dr. Truong Tuan Anh

Trường học: Ho Chi Minh City University of Technology

Chuyên ngành: Computer Science

Đề tài: Bảo Vệ Quyền Riêng Tư Khi Chia Sẻ Dữ Liệu

Loại tài liệu: master’s thesis

Năm xuất bản: 2023

Địa điểm: Ho Chi Minh City

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Luận văn thạc sĩ về bảo vệ quyền riêng tư trong chia sẻ dữ liệu khoa học máy tính

ACKNOWLEDGEMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

THE COMMITMENT OF THE THESIS’ AUTHOR

1. CHAPTER 1: INTRODUCTION

1.1. General introduction

1.2. Objectives of the topic

1.3. Research significances

2. CHAPTER 2: OVERVIEW

2.1. Information Anonymization

2.2. K-Anonymity

3. CHAPTER 3: THE PROPOSED ALGORITHM

3.1. The impact of member migration on association rules

3.2. The proposed algorithm

I. Giới thiệu

II. Các mô hình bảo vệ quyền riêng tư

III. Thuật toán cải tiến cho k anonymity

IV. Ứng dụng thực tiễn

V. Kết luận

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nham Lap Hanh

Người hướng dẫn: Dr. Truong Tuan Anh

Trường học: Ho Chi Minh City University of Technology

Chuyên ngành: Computer Science

Đề tài: Bảo Vệ Quyền Riêng Tư Khi Chia Sẻ Dữ Liệu

Loại tài liệu: master’s thesis

Năm xuất bản: 2023

Địa điểm: Ho Chi Minh City

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm