Luận văn thạc sĩ: Ẩn danh hóa dữ liệu bằng thuật toán di chuyển tuple trong khoa học máy tính

Khám phá luận văn thạc sĩ về ẩn danh hóa dữ liệu trong khoa học máy tính với thuật toán di chuyển tuple, nâng cao bảo mật thông tin.

Trường đại học

Đại học Bách Khoa - ĐHQG TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Giới thiệu đề tài

1.2. Mục đích nghiên cứu

1.3. Giới hạn đề tài

1.4. Ý nghĩa khoa học và thực tiễn

1.4.1. Ý nghĩa khoa học

1.4.2. Ý nghĩa thực tiễn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Quyền riêng tư và chất lượng dữ liệu

2.2. Thuật toán Apriori

2.3. Khai phá luật kết hợp trong dữ liệu

2.4. Các định nghĩa liên quan khi ẩn danh dữ liệu

2.5. Tác động đến chất lượng dữ liệu khi thực hiện ẩn danh

3. CHƯƠNG 3: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Mô hình K-anonymity

3.2. Mô hình L-diversity

3.3. Một số thuật toán ẩn danh

3.3.1. Thuật toán Datafly

3.3.2. Thuật toán Incognito

3.3.3. Thuật toán Flash

3.3.4. Thuật toán Mondrian

3.4. Kỹ thuật di chuyển tuple

4. CHƯƠNG 4: HƯỚNG TIẾP CẬN VÀ THUẬT TOÁN

4.1. Yêu cầu của giải thuật

4.2. Ý tưởng giải thuật

5. CHƯƠNG 5: ĐÁNH GIÁ GIẢI THUẬT

5.1. Hiện thực giải thuật

5.2. Đánh giá thuật toán

6. CHƯƠNG 6: TỔNG KẾT

6.1. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về ẩn danh hóa dữ liệu

Ẩn danh hóa dữ liệu là một phương pháp quan trọng trong khoa học máy tính, nhằm bảo vệ thông tin cá nhân trong quá trình thu thập và phân tích dữ liệu. Khi dữ liệu cá nhân được sử dụng, việc bảo vệ quyền riêng tư trở nên cấp thiết. Phương pháp ẩn danh hóa dữ liệu không chỉ giúp bảo vệ thông tin nhạy cảm mà còn đảm bảo tính hữu ích của dữ liệu trong các ứng dụng khai thác. Nghiên cứu này tập trung vào việc phát triển một thuật toán ẩn danh mới, sử dụng thuật toán di chuyển tuple để biến đổi dữ liệu mà không làm giảm chất lượng của dữ liệu. Mục tiêu là đạt được một sự cân bằng giữa bảo mật dữ liệu và chất lượng dữ liệu, từ đó tạo ra một phương pháp hiệu quả hơn cho việc ẩn danh dữ liệu trong bối cảnh ngày càng tăng của việc thu thập dữ liệu.

1.1. Tầm quan trọng của ẩn danh hóa dữ liệu

Với sự gia tăng của các vụ vi phạm dữ liệu và tội phạm mạng, ẩn danh hóa dữ liệu trở thành một yếu tố thiết yếu trong việc bảo vệ quyền riêng tư. Các tổ chức cần có các phương pháp bảo vệ dữ liệu hiệu quả để giảm thiểu rủi ro bị lạm dụng thông tin cá nhân. Việc áp dụng các giải pháp ẩn danh hóa như k-anonymity và l-diversity giúp giảm thiểu khả năng nhận diện cá nhân từ dữ liệu được công bố. Nghiên cứu này không chỉ giải quyết các vấn đề lý thuyết mà còn cung cấp các giải pháp thực tiễn cho các tổ chức trong việc bảo vệ thông tin cá nhân của người dùng.

II. Các mô hình ẩn danh dữ liệu hiện có

Mô hình ẩn danh dữ liệu như k-anonymity và l-diversity đã được nghiên cứu và áp dụng rộng rãi. K-anonymity yêu cầu rằng mỗi bản ghi trong tập dữ liệu không thể phân biệt với ít nhất k-1 bản ghi khác, giúp bảo vệ quyền riêng tư của cá nhân. Tuy nhiên, mô hình này vẫn có những điểm yếu, đặc biệt là khi đối mặt với các cuộc tấn công tái định danh. Mô hình l-diversity được phát triển để khắc phục những nhược điểm này bằng cách đảm bảo rằng mỗi nhóm k bản ghi chứa ít nhất l giá trị khác nhau cho các thuộc tính nhạy cảm. Nghiên cứu này sẽ phân tích và so sánh các mô hình ẩn danh hiện có, từ đó phát triển một thuật toán mới sử dụng thuật toán di chuyển tuple để cải thiện hiệu quả của việc ẩn danh dữ liệu.

2.1. K anonymity và những hạn chế

Mô hình k-anonymity đã được ứng dụng thành công trong nhiều lĩnh vực, nhưng vẫn tồn tại một số hạn chế. Đặc biệt, mô hình này không thể bảo vệ hoàn toàn thông tin nhạy cảm trong trường hợp kẻ tấn công có kiến thức bổ sung về dữ liệu. Việc sử dụng các thuộc tính khả định danh như giới tính hoặc ngày sinh có thể dẫn đến việc suy luận ra danh tính cá nhân. Do đó, cần phải có các phương pháp bổ sung để tăng cường bảo mật dữ liệu trong các mô hình ẩn danh hiện có.

III. Thuật toán di chuyển tuple

Thuật toán di chuyển tuple là một phương pháp mới trong việc ẩn danh hóa dữ liệu, giúp cải thiện chất lượng dữ liệu trong quá trình xử lý. Phương pháp này hoạt động bằng cách di chuyển các giá trị trong các tuple, tạo ra các bản ghi mới mà vẫn đảm bảo tính ẩn danh. Bằng cách này, số lượng luật kết hợp bị mất trong quá trình ẩn danh được giảm thiểu, đồng thời hạn chế số lượng luật mới được sinh ra. Điều này không chỉ cải thiện chất lượng dữ liệu mà còn giúp bảo vệ quyền riêng tư của người dùng. Nghiên cứu này sẽ trình bày chi tiết về cách thức hoạt động của thuật toán di chuyển tuple và những lợi ích mà nó mang lại trong việc ẩn danh hóa dữ liệu.

3.1. Cách thức hoạt động của thuật toán

Thuật toán di chuyển tuple thực hiện việc di chuyển các giá trị giữa các bản ghi trong tập dữ liệu để tạo ra các bản ghi mới mà không làm mất đi thông tin cần thiết. Phương pháp này giúp duy trì tính hữu ích của dữ liệu trong các ứng dụng khai thác. Bên cạnh đó, thuật toán này còn đảm bảo rằng các thuộc tính nhạy cảm không bị lộ ra ngoài, từ đó bảo vệ quyền riêng tư của người dùng. Nghiên cứu này sẽ đánh giá hiệu quả của thuật toán di chuyển tuple so với các phương pháp ẩn danh truyền thống, từ đó xác định khả năng ứng dụng của nó trong thực tiễn.

IV. Đánh giá và ứng dụng thực tiễn

Đánh giá hiệu quả của thuật toán di chuyển tuple sẽ được thực hiện thông qua các thử nghiệm thực tiễn, nhằm xác định khả năng bảo vệ quyền riêng tư và chất lượng dữ liệu. Các kết quả thu được sẽ được so sánh với các mô hình ẩn danh hiện có, như k-anonymity và l-diversity, để xác định ưu điểm và nhược điểm của từng phương pháp. Việc áp dụng thuật toán này trong các lĩnh vực như y tế, tài chính và thương mại điện tử sẽ được phân tích, nhằm chứng minh tính khả thi và hiệu quả của nó trong việc bảo vệ thông tin cá nhân trong bối cảnh ngày càng tăng của việc thu thập dữ liệu.

4.1. Ứng dụng trong lĩnh vực y tế

Trong lĩnh vực y tế, việc bảo vệ thông tin cá nhân của bệnh nhân là vô cùng quan trọng. Thuật toán di chuyển tuple có thể được áp dụng để ẩn danh dữ liệu bệnh nhân khi công bố cho các bên thứ ba, đồng thời vẫn đảm bảo chất lượng dữ liệu phục vụ cho nghiên cứu và phân tích. Việc áp dụng phương pháp này không chỉ giúp bảo vệ quyền riêng tư của bệnh nhân mà còn tạo điều kiện cho việc khai thác dữ liệu hiệu quả, từ đó nâng cao chất lượng dịch vụ y tế.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính ẩn danh hóa dữ liệu bằng thuật toán di chuyển tuple

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, lượng dữ liệu cá nhân được thu thập và phân tích ngày càng tăng theo cấp số nhân, kéo theo những lo ngại về quyền riêng tư và bảo mật thông tin cá nhân. Các rủi ro như vi phạm dữ liệu, đánh cắp danh tính và tội phạm mạng ngày càng phổ biến, đòi hỏi các giải pháp bảo vệ quyền riêng tư hiệu quả khi dữ liệu được chia sẻ hoặc công bố. Một thách thức lớn là cân bằng giữa việc bảo vệ quyền riêng tư và duy trì chất lượng dữ liệu để phục vụ cho các mục đích khai phá dữ liệu, đặc biệt là khai phá luật kết hợp – một kỹ thuật phổ biến trong phân tích dữ liệu.

Luận văn tập trung phát triển thuật toán ẩn danh dữ liệu dựa trên phương pháp di chuyển tuple nhằm bảo vệ quyền riêng tư người dùng khi dữ liệu cá nhân được sử dụng, đồng thời đảm bảo dữ liệu vẫn giữ được tính hữu ích cho khai phá dữ liệu. Thuật toán được xây dựng để đạt mô hình l-diversity, khắc phục những hạn chế của mô hình k-anonymity trước các kiểu tấn công tái định danh cá nhân. Nghiên cứu được thực hiện trên tập dữ liệu Census Income với 5088 dòng, sử dụng các thuộc tính khả định danh và thuộc tính nhạy cảm cụ thể, nhằm đánh giá hiệu quả thuật toán trong việc giảm thiểu mất mát luật kết hợp quan trọng và hạn chế sinh ra luật mới không mong muốn.

Mục tiêu chính của nghiên cứu là phát triển giải thuật ẩn danh dữ liệu đạt l-diversity, giảm thiểu sự mất mát luật kết hợp mạnh và hạn chế luật mới sinh ra, đồng thời đảm bảo dữ liệu đầu ra vẫn có chất lượng cao khi khai phá. Phạm vi nghiên cứu tập trung vào dữ liệu dạng bảng, với các thuộc tính khả định danh và nhạy cảm được xác định rõ, thực hiện trong khoảng thời gian từ tháng 2 đến tháng 7 năm 2023 tại Trường Đại học Bách Khoa – Đại học Quốc gia TP. HCM. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc bảo vệ quyền riêng tư người dùng và hỗ trợ các tổ chức quản lý dữ liệu thực hiện ẩn danh hiệu quả, đồng thời duy trì chất lượng dữ liệu phục vụ khai phá.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình chính sau:

Mô hình k-anonymity: Đảm bảo mỗi cá nhân trong tập dữ liệu không thể phân biệt với ít nhất k-1 cá nhân khác dựa trên các thuộc tính khả định danh (QID). Tuy nhiên, mô hình này có điểm yếu khi các giá trị thuộc tính nhạy cảm trong nhóm k-ẩn danh đồng nhất, dẫn đến rủi ro bị tấn công tái định danh.
Mô hình l-diversity: Mở rộng k-anonymity bằng cách yêu cầu mỗi nhóm tương đương phải chứa ít nhất l giá trị khác biệt của thuộc tính nhạy cảm, giúp ngăn chặn các kiểu tấn công đồng nhất và loại trừ dựa trên kiến thức nền.
Thuật toán Apriori và khai phá luật kết hợp: Thuật toán Apriori được sử dụng để khai thác các luật kết hợp mạnh trong dữ liệu, dựa trên các chỉ số độ hỗ trợ và độ tin cậy. Luật kết hợp mạnh được xác định khi độ hỗ trợ và độ tin cậy vượt ngưỡng tối thiểu do người dùng định nghĩa.
Kỹ thuật di chuyển tuple (Tuple Migration - MM): Phương pháp biến đổi dữ liệu bằng cách di chuyển các tuple giữa các nhóm tương đương, thay đổi giá trị thuộc tính khả định danh để đạt được mô hình l-diversity mà vẫn giữ được nhiều luật kết hợp mạnh, hạn chế mất mát thông tin so với các kỹ thuật tổng quát hóa hoặc loại bỏ truyền thống.

Các khái niệm chính bao gồm: Quasi-Identifier (QID), Sensitive Attributes (SA), Equivalence Class (EQ), luật kết hợp mạnh/yếu, độ hỗ trợ (support), độ tin cậy (confidence), và các chỉ số đánh giá chất lượng dữ liệu sau ẩn danh.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng tập dữ liệu Census Income năm 1994 với 5088 bản ghi, chọn các thuộc tính khả định danh gồm workclass, education, education-num, marital-status, occupation và thuộc tính nhạy cảm hours-per-week.
Phương pháp chọn mẫu: Toàn bộ tập dữ liệu được sử dụng để đánh giá thuật toán, đảm bảo tính đại diện và độ tin cậy của kết quả.
Phương pháp phân tích: Phát triển thuật toán ẩn danh MAST dựa trên kỹ thuật di chuyển tuple, áp dụng mô hình l-diversity. Thuật toán được đánh giá so sánh với thuật toán M3AR (cũng sử dụng kỹ thuật MM) qua các chỉ số: tỷ lệ phần trăm luật kết hợp mạnh bị mất (p_s) và tỷ lệ phần trăm luật kết hợp mạnh mới sinh ra (p_n). Các phép đo này được tính toán dựa trên số lượng luật kết hợp mạnh ban đầu, luật bị mất và luật mới sinh ra trong quá trình ẩn danh.
Timeline nghiên cứu: Nghiên cứu được thực hiện từ tháng 2 đến tháng 7 năm 2023, bao gồm các giai đoạn: tổng hợp lý thuyết, phát triển thuật toán, hiện thực và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả bảo vệ quyền riêng tư theo mô hình l-diversity: Thuật toán MAST đạt được mô hình l-diversity trên tập dữ liệu Census Income với các giá trị l = 3, 5, 10, 15, đảm bảo mỗi nhóm tương đương có ít nhất l giá trị nhạy cảm khác biệt, giảm thiểu rủi ro tái định danh cá nhân.
Giảm thiểu mất mát luật kết hợp mạnh: So sánh với thuật toán M3AR, MAST có tỷ lệ phần trăm luật kết hợp mạnh bị mất (p_s) thấp hơn đáng kể, thể hiện khả năng giữ lại nhiều luật quan trọng trong dữ liệu. Ví dụ, với l = 5, p_s của MAST thấp hơn khoảng 10% so với M3AR.
Hạn chế sinh ra luật kết hợp mạnh mới không mong muốn: Cả hai thuật toán MAST và M3AR đều duy trì tỷ lệ phần trăm luật kết hợp mạnh mới sinh ra (p_n) ở mức rất thấp, dưới 5%, cho thấy thuật toán không tạo ra nhiều luật giả, giúp dữ liệu sau ẩn danh vẫn có tính chính xác cao.
Tỷ lệ tuple không đạt yêu cầu l-diversity: Thuật toán M3AR có tỷ lệ tuple không đạt l-diversity tăng theo giá trị l, dẫn đến nguy cơ lộ thông tin nhạy cảm cao hơn. Trong khi đó, MAST duy trì tỷ lệ này ở mức thấp hơn, đảm bảo tính bảo mật tốt hơn.

Thảo luận kết quả

Kết quả cho thấy thuật toán MAST với kỹ thuật di chuyển tuple là một giải pháp hiệu quả trong việc cân bằng giữa bảo vệ quyền riêng tư và duy trì chất lượng dữ liệu cho khai phá luật kết hợp. Việc sử dụng mô hình l-diversity giúp khắc phục điểm yếu của k-anonymity trước các kiểu tấn công đồng nhất và loại trừ dựa trên kiến thức nền.

So với các thuật toán truyền thống như Datafly, Incognito hay Mondrian, kỹ thuật di chuyển tuple hạn chế biến dạng dữ liệu và giữ được nhiều luật kết hợp mạnh hơn, từ đó nâng cao tính hữu ích của dữ liệu sau ẩn danh. Biểu đồ so sánh tỷ lệ luật kết hợp mất đi và luật mới sinh ra minh họa rõ ràng sự vượt trội của MAST so với M3AR, đặc biệt trong các trường hợp l lớn.

Ngoài ra, việc sắp xếp ưu tiên các nhóm không thỏa mãn dựa trên số lượng tuple và giá trị nhạy cảm gần với ngưỡng l giúp thuật toán hoạt động hiệu quả hơn, giảm thiểu số nhóm không đạt yêu cầu cuối cùng. Tuy nhiên, vẫn tồn tại một số nhóm không thể xử lý hoàn toàn mà phải chấp nhận thay đổi trạng thái luật kết hợp, đây là điểm cần cải tiến trong các nghiên cứu tiếp theo.

Đề xuất và khuyến nghị

Triển khai thuật toán MAST trong các hệ thống quản lý dữ liệu cá nhân: Các tổ chức thu thập và chia sẻ dữ liệu cá nhân nên áp dụng thuật toán MAST để bảo vệ quyền riêng tư người dùng, đặc biệt trong các lĩnh vực y tế, tài chính và thương mại điện tử, nhằm giảm thiểu rủi ro tái định danh.
Phát triển công cụ hỗ trợ tự động hóa quy trình ẩn danh: Xây dựng phần mềm tích hợp thuật toán MAST với giao diện thân thiện, giúp các nhà quản trị dữ liệu không chuyên về bảo mật dễ dàng thực hiện ẩn danh dữ liệu, đảm bảo tuân thủ các tiêu chuẩn về quyền riêng tư.
Nâng cao đào tạo và nhận thức về bảo vệ dữ liệu: Tổ chức các khóa đào tạo cho nhân viên quản lý dữ liệu về các mô hình ẩn danh như k-anonymity, l-diversity và kỹ thuật di chuyển tuple, giúp họ hiểu rõ sự đánh đổi giữa quyền riêng tư và chất lượng dữ liệu.
Mở rộng nghiên cứu và ứng dụng cho các loại dữ liệu phức tạp hơn: Khuyến nghị nghiên cứu tiếp tục phát triển thuật toán cho dữ liệu phi cấu trúc hoặc dữ liệu lớn (big data), đồng thời tích hợp các mô hình bảo vệ quyền riêng tư mới như t-closeness để nâng cao hiệu quả ẩn danh.
Thời gian thực hiện: Các giải pháp nên được triển khai trong vòng 6-12 tháng, bắt đầu từ việc thử nghiệm trên các tập dữ liệu thực tế, đánh giá hiệu quả và điều chỉnh thuật toán phù hợp với đặc thù từng ngành.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, An toàn thông tin: Luận văn cung cấp kiến thức chuyên sâu về các mô hình ẩn danh dữ liệu, thuật toán di chuyển tuple và khai phá luật kết hợp, hỗ trợ nghiên cứu và phát triển các giải pháp bảo vệ quyền riêng tư.
Chuyên gia quản lý dữ liệu và bảo mật thông tin: Các chuyên gia có thể áp dụng thuật toán MAST để cải thiện quy trình ẩn danh dữ liệu trong tổ chức, giảm thiểu rủi ro lộ thông tin cá nhân và nâng cao chất lượng dữ liệu phục vụ phân tích.
Nhà phát triển phần mềm và công nghệ dữ liệu lớn: Tham khảo để tích hợp thuật toán ẩn danh hiệu quả vào các hệ thống quản lý dữ liệu, đặc biệt trong các ứng dụng khai phá dữ liệu và trí tuệ nhân tạo, đảm bảo tuân thủ quy định về bảo vệ dữ liệu cá nhân.
Cơ quan quản lý và hoạch định chính sách về bảo vệ dữ liệu cá nhân: Luận văn cung cấp cơ sở khoa học để xây dựng các tiêu chuẩn, quy định về ẩn danh dữ liệu, giúp cân bằng giữa quyền riêng tư và tiện ích dữ liệu trong các lĩnh vực y tế, tài chính, giáo dục.

Câu hỏi thường gặp

Thuật toán di chuyển tuple là gì và ưu điểm của nó so với các kỹ thuật ẩn danh truyền thống?
Thuật toán di chuyển tuple biến đổi dữ liệu bằng cách di chuyển các bản ghi giữa các nhóm tương đương, thay đổi giá trị thuộc tính khả định danh mà không làm mất nhiều thông tin. Ưu điểm là giữ được nhiều luật kết hợp mạnh hơn, giảm biến dạng dữ liệu so với tổng quát hóa hoặc loại bỏ.
Mô hình l-diversity khác gì so với k-anonymity?
Mô hình l-diversity yêu cầu mỗi nhóm tương đương có ít nhất l giá trị nhạy cảm khác biệt, giúp ngăn chặn các kiểu tấn công đồng nhất và loại trừ dựa trên kiến thức nền, trong khi k-anonymity chỉ đảm bảo mỗi cá nhân không thể phân biệt với k-1 cá nhân khác nhưng không bảo vệ tốt thông tin nhạy cảm.
Làm thế nào để đánh giá hiệu quả của thuật toán ẩn danh?
Hiệu quả được đánh giá qua tỷ lệ phần trăm luật kết hợp mạnh bị mất (p_s) và luật kết hợp mạnh mới sinh ra (p_n) trong quá trình ẩn danh. Tỷ lệ càng thấp chứng tỏ thuật toán giữ được nhiều thông tin quan trọng và không tạo ra nhiều luật giả.
Thuật toán MAST có thể áp dụng cho loại dữ liệu nào?
MAST được thiết kế cho dữ liệu dạng bảng có các thuộc tính khả định danh và nhạy cảm rõ ràng, phù hợp với các tập dữ liệu y tế, tài chính, khảo sát dân số, và các dữ liệu có cấu trúc tương tự.
Có thể áp dụng thuật toán này cho dữ liệu phi cấu trúc hoặc dữ liệu lớn không?
Hiện tại, thuật toán tập trung vào dữ liệu bảng có cấu trúc. Việc mở rộng cho dữ liệu phi cấu trúc hoặc big data cần nghiên cứu thêm để tối ưu hóa hiệu suất và đảm bảo tính bảo mật trong môi trường phức tạp hơn.

Kết luận

Thuật toán ẩn danh MAST dựa trên kỹ thuật di chuyển tuple thành công trong việc đạt mô hình l-diversity, bảo vệ quyền riêng tư người dùng hiệu quả hơn so với các mô hình truyền thống.
MAST giữ lại nhiều luật kết hợp mạnh quan trọng, giảm thiểu mất mát thông tin và hạn chế sinh ra luật mới không mong muốn, nâng cao chất lượng dữ liệu sau ẩn danh.
Việc sắp xếp ưu tiên các nhóm không thỏa mãn giúp thuật toán hoạt động hiệu quả, giảm số nhóm không đạt yêu cầu cuối cùng.
Nghiên cứu mở ra hướng phát triển các giải pháp ẩn danh dữ liệu phù hợp với khai phá luật kết hợp, có thể ứng dụng rộng rãi trong các lĩnh vực cần bảo vệ dữ liệu cá nhân.
Khuyến nghị triển khai thuật toán trong thực tế, đồng thời tiếp tục nghiên cứu mở rộng cho các loại dữ liệu phức tạp và tích hợp các mô hình bảo vệ quyền riêng tư nâng cao.

Để bảo vệ quyền riêng tư và nâng cao chất lượng dữ liệu, các tổ chức và nhà nghiên cứu nên áp dụng và phát triển thêm các thuật toán ẩn danh như MAST, đồng thời tăng cường nhận thức và đào tạo về bảo mật dữ liệu trong kỷ nguyên số hiện nay.

Trích đoạn nội dung tài liệu

MỞ ĐẦU 1. Giới thiệu đề tài Sự tiến bộ của công nghệ thông tin đã làm tăng khối lượng dữ liệu theo cấp số nhân theo từng năm. Trong số những dữ liệu này ngày càng chứa nhiều thông tin cá nhân. Lượng dữ liệu cá nhân này đã thu hút sự chú ý của nhiều bên nhằm tạo ra các dịch vụ phù hợp và cá nhân hóa hơn, dựa trên thông tin nhân khẩu học có sẵn.

Vì lý do này, các doanh nghiệp và tổ chức trong các lĩnh vực khác nhau thu thập dữ liệu cá nhân có thể được chia sẻ trong nhiều hoàn cảnh khác nhau (vì lý do kinh doanh, xã hội hoặc pháp lý). Điều này đã mang lại những thách thức mới để bảo vệ quyền riêng tư của những người có dữ liệu trong tập dữ liệu đã xuất bản. Do đó, bảo vệ quyền riêng tư khi xuất bản dữ liệu (PPDP) đã trở thành một lĩnh vực được các nhà nghiên cứu và học viên quan tâm. Một kịch bản điển hình của PPDP được mô tả trong Hình 1, thể hiện các giai đoạn khác nhau của quá trình xử lý dữ liệu.

Một giả định chính của mô hình PPDP là những kẻ tấn công có thể tồn tại trong số những người nhận dữ liệu, những kẻ có ý định khám phá thông tin nhạy cảm về các cá nhân. Do đó, mục tiêu của các kỹ thuật PPDP là sửa đổi dữ liệu bằng cách làm cho dữ liệu ít cụ thể hơn để có thể bảo vệ quyền riêng tư của cá nhân; trong khi vẫn duy trì tính hữu ích của dữ liệu được ẩn danh. Hình 1: Tổng quan về bảo vệ quyền riêng tư khi xuất bản dữ liệu 1 HVTH: NGUYỄN PHÚC PHI HỔ GVHD: TS TRƯƠNG TUẤN ANH Bản chất của PPDP là tạo ra các tập dữ liệu hữu ích cho nhiều tác vụ khác nhau, vì thông thường, tất cả các kịch bản tiềm năng của việc sử dụng dữ liệu đều chưa được biết tại thời điểm xuất bản. Ví dụ khi công bố dữ liệu, không thể xác định tất cả những người nhận dữ liệu.

Do đó, bất kỳ bên kiểm soát dữ liệu nào liên quan đến việc chia sẻ dữ liệu cá nhân đều cần áp dụng các cơ chế bảo vệ quyền riêng tư. Tuy nhiên, đây không phải là một nhiệm vụ dễ dàng, vì những nhân viên của đơn vị xuất bản dữ liệu thường không phải là chuyên gia trong lĩnh vực bảo mật dữ liệu. Hơn nữa, thường không có phương pháp nào đảm bảo rằng việc ẩn danh được tiến hành hiệu quả trong một tổ chức. Điều này có thể khiến họ sử dụng các phương pháp hủy nhận dạng đơn giản (ví dụ: xóa tất cả các thuộc tính nhận dạng trực tiếp như tên và số căn cước công dân), trước khi công bố dữ liệu.

Tuy nhiên, người ta đã chứng minh rằng chỉ riêng phương pháp này là không đủ để bảo vệ quyền riêng tư [1]. Sự cố vẫn có thể xảy ra do kết hợp các tuple khác nhau hoặc có kiến thức cơ bản về các cá nhân để suy luận về danh tính của họ. Việc xác định lại một cá nhân đạt được bằng cách liên kết các thuộc tính, được gọi là thuộc tính khả định danh (quasi- identifiers-QID), chẳng hạn như giới tính, ngày sinh hoặc mã ZIP. Mô hình ẩn danh nổi tiếng nhất là k-anonymity [2], cung cấp khả năng bảo vệ quyền riêng tư bằng cách hiển thị dữ liệu không thể phân biệt được với ít nhất k-1 dữ liệu khác.

Tuy nhiên, thông tin nhạy cảm được ẩn danh bằng k-anonymity không tuyệt đối an toàn và tồn tại nhược điểm với một số kiểu tấn công. Nhiều mô hình được đề xuất để khắc phục các điểm yếu này, trong đó có l-diversity [3] , kèm theo đó là nhiều kỹ thuật liên quan để đạt được mô hình này [4] [5]. Do đó, trọng tâm của đề tài sẽ tập trung giải quyết vấn đề phát triển một thuật toán ẩn danh để bảo vệ danh tính của người dùng bằng cách chuyển đổi dữ liệu sang mô hình l-diversity, đồng thời vẫn giữ được tính hữu ích của tập dữ liệu để phục vụ cho việc khai phá dữ liệu, ví dụ như khi một bệnh viện muốn công bố dữ liệu nhập viện của các bệnh nhân cho các bên thứ ba để phục vụ cho công tác thống kê hoặc phân tích dữ liệu. 2 HVTH: NGUYỄN PHÚC PHI HỔ GVHD: TS TRƯƠNG TUẤN ANH 1.

Mục đích nghiên cứu Khi thực hiện ẩn danh hóa dữ liệu, một trong những tiêu chí quan trọng cần cân nhắc là sự đánh đổi giữa độ bảo mật và chất lượng của dữ liệu. Mặt khác, dữ liệu thường được khai thác bằng nhiều mô hình , trong đó sử dụng luật kết hợp là phương thức phổ biến. Mục tiêu của đề tài là phát triển giải thuật ẩn danh để bảo vệ quyền riêng tư khi thực hiện công khai dữ liệu thu thập tuy nhiên vẫn có khả năng đảm bảo chất lượng dữ liệu được giữ lại tốt nhất. Giải thuật ẩn danh hóa dữ liệu đạt bằng cách biến đổi dữ liệu đạt được mô hình l-diversity để cải thiện điểm yếu trước một số kiểu tấn công so với mô hình k-anonymity đồng thời đảm bảo dữ liệu đầu ra vẫn có chất lượng khi được sử dụng cho các bên khai phá dữ liệu.

Giới hạn đề tài Đề tài này sẽ tập trung tìm hiểu: • Các giải thuật phù hợp để ẩn danh tập dữ liệu dạng bảng đạt được mô hình l-diversity • Giải thuật cung cấp dữ liệu khi ẩn danh vẫn hữu ích khi thực hiện khai thác bằng các kỹ thuật dựa trên luật kết hợp. • Giải thuật sẽ hoạt động với các thuộc tính khả định danh và thuộc tính nhạy cảm được người dùng định sẵn. Ý nghĩa khoa học và thực tiễn 1. Ý nghĩa khoa học Chương trình ẩn danh dữ liệu là một phương pháp để bảo vệ quyền riêng tư của người dùng trong việc chia sẻ dữ liệu.

Khi chương trình ẩn danh dữ liệu được áp dụng, các bên tham gia sẽ chỉ có thể truy cập thông tin được ẩn danh, thay vì thông tin cá nhân của từng người. Tuy nhiên, việc áp dụng chương trình ẩn danh dữ liệu có thể dẫn đến việc mất mát thông tin quan trọng trong quá trình xử lý dữ liệu. 3 HVTH: NGUYỄN PHÚC PHI HỔ GVHD: TS TRƯƠNG TUẤN ANH Thuật toán di chuyển tuple là một phương pháp để giải quyết vấn đề này bằng cách di chuyển các giá trị trong các tuple để tạo ra các tuple mới. Việc di chuyển các giá trị này có thể giúp giảm thiểu số lượng luật kết hợp bị mất đồng thời hạn chế số lượng luật kết hợp mới được sinh ra mà vẫn đảm bảo tính ẩn danh của dữ liệu.

Ngoài tiêu chí k-anonymity , giải thuật còn đạt được tiêu chí l-diversity, khác phục được những vấn đề mà mô hình trước còn gặp phải. Vì vậy, trong lĩnh vực ẩn danh hóa dữ liệu để bảo vệ quyền riêng tư của người dùng, đề tài này có những ý nghĩa khoa học sau: • Nghiên cứu và tổng kết các giải thuật hiện có cũng như các ưu điểm của mỗi thuật giải. • Đề xuất giải thuật mới tập trung chủ yếu vào việc khai thác luật kết hợp có trong dữ liệu, đồng thời dữ liệu cũng đạt được mô hình l-diversity có tiêu chí ẩn danh tốt hơn so với mô hình k- anonymity. • Phân tích những hướng phát triển tiếp theo để giải quyết bài toán đảm bảo chất lượng của dữ liệu sau khi thực hiện ẩn danh một cách tổng quát.

Ý nghĩa thực tiễn Số lượng người dùng internet và lượng dữ liệu được tạo ra đều tăng theo cấp số nhân do sự phát triển của internet. Người dùng tạo ra khối lượng dữ liệu khổng lồ mỗi ngày khi mạng xã hội, thương mại điện tử và các hoạt động trực tuyến khác trở nên phổ biến hơn. Bên cạnh đó, các tổ chức sử dụng dữ liệu này cho nhiều mục đích khác nhau như nghiên cứu, dự đoán hành vi,. Do đó, việc ẩn danh dữ liệu ngày càng trở nên cần thiết để bảo vệ tính bảo mật và quyền riêng tư cho thông tin cá nhân của mọi người, đồng thời dữ liệu vẫn phải lưu giữ được chất lượng để phục vụ mục đích khai thác của các bên thu thập.

4 HVTH: NGUYỄN PHÚC PHI HỔ GVHD: TS TRƯƠNG TUẤN ANH Đề tài mang những ý nghĩa thực tiễn sau: • Về phía người dùng: với mục tiêu ẩn danh dữ liệu, người dùng khi cung cấp các thông tin sẽ hạn chế khả năng bị nhận diện và khám phá các thông tin nhạy cảm của cá nhân. Các tổ chức áp dụng quy trình ẩn danh dữ liệu đảm bảo các tiêu chí về sự ẩn danh và riêng tư của người dùng đều được cân nhắc và xử lý. • Về phía người quản trị: các tổ chức thu thập dữ liệu thông thường sẽ không có những chuyên gia về lĩnh vực bảo mật tính riêng tư của dữ liệu, do đó giải thuật có thể giúp cho qui trình ẩn danh dữ liệu trở nên dễ dàng hơn, cũng như đảm bảo chất lượng dữ liệu được lưu giữ tốt nhất có thể. 5 HVTH: NGUYỄN PHÚC PHI HỔ GVHD: TS TRƯƠNG TUẤN ANH CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.

Quyền riêng tư và chất lượng dữ liệu Sự đánh đổi giữa quyền riêng tư và chất lượng của dữ liệu là sự cân bằng mà các nhà nghiên cứu và tổ chức phải cân nhắc khi quyết định cách xử lý dữ liệu nhạy cảm. Một mặt, quyền riêng tư dữ liệu rất quan trọng để bảo vệ thông tin cá nhân của các cá nhân và đảm bảo rằng dữ liệu không bị sử dụng sai mục đích hoặc lạm dụng. Mặt khác, chất lượng của dữ liệu rất quan trọng để cho phép nghiên cứu và phân tích có thể dẫn đến những hiểu biết và khám phá ý nghĩa. Mức độ bảo mật dữ liệu và chất lượng dữ liệu được yêu cầu sẽ tùy thuộc vào trường hợp sử dụng và bối cảnh cụ thể.

Ví dụ: trong một số trường hợp, quyền riêng tư dữ liệu nghiêm ngặt có thể cần thiết để tuân thủ các yêu cầu pháp lý hoặc đạo đức, trong khi trong các trường hợp khác, tiện ích dữ liệu có thể được ưu tiên để hỗ trợ các hoạt động kinh doanh hoặc nghiên cứu quan trọng. Tuy nhiên, thường có sự đánh đổi giữa quyền riêng tư của dữ liệu và chất lượng dữ liệu. Ví dụ: để bảo vệ quyền riêng tư của thông tin cá nhân, dữ liệu có thể cần được ẩn danh hoặc tổng hợp, điều này có thể dẫn đến mất thông tin chi tiết và giảm độ chính xác cũng như tính hữu ích của dữ liệu đối với một số loại phân tích.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ: Ẩn danh hóa dữ liệu bằng thuật toán di chuyển tuple trong khoa học máy tính" của tác giả Nguyễn Phúc Phi Hổ, dưới sự hướng dẫn của TS. Phan Trọng Nhân và TS. Trương Tuấn Anh, trình bày về phương pháp ẩn danh hóa dữ liệu nhằm bảo vệ thông tin nhạy cảm trong các hệ thống dữ liệu lớn. Bài luận không chỉ nêu rõ các thuật toán di chuyển tuple mà còn phân tích ứng dụng thực tiễn của chúng trong việc đảm bảo an toàn dữ liệu, từ đó giúp người đọc hiểu rõ hơn về tầm quan trọng của việc bảo mật thông tin trong lĩnh vực công nghệ thông tin.

Để mở rộng thêm kiến thức về các chủ đề liên quan, bạn có thể tham khảo các bài viết khác như Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi trình bày ứng dụng của học máy trong việc lựa chọn dữ liệu; hay Nghiên cứu thuật toán mã hóa deoxysii có xác thực trong luận văn thạc sĩ, khám phá các phương pháp mã hóa giúp bảo vệ dữ liệu; và Nghiên cứu thuật toán mã hóa có xác thực Norx trong luận văn thạc sĩ, cung cấp cái nhìn sâu sắc về các thuật toán mã hóa hiện đại. Những tài liệu này sẽ giúp bạn có cái nhìn tổng quát hơn về các giải pháp bảo mật dữ liệu trong lĩnh vực khoa học máy tính.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khoa học máy tính

#quản lý dữ liệu

#an toàn thông tin

#bảo mật dữ liệu

Chủ đề

Khoa học máy tính và công nghệ thông tin

Bảo mật và riêng tư trong dữ liệu

Thuật toán và phương pháp xử lý dữ liệu

Nghiên cứu và ứng dụng trong học thuật