在 GDPR 框架下,Pseudonymization vs Anonymization 是資料保護的兩條核心路徑。選錯技術,不僅影響合規義務,更直接決定資料的再利用可能性。
假名化(Pseudonymization):可逆的身份遮蔽
假名化以代號取代真實識別符(如姓名、Email),並保留加密對照表。資料本身仍屬於「個人資料」,GDPR 第 4(5) 條明確定義此概念。由於可透過對照表還原身份,資料控制者仍須遵守完整的 GDPR 義務,包含資料主體權利與跨境傳輸限制。其優勢在於保留資料結構,適合醫療研究、A/B 測試等需要縱向追蹤但須保護隱私的場景。對照表本身必須以高標準隔離儲存,成為整個系統的安全核心。
匿名化(Anonymization):不可逆的個資消除
匿名化透過破壞性技術徹底切斷個人連結,使資料無法再識別任何個人。常用技術包含 k-匿名(k-Anonymity)、差分隱私(Differential Privacy)與資料泛化(Generalization)。GDPR 第 26 號前言明確指出,真正匿名化的資料不受 GDPR 管轄,可自由用於統計分析與公開發布。然而,匿名化的挑戰在於驗證其有效性——重識別攻擊(Re-identification Attack)持續進化,單純移除姓名遠遠不夠。ICO 建議從「可能性」與「動機」雙維度評估殘餘風險。
# 假名化:保留對照表(可逆)
import hashlib, secrets
salt = secrets.token_hex(16)
pseudo_id = hashlib.sha256((salt + "user@example.com").encode()).hexdigest()
lookup_table[pseudo_id] = "user@example.com" # 安全隔離儲存
# 匿名化:泛化年齡欄位(不可逆)
df["age"] = df["age"].apply(lambda x: f"{(x // 10) * 10}~{(x // 10) * 10 + 9}")
💡 關鍵差異整理
- 法律地位:假名化資料仍受 GDPR 規範;匿名化資料則脫離其管轄範圍。
- 可逆性:假名化透過對照表可還原;匿名化在技術與法律上均不可逆。
- 適用場景:假名化適合需追蹤個體的研究;匿名化適合公開統計與資料共享。
- 風險核心:假名化的風險在對照表外洩;匿名化的風險在重識別攻擊。
選擇假名化或匿名化,本質是在資料可用性與法律義務之間取捨。理解兩者邊界,是構建合規資料架構的第一步。
📚 參考文獻
- GDPR Article 4(5) — 假名化官方定義,EUR-Lex
- ICO Anonymisation Code of Practice — 匿名化實務指引,英國資訊委員辦公室
- EDPB Guidelines 05/2021 — 歐洲資料保護委員會官方指引
⚠️ 本文內容基於撰寫時的最新資訊,實際應用時請參考官
留言
張貼留言