Pseudonymization vs Anonymization：GDPR 框架下可逆假名化與不可逆匿名化的關鍵差異與實務應用

在 GDPR 框架下，Pseudonymization vs Anonymization 是資料保護的兩條核心路徑。選錯技術，不僅影響合規義務，更直接決定資料的再利用可能性。

假名化（Pseudonymization）：可逆的身份遮蔽

假名化以代號取代真實識別符（如姓名、Email），並保留加密對照表。資料本身仍屬於「個人資料」，GDPR 第 4(5) 條明確定義此概念。由於可透過對照表還原身份，資料控制者仍須遵守完整的 GDPR 義務，包含資料主體權利與跨境傳輸限制。其優勢在於保留資料結構，適合醫療研究、A/B 測試等需要縱向追蹤但須保護隱私的場景。對照表本身必須以高標準隔離儲存，成為整個系統的安全核心。

匿名化（Anonymization）：不可逆的個資消除

匿名化透過破壞性技術徹底切斷個人連結，使資料無法再識別任何個人。常用技術包含 k-匿名（k-Anonymity）、差分隱私（Differential Privacy）與資料泛化（Generalization）。GDPR 第 26 號前言明確指出，真正匿名化的資料不受 GDPR 管轄，可自由用於統計分析與公開發布。然而，匿名化的挑戰在於驗證其有效性——重識別攻擊（Re-identification Attack）持續進化，單純移除姓名遠遠不夠。ICO 建議從「可能性」與「動機」雙維度評估殘餘風險。

# 假名化：保留對照表（可逆）
import hashlib, secrets
salt = secrets.token_hex(16)
pseudo_id = hashlib.sha256((salt + "user@example.com").encode()).hexdigest()
lookup_table[pseudo_id] = "user@example.com"  # 安全隔離儲存

# 匿名化：泛化年齡欄位（不可逆）
df["age"] = df["age"].apply(lambda x: f"{(x // 10) * 10}~{(x // 10) * 10 + 9}")

💡 關鍵差異整理

法律地位：假名化資料仍受 GDPR 規範；匿名化資料則脫離其管轄範圍。
可逆性：假名化透過對照表可還原；匿名化在技術與法律上均不可逆。
適用場景：假名化適合需追蹤個體的研究；匿名化適合公開統計與資料共享。
風險核心：假名化的風險在對照表外洩；匿名化的風險在重識別攻擊。

選擇假名化或匿名化，本質是在資料可用性與法律義務之間取捨。理解兩者邊界，是構建合規資料架構的第一步。

📚 參考文獻

⚠️ 本文內容基於撰寫時的最新資訊，實際應用時請參考官

烏魚子

搜尋此網誌