你以為已經去識別化，其實往往並沒有

個資法講堂系列之一

國人普遍認為將個人資料中的姓名及身分證號刪除，即可將個人資料去識別化，其實這從資料科學角度是大有問題的。以下謹舉三篇論文為例說明之。

一、依據美國學者之研究，縱使在民眾的戶籍資料中拿掉姓名與社會安全碼(social security numbers)，僅需組合性別、出生年月日與郵遞區號等三項資訊即可識別87%的美國人口。所以謹此拜託資料蒐集者、控制者、與處理者，請千萬不要再以為只要將姓名及身分證號刪除即是去識別化。

文獻出處：Sweeney, Latanya (2000), “Simple Demographics often Identify People Uniquely,” Health (San Francisco), 671, 1-34.

二、麻省理工學院媒體實驗室de Montjoye教授等人於2013年發表論文指出人類行動有很高的獨特性，去識別化之行動通訊資料仍有非常高之再識別風險(de Montjoye et al. 2013)。此篇論文使用2006年至2007年某西方國家150萬行動電話用戶的行動通訊資料，包含撥打、接聽電話或發送、接收簡訊的資料。所有行動通訊資料皆不包含姓名與其他明顯足資辨識身分之資訊，僅包含時間資訊與空間資訊，其中時間資訊精準至小時(亦即不包含幾分幾秒)，空間資訊僅能精準至某特定基地台之地域範圍(亦即電信資料僅能得知手機用戶之位置與哪個基地台最接近)。即便如此，研究結果顯示僅要隨意使用四個「空間-時間點(spatiotemporal points)」之通訊資訊，即可識別出95%的行動電話用戶 (de Montjoye et al. 2013)。

文獻出處：de Montjoye, Yves-Alexandre, Cesar A. Hidalgo, Michel Verleysen, and Vincent D. Blondel (2013), “Unique in the Crowd: The Privacy Bounds of Human Mobility,” Scientific Reports, 3(1376), 1-5.

三、de Montjoye教授等人於2015年將前開研究延伸於信用卡資料，論文登上Science期刊，指出去識別化之信用卡資料仍有非常高之再識別風險(de Montjoye et al. 2015)。此篇論文使用某國家三個月內110萬個人於1萬家商店之信用卡消費記錄，每筆資料包含消費商家及消費日期，但不包含消費者姓名、信用卡卡號或其他明顯之識別標誌。儘管如此，此篇論文研究發現，只要隨意使用四個「空間-時間點」之信用卡消費資料即足以識別出90%的信用卡消費者(de Montjoye et al. 2015)。

文獻出處：de Montjoye, Laura Radaelli, Vivek Kumar Singh, and Alex “Sandy” Pentland (2015), “Unique in The Shopping Mall: On The Reidentifiability of Credit Card Metadata,” Science, 347(6221), 536-539.

結語：

一般業者所稱「去識別化」，其實往往僅是「假名化」。
個資法第二條第一款規定：「個人資料：指自然人之姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、聯絡方式、財務情況、社會活動及其他得以直接或間接方式識別該個人之資料。」其中所稱「得以間接方式識別」，依據個資法施行細則第三條規定，係「指保有該資料之公務或非公務機關僅以該資料不能直接識別，須與其他資料對照、組合、連結等，始能識別該特定之個人」。準此，一筆資料雖已去掉部分識別標誌而無法識別特定個人，只要能藉由與其他資料相互勾稽比對而「還原」出該特定個人，仍屬個人資料。
故而，「假裝」去識別化的資料，如果「去識別得不夠乾淨」，讓有心人可以藉由與其他資料相互勾稽從而再識別的話，便不算去識別化的資料，仍然必須受個資法的規範。

作者：宋皇志，政治大學科技管理與智慧財產研究所教授，中華無形資產曁企業評價協會理事長

完成日期：2024年10月10日

有著作權，請勿侵權，惟歡迎註明出處引用

email: sung.hc@gmail.com