個資法講堂系列之一
國人普遍認為將個人資料中的姓名及身分證號刪除,即可將個人資料去識別化,其實這從資料科學角度是大有問題的。以下謹舉三篇論文為例說明之。
一、依據美國學者之研究,縱使在民眾的戶籍資料中拿掉姓名與社會安全碼(social security numbers),僅需組合性別、出生年月日與郵遞區號等三項資訊即可識別87%的美國人口。所以謹此拜託資料蒐集者、控制者、與處理者,請千萬不要再以為只要將姓名及身分證號刪除即是去識別化。
文獻出處:Sweeney, Latanya (2000), “Simple Demographics often Identify People Uniquely,” Health (San Francisco), 671, 1-34.
二、麻省理工學院媒體實驗室de Montjoye教授等人於2013年發表論文指出人類行動有很高的獨特性,去識別化之行動通訊資料仍有非常高之再識別風險(de Montjoye et al. 2013)。此篇論文使用2006年至2007年某西方國家150萬行動電話用戶的行動通訊資料,包含撥打、接聽電話或發送、接收簡訊的資料。所有行動通訊資料皆不包含姓名與其他明顯足資辨識身分之資訊,僅包含時間資訊與空間資訊,其中時間資訊精準至小時(亦即不包含幾分幾秒),空間資訊僅能精準至某特定基地台之地域範圍(亦即電信資料僅能得知手機用戶之位置與哪個基地台最接近)。即便如此,研究結果顯示僅要隨意使用四個「空間-時間點(spatiotemporal points)」之通訊資訊,即可識別出95%的行動電話用戶 (de Montjoye et al. 2013)。
文獻出處:de Montjoye, Yves-Alexandre, Cesar A. Hidalgo, Michel Verleysen, and Vincent D. Blondel (2013), “Unique in the Crowd: The Privacy Bounds of Human Mobility,” Scientific Reports, 3(1376), 1-5.
三、de Montjoye教授等人於2015年將前開研究延伸於信用卡資料,論文登上Science期刊,指出去識別化之信用卡資料仍有非常高之再識別風險(de Montjoye et al. 2015)。此篇論文使用某國家三個月內110萬個人於1萬家商店之信用卡消費記錄,每筆資料包含消費商家及消費日期,但不包含消費者姓名、信用卡卡號或其他明顯之識別標誌。儘管如此,此篇論文研究發現,只要隨意使用四個「空間-時間點」之信用卡消費資料即足以識別出90%的信用卡消費者(de Montjoye et al. 2015)。
文獻出處:de Montjoye, Laura Radaelli, Vivek Kumar Singh, and Alex “Sandy” Pentland (2015), “Unique in The Shopping Mall: On The Reidentifiability of Credit Card Metadata,” Science, 347(6221), 536-539.
結語:
- 一般業者所稱「去識別化」,其實往往僅是「假名化」。
- 個資法第二條第一款規定:「個人資料:指自然人之姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、聯絡方式、財務情況、社會活動及其他得以直接或間接方式識別該個人之資料。」其中所稱「得以間接方式識別」,依據個資法施行細則第三條規定,係「指保有該資料之公務或非公務機關僅以該資料不能直接識別,須與其他資料對照、組合、連結等,始能識別該特定之個人」。準此,一筆資料雖已去掉部分識別標誌而無法識別特定個人,只要能藉由與其他資料相互勾稽比對而「還原」出該特定個人,仍屬個人資料。
- 故而,「假裝」去識別化的資料,如果「去識別得不夠乾淨」,讓有心人可以藉由與其他資料相互勾稽從而再識別的話,便不算去識別化的資料,仍然必須受個資法的規範。
作者:宋皇志,政治大學科技管理與智慧財產研究所教授,中華無形資產曁企業評價協會理事長
完成日期:2024年10月10日
有著作權,請勿侵權,惟歡迎註明出處引用
email: sung.hc@gmail.com