vocus logo

方格子 vocus

你以為已經去識別化,其實往往並沒有

更新 發佈閱讀 5 分鐘

個資法講堂系列之一

國人普遍認為將個人資料中的姓名及身分證號刪除,即可將個人資料去識別化,其實這從資料科學角度是大有問題的。以下謹舉三篇論文為例說明之。

一、依據美國學者之研究,縱使在民眾的戶籍資料中拿掉姓名與社會安全碼(social security numbers),僅需組合性別、出生年月日與郵遞區號等三項資訊即可識別87%的美國人口。所以謹此拜託資料蒐集者、控制者、與處理者,請千萬不要再以為只要將姓名及身分證號刪除即是去識別化。

文獻出處:Sweeney, Latanya (2000), “Simple Demographics often Identify People Uniquely,” Health (San Francisco), 671, 1-34.

二、麻省理工學院媒體實驗室de Montjoye教授等人於2013年發表論文指出人類行動有很高的獨特性,去識別化之行動通訊資料仍有非常高之再識別風險(de Montjoye et al. 2013)。此篇論文使用2006年至2007年某西方國家150萬行動電話用戶的行動通訊資料,包含撥打、接聽電話或發送、接收簡訊的資料。所有行動通訊資料皆不包含姓名與其他明顯足資辨識身分之資訊,僅包含時間資訊與空間資訊,其中時間資訊精準至小時(亦即不包含幾分幾秒),空間資訊僅能精準至某特定基地台之地域範圍(亦即電信資料僅能得知手機用戶之位置與哪個基地台最接近)。即便如此,研究結果顯示僅要隨意使用四個「空間-時間點(spatiotemporal points)」之通訊資訊,即可識別出95%的行動電話用戶 (de Montjoye et al. 2013)。

文獻出處:de Montjoye, Yves-Alexandre, Cesar A. Hidalgo, Michel Verleysen, and Vincent D. Blondel (2013), “Unique in the Crowd: The Privacy Bounds of Human Mobility,” Scientific Reports, 3(1376), 1-5.

三、de Montjoye教授等人於2015年將前開研究延伸於信用卡資料,論文登上Science期刊,指出去識別化之信用卡資料仍有非常高之再識別風險(de Montjoye et al. 2015)。此篇論文使用某國家三個月內110萬個人於1萬家商店之信用卡消費記錄,每筆資料包含消費商家及消費日期,但不包含消費者姓名、信用卡卡號或其他明顯之識別標誌。儘管如此,此篇論文研究發現,只要隨意使用四個「空間-時間點」之信用卡消費資料即足以識別出90%的信用卡消費者(de Montjoye et al. 2015)。

文獻出處:de Montjoye, Laura Radaelli, Vivek Kumar Singh, and Alex “Sandy” Pentland (2015), “Unique in The Shopping Mall: On The Reidentifiability of Credit Card Metadata,” Science, 347(6221), 536-539.

結語:

  • 一般業者所稱「去識別化」,其實往往僅是「假名化」
  • 個資法第二條第一款規定:「個人資料:指自然人之姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、聯絡方式、財務情況、社會活動及其他得以直接或間接方式識別該個人之資料。」其中所稱「得以間接方式識別」,依據個資法施行細則第三條規定,係「指保有該資料之公務或非公務機關僅以該資料不能直接識別,須與其他資料對照、組合、連結等,始能識別該特定之個人」。準此,一筆資料雖已去掉部分識別標誌而無法識別特定個人,只要能藉由與其他資料相互勾稽比對而「還原」出該特定個人,仍屬個人資料
  • 故而,「假裝」去識別化的資料,如果「去識別得不夠乾淨」,讓有心人可以藉由與其他資料相互勾稽從而再識別的話,便不算去識別化的資料,仍然必須受個資法的規範

作者:宋皇志,政治大學科技管理與智慧財產研究所教授,中華無形資產曁企業評價協會理事長

完成日期:2024年10月10日

有著作權,請勿侵權,惟歡迎註明出處引用

email: sung.hc@gmail.com


留言
avatar-img
科技治理與智慧財產協奏曲沙龍
9會員
33內容數
非常感謝各位朋友蒞臨「科技治理與智慧財產協奏曲沙龍」。在此,我將不定期分享我對大數據與人工智慧治理、智慧財產之管理與策略、半導體產業生態與全球競爭等議題的觀察與思考,亦會記錄我旅居捷克期間的所見所感,作為研究與生活交織而成的點滴札記。
2026/01/20
生成式人工智慧的著作權爭議可區分為以下五個議題:開發(或訓練)人工智慧過程是否構成侵權、所開發出的人工智慧是否享有著作權、使用人工智慧生成著作是否構成侵權、人工智慧所生成的著作是否享有著作權、以及使用人工智慧所生成的著作是否構成侵權等。
2026/01/20
生成式人工智慧的著作權爭議可區分為以下五個議題:開發(或訓練)人工智慧過程是否構成侵權、所開發出的人工智慧是否享有著作權、使用人工智慧生成著作是否構成侵權、人工智慧所生成的著作是否享有著作權、以及使用人工智慧所生成的著作是否構成侵權等。
2026/01/20
2020年係公司治理智慧財產篇章的元年,智財管理制度之建立與績效絕非僅是公司法務的責任,而是董事會的職責,如何全面提升董事會成員對智慧財產之職能,已成為公司治理首要課題。 公開上市公司必須將智財管理納入內稽內控項目,上市櫃公司並應設置專責部門負責規劃與執行智慧財產之管理,並定期檢討施行成果。
2026/01/20
2020年係公司治理智慧財產篇章的元年,智財管理制度之建立與績效絕非僅是公司法務的責任,而是董事會的職責,如何全面提升董事會成員對智慧財產之職能,已成為公司治理首要課題。 公開上市公司必須將智財管理納入內稽內控項目,上市櫃公司並應設置專責部門負責規劃與執行智慧財產之管理,並定期檢討施行成果。
2026/01/20
專利風險之管理可區分為「侵害他人專利權之風險」與「專利權受他人侵害之風險」等兩大類的管理。
2026/01/20
專利風險之管理可區分為「侵害他人專利權之風險」與「專利權受他人侵害之風險」等兩大類的管理。
看更多