本篇文章是寫在GDPR高峰會之後,與在MOPCON的GDPR x ML的一點整理,主要資料來自於GDPR高峰會的演講內容。
GDPR到底是幹啥子的?
GDPR(General Data Protection Regulation),中文為一般資料保護規範,起源於2000年以後的.com風潮,使得網路公司開始出現成為世界上的重要名詞,這個階段最具代表性的公司就是Google跟Yahoo;而在2007年之後,因為行動網路與行動裝置的興起,使得網路公司的資料量開始爆發性的成長,人類也開始進入”Always online”的時代,GDPR事實上是因應這個時代趨勢而發展出來的產物,是制度隨科技演化的一個結果,其前身為1995的EU Data Protection Directive(歐盟個人資料數據保護指令),GDPR最主要的目的在於區別”Data Controller”與”Data Processer”,進而能夠釐清資料擁有權、使用權以及相關責任歸屬的關係,其條文大多屬於指導性的原則,並未實際規範企業或是組織應該如何進行因應以符合其規範,但對於違反規範的組織能夠處以非常高額的罰款,且其涵蓋範圍是以使用者為中心的概念,而非以組織的所屬地區為規範對象,實務上在管轄法院或是實際訴訟與法尊的處理上會有許多細節上的爭議,但其立法精神是更貼近當前網路服務的使用情境,進而能夠實現更完整的資料人權概念。
GDPR對於企業的影響有什麼?
粗略的來說,GDPR的規範使得”Privacy by design”,以隱私權為出發點的設計成為企業必須十分重視的原則,這項原則實踐在GDPR所規範的幾項個人權力當中,包含:
- Access(存取權)
- Rectification(糾正權)
- Forgotten(被遺忘權)
- Withdraw consent of processing(同意資料處理的否認權)
- Portability(資料轉移權)
- Not to be subject of decisions solely based on automated processing(不成為機器自動處理的決策建議個體權)
其他還有幾項規範是個人隱私的實踐,但因篇幅非常多而繁複,因此無法在本篇全部探討,但前述幾項原則是在個人的操作頁面裡面必須具備的基本功能項目,這會促使企業在設計產品的時候在一開始規劃的時刻就必須要加入這些控制項,這不僅影響到軟體平台服務(SaaS),硬體裝置,例如智慧音箱或是智能家電的個人化選項裡面也會有類似的資料在內,在未來的產品使用情境裡面,這些資料都會需要被列入GDPR規範的考慮範圍內,目前亞洲的日本、南韓與台灣也有在研議跟進相關的規範,然而影響更大的是GDPR規範已經成為貿易條款的一部分原則,在歐盟與日本的EU-Japan Economic Partner Agreement 2018裡面,符合GDPR規範的要求便已成為貿易協定符合產品的規範原則。
另一個重要的影響是資料正式成為資產的變革,這項變革目前還未成為財務報表的一部分,但很可能會帶來損失,巨額的損失。舉例來說,如果企業發生的資料外洩,而未在72小時之內完成通報,則歐盟即可針對此項缺失進行裁罰,此項影響的重要性在於,企業必須要意識到資料作為資產,必須要如同生產設備一樣,設置廠長(Data Protection Officer,資料保護長)的角色,並且進行無間斷的監控與資料健康度的監測,其中最為困難的還是災害發生的偵測、救援與危機處理。
Cisco GDPR overview, by Senior Director, Harvey Jang
Cisco的八大原則
- Having policies and standards(生出規範與標準):企業必須清楚的設定資料保護的策略目標與方向
- Identification and classification(辨識與分類資料):根據資料的風險設定合適的分類方式,思考清楚為什麼要收集這些資料,以及如何收集。
- Data risk and organizational maturity(資料風險與組織的意識):誰可以存取這些資料,這些資料的風險危害有多大?
- Incident response(危機處理):當發生資料外洩之類的事件時,有沒有處理的SOP?
- Oversight and enforcement(監督與執行):誰是政策的規劃者?誰負責監督、顧問、合規?
- Privacy by design(隱私即設計):一開始設計產品的時候就把隱私權控制放在優先的位置
- Security by design(資安即設計):一開始設計產品的時候就考慮每個環節的資安控制
- Awareness and education(意識程度與教育):對內部人員作充分的資安教育與資料涵養(Data literacy)的訓練
GDPR與機器學習
這是我明天要在MOPCON探討的題目,主要有兩個大方向:演算法公平性與演算法可解釋性的相關規範。
GDPR規範對個人有法律或重大影響的決定,不得基於個人種族、政治立場、宗教與哲學信仰、商業關係這些個人資料(Article 9),然而僅限制不得直接使用這些敏感資訊,無法杜絕演算法歧視的問題,實務上來說則會包含以下兩大問題:
- 不容易從演算法中移除敏感資訊的影響。
- Uncertainty bais,即因為訓練資料量多少,而對不同群體有不同的預測誤差。
而GDPR 對於被取用資料的個人「要求解釋的權力」(right to explanation)到底規範了什麼,目前仍有爭議,可解釋的機器學習演算法也還是一個尚在快速發展中的研究領域,根據Burrell(2016)對於機器學習演算法透明性的研究,區分了對於演算法三個程度的理解障礙:
- 有意不讓人取得資訊。
- 技術理解門檻,讓人即使取得演算法也無法看懂。
- 機器學習演算法是同時考慮大量因素進行數學最佳化的結果,與人類仰賴少數關鍵因素進行詮釋理解,這之間存在著落差。所以即使知道演算法的邏輯,也不一定能理解其結果為什麼是最佳的。
這部份由於在技術上跟規範上都還是非常新的領域,因此還有許多細節需要更多的討論,尤其是在技術跟規範用語上面還有許多需要釐清的地方,例如很多機器學習演算法會用到複雜的參數最佳化或是去識別化的個人行為性資料,導致要回推這些推薦結果到一個個體身上是非常困難的,因為其建模過程是一個非常複雜糾纏的數學過程,一旦開始使用一些推薦的算法之後,要徹底移除一個使用者的影響是幾乎不可的事情。我的好友,前Amazon首席科學家Andreas用一個很貼切的方式來形容這件事情:「在機器學習的領域,個人資料的涉入如同在海洋裡面滴上一滴墨水,它可能微乎其微,但在這個池子裡面引起的漣漪複雜到難以被移除,就如同你很難把這一滴墨水從海水裡面完整抽取回來一樣。」
距離2016年GDPR的完成已經過了兩年,目前在台灣感受到的變化還非常少,但這項規範對於人類歷史的重要性可能不亞於獨立宣言,因為透過這樣的規範,我們得以開始嘗試釐清我們自身與資料巨人,如Google、Facebook、LinkedIn、Amazon等巨大公司之間的權力與義務,在GDPR以前,我們很少有一個共通的語彙去表達這樣權力關係之間的不對等,或許對我們而言,GDPR是一個讓我們能夠對數位世界保持個人獨立性完整的獨立起草宣言吧!