第 1 題
某醫療研究機構計畫公開一份去識別化的病歷統計資料集,供外部研究團隊使用。資料工程師在模型訓練的查詢介面中導入差分隱私(Differential Privacy),對每筆查詢結果加入拉普拉斯噪音。上線後研究團隊反映查詢結果的精度明顯下降,導致部分統計分析失準。關於差分隱私的特性與此現象,下列敘述何者最正確?
(A) 差分隱私僅在資料儲存階段加入噪音,查詢時不會影響精度,問題出在資料預處理
(B) 差分隱私透過控制噪音幅度(隱私預算 ε)在隱私保護與資料效用之間取捨,ε 越小保護越強但精度損失越大
(C) 差分隱私的噪音會隨查詢次數自動減弱,多次查詢同一統計量可消除噪音影響
(D) 差分隱私只適用於離散型資料,連續型數值資料應改用 K-匿名技術保護
答案:B
深度導讀解析
正確答案:B
核心技術點:差分隱私的 ε 權衡
中級理論拆解:差分隱私確保單筆資料的存在與否對查詢結果影響微乎其微。隱私預算 ε 是「噪音旋鈕」:ε 越小噪音越大,隱私越強但統計精度越差,必須依場景平衡。
選項坑洞掃描:A 差分隱私就是在查詢時加噪音,不是儲存階段。C 多次查詢反而消耗更多隱私預算,噪音不會自動減弱。D 差分隱私對連續和離散型資料都適用。
破題反射字:ε 小 → 強隱私弱精度 / 差分隱私 → 數學保證
第 2 題
某公立醫院將 10 萬筆病歷資料做 K-匿名(K=5)處理後,提供給外部研究團隊進行疾病分析。每 5 筆病歷在準識別欄位(年齡、性別、郵遞區號)上完全相同,理論上無法鎖定特定個人。然而,隱私稽核人員發現某個年齡-性別-郵遞區號組合中,5 筆病歷的疾病欄位全部都是「糖尿病」。此問題的根本原因與最適合的補強技術分別是:
(A) K 值設定太低,應提高至 K=50 以涵蓋更多不同疾病的病歷
(B) 準識別欄位選擇錯誤,應將疾病欄位也納入準識別欄位重新分組
(C) 雜湊處理不徹底,應對疾病欄位進行 SHA-256 雜湊後再公開
(D) K-匿名只防止身份識別,無法防止敏感屬性推測;應補強 L-多樣性,確保每個分組內的疾病欄位至少有 L 種不同值
答案:D
深度導讀解析
正確答案:D
核心技術點:K-匿名的屬性推測漏洞
中級理論拆解:K-匿名確保每個人「藏在 K 個人裡」,但若分組內敏感欄位值全相同,攻擊者無需鎖定個人就能推斷屬性。L-多樣性要求敏感欄位至少 L 種值,阻斷這條推測路徑。
選項坑洞掃描:A 提高 K 值不解決分組內敏感欄位同質性問題。B 疾病是敏感欄位不是準識別欄位。C 雜湊後無法做統計分析,失去研究價值。
破題反射字:K-匿名 → 防身份識別 / L-多樣性 → 防屬性推測
第 3 題
某電商平台原先蒐集使用者瀏覽紀錄用於訓練「商品推薦模型」,並在隱私政策中向使用者明確告知此用途。行銷部門近期希望將同一批瀏覽紀錄用於訓練「廣告點擊預測模型」以提升廣告營收。法務團隊認為此舉可能違反 GDPR,最核心的理由是:
(A) 違反目的限制原則——資料蒐集時告知的用途是「商品推薦」,未經使用者重新同意即擴大用於「廣告預測」屬於超出原始目的
(B) 違反資料最小化原則——瀏覽紀錄包含過多非必要欄位,應先刪除後再進行任何模型訓練
(C) 違反保存期限限制——瀏覽紀錄的保存已超過法定期限,不得用於任何新用途
(D) 違反可刪除性——使用者有權刪除瀏覽紀錄,因此任何基於歷史紀錄的模型訓練都不合法
答案:A
深度導讀解析
正確答案:A
核心技術點:GDPR 目的限制原則
中級理論拆解:GDPR 要求資料蒐集時需指定明確目的,後續使用不得超出原目的。「推薦」和「廣告預測」是不同用途,二次利用需重新取得明確同意,否則違規。
選項坑洞掃描:B 資料最小化是關於「蒐集多少」,不是「能不能換用途」。C 題目沒提到保存超期。D 可刪除性是使用者的權利,不代表歷史資料一律不能用。
破題反射字:換用途 → 目的限制原則 / 二次利用 → 重新取得同意
第 4 題
三家醫院計畫合作訓練一個罕見疾病的 AI 診斷模型,但各院的病歷資料涉及高度敏感個資,法規不允許將原始病歷傳送到單一集中伺服器。技術團隊需要在「資料不出院區」的前提下完成跨院聯合訓練,最適合採用的技術是:
(A) 差分隱私——在各院病歷中加入拉普拉斯噪音後傳送至中央伺服器集中訓練
(B) 同態加密——將各院病歷加密後傳送至中央伺服器,在密文狀態下完成模型訓練
(C) 聯邦學習——模型在各院本地訓練,僅將參數更新(如梯度)傳送至中央伺服器整合,原始病歷不離開各院
(D) K-匿名——將各院病歷做 K=10 的匿名處理後合併至中央資料庫統一訓練
答案:C
深度導讀解析
正確答案:C
核心技術點:聯邦學習的核心優勢
中級理論拆解:聯邦學習讓各機構在本地訓練模型,只傳梯度不傳資料,完美符合「資料不出院區」的要求。中央伺服器整合各院的參數更新後回傳全域模型。
選項坑洞掃描:A 加噪音後仍需傳送資料,違反「不出院區」要求。B 同態加密技術可行但計算效率極低,病歷規模大時不實際。D K-匿名後仍需傳送資料,且可能被連結攻擊。
破題反射字:資料不出場域 → 聯邦學習 / 只傳梯度不傳資料
第 5 題(Python 題)
某金融機構的資料工程師需要對客戶資料進行去識別化處理,將身分證字號欄位以雜湊方式轉換後再存入分析用資料庫。工程師撰寫以下程式碼:
import hashlib
def anonymize_id(id_str):
return hashlib.sha256(id_str.encode('utf-8')).hexdigest()
raw_ids = ['A123456789', 'B987654321', 'A123456789']
hashed = [anonymize_id(x) for x in raw_ids]
關於這段程式碼的行為與去識別化效果,下列敘述何者正確?
(A) hexdigest() 會產出不同長度的字串,依原始身分證字號長度而定
(B) hashed[0] 與 hashed[2] 的值會完全相同,因為 SHA-256 對相同輸入一定產生相同輸出,這個特性可用於跨資料庫比對但不暴露原始身分證號
(C) SHA-256 是雙向加密,資料庫管理員隨時可以用 hexdigest() 的逆函數還原身分證字號
(D) encode('utf-8') 的作用是將身分證字號加密,即使不經過 SHA-256 也已具備去識別化效果
答案:B
深度導讀解析
正確答案:B
核心技術點:SHA-256 雜湊的確定性與不可逆性
速攻手冊拆解法:
hashlib.sha256(...):主詞 hashlib(雜湊工具庫),動詞 sha256(用 SHA-256 演算法做雜湊),受詞是id_str.encode('utf-8')(身分證字號轉成位元組)。人話:「把身分證字號餵進 SHA-256 攪碎機」。.hexdigest():動詞 hexdigest(吐出十六進位摘要)。人話:「拿到攪碎後的固定長度指紋」。- 關鍵邏輯:同樣的輸入
'A123456789'進同一台攪碎機,出來的指紋一定一樣 →hashed[0] == hashed[2]。這是雜湊的「確定性」,可用來比對,但無法從指紋反推回原始資料(單向不可逆)。
選項坑洞掃描:A SHA-256 永遠產出 64 字元的十六進位字串,長度固定不變。C SHA-256 是單向雜湊不是加密,沒有逆函數。D encode('utf-8') 只是把字串轉成位元組,不是加密,任何人都能 decode 回來。
破題反射字:SHA-256 → 固定長度 + 不可逆 / 同輸入同輸出 → 可比對
還在用零散筆記備考?
這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。
👉 立即取得備考筆記




















