合成資料的隱私保護,針對品質三面向評估框架:SynEval

更新於 發佈於 閱讀時間約 4 分鐘
前幾篇介紹了合成資料的定義與生成,今天要介紹的這篇《A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models》,使用 SynEval 開源工具,從「保真度(Fidelity)」、「實用性(Utility)」與「隱私保護(Privacy)」三個維度,全面評估由大型語言模型生成的表格型合成資料是否足以應用於下游任務,並避免敏感資訊泄漏。

評估合成資料生成的品質和可靠性重要性

  • 大型語言模型能生成大量資料,滿足不同應用需求,但可能存在偏差和隱私洩露風險。
  • 生成資料的真實性、實用性以及隱私性,確保這些數據在實際應用中是可靠和安全的。
  • 可以提高資料使用的安全性和可信度,但評估過程可能會增加開發和使用的成本。

提出的方法

raw-image

真實性(Fidelity)

合成資料與原始資料集相似程度,不僅簡單的統計,還包括對資料存在的關係、依賴關係和情境資訊。
  • 結構保留分數(Structure Preserving Score)
    • 評估合成資料是否保留與真實資料相同的列名和順序。
    • 此評估涉及識別真實(r)和合成(s)資料集中的所有列名稱。
SPS=|𝑟∩𝑠|/|𝑟∪𝑠|
  • 完整性評分(Integrity Score)
    • 連續資料:如時間戳記,包括均值、標準差、最小最大值、中位數等統計特徵的保留情況。
    • 離散數據:不該有真實資料集中缺少的新類別值。所以從真實列 (Cr) 計算該組中找到的合成資料與該列中所有合成資料相比的百分比。
IS=|s,s∈Cr|/|s|

透過數個分析方法,確保對合成資料進行全面評估,不僅透過模仿評論中表達的公開情緒來衡量其保真度,而且還保留了表徵真實資料集的潛在主題和風格上的細微差別,

Claude 平均評論長度最接近真實數據,ChatGPT 最初會產生冗長的評論,但長度會隨著時間的推移而減少。Llama 在不失去連貫性的情況下產生擴展內容。
  • 結構保留分數:三個模型均為100%
  • 資料完整性分數: Claude(98.4%),ChatGPT(93.9%),Llama(87.59%)
  • 列形狀分數: Claude(80.92%),ChatGPT(80.97%),Llama(62.29%)
非文字表格資料的真實性評估結果

非文字表格資料的真實性評估結果

文本分析結果

文本分析結果

實用性(Utility)

評估合成資料在實際任務中的效用,合成資料是否能夠用於訓練模型並在真實資料上取得良好表現。
  • TSTR(Train-Synthetic-Test-Real)框架:
    • 模型訓練: 合成資料
    • 模型測試: 真實資料
    • 比較模型在真實資料上的表現,衡量合成資料的實用性。
    • 可以直接反映合成資料在實際應用中的效用但需要大量計算資源進行訓練和測試。
  • 評估指標:
    • MAE(Mean Absolute Error):
      • 用於衡量回歸模型的預測準確性,平均絕對誤差越小,表示模型表現越好。
    • 準確率(Accuracy):
      • 用於衡量分類模型的預測準確性,準確率越高,表示模型表現越好。
raw-image

隱私性(Privacy)

評估合成資料在保護隱私方面的效果,確保生成數據不會洩露訓練數據中的敏感信息,成員推斷攻擊成功率越低,表示生成數據的隱私保護效果越好。
  • 成員推斷攻擊(Membership Inference Attack, MIA):
    • 利用已知的模型訓練資料和非訓練資料來訓練一個攻擊模型。
    • 判斷某一特定數據點是否存在於合成資料生成模型的訓練集中。
    • 成員推斷攻擊成功率越高,表示生成模型越容易洩露訓練數據中的信息,隱私保護效果越差。
成員推斷攻擊成功率(越低表示生成數據的隱私保護效果越好)

成員推斷攻擊成功率(越低表示生成數據的隱私保護效果越好)


留言
avatar-img
留言分享你的想法!
avatar-img
AI 工程師的 LLM 筆記
0會員
13內容數
聊一聊提示工程、模型調校與優化技巧,同時分享一路走來的挑戰與突破,作為提醒未來的自己:別忘初心,走得更踏實。
2025/07/30
延續上篇所介紹的 Nemotron-4 340B Technical Report 細說合成資料集的流程,可以依據需要使用其中的步驟(流程),建置自己的合成資料生產線,最後附上範例 Prompt
Thumbnail
2025/07/30
延續上篇所介紹的 Nemotron-4 340B Technical Report 細說合成資料集的流程,可以依據需要使用其中的步驟(流程),建置自己的合成資料生產線,最後附上範例 Prompt
Thumbnail
2025/07/30
由 NVIDIA 發表,包括 Base、Instruct 與 Reward 三個版本,在 alignment 過程中超過 98% 的微調資料來自合成資料生成流程,展現有效運用 synthetic data 發展對齊模型的能力。
Thumbnail
2025/07/30
由 NVIDIA 發表,包括 Base、Instruct 與 Reward 三個版本,在 alignment 過程中超過 98% 的微調資料來自合成資料生成流程,展現有效運用 synthetic data 發展對齊模型的能力。
Thumbnail
2025/07/30
Phi‑3 系列透過大量高品質與合成資料訓練,並結合 RLHF、對齊與自動測試,推出 3.8B 至 14B 的小模型與 4.2B 參數的多模態 Phi‑3‑Vision,在理解、推理、生成與圖像理解任務上表現突破,支援手機部署與低延遲場景。
Thumbnail
2025/07/30
Phi‑3 系列透過大量高品質與合成資料訓練,並結合 RLHF、對齊與自動測試,推出 3.8B 至 14B 的小模型與 4.2B 參數的多模態 Phi‑3‑Vision,在理解、推理、生成與圖像理解任務上表現突破,支援手機部署與低延遲場景。
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
本文將展示使用不同激活函數(ReLU 和 Sigmoid)的效果。 一個簡單的多層感知器(MLP)模型來對 Fashion-MNIST 資料集進行分類。 函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間: 特性: 輸出範圍是 (0,1)(0, 1)(0,1
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News