SyntheticData

含有「SyntheticData」共 7 篇內容
全部內容
發佈日期由新至舊
採用 SynEval 工具,從「隱私保護(Privacy preservation)」出發,同時兼顧「保真度(Fidelity)」與「實用性(Utility)」,確保在支持下游任務的前提下,不洩露敏感資訊。利用TSTR框架和MAE、準確率等指標評估實用性,透過推斷攻擊評估隱私保護效果。
Thumbnail
延續上篇所介紹的 Nemotron-4 340B Technical Report 細說合成資料集的流程,可以依據需要使用其中的步驟(流程),建置自己的合成資料生產線,最後附上範例 Prompt
Thumbnail
由 NVIDIA 發表,包括 Base、Instruct 與 Reward 三個版本,在 alignment 過程中超過 98% 的微調資料來自合成資料生成流程,展現有效運用 synthetic data 發展對齊模型的能力。
Thumbnail
Phi‑3 系列透過大量高品質與合成資料訓練,並結合 RLHF、對齊與自動測試,推出 3.8B 至 14B 的小模型與 4.2B 參數的多模態 Phi‑3‑Vision,在理解、推理、生成與圖像理解任務上表現突破,支援手機部署與低延遲場景。
Thumbnail
Microsoft Research 發表《Textbooks Are All You Need II: phi-1.5 technical report》,Phi-1.5 展現高品質合成資料(教科書等級)的潛力,以僅 1.3B 參數在常識推理與語言理解上媲美大型模型,挑戰「參數規模至上」的傳統觀點
Thumbnail
使用大型語言模型(LLM)生成合成資料作為訓練語料的可行性與實務應用。根據研究顯示,合成資料在某些任務上可達到與真實資料相近的效果,具備部分替代潛力。高品質訓練資料對模型表現的重要性,並討論合成資料的生成策略與評估方法。
Thumbnail
討論合成資料的定義、優勢、取得手法、應用場景、挑戰以及未來發展。合成資料透過人工方法或生成模型創造,可用於補充或取代真實資料,應用於機器學習、資料隱私保護、醫療研究和金融風險分析等領域。然而,合成資料也面臨真實性、偏差、成本和驗證難度等挑戰。
Thumbnail