聊一聊使用合成資料來訓練大型語言模型的可行性。在 Synthetic Data Generation with Large Language Models for Text 研究中顯示,合成資料在一定程度上可以替代真實資料,並且在特定任務上表現出與真實資料相近的效果。
高品質訓練資料的重要性
- 高品質的訓練資料
- 對於文本分類模型(Text Classification)的性能至關重要。
- 然而收集和整理這些資料既耗費時間又昂貴。
- 合成資料生成
- 雖然生成的合成資料可以大幅降低成本,但其效果可能不如實際資料。
- 合成資料在不同任務間的應用效果存在變異,這也是需要克服的一大挑戰。
生成式 AI 與大型語言模型
- 依賴大型語言模型,如 GPT-3.5 Turbo 生成高品質的文本資料。
- 在生成類人類文本方面表現優異且涵蓋多種應用,例如科學資料生成和程式碼生成。
- 但在特定領域的專業知識上有所不足。
合成資料生成
零樣本合成資料生成(Zero-shot Synthetic Data Generation)
- 情境設置:不需要預先存在的資料,使用自定義情境提示(Context Prompt)。
- IMDB 電影評論分類任務中的提示為 : 「假設你是IMDB平台上的電影評論家」。
- 資料生成提示:指導模型生成特定風格、標籤和字數限制的文本。
- 生成帶有 「 正面 」 或 「 負面 」 情感的電影評論。
- 多樣性提示:每生成 n 個資料後提供多樣性提示以增加資料多樣性。
- 與先前產生的資料相比,您能提供更多樣化的東西嗎?
少樣本合成數據生成(Few-shot Synthetic Data Generation)
- 使用少量真實資料作為範例,輔助大型語言模型生成合成資料。
- 生成的資料更具有多樣性和實效性。
- 需要真實資料作為參考,並限制不要單純改寫。
- 在指導 LLM 生成每段文本之前,提供隨機的真實資料範例,並加上約束 「應該模仿我的範例」。
主觀性對資料效用的影響
- 資料集和文本分類任務的主 / 客觀說明
- 客觀 : 新聞主題進行分類(例如,如 AG 新聞資料集中的分類)。
- 主觀 : 文本是否幽默(例如,如幽默語音資料集中的分類)。
- 主觀性高(需要理解語境和情感)的任務超出了目前 LLM 的能力,生成的資料在捕捉語言豐富性和細微差異方面表現不足。
- 低主觀性任務 : 合成資料的效能接近真實數據。
- 高主觀性任務 : 合成資料的效能顯著下降。
合成資料在不同任務上的效用
- 透過實驗評估 LLM 生成的合成資料在10種不同類型的文本分類任務(AG's News, IMDB Reviews ...)中的效用,每位參與者對10個任務進行主觀性判定。
- 判定 : 隨機抽取一對文本分類任務,根據任務描述、標籤描述和範例來判定哪個任務更客觀。
- 排名 : 總共獲得了540個成對主觀比較,來確定每個任務的主觀性水平。
- 最終得到的任務主觀性排名結果如下,反映了不同文本分類任務的主觀性水平差異。

在 「 主觀性 」 欄中「 ⋆ 」 符號越多,表示任務主觀性程度越高。
- 比較現實世界資料和合成資料的多樣性
- Remote Clique Score(資料樣本到其他樣本的平均距離)
- Chamfer Distance Score(資料樣本到其他樣本的平均最小距離)

主觀性程度的分析
- 模型在低主觀性樣本上的表現優於高主觀性樣本
- 在相同的分類任務中,主觀性會影響模型的效能。
- 對於低主觀(高度客觀)的任務,即使僅基於 LLM 生成的合成資料也有很大潛力。

𝛼 的值越高,表示標註者之間的一致性程度越高
總結與未來方向
- 少樣本資料增強
- 少樣本資料增強在模型性能方面有優勢。
- 結合真實資料和合成資料可提升模型效能,但需要處理整合問題。
- 合成資料主觀性
- 有效性與任務的主觀性水平相關。
- 低主觀性任務適合使用合成資料,高主觀性任務效果較差。
- 合成資料優缺點
- 優點在於能為特定類型的任務提供高品質資料。
- 合成資料並不適用於所有任務。
- 未來研究方向
- 利用人類(例如反饋或直接介入)增加資料多樣性,辨識和生成。
- 增加資料多樣性以提高模型效能,需要複雜生成策略和人類干預。
- LLM 在生成合成資料方面具有潛力,效果依賴於任務特性(特別是主觀性)。