使用 LLM 生成訓練語料:合成資料的實用性與挑戰

更新於 發佈於 閱讀時間約 5 分鐘
聊一聊使用合成資料來訓練大型語言模型的可行性。在 Synthetic Data Generation with Large Language Models for Text 研究中顯示,合成資料在一定程度上可以替代真實資料,並且在特定任務上表現出與真實資料相近的效果。

高品質訓練資料的重要性

  • 高品質的訓練資料
    • 對於文本分類模型(Text Classification)的性能至關重要。
    • 然而收集和整理這些資料既耗費時間又昂貴。
  • 合成資料生成
    • 雖然生成的合成資料可以大幅降低成本,但其效果可能不如實際資料
    • 合成資料在不同任務間的應用效果存在變異,這也是需要克服的一大挑戰。

生成式 AI 與大型語言模型

  • 依賴大型語言模型,如 GPT-3.5 Turbo 生成高品質的文本資料。
    • 在生成類人類文本方面表現優異且涵蓋多種應用,例如科學資料生成和程式碼生成。
    • 但在特定領域的專業知識上有所不足。

合成資料生成

零樣本合成資料生成(Zero-shot Synthetic Data Generation)

  • 情境設置:不需要預先存在的資料,使用自定義情境提示(Context Prompt)。
    • IMDB 電影評論分類任務中的提示為 : 「假設你是IMDB平台上的電影評論家」。
  • 資料生成提示:指導模型生成特定風格、標籤和字數限制的文本。
    • 生成帶有 「 正面 」 或 「 負面 」 情感的電影評論。
  • 多樣性提示:每生成 n 個資料後提供多樣性提示以增加資料多樣性。
    • 與先前產生的資料相比,您能提供更多樣化的東西嗎?

少樣本合成數據生成(Few-shot Synthetic Data Generation)

  • 使用少量真實資料作為範例,輔助大型語言模型生成合成資料。
    • 生成的資料更具有多樣性和實效性。
  • 需要真實資料作為參考,並限制不要單純改寫。
    • 在指導 LLM 生成每段文本之前,提供隨機的真實資料範例,並加上約束 「應該模仿我的範例」。

主觀性對資料效用的影響

  • 資料集和文本分類任務的主 / 客觀說明
    • 客觀 : 新聞主題進行分類(例如,如 AG 新聞資料集中的分類)。
    • 主觀 : 文本是否幽默(例如,如幽默語音資料集中的分類)。
  • 主觀性高(需要理解語境和情感)的任務超出了目前 LLM 的能力,生成的資料在捕捉語言豐富性和細微差異方面表現不足。
    • 低主觀性任務 : 合成資料的效能接近真實數據
    • 高主觀性任務 : 合成資料的效能顯著下降

合成資料在不同任務上的效用

  • 透過實驗評估 LLM 生成的合成資料在10種不同類型的文本分類任務(AG's News, IMDB Reviews ...)中的效用,每位參與者對10個任務進行主觀性判定。
    • 判定 : 隨機抽取一對文本分類任務,根據任務描述、標籤描述和範例來判定哪個任務更客觀
    • 排名 : 總共獲得了540個成對主觀比較,來確定每個任務的主觀性水平。
    • 最終得到的任務主觀性排名結果如下,反映了不同文本分類任務的主觀性水平差異。
在 「 主觀性 」 欄中「 ⋆ 」 符號越多,表示任務主觀性程度越高。

在 「 主觀性 」 欄中「 ⋆ 」 符號越多,表示任務主觀性程度越高。

  • 比較現實世界資料和合成資料的多樣性
    • Remote Clique Score(資料樣本到其他樣本的平均距離)
    • Chamfer Distance Score(資料樣本到其他樣本的平均最小距離)
raw-image

主觀性程度的分析

  • 模型在低主觀性樣本上的表現優於高主觀性樣本
    • 在相同的分類任務中,主觀性會影響模型的效能。
    • 對於低主觀(高度客觀)的任務,即使僅基於 LLM 生成的合成資料也有很大潛力。
𝛼 的值越高,表示標註者之間的一致性程度越高

𝛼 的值越高,表示標註者之間的一致性程度越高

總結與未來方向

  • 少樣本資料增強
    • 少樣本資料增強在模型性能方面有優勢。
    • 結合真實資料和合成資料可提升模型效能,但需要處理整合問題。
  • 合成資料主觀性
    • 有效性與任務的主觀性水平相關。
    • 低主觀性任務適合使用合成資料,高主觀性任務效果較差。
  • 合成資料優缺點
    • 優點在於能為特定類型的任務提供高品質資料。
    • 合成資料並不適用於所有任務。
  • 未來研究方向
    • 利用人類(例如反饋或直接介入)增加資料多樣性,辨識和生成。
    • 增加資料多樣性以提高模型效能,需要複雜生成策略和人類干預。
    • LLM 在生成合成資料方面具有潛力,效果依賴於任務特性(特別是主觀性)。
留言
avatar-img
留言分享你的想法!
avatar-img
AI 工程師的 LLM 筆記
0會員
12內容數
聊一聊提示工程、模型調校與優化技巧,同時分享一路走來的挑戰與突破,作為提醒未來的自己:別忘初心,走得更踏實。
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
本篇文章主要介紹一位菲律賓學者對使用大型語言模型產生文章的想法,說明如何利用AI技術進行學術寫作,以及提示工程的重要性。文中介紹了許多在醫學領域的應用以及學術寫作中的多種提示類型。文章還提到了。本文將會給讀者帶來對AI在學術寫作領域的啟發。
Thumbnail
本篇文章主要介紹一位菲律賓學者對使用大型語言模型產生文章的想法,說明如何利用AI技術進行學術寫作,以及提示工程的重要性。文中介紹了許多在醫學領域的應用以及學術寫作中的多種提示類型。文章還提到了。本文將會給讀者帶來對AI在學術寫作領域的啟發。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News