N001|【AI 訓練陷阱:AI 訓練數據品質下降的危機】
── 1. 模型崩潰(Model Collapse) 2. 資料來源的重要性(Importance of Data Source) 3. 多樣性和代表性(Diversity and Representativeness)4. 保持數據品質的方法(Methods to Maintain Data Quality)
本文章速讀由MIT Technology Review 於 2024年 7 月 24日發表的文章:"AI trained on AI garbage spits out AI garbage"
( https://www.technologyreview.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense )
隨著AI技術的快速發展和應用,AI模型依賴從互聯網上獲取大量數據進行訓練。然而,當越來越多的AI生成內容充斥網絡時,這一過程的質量正面臨嚴重威脅。
▋1. 模型崩潰的風險(Model Collapse)
根據《自然》(Nature)雜誌上發表的新研究,當AI模型訓練於AI生成的數據時,模型輸出的質量會逐漸下降。這一過程被形象地比喻為“拍攝照片的照片”,隨著不斷重複這個過程,噪音會逐漸壓倒一切,最終只剩下一個黑暗的方塊。這種情況在AI領域被稱為“模型崩潰”(Model Collapse),意味著模型最終只會生成無意義的垃圾內容。
這項研究由牛津大學(University of Oxford)的計算機科學家伊利亞·舒梅洛夫(Ilia Shumailov)領導,他表示,當前最大的AI模型面臨著這一風險,因為它們大量使用互聯網作為數據庫。例如,GPT-3的部分訓練數據來自Common Crawl,這是一個包含超過30億個網頁的在線存儲庫。
▋2. 資料來源的重要性(Importance of Data Source)
隨著網絡上AI生成的垃圾網站不斷增多,問題將會變得更加嚴重。舒梅洛夫指出,雖然當前的AI模型不會立即崩潰,但其改進速度將會減慢,性能可能會受到影響。為了確定性能的潛在影響,舒梅洛夫和他的同事們在維基百科(Wikipedia)數據集上對大型語言模型(LLM)進行微調,並在其自身的輸出上進行了九代微調。結果顯示,使用其他模型輸出的模型具有更高的困惑度分數(Perplexity Score),這意味著模型的準確性較低。
一個典型的例子是,在第九代時,模型在處理某段文字後生成的輸出是完全無關緊要的內容,例如:“在家裡養的黑尾兔、白尾兔、藍尾兔、紅尾兔和黃尾兔。”這些無關緊要的輸出說明了模型在重複訓練過程中變得越來越不精確。
▋3. 多樣性和代表性(Diversity and Representativeness)
除了數據品質下降之外,訓練數據的多樣性和代表性也至關重要。斯坦福大學(Stanford University)的AI研究員馬提亞斯·格斯特格拉瑟(Matthias Gerstgrasser)表示,將合成數據與真實世界數據結合使用不會造成重大問題,但高品質和多樣性的訓練數據仍然是關鍵。
值得注意的是,這種數據品質下降的趨勢對少數群體的信息影響尤為嚴重。由於訓練數據中樣本的比例失衡,模型往往會過度關注更為普遍的樣本,從而忽視了少數群體的需求和語言。
▋4. 保持數據品質的方法(Methods to Maintain Data Quality)
為了避免數據品質下降的問題,研究建議在未來的模型訓練過程中,應確保模型對原始人類生成數據的重視。例如,在舒梅洛夫的研究中,允許未來的模型世代取樣10%的原始數據集,這在一定程度上減輕了負面影響。
這需要建立從原始人類生成數據到後續世代的數據來源鏈條,這被稱為數據來源追溯(Data Provenance)。然而,將互聯網內容過濾為人類生成和AI生成的內容,目前仍是一個難題。儘管現在有許多工具試圖確定文本是否由AI生成,但它們往往不夠準確。
“很不幸,我們現在有更多的問題而不是答案,”舒梅洛夫說,“但顯然,了解你的數據來源以及它的代表性至關重要。”