N001｜【AI 訓練陷阱：AI 訓練數據品質下降的危機】── 1. 模型崩潰 2. 資料來源的重要性3. 多樣性和代表

2024/07/28 更新2024/07/28 發佈閱讀 4 分鐘

N001｜【AI 訓練陷阱：AI 訓練數據品質下降的危機】

── 1. 模型崩潰（Model Collapse） 2. 資料來源的重要性（Importance of Data Source） 3. 多樣性和代表性（Diversity and Representativeness）4. 保持數據品質的方法（Methods to Maintain Data Quality）

本文章速讀由MIT Technology Review 於 2024年 7 月 24日發表的文章："AI trained on AI garbage spits out AI garbage"

( https://www.technologyreview.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense )

隨著AI技術的快速發展和應用，AI模型依賴從互聯網上獲取大量數據進行訓練。然而，當越來越多的AI生成內容充斥網絡時，這一過程的質量正面臨嚴重威脅。

▋1. 模型崩潰的風險（Model Collapse）

根據《自然》（Nature）雜誌上發表的新研究，當AI模型訓練於AI生成的數據時，模型輸出的質量會逐漸下降。這一過程被形象地比喻為“拍攝照片的照片”，隨著不斷重複這個過程，噪音會逐漸壓倒一切，最終只剩下一個黑暗的方塊。這種情況在AI領域被稱為“模型崩潰”（Model Collapse），意味著模型最終只會生成無意義的垃圾內容。

這項研究由牛津大學（University of Oxford）的計算機科學家伊利亞·舒梅洛夫（Ilia Shumailov）領導，他表示，當前最大的AI模型面臨著這一風險，因為它們大量使用互聯網作為數據庫。例如，GPT-3的部分訓練數據來自Common Crawl，這是一個包含超過30億個網頁的在線存儲庫。

▋2. 資料來源的重要性（Importance of Data Source）

隨著網絡上AI生成的垃圾網站不斷增多，問題將會變得更加嚴重。舒梅洛夫指出，雖然當前的AI模型不會立即崩潰，但其改進速度將會減慢，性能可能會受到影響。為了確定性能的潛在影響，舒梅洛夫和他的同事們在維基百科（Wikipedia）數據集上對大型語言模型（LLM）進行微調，並在其自身的輸出上進行了九代微調。結果顯示，使用其他模型輸出的模型具有更高的困惑度分數（Perplexity Score），這意味著模型的準確性較低。

一個典型的例子是，在第九代時，模型在處理某段文字後生成的輸出是完全無關緊要的內容，例如：“在家裡養的黑尾兔、白尾兔、藍尾兔、紅尾兔和黃尾兔。”這些無關緊要的輸出說明了模型在重複訓練過程中變得越來越不精確。

▋3. 多樣性和代表性（Diversity and Representativeness）

除了數據品質下降之外，訓練數據的多樣性和代表性也至關重要。斯坦福大學（Stanford University）的AI研究員馬提亞斯·格斯特格拉瑟（Matthias Gerstgrasser）表示，將合成數據與真實世界數據結合使用不會造成重大問題，但高品質和多樣性的訓練數據仍然是關鍵。

值得注意的是，這種數據品質下降的趨勢對少數群體的信息影響尤為嚴重。由於訓練數據中樣本的比例失衡，模型往往會過度關注更為普遍的樣本，從而忽視了少數群體的需求和語言。

▋4. 保持數據品質的方法（Methods to Maintain Data Quality）

為了避免數據品質下降的問題，研究建議在未來的模型訓練過程中，應確保模型對原始人類生成數據的重視。例如，在舒梅洛夫的研究中，允許未來的模型世代取樣10%的原始數據集，這在一定程度上減輕了負面影響。

這需要建立從原始人類生成數據到後續世代的數據來源鏈條，這被稱為數據來源追溯（Data Provenance）。然而，將互聯網內容過濾為人類生成和AI生成的內容，目前仍是一個難題。儘管現在有許多工具試圖確定文本是否由AI生成，但它們往往不夠準確。

“很不幸，我們現在有更多的問題而不是答案，”舒梅洛夫說，“但顯然，了解你的數據來源以及它的代表性至關重要。”

留言

留言分享你的想法！

王啟樺的沙龍

642會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

看更多

你可能也想看

創業經驗談

出國旅遊穿搭攻略｜WIWI 輕旅穿搭首選 × 蝦皮雙11活動限時優惠，保暖、防曬一次搞定！

每次出國旅行，最讓人頭痛的就是要穿什麼？不同國家的氣候差很大，從零下低溫到艷陽高照，一趟旅程可能要準備兩季的衣服！這次我整理出我出國最愛帶的 WIWI 輕旅穿搭清單，全部都能在蝦皮雙11活動期間用超優惠價格入手，還能同時參加蝦皮分潤計畫，一邊分享一邊賺旅費 💰 雙11優惠懶人包：

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

創業經驗談

出國旅遊穿搭攻略｜WIWI 輕旅穿搭首選 × 蝦皮雙11活動限時優惠，保暖、防曬一次搞定！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

成長痛WDKY的沙龍

POK萬能磁吸腳架心得分享，蝦皮買的手機腳架不專業開箱分享

大家好久不見，趁著連假有時間寫文來分享我這陣子的近況～大約 8 月中後的時候，我自己去了一小趟的釜山+福岡獨旅，主要是因為想讓自己沈澱放鬆，也加上自己好久沒有好好休息，所以希望可以有一段自己的時間。當然，也因為這次是獨自出發，所以身為小小自媒體工作者還是會需要拍照記錄一下生活，所以這次旅程還

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

成長痛WDKY的沙龍

POK萬能磁吸腳架心得分享，蝦皮買的手機腳架不專業開箱分享

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

#ChatGPT#AlphaGo#人工智慧

2024/07/19

默默超的人機協作城

AI助手數據收集和訓練過程簡介

本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據，數據的清洗和結構化處理，知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議，歡迎隨時告訴我們，讓我們共同探索，攜手進步。

2024/07/11

2024/07/11

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

本文談及資料科學的領域與分工。首先是建造一個AI的研發流程，資料收集到 AI 模型訓練的過程，AI經歷這一切流程被創造出來並產生價值；再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。

#人工智慧#AI#資料科學

2024/07/05

Darren的沙龍

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

#人工智慧#AI#資料科學

2024/07/05

每日發車

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

每日發車

筆記-曲博談AI模型.群聯-24.05.05

2024/05/06

M-Insight：AI科技創新

高階管理者應該了解的六個 AI 問題

近年來，生成式AI對市場帶來了巨大變革，然而，企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中，我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點，協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。

#生成式AI#深度學習#科技

2024/04/30