N001|【AI 訓練陷阱:AI 訓練數據品質下降的危機】── 1. 模型崩潰 2. 資料來源的重要性3. 多樣性和代表

閱讀時間約 4 分鐘

N001|【AI 訓練陷阱:AI 訓練數據品質下降的危機】

── 1. 模型崩潰(Model Collapse) 2. 資料來源的重要性(Importance of Data Source) 3. 多樣性和代表性(Diversity and Representativeness)4. 保持數據品質的方法(Methods to Maintain Data Quality)


本文章速讀由MIT Technology Review 於 2024年 7 月 24日發表的文章:"AI trained on AI garbage spits out AI garbage"

( https://www.technologyreview.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense )


隨著AI技術的快速發展和應用,AI模型依賴從互聯網上獲取大量數據進行訓練。然而,當越來越多的AI生成內容充斥網絡時,這一過程的質量正面臨嚴重威脅。


▋1. 模型崩潰的風險(Model Collapse)


根據《自然》(Nature)雜誌上發表的新研究,當AI模型訓練於AI生成的數據時,模型輸出的質量會逐漸下降。這一過程被形象地比喻為“拍攝照片的照片”,隨著不斷重複這個過程,噪音會逐漸壓倒一切,最終只剩下一個黑暗的方塊。這種情況在AI領域被稱為“模型崩潰”(Model Collapse),意味著模型最終只會生成無意義的垃圾內容。


這項研究由牛津大學(University of Oxford)的計算機科學家伊利亞·舒梅洛夫(Ilia Shumailov)領導,他表示,當前最大的AI模型面臨著這一風險,因為它們大量使用互聯網作為數據庫。例如,GPT-3的部分訓練數據來自Common Crawl,這是一個包含超過30億個網頁的在線存儲庫。


▋2. 資料來源的重要性(Importance of Data Source)


隨著網絡上AI生成的垃圾網站不斷增多,問題將會變得更加嚴重。舒梅洛夫指出,雖然當前的AI模型不會立即崩潰,但其改進速度將會減慢,性能可能會受到影響。為了確定性能的潛在影響,舒梅洛夫和他的同事們在維基百科(Wikipedia)數據集上對大型語言模型(LLM)進行微調,並在其自身的輸出上進行了九代微調。結果顯示,使用其他模型輸出的模型具有更高的困惑度分數(Perplexity Score),這意味著模型的準確性較低。


一個典型的例子是,在第九代時,模型在處理某段文字後生成的輸出是完全無關緊要的內容,例如:“在家裡養的黑尾兔、白尾兔、藍尾兔、紅尾兔和黃尾兔。”這些無關緊要的輸出說明了模型在重複訓練過程中變得越來越不精確。


▋3. 多樣性和代表性(Diversity and Representativeness)


除了數據品質下降之外,訓練數據的多樣性和代表性也至關重要。斯坦福大學(Stanford University)的AI研究員馬提亞斯·格斯特格拉瑟(Matthias Gerstgrasser)表示,將合成數據與真實世界數據結合使用不會造成重大問題,但高品質和多樣性的訓練數據仍然是關鍵。


值得注意的是,這種數據品質下降的趨勢對少數群體的信息影響尤為嚴重。由於訓練數據中樣本的比例失衡,模型往往會過度關注更為普遍的樣本,從而忽視了少數群體的需求和語言。


▋4. 保持數據品質的方法(Methods to Maintain Data Quality)


為了避免數據品質下降的問題,研究建議在未來的模型訓練過程中,應確保模型對原始人類生成數據的重視。例如,在舒梅洛夫的研究中,允許未來的模型世代取樣10%的原始數據集,這在一定程度上減輕了負面影響。


這需要建立從原始人類生成數據到後續世代的數據來源鏈條,這被稱為數據來源追溯(Data Provenance)。然而,將互聯網內容過濾為人類生成和AI生成的內容,目前仍是一個難題。儘管現在有許多工具試圖確定文本是否由AI生成,但它們往往不夠準確。


“很不幸,我們現在有更多的問題而不是答案,”舒梅洛夫說,“但顯然,了解你的數據來源以及它的代表性至關重要。”

367會員
1.2K內容數
Outline as Content
留言0
查看全部
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
專題式學習,是將所有可調動的資源集中到一個專門的問題上,從而形成自己的核心競爭力。這種方法可以將學習效果最大化,使我們在某一領域內迅速建立起專業知識。 ▋聚焦專題 劉瀾老師在《學習力30講》中提到,只有聚焦於一個專題,才能將其變成擅長領域,形成核心競爭力。當心中有了專題,看待資訊的角度會
1. 缺乏批判性思維與科學訓練: - 許多學生在面對資訊時,容易輕信陰謀論而不加以驗證,缺乏科學素養。他們往往只看表面,沒有深入研究背後的證據和邏輯,導致對錯誤信息的盲從。這種現象在缺乏指導和輔導的學術環境中尤為常見,進一步影響他們的研究質量和學術誠信。 2. 過於依賴情感而非理性分析
一開始我看到「數位遊牧」這個概念, 還以為是是某種新的流浪漢的群體。 後來我才發現,原來大家對工作的概念, 是必須要一直綁定在一個國家,一個城市,一張辦公桌上, 而「數位遊牧」則是強調你可以在不同國家,不同城市,不同辦公桌上, 透過網路提供服務,創造收入,打破工作與工作地點的強關係,
擁有某個特定社群的背景,意味著你可以獲得圈外人無法輕易接觸的寶貴知識。這些知識來自於日積月累的參與與互動,使你在相關領域中獲得優勢。以下是幾個實例,展示如何利用這些社群知識來提升個人能力。 ▋文化與社群知識 作為一名台灣人,我對台灣文化的理解使我在很多方面具有優勢。這些文化知識不僅來自於
1. 紀錄工作過程但不記錄知識產出: - 許多人在寫工作日誌時,只記錄工作的內容,而忽略了製作出來的筆記的檔案名稱。這樣的紀錄方式無法清楚展示自己的知識產出,導致自己無法直觀地了解精力的投入方向。建議在日誌中詳細記錄每個筆記的檔案名稱,這樣不僅能更好地跟蹤自己的學習和研究進展,還能在未來重溫
隨著每天都在 Threads 更新多篇貼文, 我也逐漸掌握了某種流量密碼,也就是點出碩博士生的痛點。 而這些痛點也夠痛, 讓我有機會觀察到很有意思的兩種人:好辯的豬,與穩重的象。 看好辯的豬留言,我也得到更多的娛樂, 也更能理解為什麼畜生道人滿為患。 Threads動物園,非常好玩!
專題式學習,是將所有可調動的資源集中到一個專門的問題上,從而形成自己的核心競爭力。這種方法可以將學習效果最大化,使我們在某一領域內迅速建立起專業知識。 ▋聚焦專題 劉瀾老師在《學習力30講》中提到,只有聚焦於一個專題,才能將其變成擅長領域,形成核心競爭力。當心中有了專題,看待資訊的角度會
1. 缺乏批判性思維與科學訓練: - 許多學生在面對資訊時,容易輕信陰謀論而不加以驗證,缺乏科學素養。他們往往只看表面,沒有深入研究背後的證據和邏輯,導致對錯誤信息的盲從。這種現象在缺乏指導和輔導的學術環境中尤為常見,進一步影響他們的研究質量和學術誠信。 2. 過於依賴情感而非理性分析
一開始我看到「數位遊牧」這個概念, 還以為是是某種新的流浪漢的群體。 後來我才發現,原來大家對工作的概念, 是必須要一直綁定在一個國家,一個城市,一張辦公桌上, 而「數位遊牧」則是強調你可以在不同國家,不同城市,不同辦公桌上, 透過網路提供服務,創造收入,打破工作與工作地點的強關係,
擁有某個特定社群的背景,意味著你可以獲得圈外人無法輕易接觸的寶貴知識。這些知識來自於日積月累的參與與互動,使你在相關領域中獲得優勢。以下是幾個實例,展示如何利用這些社群知識來提升個人能力。 ▋文化與社群知識 作為一名台灣人,我對台灣文化的理解使我在很多方面具有優勢。這些文化知識不僅來自於
1. 紀錄工作過程但不記錄知識產出: - 許多人在寫工作日誌時,只記錄工作的內容,而忽略了製作出來的筆記的檔案名稱。這樣的紀錄方式無法清楚展示自己的知識產出,導致自己無法直觀地了解精力的投入方向。建議在日誌中詳細記錄每個筆記的檔案名稱,這樣不僅能更好地跟蹤自己的學習和研究進展,還能在未來重溫
隨著每天都在 Threads 更新多篇貼文, 我也逐漸掌握了某種流量密碼,也就是點出碩博士生的痛點。 而這些痛點也夠痛, 讓我有機會觀察到很有意思的兩種人:好辯的豬,與穩重的象。 看好辯的豬留言,我也得到更多的娛樂, 也更能理解為什麼畜生道人滿為患。 Threads動物園,非常好玩!
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 新模型和 Human Baselines 排名將不斷變化,Human Baselines 的位置自從基礎模型出現以來,它就不再具有多大意義了,這些排名只是表明經典 NL
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每