N001|【AI 訓練陷阱:AI 訓練數據品質下降的危機】── 1. 模型崩潰 2. 資料來源的重要性3. 多樣性和代表

閱讀時間約 4 分鐘

N001|【AI 訓練陷阱:AI 訓練數據品質下降的危機】

── 1. 模型崩潰(Model Collapse) 2. 資料來源的重要性(Importance of Data Source) 3. 多樣性和代表性(Diversity and Representativeness)4. 保持數據品質的方法(Methods to Maintain Data Quality)


本文章速讀由MIT Technology Review 於 2024年 7 月 24日發表的文章:"AI trained on AI garbage spits out AI garbage"

( https://www.technologyreview.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense )


隨著AI技術的快速發展和應用,AI模型依賴從互聯網上獲取大量數據進行訓練。然而,當越來越多的AI生成內容充斥網絡時,這一過程的質量正面臨嚴重威脅。


▋1. 模型崩潰的風險(Model Collapse)


根據《自然》(Nature)雜誌上發表的新研究,當AI模型訓練於AI生成的數據時,模型輸出的質量會逐漸下降。這一過程被形象地比喻為“拍攝照片的照片”,隨著不斷重複這個過程,噪音會逐漸壓倒一切,最終只剩下一個黑暗的方塊。這種情況在AI領域被稱為“模型崩潰”(Model Collapse),意味著模型最終只會生成無意義的垃圾內容。


這項研究由牛津大學(University of Oxford)的計算機科學家伊利亞·舒梅洛夫(Ilia Shumailov)領導,他表示,當前最大的AI模型面臨著這一風險,因為它們大量使用互聯網作為數據庫。例如,GPT-3的部分訓練數據來自Common Crawl,這是一個包含超過30億個網頁的在線存儲庫。


▋2. 資料來源的重要性(Importance of Data Source)


隨著網絡上AI生成的垃圾網站不斷增多,問題將會變得更加嚴重。舒梅洛夫指出,雖然當前的AI模型不會立即崩潰,但其改進速度將會減慢,性能可能會受到影響。為了確定性能的潛在影響,舒梅洛夫和他的同事們在維基百科(Wikipedia)數據集上對大型語言模型(LLM)進行微調,並在其自身的輸出上進行了九代微調。結果顯示,使用其他模型輸出的模型具有更高的困惑度分數(Perplexity Score),這意味著模型的準確性較低。


一個典型的例子是,在第九代時,模型在處理某段文字後生成的輸出是完全無關緊要的內容,例如:“在家裡養的黑尾兔、白尾兔、藍尾兔、紅尾兔和黃尾兔。”這些無關緊要的輸出說明了模型在重複訓練過程中變得越來越不精確。


▋3. 多樣性和代表性(Diversity and Representativeness)


除了數據品質下降之外,訓練數據的多樣性和代表性也至關重要。斯坦福大學(Stanford University)的AI研究員馬提亞斯·格斯特格拉瑟(Matthias Gerstgrasser)表示,將合成數據與真實世界數據結合使用不會造成重大問題,但高品質和多樣性的訓練數據仍然是關鍵。


值得注意的是,這種數據品質下降的趨勢對少數群體的信息影響尤為嚴重。由於訓練數據中樣本的比例失衡,模型往往會過度關注更為普遍的樣本,從而忽視了少數群體的需求和語言。


▋4. 保持數據品質的方法(Methods to Maintain Data Quality)


為了避免數據品質下降的問題,研究建議在未來的模型訓練過程中,應確保模型對原始人類生成數據的重視。例如,在舒梅洛夫的研究中,允許未來的模型世代取樣10%的原始數據集,這在一定程度上減輕了負面影響。


這需要建立從原始人類生成數據到後續世代的數據來源鏈條,這被稱為數據來源追溯(Data Provenance)。然而,將互聯網內容過濾為人類生成和AI生成的內容,目前仍是一個難題。儘管現在有許多工具試圖確定文本是否由AI生成,但它們往往不夠準確。


“很不幸,我們現在有更多的問題而不是答案,”舒梅洛夫說,“但顯然,了解你的數據來源以及它的代表性至關重要。”

avatar-img
531會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
專題式學習,是將所有可調動的資源集中到一個專門的問題上,從而形成自己的核心競爭力。這種方法可以將學習效果最大化,使我們在某一領域內迅速建立起專業知識。 ▋聚焦專題 劉瀾老師在《學習力30講》中提到,只有聚焦於一個專題,才能將其變成擅長領域,形成核心競爭力。當心中有了專題,看待資訊的角度會
1. 缺乏批判性思維與科學訓練: - 許多學生在面對資訊時,容易輕信陰謀論而不加以驗證,缺乏科學素養。他們往往只看表面,沒有深入研究背後的證據和邏輯,導致對錯誤信息的盲從。這種現象在缺乏指導和輔導的學術環境中尤為常見,進一步影響他們的研究質量和學術誠信。 2. 過於依賴情感而非理性分析
一開始我看到「數位遊牧」這個概念, 還以為是是某種新的流浪漢的群體。 後來我才發現,原來大家對工作的概念, 是必須要一直綁定在一個國家,一個城市,一張辦公桌上, 而「數位遊牧」則是強調你可以在不同國家,不同城市,不同辦公桌上, 透過網路提供服務,創造收入,打破工作與工作地點的強關係,
擁有某個特定社群的背景,意味著你可以獲得圈外人無法輕易接觸的寶貴知識。這些知識來自於日積月累的參與與互動,使你在相關領域中獲得優勢。以下是幾個實例,展示如何利用這些社群知識來提升個人能力。 ▋文化與社群知識 作為一名台灣人,我對台灣文化的理解使我在很多方面具有優勢。這些文化知識不僅來自於
1. 紀錄工作過程但不記錄知識產出: - 許多人在寫工作日誌時,只記錄工作的內容,而忽略了製作出來的筆記的檔案名稱。這樣的紀錄方式無法清楚展示自己的知識產出,導致自己無法直觀地了解精力的投入方向。建議在日誌中詳細記錄每個筆記的檔案名稱,這樣不僅能更好地跟蹤自己的學習和研究進展,還能在未來重溫
隨著每天都在 Threads 更新多篇貼文, 我也逐漸掌握了某種流量密碼,也就是點出碩博士生的痛點。 而這些痛點也夠痛, 讓我有機會觀察到很有意思的兩種人:好辯的豬,與穩重的象。 看好辯的豬留言,我也得到更多的娛樂, 也更能理解為什麼畜生道人滿為患。 Threads動物園,非常好玩!
專題式學習,是將所有可調動的資源集中到一個專門的問題上,從而形成自己的核心競爭力。這種方法可以將學習效果最大化,使我們在某一領域內迅速建立起專業知識。 ▋聚焦專題 劉瀾老師在《學習力30講》中提到,只有聚焦於一個專題,才能將其變成擅長領域,形成核心競爭力。當心中有了專題,看待資訊的角度會
1. 缺乏批判性思維與科學訓練: - 許多學生在面對資訊時,容易輕信陰謀論而不加以驗證,缺乏科學素養。他們往往只看表面,沒有深入研究背後的證據和邏輯,導致對錯誤信息的盲從。這種現象在缺乏指導和輔導的學術環境中尤為常見,進一步影響他們的研究質量和學術誠信。 2. 過於依賴情感而非理性分析
一開始我看到「數位遊牧」這個概念, 還以為是是某種新的流浪漢的群體。 後來我才發現,原來大家對工作的概念, 是必須要一直綁定在一個國家,一個城市,一張辦公桌上, 而「數位遊牧」則是強調你可以在不同國家,不同城市,不同辦公桌上, 透過網路提供服務,創造收入,打破工作與工作地點的強關係,
擁有某個特定社群的背景,意味著你可以獲得圈外人無法輕易接觸的寶貴知識。這些知識來自於日積月累的參與與互動,使你在相關領域中獲得優勢。以下是幾個實例,展示如何利用這些社群知識來提升個人能力。 ▋文化與社群知識 作為一名台灣人,我對台灣文化的理解使我在很多方面具有優勢。這些文化知識不僅來自於
1. 紀錄工作過程但不記錄知識產出: - 許多人在寫工作日誌時,只記錄工作的內容,而忽略了製作出來的筆記的檔案名稱。這樣的紀錄方式無法清楚展示自己的知識產出,導致自己無法直觀地了解精力的投入方向。建議在日誌中詳細記錄每個筆記的檔案名稱,這樣不僅能更好地跟蹤自己的學習和研究進展,還能在未來重溫
隨著每天都在 Threads 更新多篇貼文, 我也逐漸掌握了某種流量密碼,也就是點出碩博士生的痛點。 而這些痛點也夠痛, 讓我有機會觀察到很有意思的兩種人:好辯的豬,與穩重的象。 看好辯的豬留言,我也得到更多的娛樂, 也更能理解為什麼畜生道人滿為患。 Threads動物園,非常好玩!
你可能也想看
Google News 追蹤
Thumbnail
可能包含敏感內容
首次創作,缺陷很多
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 應用程式開發人員可能面臨的一些挑戰和風險,以下是條列與舉例: 偏差可能會影響結果:貸款核准模型因為其訓練資料有偏差而有性別上的差別待遇 錯誤可能造成傷害:自動駕駛汽車遇到系統故障而導致車禍 資料可能遭到
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
可能包含敏感內容
首次創作,缺陷很多
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 應用程式開發人員可能面臨的一些挑戰和風險,以下是條列與舉例: 偏差可能會影響結果:貸款核准模型因為其訓練資料有偏差而有性別上的差別待遇 錯誤可能造成傷害:自動駕駛汽車遇到系統故障而導致車禍 資料可能遭到
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法