訓練資料成為稀缺資源了嗎？為什麼會有人提出「優質訓練資料」料即將不足？

更新於 2024/04/11發佈於 2024/04/10閱讀時間約 3 分鐘

本圖片由AI生成

近日紐約時報報導，因為缺乏訓練數據，OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片，以作為訓練模型資料。另外也有報導指出，Meta正在討論即使被起訴，也要使用受版權保護的作品來作為模型訓練資料。報導都指出，幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困境，而必須走入灰色地帶來支持模型的開發。這個新聞資訊究竟暗示了什麼？有版權的資料將成為新的「數位石油」嗎？

筆者身為數位時代的科技麻瓜，我們都非常習慣網路上什麼都有這樣的的概念。不管是什麼新舊知識，我們都可以上網Google一下，不管是文章、影片、懶人包，甚至是一些極為冷僻的內容，應該都可以找得到。那麼為什麼這些大公司會覺得訓練資料不足呢？其實會需要回到兩個最為關鍵的問題「為什麼需要持續訓練？」和「什麼叫做優質資料？」。

隨著去年Google帶頭發佈「多模態」生成式AI模型開始，單一模型可以處理的多元任務就像是各家挑戰的龍門一樣，這也形成各家不斷增加模型大小，為求增加模型可以處理不同任務的「腦容量」。這如同摩爾定律的詛咒，先不論是否有殺手級應用，或是對於算力的需求證據，先追求模型的線性成長。這也是一派人認為AGI的發展路徑。在這樣的前提假設下，模型為增加能力，勢必越來越肥大，而增加的「腦容量」也會需要相應的訓練資料來進行訓練，不然就會像是把一個現代天才給放到了中世紀鄉村，難免有些英雄無用武之地的困境。

這個情況下，各種專業領域或特定內容的訓練資料就會特別重要了。雖然機器學習本來就有像是創造合成資料訓練的模式，但合成資料本身對於資料多元性的幫助，或是資料本身的偏見或錯誤可能不斷加重，所以即便是可能涉法，這些科技巨頭還是要試著去取得更多原生優質資料作為訓練資料。

「優質資料」的本身並沒有絕對的定義，它可能是通過特定的篩選機制所產生出在特定領域具有價值的內容，像是科學期刊的內容。或是通過時間及人數的認證，確認其內容具備高度的認同價值，像是維基百科或是開源內容。這樣的內容除了本身產量就有限，絕大部分也都是受到版權的保護，難無償直接使用。

本圖片由AI生成

而回到一開始的麻瓜疑惑，網路上明明什麼都有，難道這麼多的資料還不夠嗎？這就得回到網路資料內容的有效性。前面提到的合成資料對於偏見、假資訊的問題，網路資料一樣也有。同時可能還有違法、錯誤、色情、暴力、廣告等各種污染資訊的因子，因此直接取用無審核條件的公開資訊，只怕數據清理的成本會比版權授權來得更重，而且清理完究竟還剩下多少數據量，實在也不好說。

那麼依照這樣的趨勢發展，優質資訊的版權方是不是就進入了科技發展紅利期了呢？其實除了模型不斷長大的這派，目前同時也有像是專家混合Mixture of Experts (MoE)這樣的架構，與其讓模型一個打十個，從架構裡面就將任務分門別類，由不同的模型來處理，這樣除了處理速度更快，同時也不需要持續增加的龐大訓練量。所以目前看來，版權方要能坐地喊價，可能還早了一點。

而這些資訊對於一般使用者來說，又有什麼重要性呢？先不論AGI是否在大家有生之年能順利問世，我們從2022年開始使用ChatGPT到如今，其實各個生成式AI的發展都是每日一變。確實隨著開發者在應用上的fine tuning或是使用習慣的演進，我們更知道AI可以怎麼進入到工作中，進入到工作中的AI也確實悄悄在變得更方便、更聰明。OpenAI自己也發佈目前企業應用AI還是指數型的成長中。雖然追逐更大更強勢必還是各巨頭不管在資本市場或是競爭立場上必須持續前進的方向。但對於科技麻瓜的一般上班族來說，這個時代確實已經不容我們忽視AI了。對於AI的理解和應用，可能就如上個世代對於Office工具，再上個世代對於電腦的使用一樣，是不可避免的改變。

留言

留言分享你的想法！

GPT工作術｜與你一起補給工作的AI能量沙龍

67會員

106內容數

介紹AI趨勢、應用工具，為您補給滿滿の AI超能力！

GPT工作術｜與你一起補給工作的AI能量沙龍的其他內容

2024/09/01

西遊記有聲書（白話文版）台灣口音AI語音朗讀

最近因為西遊記改編遊戲「黑神話悟空」熱賣，所以相關討論很多，但如果想用有聲書方式輕鬆複習一下西遊記原著小說，查詢後發現網路上以大陸的口音居多數的有聲內容，口音或許可能聽不習慣。利用AI將西遊記106回的內容改寫成口語化版本，並配上適合傳統文學的聲音，讓聽者能輕鬆理解。過去出版社製作

2024/09/01

西遊記有聲書（白話文版）台灣口音AI語音朗讀

2024/08/02

為奧運注入生命 - 傅達仁的播報魅力

傅達仁先生，被譽為「台灣體育播報界的祖師爺」，以富有激情和感染力的播報風格受到觀眾的喜愛。無論是激動人心的得分瞬間，還是令人遺憾的失誤，傅達仁都能恰如其分地表達出來。他的聲音彷彿有種魔力，能將賽場上的緊張氣氛和運動員的情感完美傳遞給電視機前的觀眾，讓人不自覺地投入到比賽中，體會到體育競技的精彩魅

2024/08/02

為奧運注入生命 - 傅達仁的播報魅力

2024/08/01

台灣絕好調集資計劃：AI 聲音正式轉戰台灣腔！

你有沒有發現現在我們周圍到處都是 AI 的聲音，但怎麼聽起來都怪怪的？沒錯，那些 AI 聲音大多都是外國腔，從 YouTube 影片到 TikTok 短影音，滿耳聽到的都是不太對勁的口音，聽起來有些彆扭。所以呢，網際智慧跳了出來：「我們要來個大改造！」，推出了一個有點酷的計畫...

2024/08/01

台灣絕好調集資計劃：AI 聲音正式轉戰台灣腔！

看更多

你可能也想看

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

Karen的沙龍

覺得學習新技術很難?

因為 AI 領域的技術不斷地迭代更新，無法避免的是需要一直去追新的技術並且需要在一個有限的時間學會，或是實作應用導入到專案之中。那我覺得在學習新技術可通過以下步驟: 1. 找一個讀得懂的教學資源現在網路上的教學資源很多，或是書籍的資源也很豐富，同時也有像是 chatgpt 的 AI

2024/07/25

2024/07/25

14天每天超過10小時共2,700餘張圖片生成大量操作，AI繪圖用於商業製作的利與弊。

#Midjourney#AI繪圖#midjourney角色一致性

2024/07/15

是我啦，我好學啦

首次用AI應用在接案，好好用？

14天每天超過10小時共2,700餘張圖片生成大量操作，AI繪圖用於商業製作的利與弊。

#Midjourney#AI繪圖#midjourney角色一致性

2024/07/15

默默超的人機協作城

AI助手數據收集和訓練過程簡介

本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據，數據的清洗和結構化處理，知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議，歡迎隨時告訴我們，讓我們共同探索，攜手進步。

2024/07/11

2024/07/11

2024/06/09

2024/06/09

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

每日發車

筆記-曲博談AI模型.群聯-24.05.05