訓練資料成為稀缺資源了嗎?為什麼會有人提出「優質訓練資料」料即將不足?

本圖片由AI生成

本圖片由AI生成

近日紐約時報報導,因為缺乏訓練數據,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片,以作為訓練模型資料。另外也有報導指出,Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。報導都指出,幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困境,而必須走入灰色地帶來支持模型的開發。這個新聞資訊究竟暗示了什麼?有版權的資料將成為新的「數位石油」嗎?

筆者身為數位時代的科技麻瓜,我們都非常習慣網路上什麼都有這樣的的概念。不管是什麼新舊知識,我們都可以上網Google一下,不管是文章、影片、懶人包,甚至是一些極為冷僻的內容,應該都可以找得到。那麼為什麼這些大公司會覺得訓練資料不足呢?其實會需要回到兩個最為關鍵的問題「為什麼需要持續訓練?」和「什麼叫做優質資料?」。


隨著去年Google帶頭發佈「多模態」生成式AI模型開始,單一模型可以處理的多元任務就像是各家挑戰的龍門一樣,這也形成各家不斷增加模型大小,為求增加模型可以處理不同任務的「腦容量」。這如同摩爾定律的詛咒,先不論是否有殺手級應用,或是對於算力的需求證據,先追求模型的線性成長。這也是一派人認為AGI的發展路徑。在這樣的前提假設下,模型為增加能力,勢必越來越肥大,而增加的「腦容量」也會需要相應的訓練資料來進行訓練,不然就會像是把一個現代天才給放到了中世紀鄉村,難免有些英雄無用武之地的困境。

這個情況下,各種專業領域或特定內容的訓練資料就會特別重要了。雖然機器學習本來就有像是創造合成資料訓練的模式,但合成資料本身對於資料多元性的幫助,或是資料本身的偏見或錯誤可能不斷加重,所以即便是可能涉法,這些科技巨頭還是要試著去取得更多原生優質資料作為訓練資料。

「優質資料」的本身並沒有絕對的定義,它可能是通過特定的篩選機制所產生出在特定領域具有價值的內容,像是科學期刊的內容。或是通過時間及人數的認證,確認其內容具備高度的認同價值,像是維基百科或是開源內容。這樣的內容除了本身產量就有限,絕大部分也都是受到版權的保護,難無償直接使用。

本圖片由AI生成

本圖片由AI生成

而回到一開始的麻瓜疑惑,網路上明明什麼都有,難道這麼多的資料還不夠嗎?這就得回到網路資料內容的有效性。前面提到的合成資料對於偏見、假資訊的問題,網路資料一樣也有。同時可能還有違法、錯誤、色情、暴力、廣告等各種污染資訊的因子,因此直接取用無審核條件的公開資訊,只怕數據清理的成本會比版權授權來得更重,而且清理完究竟還剩下多少數據量,實在也不好說。

那麼依照這樣的趨勢發展,優質資訊的版權方是不是就進入了科技發展紅利期了呢?其實除了模型不斷長大的這派,目前同時也有像是專家混合Mixture of Experts (MoE)這樣的架構,與其讓模型一個打十個,從架構裡面就將任務分門別類,由不同的模型來處理,這樣除了處理速度更快,同時也不需要持續增加的龐大訓練量。所以目前看來,版權方要能坐地喊價,可能還早了一點。


而這些資訊對於一般使用者來說,又有什麼重要性呢?先不論AGI是否在大家有生之年能順利問世,我們從2022年開始使用ChatGPT到如今,其實各個生成式AI的發展都是每日一變。確實隨著開發者在應用上的fine tuning或是使用習慣的演進,我們更知道AI可以怎麼進入到工作中,進入到工作中的AI也確實悄悄在變得更方便、更聰明。OpenAI自己也發佈目前企業應用AI還是指數型的成長中。雖然追逐更大更強勢必還是各巨頭不管在資本市場或是競爭立場上必須持續前進的方向。但對於科技麻瓜的一般上班族來說,這個時代確實已經不容我們忽視AI了。對於AI的理解和應用,可能就如上個世代對於Office工具,再上個世代對於電腦的使用一樣,是不可避免的改變。

raw-image



介紹AI趨勢、應用工具,為您補給滿滿の AI超能力!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
既然健康食品可以宣稱自己的功效,那我是不是申請小綠人標章就好了?申請難不難?要怎麼申請?這次我們就來介紹如何成為「健康食品」,以及如何拿到認證。  根據「健康食品管理法」規定,若要想申請成為健康食品,採雙軌制進行查核。
相信大家前幾周以來一定都被『蘇丹紅』瘋狂洗板,是不是連外出用餐都會擔心有沒有接觸到的風險。但不知道在新聞報導、各專家解說和網路文章之後,大家是不是真的清楚什麼是蘇丹紅?為什麼要加在食品?吃了到底對我有什麼危害?今天就進一步跟各位分享一下食品添加劑。 
寶林茶室發送疑似食品中毒事件,截至28日上午,已有兩位患者不幸身亡,累計14人中毒。衛福部長薛瑞元接受採訪時指出,食物中毒可能性有3大類,第1是微生物引起,例如常見的諾羅病毒;第2大類是內生性的毒素;第3則是外面加進來的毒素。目前專家認為,此案不偏向微生物引起,現在是往後兩者做討論。
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
『健康食品』為法定名詞,『自「健康食品管理法」實行以來,需向衛生福利部申請查驗登記許可,才可以稱為「健康食品」。並且依據健康食品管理法之定義,「健康食品」係為具有實質科學證據之「保健功效」,並標示或廣告具該功效,非屬治療、矯正人類疾病之醫療效能為目的之食品』。
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
既然健康食品可以宣稱自己的功效,那我是不是申請小綠人標章就好了?申請難不難?要怎麼申請?這次我們就來介紹如何成為「健康食品」,以及如何拿到認證。  根據「健康食品管理法」規定,若要想申請成為健康食品,採雙軌制進行查核。
相信大家前幾周以來一定都被『蘇丹紅』瘋狂洗板,是不是連外出用餐都會擔心有沒有接觸到的風險。但不知道在新聞報導、各專家解說和網路文章之後,大家是不是真的清楚什麼是蘇丹紅?為什麼要加在食品?吃了到底對我有什麼危害?今天就進一步跟各位分享一下食品添加劑。 
寶林茶室發送疑似食品中毒事件,截至28日上午,已有兩位患者不幸身亡,累計14人中毒。衛福部長薛瑞元接受採訪時指出,食物中毒可能性有3大類,第1是微生物引起,例如常見的諾羅病毒;第2大類是內生性的毒素;第3則是外面加進來的毒素。目前專家認為,此案不偏向微生物引起,現在是往後兩者做討論。
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
『健康食品』為法定名詞,『自「健康食品管理法」實行以來,需向衛生福利部申請查驗登記許可,才可以稱為「健康食品」。並且依據健康食品管理法之定義,「健康食品」係為具有實質科學證據之「保健功效」,並標示或廣告具該功效,非屬治療、矯正人類疾病之醫療效能為目的之食品』。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
相信這是老生常談了,網路世代加上科技的隨之普及,現在人人穿梭在網路世界已司空見慣,無遠弗屆一詞再也不是誇飾,而是歷歷在目的現象。 那你有想過每天在網路上發佈的資料,到底會被誰偷偷看到,甚至拿去做AI模型的深度訓練嗎?!
Thumbnail
區塊鏈究竟是什麼技術?用簡單的話解釋一下。 區塊鏈應用在供應鏈溯源、版權保護等領域有潛力。 區塊鏈技術的發展為數字身份認證帶來了新思路。 區塊鏈是加密貨幣等數字金融領域的核心技術。
Thumbnail
蒐集資料訓練AI模型與生成式AI模型生成式內容之智慧財產權歸屬 經授智字第11252800520號令函 令函日期:112-06-16 令函案號:經授智字第11252800520號令函要旨: 主旨:有關台端詢問AI與智慧財產權疑問,復如說明,請查照。 說明: 一、復台端112年6月
【SS卡練習:資訊爆炸時代的三種溺水者】 三種時代溺水者: 第一種時代溺水者:無法掌握自己注意力的人。 第二種時代溺水者:無法過濾資訊,找不到重點的人。 第三種時代溺水者:不理解系統、無法與陌生人連線協作的人。 —— 《躍遷》古典 3. 協作工具完善,陌生人協助時代來臨
Thumbnail
鑑於近期個人資料外洩事件頻傳,加強個人資料保護之需求日益殷 切。為維護個人資料之安全性與正確性,並建立對個人資料之管理、稽 核、保存及改善機制,爰依上開規定之授權,擬具「化粧品批發零售業 個人資料檔案安全維護計畫實施辦法」 個資法的延伸 誰應該要遵守這辦法? 誰是負責的主管機關? 計劃書的撰寫
除了外在的肌肉外,您是否也會訓練投資理財的心智肌肉呢? 藉由舉重女王的自剖,讓我們一起來練習生命必備的強韌吧!
我不想挖礦,但是想獲取 虛擬貨幣,那麼,就像中樂透一樣去領別人的空投貨幣或許也是一個途徑,當然,想要領錢就要先有領錢的錢包,錢包要怎麼準備,也許我分享的網站會有你要的答案。
  朗讀訓練老師們可以先收集一下朗讀稿 (點擊此處開啟) (這裡有263篇的朗讀稿,適合國小、國中、社會組的選手參考) (感謝小貓老師的不吝分享,稿件分享連結來自此處 ) 如果校方有收集或是有國賽的DVD是最好的 但如果學校沒有那樣的經費,我們又剛好沒有其它教育界好朋友可以pass給你的時候 別忘記
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
相信這是老生常談了,網路世代加上科技的隨之普及,現在人人穿梭在網路世界已司空見慣,無遠弗屆一詞再也不是誇飾,而是歷歷在目的現象。 那你有想過每天在網路上發佈的資料,到底會被誰偷偷看到,甚至拿去做AI模型的深度訓練嗎?!
Thumbnail
區塊鏈究竟是什麼技術?用簡單的話解釋一下。 區塊鏈應用在供應鏈溯源、版權保護等領域有潛力。 區塊鏈技術的發展為數字身份認證帶來了新思路。 區塊鏈是加密貨幣等數字金融領域的核心技術。
Thumbnail
蒐集資料訓練AI模型與生成式AI模型生成式內容之智慧財產權歸屬 經授智字第11252800520號令函 令函日期:112-06-16 令函案號:經授智字第11252800520號令函要旨: 主旨:有關台端詢問AI與智慧財產權疑問,復如說明,請查照。 說明: 一、復台端112年6月
【SS卡練習:資訊爆炸時代的三種溺水者】 三種時代溺水者: 第一種時代溺水者:無法掌握自己注意力的人。 第二種時代溺水者:無法過濾資訊,找不到重點的人。 第三種時代溺水者:不理解系統、無法與陌生人連線協作的人。 —— 《躍遷》古典 3. 協作工具完善,陌生人協助時代來臨
Thumbnail
鑑於近期個人資料外洩事件頻傳,加強個人資料保護之需求日益殷 切。為維護個人資料之安全性與正確性,並建立對個人資料之管理、稽 核、保存及改善機制,爰依上開規定之授權,擬具「化粧品批發零售業 個人資料檔案安全維護計畫實施辦法」 個資法的延伸 誰應該要遵守這辦法? 誰是負責的主管機關? 計劃書的撰寫
除了外在的肌肉外,您是否也會訓練投資理財的心智肌肉呢? 藉由舉重女王的自剖,讓我們一起來練習生命必備的強韌吧!
我不想挖礦,但是想獲取 虛擬貨幣,那麼,就像中樂透一樣去領別人的空投貨幣或許也是一個途徑,當然,想要領錢就要先有領錢的錢包,錢包要怎麼準備,也許我分享的網站會有你要的答案。
  朗讀訓練老師們可以先收集一下朗讀稿 (點擊此處開啟) (這裡有263篇的朗讀稿,適合國小、國中、社會組的選手參考) (感謝小貓老師的不吝分享,稿件分享連結來自此處 ) 如果校方有收集或是有國賽的DVD是最好的 但如果學校沒有那樣的經費,我們又剛好沒有其它教育界好朋友可以pass給你的時候 別忘記