为应对AI训练数据“枯竭” 科技巨头们各显神通

更新於 2024/04/09發佈於 2024/04/09閱讀時間約 7 分鐘

自从OpenAI挑起人工智能竞赛后，各大科技公司一直在拼尽全力训练大模型。但是随着训练的模型越来越大，这些科技巨头正在面临一个新的问题，即训练语料和数据的“枯竭”。

训练数据的“枯竭”

2020年11月，OpenAI推出的GPT-3接受的数据训练为3,000亿个token。而到2023年，谷歌推出的新一代语言模型PaLM 2的token已经突破3.6万亿。

随着训练的规模越来越大，科技公司发现可以用于训练的语料和数据已经不多了。

人工智能研究机构Epoch根据训练数据集大小和数据库存的增长预测，到2026年，高质量的语言数据将耗尽。并表示：“如果我们的假设是正确的，那么数据将成为扩展ML（Machine Learning，机器学习）模型的主要瓶颈，我们可能会因此看到人工智能的发展放缓。”

去年，OpenAI的首席执行官萨姆·奥尔特曼（Sam Altman）在一次技术会议上的演讲中也承认，人工智能公司将耗尽互联网上所有可行的数据。

为了能够找到更多新的数据源以供模型不断训练，各大科技公司正在绞尽脑汁。

谷歌

作为硅谷中的AI领头羊之一，谷歌正在考虑利用谷歌文档、表格和幻灯片中提供的消费者数据。

据报道，去年6月，谷歌开始要求员工扩大使用消费者数据的范围。一些员工被告知，该公司希望使用免费消费者版本的谷歌Docs、Sheets、Slides，甚至Maps上的餐厅评论中的数据。

谷歌于2023年7月更新了隐私政策，但该公司表示并没有扩大用于训练人工智能模型的数据类型。

此外，谷歌还把盯上了旗下视频平台YouTube。

有爆料称，谷歌使用YouTube视频的文字记录来训练其人工智能模型。由于这种做法可能侵犯了YouTube创作者的版权，所以谷歌内部对此选择秘而不宣。

目前，谷歌的规则允许其利用YouTube用户数据为平台开发新功能。但目前尚不清楚谷歌是否可以将YouTube上的数据用于视频平台之外的商业服务，例如聊天机器人。

Berger Singerman律师事务所的知识产权律师杰弗里·洛滕伯格（Geoffrey Lottenberg）表示，谷歌对于YouTube视频记录可以做什么、不能做什么的说法含糊其辞。他说：“这些数据是否可以用于新的商业服务，还有待解释，并可能引发诉讼。”

OpenAI

无独有偶，利用YouTube上的数据来训练的还有OpenAI。

据了解，OpenAI的研究人员创建了一款名为Whisper的语音识别工具。该工具可以转录YouTube视频中的音频，来生成新的对话文本。最终OpenAI团队转录了超过100万小时的YouTube视频。转录的文本被“喂”给了GPT-4，该模型是当前世界上最强大的AI大模型之一。

有消息称，在转录YouTube视频的团队中，还包括OpenAI总裁格雷格·布罗克曼（Greg Brockman），知情人士称，布罗克曼亲自帮助收集了这些视频。

目前，YouTube是禁止将其视频用于“独立”于该视频平台的应用程序。OpenAI此举可能已经违反YouTube的规则。

知情人士表示，一些谷歌员工已经知道OpenAI收集了YouTube视频作为数据，但却没有选择阻止。不阻止的原因自然是谷歌也在利用YouTube的数据来训练其人工智能模型。如果谷歌选择对OpenAI“追究到底”，那么自己的行为也可能会被曝光，进而遭到公众的强烈抗议。

此外，OpenAI还有一个办法来应对训练数据的减少，那就是利用合成数据（Synthetic Data）来训练大模型。

合成数据是指通过数学模型、算法或随机过程生成的数据，这些数据在某些方面与真实数据相似，但并不是从真实环境中直接采集的。合成数据通常用于数据预处理、模型训练、数据集增强等场景。

去年5月，奥尔特曼就曾表示：“只要你能越过合成数据事件视界，模型就足够智能，可以生成良好的合成数据，一切都会好起来的。”

利用合成数据训练人工智能系统的问题在于，它可能会强化人工智能的一些错误和局限性。据报道，OpenAI正在研究一种解决此问题的流程，即一个人工智能模型生成数据，另一个人工智能模型对相关数据进行判断。

一些人工智能专家却警告称，应谨慎使用合成数据，因为它是真实数据的“扭曲版本”。然而，这种使用合成数据的趋势似乎难以扭转。咨询公司Gartner估计，到2030年，人工智能模型中的合成数据将超过真实数据。

数据库成新的“金库”

随着人工智能公司对训练数据的渴求，市场上也开始出现了一些“人工智能数据交易”。有的企业通过将旗下数据卖给科技公司来赚钱。

Photobucket是一家世界知名的图像托管网站，曾拥有约7,000万用户，占据美国在线照片市场近一半的份额。但根据第三方数据，如今只有200万人在使用Photobucket。在AI热潮来临之际，这家企业迎来了“第二春”。

Photobucket的首席执行官泰德·莱纳德（Ted Leonard）在接受采访时表示，他正在与多家科技公司进行谈判，以授权Photobucket的130亿张照片和视频用于训练生成式AI模型。

据莱纳德透露，每张照片的价格在5美分到1美元之间，视频的价格较高，每个视频可卖超过1 美元。不过具体价格会因买家和所寻求的图像类型而异。

此外，另一家图片提供商Shutterstock也表示，在ChatGPT于亮相后的几个月内，Meta、谷歌、亚马逊和苹果等公司都与其达成协议，以使用其库中的数亿张图片、视频和音乐文件进行训练。

Shutterstock首席财务官贾罗德·亚赫斯（Jarrod Yahes）称，与大型科技公司的交易最初每笔交易金额为2,500万美元至5,000万美元，但大多数企业后来都扩大了交易规模。亚赫斯补充说，小型科技公司也纷纷效仿，在过去两个月里引发了新一轮的购买热潮。据悉，Shutterstock的早期客户就包括OpenAI。

据Business Research Insights研究人员预测，目前人工智能数据市场规模可能达到25亿美元，十年内这一数字还可能增长至300亿美元。

数据

#AI##OpenAI##谷歌#

Kelly Wong的沙龍

1會員

181內容數

留言0

查看全部

發表第一個留言支持創作者！

Kelly Wong的沙龍的其他內容

马斯克官宣！特斯拉Robotaxi将于8月8日亮相

特斯拉的首席执行官马斯克周五在其社交媒体平台X上宣布称，特斯拉的Robotaxi将于8月8日亮相。受到该消息提振，该股在盘后交易中上涨了近4%。截至周五收盘，特斯拉股价今年已下跌了约34%。 Robotaxi是特斯拉的自动驾驶出租车计划。2019年4月，特斯拉表示，预计到2020年开始运营自动

小米SU7首秀大获成功带动公司股价大涨

4月2日，小米股价在港股开盘后大涨近15%，随后下行调整，截至收盘，报16.12港元，上涨近8%。这是小米SU7发布后的第一个交易日，股价的上涨反映出市场对于小米第一辆车的首秀较为积极。根据小米汽车官方的信息，小米SU7开启线上订购之后，27分钟大定就突破50,000辆，24小时大定数量高达

软银将推出全新基金参与AI初创公司风投

软银集团（SoftBank Group）认为，由于AI初创公司的规模扩张速度远超目前设想，风险投资家资助初创公司的方式必须做出改变。新加坡风险投资公司The Edgeof联合创始人孙泰藏（Taizo Son）表示，目前风险投资基金在“结构上”很难满足人工智能公司的快速增长和巨大的资金需求。

苹果Q1业绩暴跌基本业务模式仍然完好

由于对iPhone需求疲软和监管障碍的担忧，苹果（NASDAQ:AAPL）在第一季度暴跌了两位数，但华尔街上的一些人建议重新审视这支股票，因为下跌使其价值大幅低于历史平均水平，而其基本业务模式仍然完好无损。

美国2月新建房销售意外下滑但市场基调仍强劲

尽管房地产市场的基本趋势依然强劲，但美国新建单户家庭销售数值在2月份意外下降，原因是抵押贷款利率的上升和市场上二手房源的长期短缺。

飞书官宣裁员：“去肥增瘦”或可优化AI赛道表现

字节跳动旗下系统办公软件飞书将开始新一轮组织调整。3月26日上午，飞书CEO谢欣发布全员信，宣布公司裁员信息。

马斯克官宣！特斯拉Robotaxi将于8月8日亮相

小米SU7首秀大获成功带动公司股价大涨

软银将推出全新基金参与AI初创公司风投

苹果Q1业绩暴跌基本业务模式仍然完好

美国2月新建房销售意外下滑但市场基调仍强劲

尽管房地产市场的基本趋势依然强劲，但美国新建单户家庭销售数值在2月份意外下降，原因是抵押贷款利率的上升和市场上二手房源的长期短缺。

飞书官宣裁员：“去肥增瘦”或可优化AI赛道表现

字节跳动旗下系统办公软件飞书将开始新一轮组织调整。3月26日上午，飞书CEO谢欣发布全员信，宣布公司裁员信息。

你可能也想看

Google News 追蹤

MIA的宇宙

2025/01/09

國泰世華CUBE App 美的生活體驗，給予你最好的情緒。

現代社會跟以前不同了，人人都有一支手機，只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行，然而如今科技快速發展之下，金融App無聲無息地進到你生活中。但同樣的，每一家銀行都有自己的App時，我們又該如何選擇呢？(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB

#國泰世華 #CUBE卡 #金融

筱涵｜Hannah的沙龍

2025/01/02

【生活記事】AI人工智慧解籤｜慈母籤｜線上求籤｜科技與玄學

嘿，大家新年快樂~ 新年大家都在做什麼呢？跨年夜的我趕工製作某個外包設計案，在工作告一段落時趕上倒數。然後和兩個小孩過了一個忙亂的元旦。在深夜時刻，看到朋友傳來的解籤網站，興致勃勃熬夜體驗了一下，覺得非常好玩，或許有人玩過了，但還是想寫上來分享紀錄一下~

#互動設計 #文化體驗 #慈母籤

Sliven / 褚崇名的沙龍

2024/07/31

燒錢燒到見底？ OpenAI 恐面臨 12 個月內破產危機！

ChatGPT 開燒 70 萬美金，OpenAI 每天都在跟時間賽跑。最近科技圈最火熱的話題，莫過於 AI 應用百花齊放，各家科技巨頭都搶著要分一杯羹。微軟、蘋果、輝達（NVIDIA）這些響噹噹的名字，股價都跟著水漲船高，市值更是直逼全球最有價值企業的寶座。市場分析師普遍認為，這些企業之所以

#OpenAI #NVIDIA #微軟

廣告雜誌

2024/07/31

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌 #專欄 #cacaFly

熙哥生意之道

2024/07/26

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI #ai #PromptEngineering

白話詹的沙龍

2024/06/14

淺聊AI

https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了；現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量影片中GPT3共儲存50257個英文單字, 每

#AI #LLM #GPT

每日發車

2024/05/06

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

王啟樺的沙龍

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

#大語言模型 #ChatGPT #人工智慧

GPT工作術｜與你一起補給工作的AI能量沙龍

2024/04/10

訓練資料成為稀缺資源了嗎？為什麼會有人提出「優質訓練資料」料即將不足？

紐約時報報導，OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴，也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境，而必須走入灰色地帶來支持模型的開發。

#模型 #資訊 #生成式AI

ACY證券的沙龍

2024/02/20

【ACY證券】AI影片生成模型Sora是真實世界模擬器？

隨著AI板塊的爆發，各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手，都想借AI的東風，升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持，始終壓Google一頭。

#ChatGPT #Google #模型

軟體生活 v0.3.6

2024/02/19

人工智慧迎來技術大躍進，淺談人工智能模型 (LLM)對於Web的影響

前言在AI經歷數個冰河期後，終於在後疫情時代來到了一個技術高峰，而這個破冰者就是OPen AI(ChatGPT)，對於這個話題不管你是是正在接觸AI，對AI技術有些了解的人，抑或是專業領域上對於AI介入感到焦慮的人都希望可以文中得到收穫。本文想分享一些個人對於AI的理解及對於LLM模型的一些

#AI #軟體開發 #網頁開發

MIA的宇宙

2025/01/09

國泰世華CUBE App 美的生活體驗，給予你最好的情緒。

#國泰世華 #CUBE卡 #金融

筱涵｜Hannah的沙龍

2025/01/02

【生活記事】AI人工智慧解籤｜慈母籤｜線上求籤｜科技與玄學

#互動設計 #文化體驗 #慈母籤

Sliven / 褚崇名的沙龍

2024/07/31

燒錢燒到見底？ OpenAI 恐面臨 12 個月內破產危機！

#OpenAI #NVIDIA #微軟

廣告雜誌

2024/07/31

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌 #專欄 #cacaFly

熙哥生意之道

2024/07/26

人工智能AI和機器學習ML：業務升級的新動能

#AI #ai #PromptEngineering

筆記-曲博談AI模型.群聯-24.05.05

王啟樺的沙龍

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

#大語言模型 #ChatGPT #人工智慧

GPT工作術｜與你一起補給工作的AI能量沙龍

2024/04/10

訓練資料成為稀缺資源了嗎？為什麼會有人提出「優質訓練資料」料即將不足？

#模型 #資訊 #生成式AI

ACY證券的沙龍

2024/02/20

【ACY證券】AI影片生成模型Sora是真實世界模擬器？

#ChatGPT #Google #模型

軟體生活 v0.3.6

2024/02/19

人工智慧迎來技術大躍進，淺談人工智能模型 (LLM)對於Web的影響

#AI #軟體開發 #網頁開發