自从OpenAI挑起人工智能竞赛后,各大科技公司一直在拼尽全力训练大模型。但是随着训练的模型越来越大,这些科技巨头正在面临一个新的问题,即训练语料和数据的“枯竭”。
2020年11月,OpenAI推出的GPT-3接受的数据训练为3,000亿个token。而到2023年,谷歌推出的新一代语言模型PaLM 2的token已经突破3.6万亿。
随着训练的规模越来越大,科技公司发现可以用于训练的语料和数据已经不多了。
人工智能研究机构Epoch根据训练数据集大小和数据库存的增长预测,到2026年,高质量的语言数据将耗尽。并表示:“如果我们的假设是正确的,那么数据将成为扩展ML(Machine Learning,机器学习)模型的主要瓶颈,我们可能会因此看到人工智能的发展放缓。”
去年,OpenAI的首席执行官萨姆·奥尔特曼(Sam Altman)在一次技术会议上的演讲中也承认,人工智能公司将耗尽互联网上所有可行的数据。
为了能够找到更多新的数据源以供模型不断训练,各大科技公司正在绞尽脑汁。
作为硅谷中的AI领头羊之一,谷歌正在考虑利用谷歌文档、表格和幻灯片中提供的消费者数据。
据报道,去年6月,谷歌开始要求员工扩大使用消费者数据的范围。一些员工被告知,该公司希望使用免费消费者版本的谷歌Docs、Sheets、Slides,甚至Maps上的餐厅评论中的数据。
谷歌于2023年7月更新了隐私政策,但该公司表示并没有扩大用于训练人工智能模型的数据类型。
此外,谷歌还把盯上了旗下视频平台YouTube。
有爆料称,谷歌使用YouTube视频的文字记录来训练其人工智能模型。由于这种做法可能侵犯了YouTube创作者的版权,所以谷歌内部对此选择秘而不宣。
目前,谷歌的规则允许其利用YouTube用户数据为平台开发新功能。但目前尚不清楚谷歌是否可以将YouTube上的数据用于视频平台之外的商业服务,例如聊天机器人。
Berger Singerman律师事务所的知识产权律师杰弗里·洛滕伯格(Geoffrey Lottenberg)表示,谷歌对于YouTube视频记录可以做什么、不能做什么的说法含糊其辞。 他说:“这些数据是否可以用于新的商业服务,还有待解释,并可能引发诉讼。”
无独有偶,利用YouTube上的数据来训练的还有OpenAI。
据了解,OpenAI的研究人员创建了一款名为Whisper的语音识别工具。该工具可以转录YouTube视频中的音频,来生成新的对话文本。最终OpenAI团队转录了超过100万小时的YouTube视频。转录的文本被“喂”给了GPT-4,该模型是当前世界上最强大的AI大模型之一。
有消息称,在转录YouTube视频的团队中,还包括OpenAI总裁格雷格·布罗克曼(Greg Brockman),知情人士称,布罗克曼亲自帮助收集了这些视频。
目前,YouTube是禁止将其视频用于“独立”于该视频平台的应用程序。OpenAI此举可能已经违反YouTube的规则。
知情人士表示,一些谷歌员工已经知道OpenAI收集了YouTube视频作为数据,但却没有选择阻止。不阻止的原因自然是谷歌也在利用YouTube的数据来训练其人工智能模型。如果谷歌选择对OpenAI“追究到底”,那么自己的行为也可能会被曝光,进而遭到公众的强烈抗议。
此外,OpenAI还有一个办法来应对训练数据的减少,那就是利用合成数据(Synthetic Data)来训练大模型。
合成数据是指通过数学模型、算法或随机过程生成的数据,这些数据在某些方面与真实数据相似,但并不是从真实环境中直接采集的。合成数据通常用于数据预处理、模型训练、数据集增强等场景。
去年5月,奥尔特曼就曾表示:“只要你能越过合成数据事件视界,模型就足够智能,可以生成良好的合成数据,一切都会好起来的。”
利用合成数据训练人工智能系统的问题在于,它可能会强化人工智能的一些错误和局限性。据报道,OpenAI正在研究一种解决此问题的流程,即一个人工智能模型生成数据,另一个人工智能模型对相关数据进行判断。
一些人工智能专家却警告称,应谨慎使用合成数据,因为它是真实数据的“扭曲版本”。然而,这种使用合成数据的趋势似乎难以扭转。咨询公司Gartner估计,到2030年,人工智能模型中的合成数据将超过真实数据。
据悉,从去年二季度开始,Meta内部高层就对可训练数据的减少感到十分担忧,并多次进行讨论以寻求更多替代方案。
根据一份内部会议录音,Meta负责生成性人工智能的副总裁艾哈迈德·达赫勒(Ahmad Al-Dahle)表示,他的团队几乎利用了互联网上所有可用的英文书籍、散文、诗歌和新闻文章。
达赫勒进一步表示,除非获得更多数据,否则Meta无法与ChatGPT相媲美。2023年3月和4月,该公司的一些业务开发负责人、工程师和律师几乎每天都会开会解决这个问题。
尽管Meta运营着庞大的社交网络,但该公司并没有太多优质数据可供使用。因为旗下的社交平台并不是人们会撰写高质量文章内容的地方。
在Meta的讨论中,有人提到,可以收购知名出版社Simon&Schuster。这家出版社曾与多位作家合作,并于去年被私募股权公司KKR以16.2亿美元收购。如果不收购该出版社,也可以通过每本书支付一定的价格以获得整本书的内容完全许可权。
随着人工智能公司对训练数据的渴求,市场上也开始出现了一些“人工智能数据交易”。有的企业通过将旗下数据卖给科技公司来赚钱。
Photobucket是一家世界知名的图像托管网站,曾拥有约7,000万用户,占据美国在线照片市场近一半的份额。但根据第三方数据,如今只有200万人在使用Photobucket。在AI热潮来临之际,这家企业迎来了“第二春”。
Photobucket的首席执行官泰德·莱纳德(Ted Leonard)在接受采访时表示,他正在与多家科技公司进行谈判,以授权Photobucket的130亿张照片和视频用于训练生成式AI模型。
据莱纳德透露,每张照片的价格在5美分到1美元之间,视频的价格较高,每个视频可卖超过1 美元。不过具体价格会因买家和所寻求的图像类型而异。
此外,另一家图片提供商Shutterstock也表示,在ChatGPT于亮相后的几个月内,Meta、谷歌、亚马逊和苹果等公司都与其达成协议,以使用其库中的数亿张图片、视频和音乐文件进行训练。
Shutterstock首席财务官贾罗德·亚赫斯(Jarrod Yahes)称,与大型科技公司的交易最初每笔交易金额为2,500万美元至5,000万美元,但大多数企业后来都扩大了交易规模。亚赫斯补充说,小型科技公司也纷纷效仿,在过去两个月里引发了新一轮的购买热潮。据悉,Shutterstock的早期客户就包括OpenAI。
据Business Research Insights研究人员预测,目前人工智能数据市场规模可能达到25亿美元,十年内这一数字还可能增长至300亿美元。