大型科技公司购买人工智能训练数据的地下竞赛

“
大型科技公司正在进行一场秘密的人工智能训练数据收购竞赛。这些公司正在疯狂地收购各种类型的数据,以训练更强大的AI系统,从而获得市场优势。这场竞争激烈且隐秘,体现了科技巨头对人工智能技术的重视程度。
在本世纪初的辉煌时期,Photobucket曾是全球最大的图片托管平台。 它曾是Myspace和Friendster等流行社交平台的中坚力量,拥有7000万用户,几乎占据了美国在线照片市场的半壁江山。
然而,时至今日,根据Similarweb的数据显示,仅有200万人继续使用Photobucket。尽管如此,生成型AI技术的兴起可能为这家老牌图片托管网站带来新的活力。
Photobucket的首席执行官Ted Leonard在科罗拉多州爱德华兹领导着这家拥有40名员工的公司。他向路透社透露,目前正在与多家科技公司进行商谈,计划将其平台上的130亿张照片和视频资源授权给这些公司,用于训练能够根据文本提示创造新内容的生成型AI模型。
他提到的价格范围是每张照片5美分至1美元,每视频则超过1美元,价格根据买家的需求和所寻求的图像类型而有较大波动。
“我们已经和一些公司进行了对话,他们表示‘我们需要的远不止这些’,” Leonard补充说,其中一位买家甚至表示他们需要超过10亿的视频资源,这比Photobucket平台现有的视频数量还要多。
“你不禁要问,这么多视频资源从哪里来?”
出于商业保密的考虑,Photobucket拒绝透露潜在买家的信息。这些尚未被报道的谈判表明,该公司可能掌握着价值数十亿美元的内容资源,同时也让我们得以窥见,在抢占生成型AI技术市场的竞赛中,一个繁荣的数据市场的兴起。
谷歌、Meta和微软支持的OpenAI等科技巨头最初利用从互联网上免费抓取的大量数据来训练生成型AI模型,例如能够模仿人类创造力的ChatGPT。他们声称这种做法既合法又符合道德标准,尽管因此面临一连串版权持有者的诉讼。
与此同时,这些科技公司也在悄然支付那些被付费墙和登录界面所保护的内容费用,从而催生了一个涵盖从聊天记录到被遗忘的社交媒体应用中的个人照片等一切的隐秘交易市场。
“目前,人们正争相获取那些拥有私人藏品的版权持有者,这些藏品是无法通过网络抓取获得的,”来自Klaris Law律师事务所的Edward Klaris表示,该事务所正在为内容所有者提供咨询服务,涉及价值数千万美元的交易,以将照片、电影和书籍档案授权用于AI训练。
路透社采访了30多位了解AI数据交易的人士,包括相关公司的现任和前任高管、律师和顾问,首次深入探讨了这一新兴市场——详细介绍了正在购买的内容类型、形成的价格,以及对个人数据可能在未经人们知情或明确同意的情况下进入AI模型的风险的担忧。
OpenAI、谷歌、Meta、微软、苹果和亚马逊均拒绝对本文中的具体数据交易和讨论发表评论,尽管微软和谷歌向路透社提供了包含数据隐私条款的供应商行为准则。
谷歌进一步表示,如果发现供应商违规,将“立即采取行动,包括终止”与其的合作协议。
许多主要的市场研究机构表示,他们尚未开始评估这个不透明AI数据市场的规模,在这个市场中,公司通常不会公开协议内容。那些确实进行评估的研究机构,如Business Research Insights, 估计市场目前价值约25亿美元,并预测在未来十年内可能增长至近300亿美元。
随着大型生成型人工智能模型制造商面临越来越大的压力,他们需要解释如何获取并使用大量数据来“训练”他们的系统,这一过程需要巨大的计算能力,并且通常需要数月时间才能完成。
生成数据淘金热
科技公司声称,如果不能利用大量免费抓取的网页数据,例如非盈利机构Common Crawl提供的数据,这些技术的成本将难以承受,他们将这些数据描述为“公开可用”。
然而,这种做法仍然引发了一系列的版权诉讼和监管关注,同时也促使内容发布者采取措施阻止数据抓取。
作为回应,人工智能模型制造商开始采取措施降低风险,并确保数据供应链的稳定,这既包括与内容所有者达成协议,也包括通过新兴的数据经纪行业来满足市场需求。
例如,在ChatGPT于2022年底推出后的几个月内,Meta、谷歌、亚马逊和苹果等公司都与图片库Shutterstock签订了协议,使用其数亿张图片、视频和音乐文件进行人工智能模型的训练,据知情人士透露。
Shutterstock的首席财务官Jarrod Yahes向路透社透露,与大型科技公司的最初交易额在2500万至5000万美元之间,但大多数交易后来都有所扩大。较小的科技公司也加入了这一行列,在过去两个月中掀起了新一轮的活动。
Yahes不愿对具体的合同发表评论。苹果的协议细节以及其他交易的规模此前未曾公开。
Shutterstock的竞争对手Freepik告诉路透社,它已经与两家大型科技公司达成了协议,授权其大部分2亿张图片的档案,每张图片的价格在2至4美分之间。首席执行官Joaquin Cuenca Abela表示,还有五项类似的交易正在进行中,但他不愿透露买家身份。
OpenAI作为Shutterstock的早期客户,也至少与四家新闻机构签署了许可协议,包括美联社和Axel Springer。汤森路透,作为路透社的所有者,也单独表示已经达成了许可新闻内容的协议,以帮助训练人工智能的大型语言模型,但未披露具体细节。
“道德采购”的内容
同时,一个专注于人工智能数据的新兴行业也在兴起,这些公司确保获取现实世界内容的权利,如播客、短视频和与数字助手的互动,同时也建立了短期合同工网络,从零开始制作定制的视觉和声音样本,这类似于数据领域的Uber式零工经济。
位于西雅图的Defined.ai将其数据许可给了一系列公司,包括谷歌、Meta、苹果、亚马逊和微软,首席执行官Daniela Braga向路透社表示。
价格根据买家和内容类型而有所不同,但Braga表示, 公司通常愿意为每张图片支付1至2美元,为短视频支付2至4美元,为长片支付每小时100至300美元。文本的市场价是每个单词0.001美元,她补充说。
她表示,裸体图像需要最敏感的处理,价格在5至7美元之间。
Defined.ai与内容提供者分享这些收入,Braga说。她将其数据集宣传为“道德采购”,因为她从数据使用者那里获得同意,并去除个人识别信息,她补充说。
该公司的一位供应商,一位巴西的企业家表示,他向他所获取的照片、播客和医疗数据的所有者支付总交易金额的20%至30%。
这位供应商说,他投资组合中最贵的图片是用于训练人工智能系统以阻止科技公司禁止的图形暴力内容的图片,他在商业敏感性的条件下发言,要求不透露他的公司名称。
为了满足这些要求,他从警察、自由职业摄影师和医学生那里获取犯罪现场、冲突暴力和手术的图片——主要来自南美和非洲,他说,在这些地方分发图形图像更为常见。
他说,自从加沙战争开始以来,他就从当地的自由职业摄影师那里获取了图片,以及在冲突初期从以色列获取的一些图片。
他的公司雇佣习惯于看到暴力伤害的护士来匿名化和注释这些图片,这些图片对未经训练的眼睛来说是令人不安的,他补充说。
“我会发现这有风险”
尽管通过授权可以解决一些法律和道德层面的问题,但许多行业内的专家和企业负责人在接受采访的时候表示,将像 Photobucket 这样的老牌互联网公司的陈年档案作为最新一代 AI 模型的训练材料,可能会引发一系列新的隐私问题。
AI 系统在过去被发现会复制其训练数据中的精确内容,比如输出带有 Getty Images 水印的照片、《纽约时报》文章的逐字内容,以及真实的人物照片。这意味着,人们多年前上传的私人照片或个人想法,可能会在没有任何通知或明确同意的情况下,被用于生成 AI 的输出结果。
Photobucket 的首席执行官 Leonard 表示,公司在法律上拥有稳固的立场。他提到,公司在十月份更新了服务条款,赋予公司“无限制的权利”来出售用户上传的任何内容,以便用于 AI 系统的训练。他认为,通过授权数据来盈利是一种比广告销售更好的选择。
他说:“我们需要支付账单,这样做可以让我们有能力继续支持免费账户。”
Defined.ai 的 Braga 表示,她避免从像 Photobucket 这样的平台公司获取内容,而更倾向于从社交媒体影响者那里获取他们创作的照片,因为这些影响者对授权权利有更明确的主张。
“我认为这样做风险很大,”Braga 谈到平台内容时说。“如果 AI 生成了一些看起来像某个从未同意过的人的照片,那就会成为一个问题。”
不仅仅是 Photobucket,其他平台也在积极拥抱授权模式。Tumblr 的母公司 Automattic 上个月宣布,它正在与“选定的 AI 公司”分享内容。今年二月,据路透社报道,Reddit 与谷歌达成了一项协议,允许谷歌使用 Reddit 的内容来训练其 AI 模型。
Reddit 在三月份进行首次公开募股之前披露,其数据许可业务正受到美国联邦贸易委员会的调查,并承认可能会违反不断发展的隐私和知识产权法规。
美国联邦贸易委员会在二月份警告企业不要追溯性地改变服务条款以用于 AI 用途,但对于 Reddit 的调查不予置评,也未说明是否在调查其他训练数据交易。
原文:https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/

共有 0 条评论