科技巨头如何为了发展人工智能而采取捷径收集数据

“
科技巨头正在大规模收集用户数据,用于训练人工智能系统。这些公司利用用户的网络活动、位置信息和其他个人数据,开发出更加智能和个性化的产品。这种做法引发了隐私和数据安全的担忧,需要政府和公众加强监管和保护措施。
到了 2021 年底,OpenAI 面临数据短缺的问题。 在开发最新 AI系统的过程中,他们已经 耗尽了互联网上所有可靠的英文文本资源 。 为了训练技术的下一个版本,他们需要更多的数据,而且是大量的数据。
因此,OpenAI 研究人员创造了 Whisper,这个工具能够转录 You Tube 视频的音频,产生新的对话文本,以提升 A I 系统的智能水平。
一些知情人士透露,OpenAI 的员工讨论过这样的做法可能会违反 YouTube 的规定。YouTube 作为 Google 的一部分,禁止将其视频用于独立于该视频平台的应用。
最终, OpenAI 团队转录了超过一百万小时的 YouTube 视频 。据说,包括 OpenAI 总裁 Greg Brockman 在内的小组成员亲自参与了视频的收集工作。这些文本随后被输入到名为 GPT-4 的系统中,该系统被广泛认为是全球最强大的 AI模型之一,也是最新版 ChatGPT 聊天机器人的基础。
在 AI领域的竞争已经成为对数字数据的迫切搜寻。为了获取这些数据,包括 OpenAI、Google 和 Meta 在内的科技公司不惜走捷径,忽视公司政策,并讨论是否要挑战法律底线,这是《纽约时报》的一项调查发现。
在拥有 Facebook 和 Instagram 的 Meta,经理、律师和工程师去年讨论了购买出版商 Simon & Schuster 以获取长篇作品,根据《时报》获得的内部会议录音。他们还考虑了从互联网上收集受版权保护的数据,即使这意味着可能面临诉讼。他们表示,与出版商、艺术家、音乐家和新闻行业协商版权许可的过程太漫长。
与 OpenAI 类似,Google 也转录了 YouTube 视频以收集其 AI模型的文本,五名了解公司做法的人士透露。这可能侵犯了视频的版权,因为视频属于创作者。
去年,Google 还扩大了其服务条款。根据公司隐私团队成员和《时报》查看的内部信息,这一变化的一个动机是允许 Google 能够利用公开可用的 Google Docs、Google Maps 上的餐厅评论以及其他在线材料为其更多的 AI产品。
这些公司的行为说明了 在线信息——新闻故事、虚构作品、论坛帖子、维基百科文章、计算机程序、照片、播客和电影片段——日益成为蓬勃发展的 AI行业的命脉。 创建创新系统依赖于拥有足够的数据来教导技术,以便它们能够即时生成与人类创造的相似的文本、图像、声音和视频。
数据量至关重要。 领先的聊天机器人系统已经从多达三万亿个单词的数字文本池中学习,大约是牛津大学博德利图书馆自 1602 年以来收集的手稿所存储单词数量的两倍。 AI研究人员说,最有价值的数据是高质量信息,如由专业人士精心撰写和编辑的出版书籍和文章。
长期以来,互联网上诸如维基百科和 Reddit 等网站一直是科技公司获取数据的宝库。但随着人工智能技术的飞速发展,这些公司开始寻找更多的数据来源。Google 和 Meta 等拥有数十亿用户的科技巨头,每天产生大量的搜索查询和社交媒体内容,但由于隐私法规和公司政策的限制,它们无法将这些内容用于 AI训练。
这些公司面临的形势十分紧迫。据研究机构 Epoch 预测, 科技公司可能在 2026 年就会消耗掉互联网上的高质量数据资源。它们使用数据的速度远远超过了新数据的产生速度。
硅谷风险投资公司 Andreessen Horowitz 的代表律师 Sy Damle 在去年的一次公开讨论中指出:“这些工具存在的唯一实际方式是,它们能够在不获得许可的情况下,接受大量数据的训练。所需的数据量如此之大,以至于集体许可也无法实现。”
由于对新数据的迫切需求,一些科技公司甚至开始开发“合成”信息,即非人类创造的文本、图像和代码,而是 AI模型自身生成的内容,系统通过学习自己生成的内容来提升自身。
OpenAI 表示,他们每一个 AI模型都有独特的数据集,这些数据集经过精心策划,以帮助模型更好地理解世界,并在全球研究中保持竞争力。
Google 表示,他们的 AI模型在一些 YouTube 内容上进行了训练,这是根据与 YouTube 创作者达成的协议所允许的,并且公司没有在实验项目之外使用办公应用中的数据。
Meta 表示,他们已经大力投资将 AI技术整合到其服务中,并使用了来自 Instagram 和 Facebook 的数十亿公开分享的图像和视频来训练他们的模型。
对于创作者而言,AI公司日益增多的使用他们作品的行为,已经引发了关于版权和许可的法律诉讼。《纽约时报》去年因 OpenAI 和 Microsoft 未经许可使用版权新闻文章来训练 AI聊天机器人而对两家公司提起诉讼。OpenAI 和 Microsoft 辩称,根据版权法,他们的行为属于“合理使用”,因为他们将作品用于不同的用途。
去年,超过 10,000 个行业团体、作者、公司等就 AI模型使用创意作品的问题向美国版权局提交了意见。版权局正在准备关于如何在 A I 时代应用版权法的指导方针。
电影制片人、前演员及两本书的作者 Justine Bateman 向版权局表示, A I 模型未经许可或支付费用就擅自使用了她的作品和其他内容。
“这是美国历史上最大的盗窃行为,” 她在接受采访时说道。
规模就是王道
约 翰霍普金斯大学的物理系教授 Jared Kaplan 撰写了一篇关于人工智能与数据的重要论文,并担任人工智能初创企业 Anthropic 的首席科学官。 Chris J. Ratcliffe/Bloomberg
2020年1月,Jared Kaplan 教授发表了一篇具有里程碑意义的人工智能论文,引发了对网络数据的极大兴趣。
他的研究结果明确指出: 用于训练大型语言模型的数据量越大,模型的性能就越出色。这就像学生通过阅读更多书籍能够学到更多知识一样,大型语言模型能够更准确地识别文本中的模式 。Kaplan 教授与 OpenAI 的九名研究人员共同发表了这篇论文,他目前在 Anthropic 公司工作。
“规模就是王道”很快成为了人工智能领域的一个口号。
长期以来,研究人员依赖大型公共数字信息数据库来发展人工智能技术,例如维基百科和自 2007 年起收集的超过 2500 亿个网页的 Common Crawl 数据库。在训练人工智能模型之前,研究人员通常会 对数据进行“清洗”,移除仇恨言论和其他不良文本内容。
按照现今的标准,2020 年的数据集规模微不足道。例如,当时一个包含 Flickr 网站上 3 万张照片的数据库被视为重要资源。
然而,Kaplan 教授的论文发表后,这样的数据量已不再足够。纽约人工智能公司 Nomic 的首席执行官 Brandon Duderstadt 表示:“现在的目标就是让数据规模尽可能地庞大。”
OpenAI 在 2020 年 11 月发布的 GPT-3 模型,就是基于迄今为止最大规模的数据量——约 3000 亿个“标记”(基本上是单词或词的一部分)进行训练的。该系统通过学习这些数据,能够以惊人的准确度生成文本,包括撰写博客文章、诗歌乃至自己的计算机程序。
到了 2022 年,谷歌旗下的人工智能实验室 DeepMind 进一步推动了这一趋势。他们测试了 400 个人工智能模型,并调整了训练数据量和其他因素。表现最佳的模型甚至使用了比 Kaplan 教授论文中预测的更多的数据。其中一个名为 Chinchilla 的模型,就在 1.4 万亿个标记上进行了训练。
但这一记录很快被打破。去年,中国的研究团队发布了 Skywork 人工智能模型,该模型在英文和中文文本的 3.2 万亿个标记上进行了训练。谷歌也推出了 PaLM 2 人工智能系统,其训练数据量更是达到了 3.6 万亿个标记。
转录Youtube
在今年年5月的一次科技会议上,OpenAI的首席执行官Sam Altman坦承,人工智能企业将会消耗掉互联网上所有可用的数据资源。他明确指出:“这些数据将会耗尽。”
Altman亲眼目睹了这一过程:在OpenAI,研究团队多年来一直在搜集、整理并输入大量文本数据,用以训练公司的语言模型。他们不仅深入挖掘了代码托管平台GitHub,还吸收了棋类走法数据库,并且利用了Quizlet网站上关于高中考试和作业任务的数据。
到了2021年底,这些数据资源已经告罄,据八位了解内情的人士透露,他们未被授权对外发表言论。
面对数据短缺,OpenAI迫切需要更多数据来研发其下一代人工智能模型GPT-4。员工们讨论了转录播客、有声读物和YouTube视频的可能性,他们甚至考虑从头开始用人工智能系统创造数据,也考虑过收购那些已经积累了大量数字数据的初创公司。
OpenAI最终开发了Whisper这一语音识别工具,用以转录YouTube视频和播客,据六位知情人士透露。然而,YouTube明确禁止用户不仅将视频用于“独立”应用,还禁止通过“任何自动化手段(如机器人、僵尸网络或抓取器)”来访问其视频。
知情人士表示,OpenAI的员工们意识到他们可能踏入了法律的灰色地带,但他们认为使用视频训练人工智能属于合理使用范畴。OpenAI的总裁Greg Brockman在一篇研究论文中被列为Whisper的开发者之一,他亲自参与了YouTube视频的搜集工作,并将它们输入到该技术中。
Brockman将评论请求转交给了OpenAI,该公司表示它使用了“多种来源”的数据。
去年,OpenAI发布了GPT-4模型,该模型参考了Whisper转录的超过一百万小时的YouTube视频内容。Brockman领导了开发GPT-4的团队。
据两位了解内情的人士透露,一些Google员工知道OpenAI已经收集了YouTube视频作为数据来源。但他们并未阻止OpenAI,因为Google自身也使用了YouTube视频的转录内容来训练其人工智能模型。这种做法可能侵犯了YouTube创作者的版权。如果Google对OpenAI的做法提出异议,可能会引发对其自身方法的公众抗议。
Google的发言人Matt Bryant表示,公司对OpenAI的行为并不知情,并禁止“未经授权的抓取或下载YouTube内容”。他强调,只有在有明确的法律或技术依据时,Google才会采取行动。
Google的规则允许其利用YouTube用户数据来开发视频平台的新功能。但目前尚不清楚Google是否可以将YouTube数据用于构建视频平台之外的商业服务,比如聊天机器人。
知识产权律师Geoffrey Lottenberg表示,Google关于其能做什么和不能做什么的YouTube视频转录语焉不详。
“数据是否可以用于新的商业服务,这是一个有待解释的问题,也可能会引发诉讼,”他说。
在OpenAI发布ChatGPT并引发全行业追赶竞赛的2022年底,Google的研究人员和工程师讨论了利用其他用户数据的可能性。数十亿的文字数据存在于人们的Google Docs和其他免费的Google应用中。但公司的隐私政策限制了他们对这些数据的使用方式,据三位了解Google做法的人士透露。
OpenAI 发布 ChatGPT 后,谷歌研究人员和工程师讨论了利用其他用户数据来开发人工智能。 了解讨论情况的人士表示。
去年6月,谷歌法务部门要求隐私团队扩展公司使用消费者数据的范围,据两位隐私团队成员和《泰晤士报》看到的一份内部信息透露。
员工被告知,谷歌计划利用用户在 Google Docs、Google Sheets 等应用中公开的内容,来开发多种人工智能产品。员工们表示,他们不确定公司以前是否已经利用这些数据训练过人工智能。
当时,谷歌的隐私政策仅允许公司使用公开信息“帮助训练谷歌的语言模型和构建类似谷歌翻译的功能”。
隐私团队起草了新的条款,允许谷歌将数据用于更广泛的“ A I 模型,并构建产品和功能,如谷歌翻译、Bard 和云 A I 能力”。隐私团队一名成员在内部信息中询问:“我们的最终目标是什么?我们打算扩展到多广的范围?”
员工们表示,他们被指示在人们通常专注于庆祝的独立日周末发布新条款。新修订的政策在7月1日长周末开始时生效。
谷歌如何使用您的数据
以下是谷歌去年对其免费消费者应用的隐私政策所做的更改。
谷歌使用信息来改善我们的服务,并开发新的产品、功能和技术,以造福我们的用户和公众。例如,我们利用公开可用的信息来训练谷歌的语言 A I 模型,并构建像谷歌翻译、Bard 和云 A I 能力这样的产品和功能。
8月份,两名隐私团队成员表示,他们曾询问管理层,谷歌是否可以开始使用 Google Docs、Google Sheets 和 Google Slides 免费消费者版本的数据。他们表示,没有得到明确的答复。
谷歌发言人 Matt Bryant 表示,隐私政策的更改是为了提高清晰度,谷歌不会在“未经用户明确许可”的情况下使用 Google Docs 或相关应用的信息来训练语言模型,他指的是一个允许用户测试实验性功能的用户自愿参与的项目。
“我们没有根据这一语言更改开始训练新类型的数据,”他说。
在Meta的内部讨论中
Meta首席执行官Mark Zuckerberg长期以来一直在人工智能领域进行投资,但当OpenAI在2022年推出了ChatGPT之后,他突然意识到自己已经落后于竞争对手。据三名不愿透露姓名的现任和前任员工透露,Zuckerberg开始不分昼夜地召集高管和工程师开会,急切地推动他们开发出能与ChatGPT相匹敌的聊天机器人。
但到了去年初,Meta遇到了与其它公司相同的难题:缺乏足够的数据。Meta负责生成性人工智能的副总裁Ahmad Al-Dahle在内部会议记录中表示,他的团队已经利用了互联网上几乎所有可用的英文书籍、论文、诗歌和新闻文章来构建模型。
Al-Dahle向同事们表明,如果无法获得更多数据,Meta就无法与ChatGPT相抗衡。2023年的3月和4月,Meta的一些业务发展领导、工程师和律师几乎每天都在会面,试图解决数据不足的问题。
他们中的一些人讨论了以每本书10美元的价格购买新书的完整版权。根据内部会议记录,他们还讨论了收购出版商Simon & Schuster的可能性,该出版商旗下有Stephen King等知名作者。
他们还讨论了如何在未经许可的情况下从互联网上总结了书籍、论文和其他作品,并考虑了继续这样做的可能性,哪怕这意味着可能面临法律诉讼。一位律师提出了关于获取艺术家知识产权的“道德”问题,但似乎没有得到同事们的回应。
Zuckerberg要求团队必须找到一个解决方案。一位工程师表示:“Mark期望产品具备的能力,目前我们还无法实现。”
Meta 首 席执行官马克·扎克伯格 (Mark Zuckerberg) 推动公司在生成人工智能领域迎头赶上。 OpenAI 发布 ChatGPT 后。
尽管Meta运营着庞大的社交网络,但员工们表示,公司并没有大量的用户帖子可以使用。 许多Facebook用户已经删除了他们早期的帖子,而且该平台并不是人们撰写论文类型内容的地方。
此外,Meta还受到2018年因与数据分析公司Cambridge Analytica共享用户数据而引发的丑闻后所采取的隐私政策变更的限制。
Zuckerberg在最近的投资者电话会议上表示,Facebook和Instagram上公开分享的数十亿视频和照片“比Common Crawl数据集还要丰富”。
在他们的讨论中,Meta的高管们提到了公司如何雇佣非洲的承包商来汇总小说和非小说的摘要,其中包括受版权保护的内容。一位经理在会议上说:“我们没有办法不收集这些内容。”
Meta的高管们认为,OpenAI似乎未经许可就使用了受版权保护的材料。他们表示,与出版商、艺术家、音乐家和新闻行业协商版权许可将耗费太长时间。
全球合作伙伴关系和内容副总裁Nick Grudin在一次会议上说:“阻止我们达到ChatGPT水平的唯一障碍就是数据量。”
他还提到,OpenAI似乎在拿受版权保护的材料,Meta也可以遵循这个“市场先例”。
Meta的高管们同意依据2015年的一个法院判决,即作家协会诉Google案。在那个案件中,Google在辩称自己只在线上传了作品的片段并改变了原作,从而构成合理使用后,被允许扫描、数字化和编目书籍到在线数据库。
Meta的律师们在会议中表示,使用数据来训练A.I.系统应该同样是合理使用。
至少有两名员工提出了关于使用知识产权以及不公正或完全不向作者和其他艺术家支付费用的担忧。一位员工回忆了与包括Meta首席产品官Chris Cox在内的高级 executives就受版权保护的数据进行的另一次讨论,并表示那次会议上没有人考虑使用人们的创作作品的道德问题。
‘合成’数据
OpenAI 的首席执行官 Sam Altman 针对即将到来的数据短缺问题提出了解决方案。
他在五月份的一次会议上表示,像 OpenAI 这样的公司最终将在由人工智能生成的文本上训练他们的 A I —— 也就是所谓的合成数据。
Altman 认为,由于 A I 模型能够产生类似人类的文本,这些系统可以创造出额外的数据,以此来发展更加先进的版本。这不仅能够帮助开发者构建更加强大的技术,还能减少他们对受版权保护数据的依赖。
“只要你能够让模型足够智能,能够制造出高质量的合成数据,那么一切都将顺利,” Altman 说。
尽管人工智能研究人员已经探索合成数据多年,但要构建一个能够自我训练的 A I 系统并非易事。从自身输出中学习的 A I 模型可能会陷入一个循环,不断强化自己的怪癖、错误和局限性。
前 OpenAI 研究员、现不列颠哥伦比亚大学计算机科学教授 Jeff Clune 表示:“这些系统所需的数据就像是穿越丛林的一条小径。如果它们只基于合成数据进行训练,就可能会在丛林中迷失方向。”
为了解决这一问题,OpenAI 和其他机构正在研究两个不同的 A I 模型如何协同工作以生成更有用、更可靠的合成数据。其中一个系统负责产生数据,而另一个系统则负责评估这些信息,筛选出优质内容。研究人员对于这种方法的有效性持有不同看法。
尽管如此,人工智能行业的高管们仍在积极推进这一领域的发展。
“最终一切都会好起来的,” Altman 在会议上表示。

共有 0 条评论