震惊国外大厂被爆用竞争对手数据训练模型

“
揭露Adobe Firefly背后的秘密:竟利用竞争对手的数据来训练其人工智能模型。文章揭示了Adobe在人工智能内容生成领域的策略和道德挑战,同时分析了其与其他竞争对手的差异和争议。
据彭博社消息,Adobe 在其Firefly工具的训练过程中,实际上采用了人工智能生成的内容,其中部分来自其竞争对手。尽管Adobe在多次公开场合强调Firefly相比市场上其他产品更安全,但并未明确透露其模型实际上使用了来自竞争方的图像资源。
为了训练背后的人工智能模型,需要大量的数据。然而,人工智能技术公司在使用受版权保护的材料方面受到了越来越多的审查。一些公司如Midjourney、OpenAI(Dall-E的开发者)和Stability AI(Stable Diffusion的开发者),他们构建的媒体生成模型使用了从互联网上搜集的图像数据集,这种做法已经引起了一些艺术家的强烈不满和诉讼。
为了与快速增长的生成性人工智能市场中的其他产品区分开来,Adobe选择使用公司拥有版权的和公共领域的内容来构建Firefly。该公司将其推广为一个更道德、法律风险更小的选择,适合那些想要通过几个词就能创造出图像,同时又担心潜在版权问题的客户。据一位公司发言人表示,Firefly不会基于他人的知识产权或品牌生成内容,也会避免制作有害图像。
人工智能生成的内容之所以能够进入Firefly的训练集,是因为创作者被允许将数以百万计的图像提交到Adobe的库存市场中,其中包括使用其他公司技术生成的图像。
据悉,Adobe表示,用于训练其人工智能工具的图像中,大约有5%是由其他人工智能平台生成的。公司发言人指出,每张提交到Adobe Stock的图像都经过严格的审核流程,以确保不包含知识产权、商标、可识别的角色或标志,或引用艺术家的名字。
对这种做法的批评也来自公司内部:自从Firefly项目早期开始,就有多名了解其开发的员工表示,对于将人工智能生成的图像纳入模型的伦理和视觉效果存在内部分歧。一些人建议随着时间的推移逐渐减少系统对生成图像的依赖,但其中一人表示,目前没有这样的计划。
值得注意的是,Adobe曾经批评过竞争对手的数据收集做法。据了解,其他模型是建立在“公开抓取”的数据上的,Adobe的首席战略官Scott Belsky去年曾表示。Adobe在其网站上指出,Firefly比OpenAI的类似模型更优越,因为它通过只在许可或免费可用的数据上进行训练,表现出对创作社区的尊重。
“在策划的、多样化的数据集上进行训练,本质上会使你的模型在产生商业安全和道德结果方面具有竞争优势,”他写道。Adobe使用Adobe库存图像、许可内容和版权已过期的公共领域内容来训练Firefly。
尽管如此,Adobe从未公开明确表示Firefly部分训练自竞争对手工具中的图像,这些图像据称不太道德。
据2023年3月的报道,Adobe将Firefly作为“测试版”产品推出。据称,与Adobe Stock社区合作的Raúl Cerón在Discord上发布消息称,公司不计划使用生成图像来训练即将推出的公共版本的Firefly。
在9月13日宣布Firefly公开发布时,据悉公司还向Adobe Stock贡献者支付了特别的“Firefly奖金”,以表彰他们的内容被用来训练第一个商业Firefly模型。据报道,使用生成性人工智能的贡献者也是收到奖金的人之一。

往期推荐
Adobe股价暴跌10%:市场担忧人工智能竞争
Adobe Firefly:强大到头皮发麻

共有 0 条评论