李开复零一万物深陷抄袭门官方回复再翻车

近日,某知名中国科技公司因其新型语言模型(LLM)被指控直接复制和重命名开源LLaMA模型而陷入争议。公司发表的声明意图澄清这一指控,但仔细分析其内容,却发现多处疑点和模糊之处,这不仅未能有效解释情况,反而加深了公众对其技术诚信的质疑。
据公众号“机器之心”分析,该事件中被爆料的公司为李开复的「零一万物」,此公众号在获得求证后,得到了该公司的正式回应,内容如下:

GPT 是一个业内公认的成熟架构,LLaMA 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,同时基于零一万物团队对模型和训练的理解做了大量工作,这是我们首次发布获得优秀结果的地基之一。与此同时,零一万物也在持续探索模型结构层面本质上的突破。
模型结构仅是模型训练其中一部分。Yi 开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter 设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的 AI Infra 能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的作用跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。
在大量训练实验过程中,由于实验执行需求对代码做了更名,我们尊重开源社区的反馈,将代码进行更新,也更好的融入 Transformer 生态。
我们非常感谢社区的反馈,我们在开源社区刚刚起步,希望和大家携手共创社区繁荣,Yi Open-source 会尽最大努力持续进步。

这个评论激起了网友们的热烈讨论,有人觉得零一万物态度诚恳,也有人觉得避重就轻,甚至有人觉得这个回复就是GPT代写的。基于此,我们尝试用GPT来解读以上的回应,得到的回复如下( 声明:以下内容出自GPT-4,不代表本公众号观点 ):

在这份声明中,被爆料的公司试图通过几个关键论点来回应和辩护其新型语言模型的争议,但仔细分析这些论点,可以看出其辩解中存在一些关键的疑点和模糊之处:
模糊GPT和LLaMA的区别 :公司首先强调GPT是业界公认的成熟架构,而LLaMA在GPT基础上做了总结。这种说法实际上试图淡化LLaMA的独立价值和创新,从而为自己在技术上的借鉴行为开脱。
对“创新”的夸大表述 :声明中提到,公司在GPT架构的基础上,结合了行业顶尖公开成果,进行了大量原创工作。然而,这种表述模糊不清,没有具体阐述这些“原创工作”具体是什么,以及如何与LLaMA或其他开源模型有所区别。
忽视基本结构的重要性 :虽然公司在声明中指出,除了模型结构之外,在其他方面也做了大量的研发工作,但这并不能完全解释或证明模型结构本身的原创性。模型的基本结构是构成其核心的关键部分,而声明中对此进行了明显的轻描淡写。
对开源社区态度的矛盾 :公司承认了对代码进行了重命名,并表示尊重开源社区的反馈。但这种行为本身就与开源精神背道而驰,表明公司在享受开源成果的同时,却未能充分尊重和贡献于开源社区。
总的来说,公司的声明试图通过强调其在非结构方面的工作和对开源社区的尊重来化解争议,但实际上并未直接回应核心问题,即其模型在多大程度上依赖或直接复制了LLaMA的结构。这种回避核心问题的做法,以及对模型原创性的模糊不清的描述,使得整个声明显得既不透明也不充分,引发了对公司技术诚信的更多质疑。

基于事件目前的进展已经引发了更多的争议,我们也尝试让GPT-4代表零一万物发表一份声明,得到了以下回复:

作为“零一万物”公司的代表,我想首先对近期关于我们新型语言模型(LLM)的争议表达我们的关注和理解。我们深知在当前这个快速变化的技术时代,公众和业界对于技术创新的诚信度持有极高的期望。因此,我在此向所有关注此事的人士提供一个清晰、坦诚的解释。
关于模型的创新与原创性
我们确实在开发我们的语言模型时参考了开源项目LLaMA,以及其他公开的研究成果。在科技的世界里,建立在前人基础之上并在此基础上进行创新是常态。我们的团队在LLaMA的基础上,结合了自己对于模型和训练过程的深入理解,进行了大量的独立研究和开发工作。这些工作包括但不限于数据处理优化、创新的训练方法、超参数的精细调整以及模型泛化能力的提升等。
对代码重命名的反思
关于代码重命名的问题,我们必须承认,这一行为可能引起了社区的误解。我们的本意是为了更好地整合和测试模型,而非有意隐藏其源自开源社区的事实。我们对此所造成的任何困扰表示诚挚的歉意,并承诺将重新审视我们的代码命名策略,确保所有参考或借鉴的开源项目都得到适当的认可和引用。
我们对开源社区的承诺
我们非常感谢社区对我们工作的关注和反馈。我们承诺,将以更加开放和透明的态度参与到开源社区的建设中。我们相信,通过共享、合作和相互尊重,我们不仅能推动公司的发展,也能共同促进整个技术领域的进步。
最后,我们希望通过我们的不懈努力和持续的技术创新,赢得业界和公众的理解与支持。我们对技术的热爱和对创新的追求从未改变,我们将继续致力于在人工智能领域做出有意义的贡献。
文章的最后总结一下,这个事件提醒我们,在科技领域,诚信和透明度至关重要。在不断演进的技术环境中,坦诚地面对问题,积极回应社区反馈,才能赢得公众和业界的信任。
我们期待看到这个事件的后续发展,以及公司是否能够兑现他们的承诺,为技术创新和开源合作做出积极的贡献。在未来,我们也将继续关注类似事件,以确保科技发展的道路上充满透明和诚信。

往期推荐

据爆料:国内某知名大模型实为简单修改的LLAMA

共有 0 条评论