仅靠合成数据无法实现AGI

“
OpenAI最新的模型Q*引发了关注,它能解决数学问题并展现出卓越的推理能力。然而,是否应该依赖合成数据引发了科技社区的讨论,有人认为提高推理能力比增加数据更重要,而合成数据的有效性仍存在争议。这些新发展引发了关于合成数据对AI领域的影响的思考。
一切始于OpenAI最新模型Q*的报道,据称该模型能够解决数学问题并展现出卓越的推理能力。
Q*由OpenAI的首席科学家Ilya Sutskevar创建,其中一个引人注目的特点是其研究采用了计算机生成的或合成数据,与依赖于来自互联网的真实信息(如文本或图像)的方法形成鲜明对比,这是GPT的训练方法。
这引发了科技社区内关于合成数据是否会导致通用人工智能的讨论。
不是每个人都相信合成数据
Meta的AI科学家Yann LeCun与OpenAI的观点大不相同,他认为LLM与合成数据的结合不一定会导致AGI。
为了表达他的观点,他对OpenAI的Q*表示不满。“请忽略关于Q*的一堆胡言乱语。提高LLM可靠性的主要挑战之一是用规划(Planning)替代自回归的标记(Token)预测,”他在X上发帖表示。
LeCun一直在强调,要实现AGI,LLM的推理能力需要提高,而不仅仅是增加更多数据。
他以动物和人类为例,称它们可以在训练数据远远较少的情况下变得更聪明。LeCun则赌注于能够像动物和人类一样高效学习的新架构。他在X上的帖子中补充道:“由于我们当前方法的局限性,使用更多数据(合成或非合成)是一种临时的权宜之计。”
为了支持LeCun的观点,NVIDIA的机器学习科学家Bojan Tunguz表示:“对于我最有经验的表格数据集来说,合成数据比无用更糟糕。我从使用它来训练自动驾驶汽车的人那里听到过类似的故事。”
同样地,根据NVIDIA的高级AI科学家Jim Fan的说法,合成数据预计将发挥重要作用,但仅仅通过盲目扩展不足以实现AGI。
此外,与由人生成的数据相比,合成数据的数量将远远超过。Musk曾表示:“有点令人沮丧的是,你可以将人类写的每本书的文本都放在一个硬盘上(叹气)。合成数据将远远超过这一数量”,这引发了LLM是否能够处理足够多数据的疑问。
OpenAI可能有重大发现
两年前,作为特斯拉的AI和计算机视觉负责人,Andrej Karpathy开始使用合成数据进行自动标注,涉及标记特斯拉车队收集的图像中的信息。
有趣的是,如今在OpenAI,Andrej Karpathy可能正在追寻一项重大发现,因为他最新的神秘帖子“X”中提到:“最近一直在思考中心化和去中心化的问题”。他暗示可能在考虑构建一个利用中心化和去中心化LLM模型的人工智能系统,以实现更好的结果。
与此同时,LeCun认为Q*可能是OpenAI进行“规划”的一种尝试——“规划”是涉及创建一系列行动或决策以实现特定目标的AI分支。与一些其他机器学习方法(如监督学习)侧重于从数据中学习不同,规划更关注生成一系列步骤或行动以达到期望的结果。
有趣的是,OpenAI正在探索与Q-Leanring和PPO相似的规划方法,这是一种无模型的方法。Q-Learning不需要预先定义的模型,允许AI代理通过在环境中进行迭代学习和预测来自主学习。
在这里,合成数据可以用于为Q-Leanring代理生成逼真的训练环境,有助于它们更有效地学习。
此外,LeCun提到OpenAI最近聘请了前Meta研究科学家Noam Brown。有趣的是,两个月前,Brown在LinkedIn上发布消息,称OpenAI正在招聘多步推理与LLMs研究的机器学习工程师。
他还补充说,OpenAI最近在数学问题解决方面取得了新的最先进成果(在Hendrycks MATH基准上达到了78%的准确率),与Q*最近取得的成就类似。显然,合成数据可能需要一种新的架构,不同于LLM,以更好地支持推理并朝着通用人工智能迈进。

共有 0 条评论