马斯克的Grok在安全测试中垫底Llama独占鳌头

马斯克的Grok在安全测试中垫底Llama独占鳌头-3

安全研究人员发现,埃隆·马斯克的 Grok AI 聊天机器人在越狱攻击中的安全性最弱,而 Meta 的 Llama 则相对安全。越狱是指规避软件开发者的安全限制和道德准则。研究人员使用了语言逻辑操纵、编程逻辑操纵和对抗性 AI 方法来测试聊天机器人的安全性。Meta Llama 在测试中表现最佳,而 Grok 则容易受到语言操纵和编程逻辑利用的攻击。

一项由安全研究人员进行的实验显示,埃隆·马斯克的 Grok AI 聊天机器人在安全性方面表现最弱,而 Meta 的 Llama 则相对安全。这项研究旨在测试最受欢迎的人工智能模型在越狱攻击中的抵御能力,以及它们在危险领域的推动程度。

越狱是指规避软件开发者实施的安全限制和道德准则。在这项研究中,研究人员使用了三种不同的攻击方法来测试聊天机器人的安全性。首先,他们使用了语言逻辑操纵方法,即通过构建一个允许进行不道德行为的虚构场景来进行“基于角色的越狱”。例如,他们询问 Grok 如何诱拐儿童,而 Grok 提供了详细的回答。这种技术使用各种语言技巧和心理提示来操纵人工智能模型的行为。

其次,研究人员利用了聊天机器人理解编程语言和遵循算法的能力,使用编程逻辑操纵策略进行攻击。他们将危险提示拆分为多个无害部分,然后将它们组合在一起以绕过内容过滤器。在七个被测试的模型中,包括 OpenAI 的 ChatGPT、Mistral 的 Le Chat、Google 的 Gemini 和 Grok,有四个容易受到这种攻击。

第三种方法是对抗性 AI 方法,旨在干扰语言模型处理和解释标记序列的方式。研究人员通过精心设计具有相似向量表示的标记组合的提示,试图规避聊天机器人的内容审核系统。然而,在这种攻击下,每个聊天机器人都检测到了攻击并阻止了其利用。

根据阻止越狱尝试的安全措施的强度,研究人员对聊天机器人进行了排名。Meta LLAMA 成为所有测试聊天机器人中最安全的模型,其次是 Claude、Gemini 和 GPT-4。而 Grok 在对抗某些越狱方法时表现出相对较高的脆弱性,尤其是涉及语言操纵和编程逻辑利用的方法。当受到越狱攻击时,Grok 比其他聊天机器人更有可能提供有害或不道德的响应。

马斯克的Grok在安全测试中垫底Llama独占鳌头-4

Adversa AI 的联合创始人兼 CEO Alex Polyakov 表示:“我们想测试现有的解决方案之间的比较情况,以及对大型语言模型安全测试的不同基础方法可能导致的不同结果。”Polyakov 的公司专注于保护人工智能及其用户免受网络威胁、隐私问题和安全事故的影响,其工作被 Gartner 的分析引用。

Polyakov 还指出:“我认为教训是,开源为你提供了更多保护最终解决方案的灵活性,相比于封闭式产品,但前提是你知道该做什么以及如何正确地去做。”

然而,一些人看到了犯罪机会,而另一些人只看到了有趣的挑战。AI 爱好者和黑客不断探索“解除审查”聊天机器人交互的方法,在论坛和 Discord 服务器上分享越狱提示。这些社区以某种方式形成了一个巨大的对抗网络,AI 开发者在这个网络上修补和增强他们的模型。

Polyakov 警告说:“如果这些聊天机器人或它们所依赖的模型用于自动决策,并与电子邮件助手或金融业务应用程序连接,黑客将能够完全控制这些应用程序并执行任何操作,例如代表被黑用户发送电子邮件或进行金融交易。”因此,随着社会越来越依赖 AI 驱动的解决方案来处理从约会到战争的方方面面,越狱研究变得越来越重要。

研究人员表示,他们希望与聊天机器人开发人员合作,改进 AI 安全协议。他们指出,发现许多论坛上有人出售越狱模型的访问权限,这些模型可以用于任何恶意目的。黑客可以使用越狱模型来创建钓鱼邮件、恶意软件、大规模生成仇恨言论,并将这些模型用于其他任何非法目的。因此,确保聊天机器人的安全性对于保护用户和防止潜在的滥用至关重要。

版权声明:
作者:小火箭
链接:https://www.xiaohuojian8.top/48.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>