Transformer并非万能Jamba在效率和吞吐量上大幅超越

“
AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在多任务语言理解上尚未领先。该公司计划提供beta版本,展现其在AI领域的创新潜力。
自2017年《注意力是你所需要》的研究论文发表以来,transformers技术便在人工智能领域占据了主导地位。 然而,AI21 Labs最近提出的Jamba技术,展示了一种超越传统transformers的新路径。
Transformer的局限性
尽管transformers至今在AI领域占据主导地位,但它仍有不足之处。最显著的问题是,随着上下文窗口的扩大,推理过程会相应变慢。AI21 Labs的研究人员指出,transformer的注意力机制随着序列长度的增加而变得复杂,导致吞吐量下降,因为每个token的处理都依赖于它之前的所有序列。这使得处理长上下文的任务难以高效完成。
另一个问题是,transformers在扩展过程中需要大量的内存资源。随着上下文长度的增加,transformers的内存占用也随之增加,这使得在没有充足硬件资源的情况下,难以处理长上下文或大量并行任务。
Mamba SSM架构最初由卡内基梅隆大学和普林斯顿大学的研究人员提出,其内存需求较低,采用了一种新的注意力机制来处理长上下文。但Mamba方法在输出水平上难以与transformer模型相媲美。
Jamba:融合Mamba模型和Transformer架构
为了充分发挥 Mamba 和 Transformer 架构的优点,AI21 Labs开发了相应的联合注意力和 Mamba (Jamba) 架构。Jamba 由 Transformer、Mamba 和专家混合 (MoE) 层组成,可同时优化内存、吞吐量和性能。
Jamba的名称代表了联合注意力与Mamba(Joint Attention and Mamba)架构,其目标是融合SSM与transformers的优势,并将以Apache 2.0许可协议的形式开源发布。

要成功扩展 Jamba 的混合结构,需要进行多项核心架构创新。
如下图所示,AI21 的 Jamba 架构采用块和层方法,使 Jamba 能够成功集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层,后跟一个多层感知器 (MLP),从而产生每八层中一个 Transformer 层的总体比例。

第二个功能是利用 MoE 来增加模型参数的总数,同时简化推理中使用的活动参数的数量,从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量,我们优化了所使用的 MoE 层和专家的数量,为常见推理工作负载留下了足够的可用内存。
Jamba:特定场景内优于Transformer
Jamba 在吞吐量和效率等关键衡量指标上表现出色。其初步性能已经达到了令人印象深刻的里程碑。
AI21 Labs的Jamba模型提供了一个256K的上下文窗口,与Mixtral 8x7B相比,在处理长上下文时的吞吐量提高了3倍。

AI21 Labs还声称,Jamba是同类模型中唯一一个能在单个GPU上处理高达140K上下文的模型。

尽管Jamba短期内不太可能取代现有的基于transformer的大型语言模型(LLM),但它可能在特定领域成为有益的补充。
AI21 Labs表示,Jamba在生成型推理任务上,如HellaSwag基准测试所显示的,能够超越传统的基于transformer的模型。然而,在其他重要基准测试,比如大规模多任务语言理解(MMLU)上,Jamba目前还未能超越基于transformer的模型。

迄今为止,AI21 Labs的大型语言模型(LLM)技术一直基于transformer架构,与业界其他LLM技术无异。就在一年多前,公司推出了Jurassic-2 LLM系列,这是AI21 Studio自然语言处理(NLP)服务的一部分,同时也可通过API供企业集成使用。Jamba并非Jurassic的进阶版本,而是一种结合了SSM和transformer的全新混合模型。
值得一提的是,Jamba与Mixtral一样,采用了专家混合(MoE)模型。不过,Jamba将MoE作为其混合SSM Transformer方法的一部分,实现了极高的优化水平。具体来说,Jamba的MoE层使其在推理过程中仅激活了52B参数中的12B,据AI21 Labs称,这使得这些活跃参数的效率超过了同等规模的纯transformer模型。
尽管Jamba仍处于早期阶段,尚未成为AI21 Labs企业产品的一部分,但公司计划不久后在AI21平台上提供beta版本的指令。这一新模型的开发,不仅是AI21 Labs在技术创新上的一次尝试,也可能为AI领域带来新的发展方向。随着AI技术的不断进步,Jamba或许能在特定领域内提供更高效、更优化的解决方案,为AI的未来开辟新的可能性。
AI21 Labs专注于开发适用于企业场景的生成型AI。该公司在2023年8月成功筹集了1.55亿美元资金,以推动其业务的扩展。AI21 Labs提供的企业工具之一是Wordtune,这项服务旨在帮助企业生成与其品牌语调相匹配的内容。AI21 Labs在2023年向媒体透露,公司在与生成型AI领域的巨头OpenAI竞争企业客户时,经常能够取得胜利。

共有 0 条评论