Mamba架构第一次做大!混合Transformer,打败Transformer

量子位
305次浏览

取两架构之长,混合模型Jamba诞生ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

丰色 发自 凹非寺ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

量子位 | 公众号 QbitAIISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

520亿参数,还是Mamba+Transformer混合架构。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

它的名字叫JambaISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

初步跑分显示:ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍
Mamba架构第一次做大!混合Transformer,打败Transformer
  • 一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济。
Mamba架构第一次做大!混合Transformer,打败Transformer

这项成果,来自以色列AI公司AI21labsISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba原作者看了之后都激动转发:ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

绝对的“大新闻”。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

Mamba、Transformer,合体

由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

但它也有自己的缺点——ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本着“既要也要”的原则,Jamba站出来提供两全其美之作。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

Jamba由Transformer、Mamba和MoE层组成,可同时优化内存、吞吐量和性能。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

如下图所示,为了集成两种架构,Jamba采用块层(blocks-and-layers)组合的创新方法。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

简单来说,就是每个Jamba块包含一个注意力层或一个Mamba层,再跟一个多层感知器MLP,总体比例保证为每八层一个Transformer层ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

其次,Jamba利用MoE来增加模型参数的总量,同时简化推理中使用的活动参数量。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最终模型容量高了,计算需求也没有相应的增加。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而为了在单张GPU(80GB)上最大限度地提高模型吞吐量,Jamba还优化了所用MoE层和专家数量,最终为日常推理工作负载留出足够内存。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

值得一提的是,在推理时,Jamba的MoE层仅需520亿可用参数中的120亿,就能同时保证比同等大小的仅Transformer模型更高效。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

要知道,此前有人光是尝试过扩展Mamba,就没能做到30亿参数之上。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

因此,除了成功合体Mamba和Transformer,Jamba也达成了第二大成就:ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

同类中第一个达到生产级规模和质量的混合架构(SSM混Transformer)(ps. Mamba就是一种状态空间模型SSM)。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

吞吐量和效率up

初步评估显示,Jamba在吞吐量和效率等关键指标上表现出色。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

首先,Jamba可以在长上下文中提供3倍吞吐量,比Mixtral 8x7B等大小相当的Transformer模型都要高效。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

如下图所示,当上下文窗口达到128k时,Jamba的每秒token数近乎1500,而此时表现最好的Mixtral 8x7B应该才在500往上的样子。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

其次,在单张GPU上,Jamba最多可以容纳140k上下文,经济又高效。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

相比之下,Mixtral 8x7B为64k,Llama2 70B则仅为16k。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

第三,Jamba的输出质量也得到了保证。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在如下一系列推理基准上,4项中有3项它都拿下了SOTA。同时,在GSM8K等基准上,Jamba即使没有夺魁,也和SOTA模型打了个不相上下。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

总体来说,Jamba的性能接近Mixtral 8x7B。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

最后,作者提示,别忘了,这些都还只是初步改造后的结果,后续还有很多优化空间(比如MoE并行、更快的Mamba实现)。所以到时性能会更强。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

好消息:Jamba现在已经上线Hugging Face,并且划重点:采用apache-2.0许可ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

(Jamba的指令版本则将很快通过AI21labs平台上线。)ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

网友看完都感动哭了。ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败TransformerMamba架构第一次做大!混合Transformer,打败Transformer

传送门:
https://huggingface.co/ai21labs/Jamba-v0.1ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考链接:
[1]https://www.ai21.com/blog/announcing-jambaISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[2]https://www.ai21.com/jambaISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[3]https://twitter.com/AI21Labs/status/1773350888427438424?s=20ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[4]https://twitter.com/tri_dao/status/1773418926518734957?s=20ISo速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4416-0.htmlMamba架构第一次做大!混合Transformer,打败Transformer

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

长城汽车 2 月销量总计 71027 辆同比增长 4.12%,含哈弗品牌 44731 辆
3 月 5 日消息,长城汽车股份有限公司今日发布 2024 年 2 月产销快报,2 月合计销量 71027 辆,同比增长 4.12%;1-2 月合计销量 175057 辆,同比增长 34.91%。汇总各品牌销量情况如下:哈弗品牌:当月销量 44731 辆,去年同
限量150台 斯巴鲁WRX Club Spec Edition
近日,斯巴鲁发布了一张WRX Club Spec Edition的官图。该车型是为庆祝斯巴鲁WRX在澳大利亚上市30周年而推出的,配备STI风格大尺寸扰流板、Brembo刹车和Recaro运动座椅。新车在动力方面并未升级,搭载2.4T水平对置四缸
Stellantis宣布:5年向南美投资56亿欧元
3月7日,Stellantis集团宣布从2025年到2030年期间,集团将向南美洲投资56亿欧元。据悉,这将是南美洲汽车产业史上所获得的金额最大的投资。  值得一提的是,Stellantis集团将“南美洲、中东及非洲、中国、印度和亚太”
五菱和比亚迪同一天“出招”,抢滩纯电小车市场
  五菱和比亚迪同一天“出招”,抢滩纯电小车市场  五菱汽车和比亚迪选择在同一天加码纯电小型车市场。  3月6日,五菱汽车旗下五菱缤果PLUS正式上市,新车定位为A0级五门纯电SUV,为401km和510km两种续航,厂商指导价分
特斯拉纯视觉坚定跟随者!极越获中国光谷首张L3自动驾驶测试牌照
3月9日消息,在自动驾驶领域,特斯拉当前可以说是非常独特的,因为其坚持采用纯视觉方案,而非不少国内厂商使用的带有激光雷达的“融合感知”,不过有一家品牌则坚定地跟随特斯拉采用纯视觉,它正是极越汽车
消息称华为与北汽合作打造的“享界”首款车型 6 月发布,月销目标 1 万辆
3 月 10 日消息,据第一财经报道,日前一份关于北汽蓝谷的交流纪要显示,北汽蓝谷与华为合作的“享界”首款产品即将在北京车展亮相,6 月份发布。该车定位为行政轿车,内部定价 30 万~50 万元,享界后续车型规划包括但不

热点精选

最新推荐

您可能感兴趣