新开源之王来了!1320亿参数,还比Llama2-70B快1倍

量子位
298次浏览

12T token从头训练UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“最强”开源大模型之争,又有新王入局:UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

包括同为混合专家模型的Grok-1和Mixtral。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

新王搅局,迅速引发了开源社区的热议。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

△DBRX vs Llama2-70BUCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,远高于Chinchilla定律推荐量。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

网友们的第一反应be like:UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

首席科学家:打赌输了就把头发染蓝

来看DBRX的具体细节。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

一个细节是,团队向Wired透露,经过两个月的训练之后,DBRX已经在基准测试中取得了不错的分数。而在那个时候,他们买的云资源还能再跑一个星期。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

团队因此产生了小小的分歧:是用这些资源来训练一个小杯版本,还是再投喂给模型一些高质量数据,用课程学习(curriculum learning)的方法来提高DBRX在一些特定任务上的能力?UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

经过一番热烈的内部讨论,Databricks团队最终决定走课程学习路线。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

正是这一决策使他们收获颇丰:UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Databricks首席科学家Jonathan Frankle(就叫他老弗吧)认为,课程学习使得DBRX“产生了有意义的变化”UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

具象化一点来说,就是老弗本来觉得DBRX可能搞不太定代码生成,还打赌说如果他判断错了,就去把头发染成蓝色。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而这是他的最新照片:UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

回到正题,DBRX的测试结果显示,它在语言理解、编程、数学和逻辑方面都达到了SOTA,击败包括Llama2-70B、Mixtral和Grok-1在内的一众开源大模型。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

还在大多数基准测试中都击败了GPT-3.5。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

Databricks这次开源了DBRX的两个版本:DBRX Base和DBRX Instruct,前者是预训练基础模型,后者则经过指令微调。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

老弗还对Wired透露,他们团队接下来计划对模型训练的那个“最后一周”展开研究,看看DBRX这样强大的模型是如何在其中收获额外技能的。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

值得一提的是,去年6月,Databricks以13亿美元(约93亿人民币)的价格,买下了仅62名员工的AI初创公司MosaicML——UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

就是发布了MPT系列开源模型的那家。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

老弗当时就是MosaicML的首席科学家。此后,他和他的团队一起留在了Databricks。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

开源社区嗨翻

DBRX发布不到4小时,已经有人把它成功部署到苹果M2芯片笔记本电脑上了。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

而大模型竞技场也第一时间开放了DBRX-instruct的投票。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

不过,也有人对DBRX的“开源”提出了质疑:UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新开源之王来了!1320亿参数,还比Llama2-70B快1倍

根据Databricks公布的协议,基于DBRX打造的产品,如果月活超过7亿,就必须另行向Databricks提交申请。UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考连接:
[1]https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llmsUCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[2]https://github.com/databricks/dbrxUCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[3]https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

— 完 —UCS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4375-0.html新开源之王来了!1320亿参数,还比Llama2-70B快1倍

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

斯洛伐克发生首起电动车起火事件,窜上热搜引发当地全民讨论
3 月 6 日消息,电动汽车起火早已不是什么新鲜的事情了,不过对于斯洛伐克共和国的车主来说,上周发生的大众 ID.3 电动汽车起火却是该国首起此类事件,迅速窜上斯洛伐克的热搜。当地媒体大肆宣传这是“该国有史以来
领克 07 EM-P 车型亮相:“首发独创”激光雕刻纹理、可选“深海蓝 + 白 灰调”风格
3 月 8 日消息,在目前正在进行的“领克07 EM-P车型全球首秀展示会上”,官方介绍了这款车型的内饰设计,号称采用“The Next Day”设计语言打造,口号为“原创,不模仿”。从外观来看,领克07换用领克08及领克06 EM-P“
专访全国人大代表、宜昌市市长马泽江:打造“电化长江”示范区,构筑长江经济带中上游新增长极
21世纪经济报道记者吴文汐 北京报道 “三峡门户”宜昌地处长江经济带重要节点,是湖北省域副中心城市,也是长江中游城市群中的重要成员。2023年,宜昌实现经济增速7.1%,居湖北全省前列;经
网约车追尾1000万兰博基尼:300万三者险非常有必要买!
3月9日消息,开车上路,保险一定要买,而且要尽可能地买多一些,比如300万的三者险,以防万一。近日,一起“非常贵”交通事故的发生,引起了网民广泛关注和讨论。据网传信息显示,本月8日在浙江杭州,有男孩发视频
全球游戏开发者大会 2024 定档 3 月 18 日召开,微软英伟达腾讯网易等厂商参会
3 月 11 日消息,据全球游戏开发者大会官网消息,全球游戏开发者大会2024(Game Developers Conference 2024)将于北京时间 3 月 18 日至 3 月 22 日在旧金山召开。据介绍,本次大会以“AI”为关键词,官方将围绕相关话
将新增插混版本 全系别克GL8清晰谍照
近日,从相关渠道得到了一组全新别克GL8的清晰测试谍照,为我们提前揭秘新一代车型的样貌,据悉,新一代GL8除了纯燃油版,还有望推出插混版本,将与腾势D9等中国品牌MPV展开竞争。『全新别克GL8谍照』  外观方面,全新别克GL

热点精选

最新推荐

您可能感兴趣