10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

量子位
272次浏览

消费级GPU即可微调8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“只需”10万美元,训练Llama-2级别的大模型。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

尺寸更小但性能不减的MoE模型来了:8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

它叫JetMoE,来自MIT、普林斯顿等研究机构。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

性能妥妥超过同等规模的Llama-2。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

△贾扬清转发8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

要知道,后者可是数十亿美元级别的投入成本。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

不得说,大模型的打造成本,真的比人们想的要便宜更多了。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Ps. Stable Diffusion前老板Emad也点了赞:8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

它的注意力层中仍然使用了MoE:8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

每个MoA和MoE层又有8个专家,每次输入token激活2个。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

更多技术细节将在不久后发布的技术报告上揭露。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

同时,它还收获了不错的性能表现。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

如下图所示:8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

作者介绍

JetMoE一共4位作者,分别是:8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 国振 (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

传送门:
https://github.com/myshell-ai/JetMoE8H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
参考链接:
https://twitter.com/jiayq/status/17759358452054632928H4速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4591-0.html10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

五菱和比亚迪同一天“出招”,抢滩纯电小车市场
  五菱和比亚迪同一天“出招”,抢滩纯电小车市场  五菱汽车和比亚迪选择在同一天加码纯电小型车市场。  3月6日,五菱汽车旗下五菱缤果PLUS正式上市,新车定位为A0级五门纯电SUV,为401km和510km两种续航,厂商指导价分
张翔:新势力车企2月销量为何显著下滑?
  中新经纬3月7日电 题:新势力车企2月销量为何显著下滑?  作者 张翔 北方工业大学汽车产业创新研究中心研究员  1-2月新势力车企销量/交付量情况  近期,新势力车企陆续公布了2月份的销量或交付量成绩单。从数据
合资车豁出去了!新一代现代索纳塔上市定档:预售仅15万起
3月9日消息,据北京现代汽车官方,旗下全新一代(第十一代)中型轿车索纳塔将于本月26日正式上市。新车将采用全新的设计理念,提供1.5T和2.0T两种规格,最近该车已经开启预售,价格为15-17万元,要说诚意,那必然
聚焦两会丨专访全国人大代表、温州医科大学校长李校堃:提升老龄化社会生活质量,支持康复医学设一级学科
21世纪经济报道记者柳宁馨,实习生徐翌轩 北京报道今年的全国两会,养老和健康依然是热门话题。3月5日,国务院总理李强作政府工作报告,其中提到加强健康、养老等民生科技研发应用,深入开展
胡麒牧:7年亏损超72亿,海马汽车氢能汽车之路还能走多远?
  中新经纬3月8日电 题:7年亏损超72亿,海马汽车氢能汽车之路还能走多远?  作者 胡麒牧 清华大学战略新兴产业研究中心副主任  海马汽车3月5日晚间披露的最新产销数据显示,2024年2月公司销量628辆,同比下降81.41%;本年
睿蓝 7 猎光 Max 开启交付:吉利“龙鹰一号”车规芯片,售价 17.37 万元
3 月 11 日消息,睿蓝汽车日前宣布,睿蓝 7 猎光 Max 车型开启交付,售价 17.37 万元。睿蓝 7 最早于 2023 年 9 月 21 日上市,当前提供 8 款车型,官方指导价区间在 11.77 万-17.97 万元。与睿蓝 7 猎光版相比,猎光 Ma

热点精选

最新推荐

您可能感兴趣