我国大模型成果首次登上《自然》正刊

北京青年报
55次浏览

近日,北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》,预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2018年以来,GPT采用“预测下一个词元(NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

智源研究院提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

实验显示,Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合CLIP和大语言模型的主流方案比肩。此外,Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是,智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

《自然》编辑点评这项研究:Emu3仅基于预测下一个词元,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

近日,北京智源人工智能研究院的多模态大模型成果“通过预测下一个词元进行多模态学习的多模态大模型”上线国际顶级学术期刊《自然》,预计2月12日纸质版正式刊发,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2018年以来,GPT采用“预测下一个词元(NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而多模态模型主要依赖对比学习、扩散模型等专门路线,自回归路线是否可以作为通用路线统一多模态?一直是未解之谜。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

智源研究院提出的Emu3模型,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的Transformer。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

实验显示,Emu3在生成与感知任务上的整体表现可与多种成熟的任务专用模型相媲美:在文生图任务中,其效果达到扩散模型水平;在视觉语言理解方面,可以与融合CLIP和大语言模型的主流方案比肩。此外,Emu3还具备视频生成能力。不同于以噪声为起点的扩散式视频生成模型,Emu3通过自回归方式逐词元(token)预测视频序列,实现基于因果的视频生成与延展,展现出对物理世界中环境、人类与动物行为的初步模拟能力。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。值得一提的是,智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

《自然》编辑点评这项研究:Emu3仅基于预测下一个词元,实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。wBw速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-15087-0.html我国大模型成果首次登上《自然》正刊

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

前2个月我国货物贸易进出口增长8.7%
据海关统计,2024年前2个月,我国货物贸易(下同)进出口总值6.61万亿元人民币,同比(下同)增长8.7%。其中,出口3.75万亿元,增长10.3%;进口2.86万亿元,增长6.7%;贸易顺差8908.7亿元,扩大23.6%。按美元
南财对话|全国政协委员周厚立:发挥“侨”优势,探索“香港+汕头”风电合作路径
南方财经全媒体记者梁施婷今年汕头提出“工商并举”的发展思路,谋求在新一轮经济发展中抢得先机。全国政协委员、广东省工商联常委、中怡国际控股有限公司主席周厚立对此在今年全国两
领克 07 EM-P 车型亮相:“首发独创”激光雕刻纹理、可选“深海蓝 + 白 灰调”风格
3 月 8 日消息,在目前正在进行的“领克07 EM-P车型全球首秀展示会上”,官方介绍了这款车型的内饰设计,号称采用“The Next Day”设计语言打造,口号为“原创,不模仿”。从外观来看,领克07换用领克08及领克06 EM-P“
东风风行:豪华新能源MPV定名风行星海V9
近日,从官方获悉,东风风行豪华新能源MPV定名风行星海V9,将于4月开启预售。此前,该车在2023慕尼黑车展亮相,动力上搭载了1.5T发动机和电动机组成的混动系统。官方表示,风行星海V9将瞄准20-30万中高端MPV市场,以宜家宜商全
【财眼观两会】专访汽车流通协会郎学红:汽车以旧换新或撬动1000万辆市场增量
  中新经纬3月7日电 (宋亚芬)汽车消费等大宗消费一直是中国政府促进消费的工作重点,今年也不例外。2024年的政府工作报告提出要“稳定和扩大传统消费,鼓励和推动消费品以旧换新,提振智能网联新能源汽车、电子产品等大
全新普拉多白车身下线 将进入量产阶段
近日,从一汽丰田获悉,全新普拉多白车身顺利在一汽丰田成都工厂下线,标志着新车即将进入量产阶段。目前,全新普拉多已经开启预售,新车共推出包括UN、ALR、ADV、LUX HI在内的四种级别,价格区间为47-57万元。2月29日,全新普

热点精选

最新推荐

您可能感兴趣