京产大模型成果登上国际顶级期刊

北京日报
53次浏览

当地时间1月28日,北京智源人工智能研究院的一项突破性研究成果在国际顶级学术期刊《自然》(Nature)上线,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2018年以来,GPT采用“预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而擅长同时处理文字、图片、视频等多种形态信息的多模态模型主要依赖对比学习、扩散模型等专门路线。在此背景下,一个重要问题困扰行业数年:能否用一种简单、统一的方法即自回归路线,让AI(人工智能)同时学会高效地处理文字、图片和视频?qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

智源这项名为“通过预测下一个词元进行多模态学习的多模态大模型”的成果给出了肯定的答案。该成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,这对于确立自回归成为生成式人工智能统一路线具有重大意义。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

记者了解到,长期以来,AI在学习不同类型的“感官”信息时,往往需要“分科而治”——理解文字用一套方法,生成图片用另一套,处理视频又需要不同的专业模型,过程复杂且协同起来较为困难。而智源研究院研发的Emu3模型,借鉴了GPT成功的关键思路“预测下一个词元”,成功统一了对文本、图像及视频的理解与生成能力。打个比方,就如同给AI找到了一个“万能学习法”,无论面对的是一段文字、一张照片,还是一段动态影像,AI都用同一种逻辑去分析和创造。实验表明,这种统一方法在图片生成、图文理解和视频创作等多个任务上,达到了与当前各类专用模型相当的水平,且具备更强的扩展潜力和通用性。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

《自然》编辑点评这项研究时表示,基于“预测下一个词元”,Emu3实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

值得一提的是,基于这一核心路径的迭代版本Emu3.5模型,已展现出对物理世界运行规律的初步学习与模拟能力,能够尝试预测场景的下一步变化,为发展更通用、更接近人类认知方式的大模型与智能体奠定了基础。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

据悉,自2020年启动“悟道”大模型研究以来,智源研究院持续聚焦大模型的原始创新与长期技术路径探索。2025年6月,智源发布新一代大模型系列成果“悟界”,目标是构建人工智能从数字世界迈向物理世界的关键能力,打造物理世界的人工智能基座模型。该系列模型包括:Emu系列多模态世界模型、RoboBrain跨本体具身大脑、数字孪生心脏、Brainμ脑科学多模态基础模型以及OpenComplex全原子生命模型等,共同构建起覆盖宏观具身智能、介于宏观和微观尺度的生命系统到微观构象动力学的多层次技术基座。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

当地时间1月28日,北京智源人工智能研究院的一项突破性研究成果在国际顶级学术期刊《自然》(Nature)上线,这是我国科研机构主导的大模型成果首次在《自然》正刊发表。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2018年以来,GPT采用“预测下一个词元(Next-token prediction,NTP)”的自回归路线,实现了语言大模型重大突破,开启了生成式人工智能浪潮。而擅长同时处理文字、图片、视频等多种形态信息的多模态模型主要依赖对比学习、扩散模型等专门路线。在此背景下,一个重要问题困扰行业数年:能否用一种简单、统一的方法即自回归路线,让AI(人工智能)同时学会高效地处理文字、图片和视频?qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

智源这项名为“通过预测下一个词元进行多模态学习的多模态大模型”的成果给出了肯定的答案。该成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,这对于确立自回归成为生成式人工智能统一路线具有重大意义。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

记者了解到,长期以来,AI在学习不同类型的“感官”信息时,往往需要“分科而治”——理解文字用一套方法,生成图片用另一套,处理视频又需要不同的专业模型,过程复杂且协同起来较为困难。而智源研究院研发的Emu3模型,借鉴了GPT成功的关键思路“预测下一个词元”,成功统一了对文本、图像及视频的理解与生成能力。打个比方,就如同给AI找到了一个“万能学习法”,无论面对的是一段文字、一张照片,还是一段动态影像,AI都用同一种逻辑去分析和创造。实验表明,这种统一方法在图片生成、图文理解和视频创作等多个任务上,达到了与当前各类专用模型相当的水平,且具备更强的扩展潜力和通用性。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

《自然》编辑点评这项研究时表示,基于“预测下一个词元”,Emu3实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

值得一提的是,基于这一核心路径的迭代版本Emu3.5模型,已展现出对物理世界运行规律的初步学习与模拟能力,能够尝试预测场景的下一步变化,为发展更通用、更接近人类认知方式的大模型与智能体奠定了基础。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

据悉,自2020年启动“悟道”大模型研究以来,智源研究院持续聚焦大模型的原始创新与长期技术路径探索。2025年6月,智源发布新一代大模型系列成果“悟界”,目标是构建人工智能从数字世界迈向物理世界的关键能力,打造物理世界的人工智能基座模型。该系列模型包括:Emu系列多模态世界模型、RoboBrain跨本体具身大脑、数字孪生心脏、Brainμ脑科学多模态基础模型以及OpenComplex全原子生命模型等,共同构建起覆盖宏观具身智能、介于宏观和微观尺度的生命系统到微观构象动力学的多层次技术基座。qRL速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-15082-0.html京产大模型成果登上国际顶级期刊

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

吉利李书福2024两会提案:支持汽车运动发展
2024年全国两会召开在即,全国政协委员、吉利控股集团董事长李书福提交《关于进一步支持汽车运动、促进汽车后市场高质量发展的提案》。当前背景  根据中国汽车工业协会统计,2023年,我国汽车产销突破3000万辆,其中新
2024年春运全社会跨区域人员流动量预计超84亿人次
为期40天的春运3月5日结束。记者从交通运输部获悉,2024年春运40天全社会跨区域人员流动量预计超84亿人次。其中,铁路客运量预计完成4.8亿人次;公路人员流动量预计完成78.3亿人次,其中高
广汽埃安 AION V Plus 车型 80 Max 版官降 2.3 万元,现价 20.99 万元
3 月 7 日消息,汽车领域的降价潮来袭,广汽埃安今日宣布 AION V Plus全系车型至高官降 2.3 万元。查询埃安官网发现,本次降价只涉及AION V Plus 的顶配车型 80 Max 版,原价23.29 万元,官降 2.3 万元,现价20.99 万元
2024 款腾势 D9 上市 12 小时大定 11287 辆,售价 33.98 万元起
3 月 7 日消息,2024 款腾势 D9 于昨晚(3 月 6 日)正式上市,共推出了两种动力 8 款车型,售价 33.98 万元起。腾势今日宣布,新车上市 12 小时大定 11287 辆。2024 款腾势 D9 延续上一代车型的外观设计风格,全系标配电
欧盟委员会:或对中国电动汽车征收追溯性关税
据路透社报道,日前,欧盟委员会发布紧急通知称,计划开始对从中国进口的纯电动汽车(BEVs)进行海关登记。报道称,此举为欧盟对中国电动汽车发起“反补贴调查”的一部分,若最终调查认定中国电车接受了所谓“不公平补贴”,欧盟
真末日座驾?这款特斯拉 Cybertruck 车罩可防电磁脉冲
3 月 10 日消息,特斯拉首席执行官埃隆・马斯克 (Elon Musk) 曾将自家的 Cybertruck 电动皮卡称为“终极末日座驾”,虽然当时许多人认为这只是玩笑话,但一些公司却当真了。近日,Mission Darkness 公司发布了一款专

热点精选

最新推荐

您可能感兴趣