谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

量子位
227次浏览

114倍信息压缩my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

明敏 发自 凹非寺my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

量子位 | 公众号 QbitAImy2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌大改Transformer,“无限”长度上下文来了。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTAmy2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这就是谷歌最新提出的Infini-attention机制(无限注意力)。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

什么概念?my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

就是在内存大小不变的情况下,放进去114倍多的信息。好比一个存放100本书的图书馆,通过新技术能存储11400本书了。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这项最新成果立马引发学术圈关注,大佬纷纷围观。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

加之最近DeepMind也改进了Transformer架构,使其可以动态分配计算资源,以此提高训练效率。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

有人感慨,基于最近几个新进展,感觉大模型越来越像一个包含高度可替换、商品化组件的软件栈了。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

引入压缩记忆

该论文核心提出了一种新机制Infini-attention。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

它通过将压缩记忆(compressive memory)整合到线性注意力机制中,用来处理无限长上下文。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制,它能通过更小的计算开销来检索和更新长期记忆。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在Infini-attention中,旧的KV状态({KV}s-1)被存储在压缩记忆中,而不是被丢弃。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

通过将查询与压缩记忆中存储的键值进行匹配,模型就可以检索到相关的值。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

PE表示位置嵌入,用于给模型提供序列中元素的位置信息。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

对比来看Transformer-XL,它只缓存最后一段KV状态,在处理新的序列段时就会丢弃旧的键值对,所以它只能保留最近一段的上下文信息。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

对比几种不同Transformer模型可处理上下文的长度和内存占用情况。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Infini-attention能在内存占用低的情况下,有效处理非常长的序列。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

Infini-attention在训练后,分化出了两种不同类型的注意力头,它们协同处理长期和短期上下文信息。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 专门化的头(Specialized heads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gating score)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。
  • 混合头(Mixer heads):这些头的门控得分接近0.5,它们的作用是将当前的上下文信息和长期记忆内容聚合到单一的输出中。
谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

研究团队将训练长度增加到100K,在Arxiv-math数据集上进行训练。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在长下文语言建模任务中,Infini-attention在保持低内存占用的同时,困惑度更低。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

对比来看,同样情况下Memorizing Transformer存储参数所需的内存是Infini-attention的114倍。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

消融实验比较了“线性”和“线性+增量”记忆两种模式,结果显示性能相当。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

实验结果显示,即使在输入只有5K进行微调的情况下,Infini-Transformer可成功搞定1M长度(100万)的passkey检索任务。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

在处理长达500K长度的书籍摘要任务时,Infini-Transformer达到最新SOTA。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

Bard成员参与研究

该研究由谷歌团队带来。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

其中一位作者(Manaal Faruqui)在Bard团队,领导研究Bard的模型质量、指令遵循等问题。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

最近,DeepMind的一项工作也关注到了高效处理长序列数据上。他们提出了两个新的RNN模型,在高效处理长序列时还实现了和Transformer模型相当的性能和效率。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

感觉到谷歌最近的研究重点之一就是长文本,论文在陆续公布。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

网友觉得,很难了解哪些是真正开始推行使用的,哪些只是一些研究员心血来潮的成果。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

不过想象一下,如果有一些初创公司专门做内存数据库,但是模型能已经能实现无限内存了,这可真是太有趣了。my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

论文地址:
https://arxiv.org/abs/2404.07143my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考链接:
[1]https://twitter.com/Joby_Fi/status/1778240236201386072my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[2]https://twitter.com/omarsar0/status/1778480897198612839my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[3]https://twitter.com/swyx/status/1778553757762252863my2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4818-0.html谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

长城汽车 2 月销量总计 71027 辆同比增长 4.12%,含哈弗品牌 44731 辆
3 月 5 日消息,长城汽车股份有限公司今日发布 2024 年 2 月产销快报,2 月合计销量 71027 辆,同比增长 4.12%;1-2 月合计销量 175057 辆,同比增长 34.91%。汇总各品牌销量情况如下:哈弗品牌:当月销量 44731 辆,去年同
“新能源汽车第一城”再易主,深圳大幅超车,还有这些城市在踩油门
  “新能源汽车第一城”再易主,深圳大幅超车,还有这些城市在踩油门  2023年各地新能源汽车产量陆续公布,深圳首次登上全国第一的宝座,上海、西安分列二三位。  由此,最近三年的“新能源汽车第一城”三度易主,2021年、
特斯拉 Cybertruck 纯电皮卡防弹测试
3 月 9 日消息,数码评测频道 JerryRigEverything 在最新一期视频中,使用不同口径、不同的武器,专门评测了特斯拉 Cybertruck 纯电皮卡的防弹性能。此前报道,马斯克给出了更具体的解释:“车门板对几乎所有亚音速子
专访全国人大代表、辽宁大学校长余淼杰:发展新质生产力归根结底要靠创新人才
21世纪经济报道记者 贺佳雯 实习生 王雅琪 北京报道2024年是全国人大代表、辽宁大学校长余淼杰第二年上两会。和去年一样,他带来了厚厚一沓建议,今年的建议有8份,既有涉及出口外贸、改
“新质生产力”彻底火了!8000字解读
“新质生产力”正成为市场关注的焦点!今年两会的政府工作报告中提出,大力推进现代化产业体系建设,加快发展新质生产力。与此同时,“新质生产力”概念持续发酵,相关个股走势强劲,2月以来“
全球游戏开发者大会 2024 定档 3 月 18 日召开,微软英伟达腾讯网易等厂商参会
3 月 11 日消息,据全球游戏开发者大会官网消息,全球游戏开发者大会2024(Game Developers Conference 2024)将于北京时间 3 月 18 日至 3 月 22 日在旧金山召开。据介绍,本次大会以“AI”为关键词,官方将围绕相关话

热点精选

最新推荐

您可能感兴趣