魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

量子位
331次浏览

已在抱抱脸开源ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

这两种序列模型以RWKV-4架构为基础,然后作了改进。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

新模型Eagle和Finch

此次更新的RWKV,共包含6个模型,分别是:ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小;
2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

基准测试结果如何?

光有架构创新还不够,关键要看模型的实际表现。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

来看看新模型在各大权威评测榜单上的成绩——ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

MQAR测试结果

MQAR (Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在这类任务中,模型需要通过给定的多个查询来检索相关的信息。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

长上下文实验

在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

(所有模型均基于上下文长度4096进行预训练)。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

速度和显存基准测试

速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

多语言任务表现

日语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

西班牙语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

阿拉伯语

日语-英语

下一步工作

以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

目前,彭博在Github有2.1k的followers。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)。ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

接下来,RWKV的重点工作将放在以下几个方向:ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项);
  • 训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。
  • 对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。

论文链接:ane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

https://arxiv.org/pdf/2404.05892.pdfane速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4819-0.html魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

聚焦两会|多位代表委员热议民营经济促进法立法:让民企吃下法治“定心丸”
21世纪经济报道 记者钟雨欣 郑雪 北京报道民营经济已经成为推动我国发展不可或缺的力量,成为创业就业的主要领域、技术创新的重要主体、国家税收的重要来源,在我国经济发展中发挥着重
全国政协委员陈伟志:规范学校办学,把课间十分钟还给学生
21世纪经济报道记者王峰 北京报道 当前,不少中小学“课间十分钟消失”,十分不利于学生身心健康发展。全国政协委员、民革中央委员、上海新纪元教育集团董事长陈伟志发现,从现实情况看,
专访全国人大代表、天津市滨海新区区长单泽峰:把握新质生产力,加强与北京科技创新体系融合
21世纪经济报道记者周慧 实习生刘龙珠北京报道2024年是京津冀协同发展上升为国家战略十周年,2024年政府工作报告提出,支持京津冀、长三角、粤港澳大湾区等经济发展优势地区更好发挥高
专访全国人大代表、宜昌市市长马泽江:打造“电化长江”示范区,构筑长江经济带中上游新增长极
21世纪经济报道记者吴文汐 北京报道 “三峡门户”宜昌地处长江经济带重要节点,是湖北省域副中心城市,也是长江中游城市群中的重要成员。2023年,宜昌实现经济增速7.1%,居湖北全省前列;经
两会闻风|统一标准、完善法律,代表委员热议新能源汽车
  中新经纬3月6日电 (董文博)作为国民经济的重要支柱产业之一,汽车产业发展情况备受各界关注。2024年政府工作报告指出,中国新能源汽车产销量占全球比重超过60%。  今年全国两会期间,新能源汽车也是不少代表委员关注
将新增插混版本 全系别克GL8清晰谍照
近日,从相关渠道得到了一组全新别克GL8的清晰测试谍照,为我们提前揭秘新一代车型的样貌,据悉,新一代GL8除了纯燃油版,还有望推出插混版本,将与腾势D9等中国品牌MPV展开竞争。『全新别克GL8谍照』  外观方面,全新别克GL

热点精选

最新推荐

您可能感兴趣