弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

量子位
342次浏览

大智若愚了还是大于弱智了?Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

其他平台围观网友也纷纷蚌埠住。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

弱智吧数据究竟如何达成这一成就,具体到论文中看。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
  • 不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
  • 即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIALq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-SubsetLq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在众多数据来源中,弱智吧成了最特别的一个。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

看来小模型还没能领悟弱智的精髓。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

到了Yi-34B,弱智吧版本表现就一骑绝尘了。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

另外,在安全评估上弱智吧版本也能排上第二。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

对于这类现象,研究人员在分析中也给出简单猜测:Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧上大分

这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

另一个原因是弱智吧数据文本质量很高,用词准确且简洁Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

一开始只是网友拿来拷打AI,搞搞节目效果。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

后续版本也渐入佳境了,如2023年8月的文心一言:Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

秘塔写作猫Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

InspoLq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

思路确实是被打开了~Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

论文地址:
https://arxiv.org/abs/2403.18058Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/9hills/status/1775358963724554410Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[2]https://zhuanlan.zhihu.com/p/690640864Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[3]https://tieba.baidu.com/p/8964992247Lq3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4574-0.html弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

内外全方位升级 新款现代IONIQ 5官图
近日,现代官方发布了新款IONIQ(艾尼氪)5的官图,新车的内外设计均有调整,涉及多方面的升级,并且会搭载更大容量的电池组。  新款IONIQ 5拥有新样式的前保险杠,在与老款保持同样的梯形风格下,增加了黑色装饰。在侧面我
大力发展绿色低碳经济,碳市场今年将扩围丨解码政府工作报告
21世纪经济报道记者 李德尚玉 北京报道 3月5日,国务院总理李强在政府工作报告中提出,要加强生态文明建设,推进绿色低碳发展。深入践行绿水青山就是金山银山的理念,协同推进降碳、减污、
起草组负责人解读政府工作报告:促消费稳增长,今年更加注重统筹扩大内需和深化供给侧结构性改革|解码政府工作报告
21世纪经济报道记者 李莎 北京报道 2024年3月5日,国新办举行吹风会,对政府工作报告进行解读。政府工作报告将今年经济增长目标定为5%左右,城镇新增就业目标1200万人以上,城镇调查失业率5
北汽集团布局海外市场,计划在韩国高阳年产 20 万辆电动汽车
3 月 7 日消息,据 Chosunbiz 报道,韩国高阳市 3 月 6 日宣布,已与中国汽车公司北京汽车签署谅解备忘录,将在高阳自由经济区所在地建设大型电动汽车生产设施。通过该协议,北京汽车将在高阳自由经济区投资约 200 万
专访全国人大代表、泉州市市长蔡战胜: “晋江经验”最鲜明的特色就是咬住实体经济发展不放松
21世纪经济报道记者周慧 实习生刘龙珠 北京报道 民营经济发展是2024年全国两会上代表委员关注的热点话题。政府工作报告提出,全面落实促进民营经济发展壮大的意见及配套举措,进一步解
人社部部长王晓萍:人工智能、大数据等专业人才需求旺盛 我国就业结构性矛盾仍待破解
21世纪经济报道记者 缴翼飞 实习生 张晓慧 北京报道3月9日,人力资源和社会保障部部长王晓萍在第十四届人大二次会议的民生主题记者会上表示,过去一年我国就业局势持续改善,全年城镇新增

热点精选

最新推荐

您可能感兴趣