弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

量子位
367次浏览

大智若愚了还是大于弱智了?Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

其他平台围观网友也纷纷蚌埠住。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

弱智吧数据究竟如何达成这一成就,具体到论文中看。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
  • 不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
  • 即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIAKzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-SubsetKzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在众多数据来源中,弱智吧成了最特别的一个。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

看来小模型还没能领悟弱智的精髓。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

到了Yi-34B,弱智吧版本表现就一骑绝尘了。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

另外,在安全评估上弱智吧版本也能排上第二。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

对于这类现象,研究人员在分析中也给出简单猜测:Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧上大分

这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

另一个原因是弱智吧数据文本质量很高,用词准确且简洁Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

一开始只是网友拿来拷打AI,搞搞节目效果。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

后续版本也渐入佳境了,如2023年8月的文心一言:Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

秘塔写作猫Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

InspoKzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

思路确实是被打开了~Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

论文地址:
https://arxiv.org/abs/2403.18058Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/9hills/status/1775358963724554410Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[2]https://zhuanlan.zhihu.com/p/690640864Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[3]https://tieba.baidu.com/p/8964992247Kzz速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4574-0.html弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

春运期间广铁集团累计到发旅客近1.4亿人次,60岁以上人群出行量同比增近30%
南方财经全媒体见习记者谭海燕 广州报道3月5日,为期40天的2024年春运正式落下帷幕。南方财经全媒体记者从广铁集团获悉,今年春运广铁集团累计到发旅客1.39亿人次,创春运历史新高。上
中国对瑞士等6国试行免签政策
为进一步促进中外人员往来,中方决定扩大免签国家范围,对瑞士、爱尔兰、匈牙利、奥地利、比利时、卢森堡6个国家持普通护照人员试行免签政策。2024年3月14日至11月30日期间,上述国家持普
南财对话|全国政协委员周厚立:发挥“侨”优势,探索“香港+汕头”风电合作路径
南方财经全媒体记者梁施婷今年汕头提出“工商并举”的发展思路,谋求在新一轮经济发展中抢得先机。全国政协委员、广东省工商联常委、中怡国际控股有限公司主席周厚立对此在今年全国两
全国政协委员陈伟志:规范学校办学,把课间十分钟还给学生
21世纪经济报道记者王峰 北京报道 当前,不少中小学“课间十分钟消失”,十分不利于学生身心健康发展。全国政协委员、民革中央委员、上海新纪元教育集团董事长陈伟志发现,从现实情况看,
官改车型来了:比亚迪方程豹豹 5 两款改装版亮相,突出露营、越野属性
3 月 8 日消息,据方程豹汽车官微,在 2024 方程豹深圳国际定制改装车展期间,两款深度定制的豹 5 新车亮相。据介绍,这两款新车由方程豹汽车联手改装厂牌运良越野、ARCANE WARRIOR 深度定制,官方称“打造个性多样的
合资车豁出去了!新一代现代索纳塔上市定档:预售仅15万起
3月9日消息,据北京现代汽车官方,旗下全新一代(第十一代)中型轿车索纳塔将于本月26日正式上市。新车将采用全新的设计理念,提供1.5T和2.0T两种规格,最近该车已经开启预售,价格为15-17万元,要说诚意,那必然

热点精选

最新推荐

您可能感兴趣