大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

量子位
215次浏览

考研速度和性能的平衡SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

GitHub上一种你没有见过的船新Benchmark火了。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这种新玩法吸引了不少网友来围观。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

排名结果也很出人意料。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北
  • 脑子要灵:高手应该预判对手几十步,未雨绸缪
  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝
  • 适者生存:从失败中吸取教训并调整策略
  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

具体玩法如下:SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

开发者对此解释到:SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

正如开发者所说,想要赢,要在速度和精度之间做好权衡SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseumSIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/nicolasoulianov/status/1772291483325878709SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[2]https://x.com/justinlin610/status/1774117947235324087SIH速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4455-0.html大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

专访北京知产法院副院长宋鱼水:依法适用惩罚性赔偿,加大恶意侵权打击
21世纪经济报道 记者郑雪 北京报道保护知识产权就是保护创新。伴随人工智能产业发展如火如荼,知识产权保护越发重要和紧迫。AI训练数据侵权隐忧如何解决?人工智能生成物是否可以版权保
(两会观察)一路疾驰的中国新能源汽车如何“过弯”?
  (两会观察)一路疾驰的中国新能源汽车如何“过弯”?  中新社北京3月5日电 题:一路疾驰的中国新能源汽车如何“过弯”?  作者 李腾飞 苏碧滢 徐雪莹  中国新能源汽车产销量占全球比重超过60%――政府工作报告里
吉利银河 E8 性能版车型开启交付:22.88 万元,3.49 秒破百、续航 620km
3 月 8 日消息,今晚,吉利银河 E8 的 620km 星舰性能版车型正式开启交付,其售价为 22.88 万元。吉利银河 E8 已经于今年 1 月上市,提供 5 种不同配置,售价区间为 17.58 万-22.88 万元。该车前脸采用了涟漪美学设计
东风汽车召回 41123 辆风神 E70 ,极端情况可导致车辆失去动力
3 月 8 日消息,日前,东风汽车集团有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划。自即日起,召回 2022 年 7 月 13 日至 2023 年
或618马力 新款Model 3高性能版信息曝光
近日,海外社交媒体上疑似泄露了特斯拉Model 3高性能版车型的相关参数,可以看到,新车后电机将提升至412马力,综合最大功率将会达到612马力,续航预计430km左右。据悉,特斯拉或在近期公布高性能版车型的具体参数,同时有望正
南财记者直击民生主题记者会 四位部长回应就业、住房等热点问题

热点精选

最新推荐

您可能感兴趣