大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

量子位
240次浏览

考研速度和性能的平衡R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

GitHub上一种你没有见过的船新Benchmark火了。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这种新玩法吸引了不少网友来围观。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

排名结果也很出人意料。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北
  • 脑子要灵:高手应该预判对手几十步,未雨绸缪
  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝
  • 适者生存:从失败中吸取教训并调整策略
  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

具体玩法如下:R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

开发者对此解释到:R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

正如开发者所说,想要赢,要在速度和精度之间做好权衡R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseumR1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/nicolasoulianov/status/1772291483325878709R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
[2]https://x.com/justinlin610/status/1774117947235324087R1c速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4455-0.html大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

奔驰与宝马合资公司正式落户北京朝阳区
3月4日,梅赛德斯-奔驰与宝马合资成立的北京逸安启新能源科技有限公司正式落户北京朝阳,将在中国市场运营超级充电网络。以北京朝阳为起点,双方将进一步拓展在中国市场的超级充电网络布局,以满足国内客户对充电服务日
全国政协委员张云泉:“东数西算”枢纽节点需定期全面评估并据结果动态调整
21世纪经济报道 记者郑雪 北京报道算力是新型关键生产力,是国民经济发展的重要基础设施。相关数据显示,截至2023年8月,我国算力总规模达到1.97万亿亿次浮点运算(197EFLOPS),位居全球第二。
上汽大通:无锡工厂第100万辆整车下线
近日,上汽大通宣布无锡工厂第100万辆整车正式下线,此次下线的是一辆上汽大通领地,该车定位一款中大型SUV。  据悉,上汽大通无锡工厂的产品覆盖轻客、MPV、皮卡、SUV和新能源系列,销往全球73个国家和地区。官方表示,上
北汽集团:将在韩国高阳建造电动汽车工厂
近日,从海外媒体获悉,韩国高阳市政府已与中国汽车公司北京汽车签署谅解备忘录,将在高阳自由经济区所在地建设大型电动汽车生产设施。该工厂年产能目标为20万台,计划将90%的电动汽车出口到韩国以外市场。  据悉,北京
搭载比亚迪第五代DM-i混动!全新秦L无伪实车曝光:油耗更低
3月9日消息,据“迪粉之家”爆料,近日网络上曝光了接近量产状态的比亚迪秦L路试谍照,该车已经完全去掉了伪装。这款车的定位要高于秦PLUS,同时低于汉,定位于入门级中型轿车,起售价或在12-13万元,最大的亮
奇瑞汽车完成收购东南汽车
3 月 10 日消息,国家企业信用信息公示系统显示,福州青口控股有限公司在 3 月 7 日发生工商变更,原全资股东福州左海汽车有限公司退出,新增奇瑞汽车股份有限公司为全资股东,刘昌安卸任法定代表人、执行董事、经理,由

热点精选

最新推荐

您可能感兴趣