首页 > 科技

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark

量子位

发布时间：2024-04-02 06:43:58 240次浏览

考研速度和性能的平衡

让大模型直接操纵格斗游戏《街霸》里的角色，捉对PK，谁更能打？

GitHub上一种你没有见过的船新Benchmark火了。

与llmsys大模型竞技场中，两个大模型分别输出答案，再由人类评分不同——街霸Bench引入了两个AI之间的交互，且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。

由于项目是在Mistral举办的黑客马拉松活动上开发，所以开发者只使用OpenAI和Mistral系列模型进行了测试。

排名结果也很出人意料。

经过342场对战后，根据棋类、电竞常用的ELO算法得出的排行榜如下：

最新版gpt-3.5-turbo成绩断崖式领先，Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。

开发者认为，这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。

与传统的强化学习也有所不同，强化学习模型相当于根据奖励函数“盲目地”采取不同行动，但大模型完全了解自身处境并有目的的采取行动。

考验AI的动态决策力

AI想在格斗游戏里称王，需要哪些硬实力呢？开发者给出几个标准:

反应要快：格斗游戏讲究实时操作，犹豫就是败北
脑子要灵：高手应该预判对手几十步，未雨绸缪
思路要野：常规套路人人会，出奇制胜才是制胜法宝
适者生存：从失败中吸取教训并调整策略
久经考验：一局定胜负不说明问题，真正的高手能保持稳定的胜率

具体玩法如下：

每个大模型控制一个游戏角色，程序向大模型发送屏幕画面的文本描述，大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

第一个挑战是定位人物在场景中的位置，通过检测像素颜色来判断。

由于目前大模型数学能力还都不太行，直接发送坐标值效果不好，最终选择了将位置信息改写成自然语言描述。

所以对于AI来说，实际上他们在玩的是一种奇怪的文字冒险游戏。

再把大模型生成的动作招式映射成按键组合，就能发送给游戏模拟器执行了。

在试验中发现，大模型可以学会复杂的行为，比如仅在对手靠近时才攻击，可能的情况下使用特殊招式，以及通过跳跃来拉开距离。

从结果上可以看出，与其他测试方法不同，在这个规则下似乎更大的模型表现越差。

开发者对此解释到：

在推理上的延迟差距是有意保留的，但后续或许会加入其他选项。

后续也有用户提交了流行开源模型的对战结果，在7B及以下量级的战斗中，还是7B模型排名更靠前。

从这个角度看，这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多，需要模型具备快速理解、动态规划的本领。

正如开发者所说，想要赢，要在速度和精度之间做好权衡。

GitHub项目：
https://github.com/OpenGenerativeAI/llm-colosseum

参考链接：
[1]https://x.com/nicolasoulianov/status/1772291483325878709
[2]https://x.com/justinlin610/status/1774117947235324087

点击展开全文

本文链接：http://m.sushuapos.com/show-2-4455-0.html大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：机器狗首次阵亡！美国警方披露详情

下一篇：全麻会不会影响智力？医生解答麻醉疑虑

延伸阅读

热点精选

快问|裁员40%？资生堂中国回应

　　中新经纬1月11日电 (林琬斯)近日，有传闻称资生堂中国裁员40%。11日，资生堂中国回应中新经纬称，相关传言与事实不符。　　资生堂中国表示，资生堂中国于2024年开始实施新的品牌组合战略以夯实业务基础。相应地，内部也正

今年春节假期琼州海峡客滚运输量较去年大幅增长

　　今年春节假期琼州海峡客滚运输量较去年大幅增长　　中新网广州2月19日电 (郭军喻志专赵卓)据交通运输部珠江航务管理局(简称“珠航局”)消息：2024年春节假期期间(2月10日至17日，正月初一至初八)，琼州海峡省际客滚

【你评我说·检察官看《第二十条》】书写公平正义百姓满意可期

检察题材电影《第二十条》春节档全国热映，艺术地诠释了“法不能向不法让步”的司法理念，受到社会各界的广泛关注。最高检微信公众号即日起开设“你评我说·检察官看《第二十条》”专栏，邀请检察人员

河北高速养护分公司：春运鏖战风雪,又是一个不眠夜

中国发展网讯龙年首场强降雪来袭，2月20日上午，雄安分中心涞源养护队第一时间启动抗冰除雪保畅预案，在集中降雪前，提前进行一次有针对性、低剂量的融雪剂撒布工作，避免路面发生结冰现象，同时突出对重点路

点亮他人，也点亮自己的“无忧电工”

新华社记者周义在福建省莆田市，“无忧电工”培训班的出现，为当地残障人士拓宽了就业渠道。“兼职电工，我的月收入平均增加1000多元。”通过培训获得电工证的第二批“无忧电工”梁志忠说话间难掩喜悦之情

国产手机为什么一机难求

　　国产手机为什么一机难求　　手机市场高质量供给不仅能满足不断升级的消费需求，还能激发消费升级意愿，释放新的发展动能。拥有与时俱进的创新力，培育更多新质生产力，国产手机乃至中国制造才能更有竞争力。　　近日，多家

您可能感兴趣

《甜甜的陷阱》第9集分集剧情介绍

《冬至》演员表

《不知剧情也无妨》第13集分集剧情介绍

《鱿鱼游戏》第二季曝光剧照红发李政宰上线

口碑拉胯！《仙剑四》迎大结局：多个词条登热搜豆瓣仅4.2分

歌手张文娜改名张语芯

大鹏提名金像奖最佳男主角：与梁朝伟、黄子华争男主！

电影版《隐秘的角落》立项：片名改了

吉林卫视春晚乌兰图雅一首《幸福向往》唱出美好心愿

《欢乐家长群》首播获赞 “客厅喜剧”有温度深共情

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark

考验AI的动态决策力

热门文章

延伸阅读

相关阅读

热点精选

最新推荐

您可能感兴趣