最新测评集：几乎所有大模型，视觉能力都不如3岁小孩-速刷资讯—

首页 > 财经

最新测评集：几乎所有大模型，视觉能力都不如3岁小孩

观察者网

发布时间：2026-01-13 08:59:31 50次浏览

（文/万肇生编辑/张广凯）

大模型的视觉处理能力虽不如语言推理那样惊艳，但一项最新的测试结果，仍显得十分残酷。

1月12日，红杉中国xbench携手UniPatAI团队对外发布全新多模态理解评测集BabyVision，旨在精准测评大模型的核心视觉能力。

UniPatAI发布的技术论文显示，该评测集首轮测试的结果中，当前绝大多数顶尖多模态大模型的视觉任务表现，都要显著低于 3 岁儿童水平，仅仅有一款模型勉强超过3岁基线。

而出现体感上的如此巨大的反差，倒也好理解，主要是由于日常中模型强大的语言推理能力，掩盖了其视觉信息处理能力的不足。

通常情况下，大模型在面对图像问题时，会使用文字对问题进行描述。虽然视觉信息转为文字描述有局限性，但模型会通过强大的语言推理能力，来理解并解决视觉问题。然而需要注意的是，这并不是真正的视觉能力，而是一种基于文字信息的推理能力，因此当大模型一旦失去语言能力的加持，其在视觉信息处理中，短板就暴露无遗。

几乎在测模型都不如3岁小孩

基于此，UniPatAI团队成员们为用于首轮测试的BabyVision-Mini，设计了包含20道视觉中心任务，并严格控制语言依赖，所有题目答案均需完全依靠视觉信息得出。同时，团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童，作为对照组，进行测试。

其结果显示，大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线，但与6岁儿童相比仍存在约20个百分点的差距。

比如在BabyVision-Mini中一道垃圾分类连线题，要求将"塑料杯""废报纸""苹果核"分别通过路径连线到对应颜色的垃圾桶，正确答案为A-蓝、B-黄、C绿。

三岁儿童仅凭本能就能从起点沿线追踪至终点，轻松完成作答，而最强的Gemini3-Pro-Preview虽写下大段"逐段追踪"的推理过程，最终仍给出A-绿、B-黄、C-蓝的错误答案。

随后团队又将测试扩展到包含388道题目的全量BabyVision-Full评测，此时人类对照组的16位本科以上背景参与者，准确率已经高达94.1%。

而大模型方面，在Mini测试中，表现最佳的闭源模型Gemini3-Pro-Preview，此时准确率也仅为49.7%。开源模型中最强的Qwen3VL-235B-Thinking，则整体不足22.2%，而其他开源模型得分集中在12%-19%区间。

视觉能力的全方位不足

需要注意的是，UniPat AI的技术论文还特别指出，这不仅仅是大模型的单一方面不足，而是视觉能力的四大类别（精细辨别、视觉追踪、空间感知以及视觉模式识别）上的全方位不足，说明这是大模型基础视觉能力存在系统性缺失。

对此，团队统计出了模型主要面临四大典型挑战：

第一类挑战来自“非语言细节”的缺失。人类在处理拼图补全等任务时，能凭几何直觉直接感知边界对齐、微小凸起等像素级差异；而模型一旦将下图四个选项的形状描述为“像钩子、有两个腿”等语言概括，细微的视觉差异就被抹平，选项在token空间里变得“几乎一样”。

Gemini3-Pro-Preview这道题里选择了D，而非B。

第二类挑战就体现在轨迹追踪任务中，如上文的“垃圾分类”问题。人类是锁定一条线，并一路追到终点。而模型则会将翻译成“左/右/上/下”的离散步骤，难以保持统连续性。因此，一旦遇到交叉点，就容易产生路径分叉，导致从“跟随一条线”退化为“猜测终点”。

第三类系空间想象能力缺失。在三维方块计数、视角投影、遮挡结构判断等任务中，人类会在脑海中保持三维结构的形状，并变换视角进行判断，这是空间想象能力的体现。而模型依靠语言推理，但文字描述并非真实，最终导致漏掉隐藏块，搞错投影关系。

Gemini3在这里将图形高度按照数字进行标记，但错误将右侧竖列后排为4的积木忽略，最终计为前排平台的2，因此得到了错误答案C。

最后一大挑战则是图形规律归纳难题。此类题目要求从少量视觉示例中找规则。人类做的是关系映射，确定变化，而模型则会关注图像的颜色、形状等属性，将“结构规则”误读成“外观统计”，导致迁移时幻觉规则。

阿里千问在将图形拆解成8等分后，成功判断出棕色部分应该在顶部，然而却将C选项“看花眼”

对此，研究团队认为，造成大模型普遍超低评分的核心原因在于，测试集中有许多题目具有"unspeakable"（不可言说）的特性———即无法在不损失信息的情况下被完整语言化。

如此一来，人类只需要简单通过指一指、圈一圈、沿线路径追踪等直觉式方式解题，但模型必须将视觉信息压缩为token进行语言化处理，这一过程中，大量关键细节会丢失，最终导致推理失误。

然而这也不是没有办法。研究团队通过让视觉推理“落地到视觉操作”上，Sora2一笔一划，最终成功绘制了左上角鳄鱼的连线图像。

美中不足的是，Sora2也仅画对了鳄鱼这一条线，而其他模型则是一条线也没有成功。但或许未来通过让模型进行绘画、临摹等方式进行推理，可以恢复大模型的文字推理所缺失的能力。

因此该团队写道，“很难想象一个视觉能力低于3岁儿童的机器人，能够可靠地在真实物理世界里帮助人类”。团队认为，为了推动多模态智能的发展，未来的模型必须从根本上重建视觉能力，而非依赖语言推理。

点击展开全文

本文链接：http://m.sushuapos.com/show-3-163947-0.html最新测评集：几乎所有大模型，视觉能力都不如3岁小孩

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：上汽集团总裁贾健旭拜访任正非

下一篇：荣耀将与泡泡玛特推出联名手机

延伸阅读

热点精选

国内首个“国际化友好景区”共建计划在黄山启动

　　近日，国内首个“国际化友好景区”共建计划在黄山启动。据悉，该计划由中国人民银行黄山市分行、黄山风景区管委会等部门共同指导和支持，由支付宝、黄山旅游股份有限公司率先在黄山景区落地实施，通过升级支付、红包码、

东莞松山湖莞寓·中天金融园470套房源将于5月招租

　　近日，东莞市安居建设投资有限公司与广东中天产城集团有限公司签署项目托管运营协议。根据协议，位于东莞松山湖的莞寓·中天国际金融园即将入市，可提供优质房源470套，租金1000元/月起，预计5月面市招租。　　据悉，该项目

“京津冀协同发展10周年书法交流展”开幕

4月28日，“翰墨弘道——京津冀协同发展10周年书法交流展”在北京一得阁美术馆开幕。现场共展出150余件作品，以京津冀区域书法家和书法爱好者为主，讴歌京津冀协同发展丰硕成果，展现三

网络文学与评论有效互动，造就时代文学新景观

网络文学正处在转型升级、迭代发展的进程中，不同类型的网络作家以不同的想象方式与叙事模式，生发网络文学的新变，在国内和海外不断拓展着网络文学影响力，中国网络文学叙事手法等被海外文学与影视

美团：五一前三天上海本地生活服务消费位居全国城市第一

　　近日，美团发布的五一假期“吃喝玩乐”消费数据显示，五一假期前三天，全国本地生活服务消费同比增长25%，全国餐饮堂食订单量较去年同期增长73%。其中，上海本地生活服务消费位居全国城市第一。　　旅游方面，五一假期市民出

五一期间西藏酒店预订热度与去年同比增长65％

5月6日，同程旅行发布《2024“五一”假期西藏酒店预订热度报告》数据显示，2024“五一”假期期间，西藏旅游市场延续火爆态势，酒店预订热度与去年同比增长65%，其中，拉萨酒店预订热度同比增长近四成，昌都市酒店预订热度同比增长

您可能感兴趣

什么牌子的老爹鞋最耐穿？

绿裙子配什么颜色的腰带？

韩版毛呢大衣搭配攻略

米色贝雷帽秋冬季搭配衣服

最流行的袜子穿搭法？

白色水桶包配什么丝带好看？

12 色配色表图片：为你的妆容增添无限魅力

黑色棉袄搭配什么颜色围巾？别再为搭配犯愁！

黑灰色搭配什么颜色好看？

四十岁女人穿什么衣服搭配显气质