谷歌I/O大会,Gemini 3.5、Agent全家桶逐一亮相,Android被挤下牌桌?
图片由AI生成
文丨晓静
编辑丨徐青阳
北京时间5月20日凌晨,谷歌CEO Sundar Pichai在Google I/O 2026的舞台上算了一笔账,谷歌头部大客户每天可以处理约1万亿个token,如果把其中80%的工作负载从其他前沿模型切换到Google新发布的Gemini 3.5 Flash上,一年能省超过10亿美元。
2026年谷歌I/O大会的核心主线仍然是agent,从agent平台(Antigravity)到消费者 agent(Spark)到搜索agent,Google要把agent做成全栈能力。
在这场长达两小时的 Keynote 中,Google 发布了新一代 Gemini 3.5 系列模型、全模态世界模型 Gemini Omni、第八代 TPU 双芯片架构,以及从编码工具升级为 agent 管理平台的 Antigravity 2.0。
同时,我们也看到了一条新的主线变得更加清晰,Agentic AI时代已经走向中场,前沿模型的核心战场,也在从拼“最强最聪明”,转向了把agent 的运行成本压到企业敢大规模部署的门槛以下。
01
前沿智能+极致速度+一半价格?
谷歌这次发布了Gemini 3.5系列模型,打头阵的是当天就上线的Gemini 3.5 Flash。
过去几年,企业在用生成式AI时一直面临一个痛苦的抉择。最能干的模型,通常又大又慢,查询成本也高。反过来,那些更快、更便宜的模型,往往要牺牲准确性。
Gemini 3.5 Flash号称要改变这种局面。
皮查伊将它描述为谷歌内部的“游戏规则改变者”,用起来“令人难以置信的愉悦”。
他给出了一个直观的对比:Gemini 3.5 Flash的整体表现,全面超过了四五个月前还是谷歌顶级旗舰的Gemini 3.1 Pro。皮查伊的原话是:“Gemini 3.5 Flash比Gemini 3.1 Pro更好。它的性能能达到前沿模型的大约九成,速度快4倍,在Antigravity平台上甚至能快到12倍,而成本只有前者的三分之一到一半。”
在每秒输出token数量上,Gemini 3.5 Flash是其他同类前沿模型的4倍。Google DeepMind首席技术官兼谷歌首席AI架构师科雷·卡武克库奥卢(Koray Kavukcuoglu)补充说,一个优化版在同样质量下可以快到12倍,这个版本从美国当地时间5月19日起在谷歌的智能体开发平台Antigravity上开放使用。
在一系列高难度测试中,Gemini 3.5 Flash展现出了强大的智能体和编程能力。它在Terminal-Bench 2.1测试中得分76.2%,在GDPval-AA中达到1656 Elo,在MCP Atlas中达到83.6%。多模态理解方面也很突出,CharXiv推理得分84.2%。
在第三方机构Artificial Analysis的智能与速度指数图上,Gemini 3.5 Flash占据了右上角目前没人能触及到的位置。
用皮查伊的话说,这证明了“你不再需要在质量和速度之间二选一了”。
02
现场演示:复杂任务、多模态、可交互
大会上的几个演示,直观展示了Gemini 3.5 Flash处理复杂任务的能力。
在一个演示中,Gemini 3.5 Flash被要求根据动态标准,自动重命名和分类一批乱七八糟的资产文件。这不是简单的关键词匹配,模型需要先读取每个文件的内容,理解实际用途,再按照预设的分类逻辑归档。整个过程涉及多个判断和执行步骤,Gemini 3.5 Flash几秒钟就搞定了。
这套能力由升级后的Antigravity平台驱动,背后是多个协作的子智能体在并行处理。过去,这类工作可能需要开发者花上几天来写脚本,或者交给审计员花数周来手工整理。
另一个演示展示了Gemini 3.5 Flash的多模态生成能力。在AI Studio上,研究人员上传了一篇学术论文,模型读懂论文内容后,直接生成了一段解释核心概念的交互动画。
图表不再是静态的,观看者可以拖拽参数、切换视角,观察数据之间的动态关系。这种从文字到交互式视觉内容的直接转换,靠的是Gemini 3底层的多模态基础能力。
搜索方面的演示也同样让人印象深刻。在一个案例中,用户在搜索框里输入关于Gyroid图案的问题。利用Gemini 3.5 Flash增强的智能体编程能力,搜索结果不再是传统的十条蓝色链接,成为了一个交互式可视化页面。
用户可以在页面上旋转三维结构、查看不同截面的形态,整个过程不用跳转到其他网站。负责谷歌搜索业务的莉兹·里德(Liz Reid)说,这个新版搜索框是“自我们那个标志性搜索框首次亮相以来最大的升级”。
03
1900亿资本支出和帮企业省 10亿美元的模型
在这种能力基础之上,对于那些在AI基础设施上砸了很多钱的企业来说,Gemini 3.5 Flash可能带来最直接的影响。
皮查伊指出,很多公司早就把全年的token预算用完了,“而现在才刚过五月”。他把Gemini 3.5 Flash定位成那些在规模化部署AI时成本失控的企业的“财务救生索”。
智能体工作流尤其消耗token。谷歌的模型API每分钟处理大约190亿个token,自有产品每月处理超过3200万亿个token,近一年内增长了七倍。而两年前的I/O大会上,这个数字还只是每月9.7万亿。
在这种背景下,Gemini 3.5 Flash的价格不到同类前沿模型的一半。皮查伊算了一笔账:对于那些在谷歌云上每天处理大约1万亿个token的顶级客户来说,如果把80%的工作量转移到Flash和前沿模型的组合上,每年可以省下超过10亿美元。这个数字足以改变企业的采购决策和项目回报率的计算方式。
Gemini 3.5成本优势的根基是谷歌的基础设施投入。皮查伊透露,谷歌2026年的资本支出预计在1800亿到1900亿美元之间,是四年前310亿美元的差不多六倍。
其中一个重要投资方向是定制芯片。第八代TPU第一次采用双芯片架构,分别为训练(TPU v8o)和推理(TPU v8i)设计。针对推理优化的TPU v8i,让谷歌能够以比依赖通用GPU的竞争对手更低的成本运行模型,省下来的钱会转给客户。皮查伊说:“这意味着可以在几周而不是几个月内训练出更大、更有能力的模型。”
04
Gemini Spark:私人AI管家
当模型足够快、足够便宜之后,就能从被动回答问题变成主动办事的智能体。谷歌为此推出了Gemini Spark。
负责Google Labs和Gemini应用的副总裁乔什·伍德沃德(Josh Woodward)介绍说,Gemini Spark是一个7x24小时运行在谷歌云专用虚拟机上的AI。就算你关了设备,它也能在后台继续工作。Gemini Spark深度集成了Gmail、文档、表格和幻灯片。
伍德沃德描述道:“当你使用它时,几乎感觉就像你把东西甩到身后,Spark会接住它并完成工作。”
关于Spark具体能做什么,伍德沃德透露了测试人员的几个使用场景:策划派对、跟踪学校日程、监控收件箱中的问题。
安全方面,Gemini Spark在执行高风险操作前需要用户明确批准。针对支付行为,谷歌推出了智能体支付协议,允许设置严格的使用范围:批准哪些品牌、设置消费上限、限定哪些商家。谷歌计划今年夏天扩展连接能力,让Gemini Spark通过Chrome浏览器操作更多第三方应用和网站。
一批受信任的测试者本周拿到了访问权限。下周,Gemini Spark将向美国Google AI Ultra订阅用户推出测试版。AI Ultra是谷歌同步推出的新订阅套餐,月费100美元,面向开发者、技术负责人和高级创作者,提供对Antigravity的优先访问权、更高的使用限制以及捆绑的Omni Flash访问权。
围绕Gemini Spark的是谷歌一系列面向普通消费者的布局。
先看用户规模。Gemini应用月活用户已从一年前的4亿增长到9亿多,搜索中的“AI模式”上线仅一年月活就突破10亿,且每季度查询量翻倍增长。
与此同时,谷歌还推出了两项新服务:一是全天候监控网络的信息智能体,可以主动跟踪你关注的价格、股票或话题变化并及时提醒;二是基于谷歌钱包的AI通用购物车,支持跨不同电商网站统一管理和结算,省去分别登录、分别付款的麻烦。
05 Gemini Omni:一个新物种
和Gemini 3.5 Flash、Gemini Spark一起亮相的,还有Gemini Omni——谷歌第一个真正的原生多模态模型。
卡武克库奥卢特意把它和现有的视频生成模型Veo做了区分:“Veo是一个文本到视频的模型,而Gemini Omni是一个真正的多模态输入、多模态输出模型。”Gemini Omni可以接受文本、图像、音频和视频的任意组合作为输入,并在同样的模态上生成输出。所有处理都在一个统一的模型里完成,而不是拼凑多个系统。
用户通过对话就能一步步编辑和生成视频,每一条指令都基于上一条,视频随着对话的推进连贯变化。谷歌高管的演示展示了几个具体的编辑场景:
用户上传一段户外骑行视频,输入指令“把背景换成雪地”,Gemini Omni在保持骑行者和自行车运动轨迹不变的情况下,把整个环境换掉了。接着用户说“改成从侧面跟拍的角度”,画面的摄像机视角就跟着调整了。最后用户要求“加上一段旁白解释这条路线”,模型便生成了配乐和解说。整个过程在同一个对话线程里完成,不需要导出文件、切换工具或者重新上传。
卡武克库奥卢还描述了更广泛的应用前景:“你可以想象,当你在探索某些东西时,这能构建出非常类似于教程的能力。”谷歌特别强调了物理效果的改进——重力、动能、流体力学——这些细节决定了视频看起来像实拍还是AI生成的。
在OpenAI年初为了释放算力而放弃视频生成工具Sora的背景下,谷歌这时候推出Gemini Omni,是对自己基础设施实力的一次公开展示。卡武克库奥卢还透露,团队曾经让智能体从零搭建一个可运行的操作系统(未透露名字),用来测试Gemini 3.5 Flash的能力边界。
内容安全方面,所有Gemini Omni生成的内容都带有谷歌SynthID数字水印,C2PA内容凭证也在扩展中。Antigravity平台上推出了AI内容检测API。谷歌宣布OpenAI、Kakao和ElevenLabs也将采用SynthID。对于那些合规要求严格的企业来说,这套工具提供了可追溯的审计记录。
Gemini Omni即日向美国Gemini付费用户提供,未来几周将通过Vertex AI API向开发者开放。谷歌还推出了一个“个人头像”计划,允许创作者录制短视频,授权在生成内容中使用自己的声音和肖像。谷歌员工当天发布的I/O相关帖子中,就用了他们AI生成的肖像作为示范。
06
Antigravity 2.0:开发和管理自主AI智能体团队的平台
模型需要平台来承载,为此谷歌同步发布了Antigravity 2.0。六个月前它还只是个编码环境,现在已经被改造成“用于开发和管理自主AI智能体团队的平台”。
卡武克库奥卢指出,团队“和我们的智能体开发平台Google Antigravity一起开发了Gemini 3.5 Flash”。Flash的速度、工具使用、长上下文推理和代码生成能力,都针对开发者在平台上的工作负载做了专门的优化。
Antigravity以独立桌面应用的形式出现,也提供命令行和SDK。开发者可以同时调度多个智能体:一个写网站代码,一个生成品牌素材,第三个规划产品架构。这些智能体并行干活,统一管理。
一同推出的还有托管智能体和CodeMender。托管智能体通过一次API调用就可以在隔离的Linux环境中启动,进行推理、使用工具和执行代码。CodeMender是一个安全智能体,利用Gemini的高级推理能力自动发现并修复关键代码漏洞。卡武克库奥卢认为,当智能体系统写的代码越来越多时,这种能力是必不可少的。
支撑这一切的是一个数据飞轮。今年3月,开发者在Antigravity上每天处理大约0.5万亿个token。到5月中旬,这个数字飙升到超过3万亿,大约十周内增长了六倍。皮查伊说,使用量“几乎每隔几周”就翻一番。
飞轮的逻辑很清楚:工程师用得越多,模型团队收集到的真实信号就越多;这些信号反馈回来改进模型,让模型变得更有用,进而推动更多人使用。皮查伊称之为“一个强大的反馈循环,它让我们能够持续改进3.5系列模型”,谷歌的重点一直是“提升模型智能,确保工具使用、指令遵循、长周期任务、智能体解码等一切功能都运转良好”。
07
每六个月迭代一次
Gemini 3.5 Flash只是开始。
卡武克库奥卢表示,Gemini 3.5 Pro正在内部测试,下个月推出。他还明确了谷歌主要模型的更新节奏:大约每六个月一次。回顾一下,Gemini 3在去年11月发布,Gemini 3.5在今年5月发布,这个节奏正在稳定下来。当被问及如何决定版本编号时,他解释说:“决定编号更新的,实际上是我们研究中看到的进展,以及这些进展在模型中的体现和产生的影响。”
对买家来说,这种可预测的快速迭代改变了规划周期。一个每六个月就能用三分之一成本超越前代旗舰的模型,意味着今天紧巴巴的token预算到年底可能就已经显得很宽裕了。企业在制定技术路线图时,不能再拿静态的眼光来评估性价比。
当然,10亿美元还是PPT上的数字推演。遗留系统、合规要求、组织惯性——这些词在每一轮技术迭代中都会出现,往往会让纸面上的成本曲线在落地时“打骨折”。但谷歌也表示,自己正在用每天3万亿token、而且每隔几周就翻番的内部使用量,以任何客户都没试过的规模,亲身实践着这个赌注。
一年以后,AI又会是怎样的新面孔?
推荐阅读
单季200亿增速63%,Google Cloud的收割时刻
我的10年谷歌CEO生涯:低谷、反转和后悔的事|皮查伊深度对话
苹果“云上谷歌”,连Siri都不放过
本文链接:http://m.sushuapos.com/show-3-175614-0.html谷歌I/O大会,Gemini 3.5、Agent全家桶逐一亮相,Android被挤下牌桌?
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。