谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

量子位
261次浏览

大佬1小时演讲1分钟搞定yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

(Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌。)yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最让人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

如下图所示:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时,相当够用。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我们也赶紧实测了一把,结果是真香。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Gemini 1.5 Pro开放API了

谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

它主要面向开发者,可在谷歌AI Studio中获得API密钥:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

目前最引人注目的音频理解功能还没添加到API中,但据说很快就会补上。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

问题不大,我们可以先在Google AI Studio中直接体验:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

在实测中,我们上传了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro直接就听出来了是谁。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

并在10s左右精准整理出了全对话的精华部分,一点“正确的废话”都没有:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

表现令人折服。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

接下来,来个更具挑战的,Andrej Karpathy1小时长的大模型科普教程。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

我们提取音频文件,足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

可以说一分钟就让我们对1小时的演讲内容有了整体认知,再也不用费劲扒字幕文件了。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

继续回到API本身。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

除了音频理解,为了让开发者更好地控制模型输出,Gemini 1.5 Pro还提供了另外3项新功能/改进:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

首先是系统指令yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

设置完成后,这个指令就会应用于接下来的整个请求。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

示例如下:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

其次,JSON模式yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

第三,函数调用上也有改进yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为了提高可靠性,Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

text-embedding-004(又名“Gecko”)。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

两个月前诞生的谷歌最强大模型

Gemini 1.5 Pro于2月15日发布,距今还不到两个月。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

它是Gemini Pro的升级版,多模态多语言,最大的亮点无疑是上下文窗口长度:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

从128k到最多100万。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

100万个token相当于可处理70万个单词或约3万行代码,折合成音频就是约11小时,视频约1小时。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

无疑是很大的一个量级了(现在则完全在API中开放)。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

当时官方的演示包括用它搜索阿波罗11号登月的电视转播信息,一共402页文字记录。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

模型的响应时间大约在20s到1分钟。稍微有点慢,但谷歌承诺会优化延迟时间。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而Gemini 1.5 Pro发布之后,网友也很快分享了一些还不错的内测结果,包括:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

鉴别Sora视频是否AI生成,给出关键证据;yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

在一场14分钟的NBA扣篮视频中,判断出哪个扣篮得分最高, 并给出其中扣篮细节;yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本,合起来接近10万token,结果三十几秒内就给出了完整详尽的报告。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

可以说,这次谷歌整体是没有让大伙失望的。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最高能的是,它还能看录像改BUGyyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

有网友在编写一个网页的代码时故意留了3个bug,并分别录制了3个bug视频,外加代码库打包成文件一同丢给Gemini 1.5 Pro,结果全部分分钟给出正确代码。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

这位网友当时就表示:这“小伙子”前途不可限量啊。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而在今天,随着Gemini 1.5 Pro API的“全面”开放,大伙可以更进一步地感受其厉害了。yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

咳咳,就是目前速率限制还有点高:yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

每分钟请求量为5次,每分钟token为1000万个,每日请求量为2000个~yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

友情链接:
https://aistudio.google.com/app/prompts/new_chatyyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
参考链接:
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.htmlyyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
https://twitter.com/OfficialLoganK/status/1777733743303696554yyf速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4737-0.html谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

吉利李书福2024两会提案:支持汽车运动发展
2024年全国两会召开在即,全国政协委员、吉利控股集团董事长李书福提交《关于进一步支持汽车运动、促进汽车后市场高质量发展的提案》。当前背景  根据中国汽车工业协会统计,2023年,我国汽车产销突破3000万辆,其中新
零跑汽车朱江明:零跑国际高管团队现已到位
近日,零跑与Stellantis合资公司的最新进展曝光,零跑汽车创始人、董事长、CEO朱江明在社交平台发布动态:“零跑国际以最快的速度建立了高管团队,个个是行业的精英,零跑的海外业务一定超越大家的期待!”。  作为回顾,在2
五大经济部委齐发声:降准有空间,特别国债投向5大领域,股市失灵将果断出手
21世纪经济报道记者杨志锦 北京报道 “今年将5%左右作为中国经济增长预期目标,是党中央、国务院在综合平衡基础上兼顾当前和长远、需要和可能提出的,是经过科学论证的。这一目标符合
北汽集团称“在韩国高阳建厂”信息不实
  中新经纬3月8日电 7日晚,北汽集团官方微博发布声明称,“在韩国高阳建厂”的相关报道不实。  声明显示,北汽集团发现部分韩国媒体发布了关于“北汽和韩国高阳市签订合作备忘录,在韩国高阳市建立年产20万台电动车厂”
实探北京小米汽车门店:外部装修即将开工,SU7有望3月底到店
  实探北京小米汽车门店:外部装修即将开工,SU7有望3月底到店  每经记者 李星 每经编辑 裴健如  门口轰隆隆的混凝土搅拌车,在工人的指挥下,正向着地面搭好的方形钢筋框架内浇灌水泥,门店内装修工人则各自忙碌着手
谍照显示多台小米 SU7 汽车疑似已在运输途中:可见海湾蓝、雅灰、橄榄绿三种配色款
3 月 10 日消息,据小伙伴投稿,今日有多张疑似小米SU7汽车运输“谍照”现身网络,画面中显示数辆滚装车上运有多款小米SU7车型,其中包含“海湾蓝”、“雅灰”、“橄榄绿”三款“预发布”的配色,不过没有出现此前报道

热点精选

最新推荐

您可能感兴趣