谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用

Crystalcxt

发布于 2024-4-10 13:18

浏览

0收藏

谷歌最强大模型Gemini 1.5 Pro今天起，“全面”对外开放。

目前完全免费，开发者可以通过API调用的方式使用，普通玩家也可以在谷歌AI Studio中直接体验。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

（Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人，刚刚跳槽到谷歌。）

最让人期待的是，Gemini 1.5 Pro API首次增加了音频理解功能。

无论是财报电话会、电视节目还是大神演讲，不需要我们再提供字幕文档它就可以直接解读了。

如下图所示：

上传Jeff Dean长约117000+token的演讲录音，Gemini 1.5 Pro在30.8s内就完成了解析。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放，因此它可以处理的最长音频约为11小时，最长视频则为1小时，相当够用。

我们也赶紧实测了一把，结果是真香。

Gemini 1.5 Pro开放API了

谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”。

它主要面向开发者，可在谷歌AI Studio中获得API密钥：

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

目前最引人注目的音频理解功能还没添加到API中，但据说很快就会补上。

问题不大，我们可以先在Google AI Studio中直接体验：

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

在实测中，我们上传了比尔盖茨1995年做客Late Show节目的一段音频，时长1分钟。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

我们没有提示这段音频的任何背景信息，Gemini 1.5 Pro直接就听出来了是谁。

并在10s左右精准整理出了全对话的精华部分，一点“正确的废话”都没有：

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

表现令人折服。

接下来，来个更具挑战的，Andrej Karpathy1小时长的大模型科普教程。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

我们提取音频文件，足足10万多个token（这种在UI里直接显示当前消耗token数量的方法也广受好评）。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析：

可以说一分钟就让我们对1小时的演讲内容有了整体认知，再也不用费劲扒字幕文件了。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

继续回到API本身。

除了音频理解，为了让开发者更好地控制模型输出，Gemini 1.5 Pro还提供了另外3项新功能/改进：

首先是系统指令。

我们可以自定义一些特殊用例，包括它们的角色、输出格式/风格/语气、目标和规则等等。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

设置完成后，这个指令就会应用于接下来的整个请求。

示例如下：

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

其次，JSON模式。

也就是可以指示模型仅输出JSON对象了，非常方便我们从文本或图像中提取结构化数据。

第三，函数调用上也有改进。

为了提高可靠性，Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。

可以是文本模式，将生成文本作为输出；也可以是函数调用模式，或者干脆只输出函数本身（不带任何参数或其他信息）。

最后，还没完，从今天起，开发者还能通过该API调用谷歌的下一代文本嵌入模型：

text-embedding-004（又名“Gecko”）。

该模型在MTEB基准上实现了非常强大的检索性能，优于可比维度的所有对手。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

两个月前诞生的谷歌最强大模型

Gemini 1.5 Pro于2月15日发布，距今还不到两个月。

它是Gemini Pro的升级版，多模态多语言，最大的亮点无疑是上下文窗口长度：

从128k到最多100万。

100万个token相当于可处理70万个单词或约3万行代码，折合成音频就是约11小时，视频约1小时。

无疑是很大的一个量级了（现在则完全在API中开放）。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

当时官方的演示包括用它搜索阿波罗11号登月的电视转播信息，一共402页文字记录。

模型的响应时间大约在20s到1分钟。稍微有点慢，但谷歌承诺会优化延迟时间。

而Gemini 1.5 Pro发布之后，网友也很快分享了一些还不错的内测结果，包括：

鉴别Sora视频是否AI生成，给出关键证据；

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

在一场14分钟的NBA扣篮视频中，判断出哪个扣篮得分最高，并给出其中扣篮细节；

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本，合起来接近10万token，结果三十几秒内就给出了完整详尽的报告。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

可以说，这次谷歌整体是没有让大伙失望的。

最高能的是，它还能看录像改BUG：

有网友在编写一个网页的代码时故意留了3个bug，并分别录制了3个bug视频，外加代码库打包成文件一同丢给Gemini 1.5 Pro，结果全部分分钟给出正确代码。

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

这位网友当时就表示：这“小伙子”前途不可限量啊。

而在今天，随着Gemini 1.5 Pro API的“全面”开放，大伙可以更进一步地感受其厉害了。

咳咳，就是目前速率限制还有点高：

每分钟请求量为5次，每分钟token为1000万个，每日请求量为2000个～

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用-AI.x社区

友情链接：https://aistudio.google.com/app/prompts/new_chat

本文转自量子位，作者：量子位

原文链接:https://mp.weixin.qq.com/s/R7zSua2C0c1oKGmkQr9pKA

标签

谷歌

模型

相关推荐

首个开源世界模型！百万级上下文，长视频理解吊打GPT-4，UC伯克利华人一作

duhorse • 4314浏览 • 0回复
直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

轻薄滴假象 • 3312浏览 • 0回复
让大模型不再「巨无霸」，这是一份最新的大模型参数高效微调综述

轻薄滴假象 • 3487浏览 • 0回复
LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

duhorse • 4425浏览 • 0回复
百万上下文RAG，Agent还能这么玩

ermulong • 4548浏览 • 0回复
LLM超长上下文查询-性能评估实战

ermulong • 3874浏览 • 0回复
长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开源模型不如瞎蒙

duhorse • 4129浏览 • 0回复
长上下文语言模型评估体系探析

Baihai_IDP • 4059浏览 • 0回复
Claude的MCP（模型上下文协议）简介

Halo咯咯 • 6833浏览 • 0回复
AI 编程必备：用 Cline 的四个命令实现无缝上下文管理

凝固的雨_1 • 1.1w浏览 • 0回复
谷歌提出Titans：突破算力限制，扩展上下文

Aceryt • 3050浏览 • 0回复
基于多模态大语言模型的上下文目标检测

AIRoobt • 4180浏览 • 0回复
Mistral发布最强多模态文档理解模型Mistral OCR！可免费试用！

51CTO技术栈 • 3706浏览 • 0回复
模型上下文协议（MCP）开发实战——构建LangChain代理客户端

51CTO内容精选 • 6837浏览 • 0回复
Llama 4 凌晨震撼发布：Meta开源最强MoE多模态模型，1000万上下文碾压行业！

AI博物院 • 3167浏览 • 0回复
刚刚，OpenAI发布GPT-4.1，性能暴涨、100万上下文

Aceryt • 2308浏览 • 0回复
MCP(Model Context Protocol)模型上下文协议介绍

AI探索时代 • 5391浏览 • 0回复
大型语言模型的上下文工程（Context Engineering）综述

chengganfei • 3485浏览 • 0回复
我是如何玩转Claude100 万 Token上下文的？（附代码实战）

51CTO技术栈 • 850浏览 • 0回复

Crystalcxt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用

Gemini 1.5 Pro开放API了

两个月前诞生的谷歌最强大模型

目录