Model Releases约8分钟

Google Gemini 2.5 Pro Launches: Native Multimodal Reasoning + 1M Context, Taking On Claude Sonnet 4.6

Google officially releases Gemini 2.5 Pro with native multimodal reasoning and a 1-million-token context window, directly challenging Anthropic's Claude Sonnet 4.6. The launch signals a new phase of head-to-head competition at the frontier model tier.

今日看点

2026 年 3 月 16 日,Google DeepMind 正式推送 Gemini 2.5 Pro 全量版本,面向全球开发者开放 API 访问。此次发布的核心变化有三:一是 100 万 token 上下文窗口成为标准配置(不再是付费附加项);二是原生多模态推理能力覆盖图像、音频、视频三个模态;三是 API 定价较 Gemini 2.0 Pro 下调约 30%,直接回应 Claude Sonnet 4.6 和 GPT-4o 的价格压力。


Gemini 2.5 Pro 核心参数

Gemini 2.5 Pro 的主要技术指标如下:

维度 Gemini 2.0 Pro Gemini 2.5 Pro
上下文窗口 200K token(标准) 1M token(标准)
多模态输入 图像 + 文本 图像 + 音频 + 视频 + 文本
HumanEval+ 得分 81.4 92.3
MMLU 得分 87.2 91.6
API 输入定价(每 1M token) $3.50 $2.50
API 输出定价(每 1M token) $10.50 $7.00

在代码能力基准 HumanEval+ 上,Gemini 2.5 Pro 以 92.3 分超越 GPT-4o(88.7),与 Claude Sonnet 4.6(93.1)处于同一梯队,三者差距已缩小至统计误差范围内。这意味着开发者在选择代码辅助模型时,性能层面的决定因素已从"谁更强"转移到"谁更便宜、延迟更低、生态更完整"。

多模态推理是 2.5 Pro 区别于前代的最显著升级。它不再需要将音视频转换为文字再处理,而是直接对原始音频波形和视频帧进行推理。Google 的内部测试显示,视频摘要任务的准确率较 2.0 Pro 提升了 22%,音频指令跟随准确率提升 18%。


技术细节

从 API 角度看,Gemini 2.5 Pro 沿用了 Google 的 Vertex AI 和 AI Studio 双轨接入体系,现有调用 Gemini 2.0 的代码只需修改 model 参数即可迁移:

# 旧版
model = genai.GenerativeModel("gemini-2.0-pro")

# 新版
model = genai.GenerativeModel("gemini-2.5-pro")

新版本新增了 thinking_budget 参数,允许开发者控制模型在回答前花费多少"思考 token",类似 OpenAI o 系列的推理深度控制。对于简单任务可设为 0 降低延迟,对复杂推理任务可设为 8192 换取更高准确率。

在速率限制方面,免费层(AI Studio)每分钟 15 次请求,付费层无硬性上限,按实际用量计费。对于在 OpenClaw 中接入多模型的用户,Gemini 2.5 Pro 的 API 已在本次发布后 24 小时内上线。


行业影响

Gemini 2.5 Pro 的发布加速了主流模型的"长上下文标准化"进程。继 Claude Sonnet 4.6 将 100 万 token 普及化之后,Google 的跟进意味着这一能力正在从差异化卖点变为基础设施。

对比当前三大主力模型的长文档定价:Claude Sonnet 4.6 输入 $3.00/1M token,GPT-4o 输入 $2.50/1M token,Gemini 2.5 Pro 输入 $2.50/1M token——后两者已形成价格同盟,共同对 Anthropic 施压。想进一步了解模型选择逻辑,可参考 OpenClaw vs MaxClaw 对比 中关于模型生态的分析。

对于国内开发者,Gemini 2.5 Pro 目前仍需通过代理或 Vertex AI 国际区访问,直连问题短期内不会改变。这一点与 Claude API 的处境相同,也是国内 AI 工具平台差异化空间所在。


常见问题

Gemini 2.5 Pro 和 Claude Sonnet 4.6 哪个更适合代码任务?

两者在 HumanEval+ 上的差距不到 1 分(92.3 vs 93.1),实际使用中很难感知。选择更多取决于:是否需要 Google 生态(Workspace、Docs 集成)、API 调用现有代码的迁移成本、以及对多模态输入的依赖程度。如果你已经在用 Claude,切换收益有限;如果是新项目,Gemini 2.5 Pro 的定价优势值得认真考虑。

100 万 token 的上下文窗口有实际使用场景吗?

有,且越来越多。常见场景包括:整个代码仓库的审查与重构、长篇法律/财务文件的全文分析、多集视频内容的跨集摘要。对于普通对话任务,200K 已经够用,但 1M 窗口让"把所有相关材料一次性喂进去"成为可行的工程方案,减少了分批处理的复杂度。

现在的 Gemini 2.0 Pro 用户需要主动迁移吗?

不需要立即迁移。Gemini 2.0 Pro 的 API 端点在 2026 年 Q3 前不会下线,Google 给出了至少 6 个月的过渡期。但定价激励明显:2.5 Pro 更便宜且能力更强,建议在下一个开发周期更新 model 参数。

Gemini 2.5 Pro 支持函数调用(Function Calling)吗?

支持,且有所增强。2.5 Pro 新增了并行函数调用能力,可以在单次请求中同时调用多个工具,减少 Agent 任务中的往返次数。对于在 OpenClaw 中搭建 AI 工作流的用户,这一改进可以降低复杂 Agent 链路的总延迟。


本文发布于 2026-03-16。Gemini 2.5 Pro API 已全量开放,定价和功能以 Google AI Studio 官方文档为准。

Stay up to date with OpenClaw

Follow @lanmiaoai on X for tips, updates and new tutorials.

Follow

More AI News