DeepSeek R2 预览曝光，数学推理超越 o3 | AI看点 2026-03-15

今日看点

DeepSeek R2 预览版的基准测试数据在技术社区悄然流出，核心指标迅速引发大量讨论：在 MATH-500、AIME 2025 等数学推理基准上，R2 以 98.7 分超越 OpenAI o3 的 97.9 分；而据内部人员透露，R2 的完整训练成本约为 o3 的 1%。这一数字如果属实，将是继 DeepSeek V3 之后，又一次对 AI 模型定价体系的正面冲击。

DeepSeek R2 技术路径：比 R1 走得更远

混合推理架构的进化

DeepSeek R1 通过强化学习让模型自主发展出"链式思考（CoT）"能力，R2 在此基础上引入了更激进的架构改动。根据泄露的技术报告摘要，R2 采用了**动态思考预算（Dynamic Thinking Budget）**机制：模型会根据问题难度自适应分配推理 token 数量，简单问题快速响应，复杂问题深度推导，避免了 R1 在简单任务上过度"思考"带来的延迟和成本浪费。

这一机制的实际效果体现在两个数字上：

指标	DeepSeek R1	DeepSeek R2	OpenAI o3
MATH-500	97.3	98.7	97.9
AIME 2025	79.8	91.2	88.4
平均推理延迟	~12s	~7s	~15s
API 价格（预估）	$0.55/M token	$0.3/M token	$60/M token

MoE 架构的持续优化

R2 沿用了 V3 的混合专家（Mixture of Experts）架构，但专家数量从 256 扩展至 384，路由机制也进行了深度优化。每次前向计算仍然只激活少量专家（约 37B 激活参数），但专家粒度更细，有效提升了模型在细分领域的表现精度，同时保持了推理成本的可控性。

技术细节：训练成本为何能压到如此之低？

DeepSeek 的成本控制能力已在 V3 时代引发全球关注。R2 能将训练成本维持在 o3 的 1% 量级，核心在于以下几点：

1. 工程优化积累：DeepSeek 团队在 FP8 混合精度训练、分布式通信优化、显存复用等工程层面持续迭代，这些优化的边际收益在 R2 上得到充分释放。

2. 数据质量优先：R2 的预训练数据量并未大幅扩展，而是将更多精力放在数据清洗和质量过滤上，以"更少但更好的 token"换取更高的数据效率。

3. GRPO 强化学习沿用：R1 时代验证有效的 Group Relative Policy Optimization（GRPO）算法继续沿用，无需像 PPO 那样单独维护价值函数模型，节省了相当的训练资源。

行业影响：AI 定价体系再次承压

o3 的 API 定价约为 $60/M token，而 R2 预估价格仅 $0.3/M token——200 倍的价格差距，将迫使 OpenAI 重新审视旗舰推理模型的定价策略。类似的压力在 V3 发布时已经出现一次，Claude 和 GPT-4o 相继调低价格。

对 OpenClaw 用户而言，这个消息直接利好：OpenClaw 支持多模型切换，一旦 R2 正式 API 上线，即可无缝接入，以极低成本获得顶级数学推理能力。具体配置方式可参考多模型与故障转移教程。

常见问题

DeepSeek R2 什么时候正式发布？

目前流出的均为预览版数据，DeepSeek 官方尚未公布正式发布时间。根据 R1 的发布节奏，R2 正式版可能在 2026 年 Q2 前后上线。

R2 会开源吗？

DeepSeek R1 系列全部开源，R2 大概率延续这一策略。但开源版本通常滞后于 API 版本 1-2 个月。

DeepSeek R2 和 Claude Sonnet 4.6 哪个更适合我？

取决于使用场景：R2 在数学、代码和逻辑推理上表现突出，成本极低；Claude Sonnet 4.6 在中文写作、多轮对话理解和工具调用（Tool Use）上更为均衡。通过 OpenClaw 同时接入两个模型并按任务类型自动路由，是目前最灵活的方案。

训练成本 1% 的说法可信吗？

需要谨慎看待。o3 的高成本很大程度上源于 OpenAI 的基础设施选择和商业定价策略，而非纯粹的技术效率差距。DeepSeek 的成本数据通常指的是直接计算成本，不包含研发人员、数据采购等固定成本。但即便如此，数量级上的差距仍然具有重要参考意义。

本文发布于 2026-03-15，基于社区泄露的技术数据，正式规格以 DeepSeek 官方公告为准。

DeepSeek R2 预览版曝光：数学推理超越 o3，训练成本仅百分之一