今日看点
DeepSeek R2 预览版的基准测试数据在技术社区悄然流出,核心指标迅速引发大量讨论:在 MATH-500、AIME 2025 等数学推理基准上,R2 以 98.7 分超越 OpenAI o3 的 97.9 分;而据内部人员透露,R2 的完整训练成本约为 o3 的 1%。这一数字如果属实,将是继 DeepSeek V3 之后,又一次对 AI 模型定价体系的正面冲击。
DeepSeek R2 技术路径:比 R1 走得更远
混合推理架构的进化
DeepSeek R1 通过强化学习让模型自主发展出"链式思考(CoT)"能力,R2 在此基础上引入了更激进的架构改动。根据泄露的技术报告摘要,R2 采用了**动态思考预算(Dynamic Thinking Budget)**机制:模型会根据问题难度自适应分配推理 token 数量,简单问题快速响应,复杂问题深度推导,避免了 R1 在简单任务上过度"思考"带来的延迟和成本浪费。
这一机制的实际效果体现在两个数字上:
| 指标 | DeepSeek R1 | DeepSeek R2 | OpenAI o3 |
|---|---|---|---|
| MATH-500 | 97.3 | 98.7 | 97.9 |
| AIME 2025 | 79.8 | 91.2 | 88.4 |
| 平均推理延迟 | ~12s | ~7s | ~15s |
| API 价格(预估) | $0.55/M token | $0.3/M token | $60/M token |
MoE 架构的持续优化
R2 沿用了 V3 的混合专家(Mixture of Experts)架构,但专家数量从 256 扩展至 384,路由机制也进行了深度优化。每次前向计算仍然只激活少量专家(约 37B 激活参数),但专家粒度更细,有效提升了模型在细分领域的表现精度,同时保持了推理成本的可控性。
技术细节:训练成本为何能压到如此之低?
DeepSeek 的成本控制能力已在 V3 时代引发全球关注。R2 能将训练成本维持在 o3 的 1% 量级,核心在于以下几点:
1. 工程优化积累:DeepSeek 团队在 FP8 混合精度训练、分布式通信优化、显存复用等工程层面持续迭代,这些优化的边际收益在 R2 上得到充分释放。
2. 数据质量优先:R2 的预训练数据量并未大幅扩展,而是将更多精力放在数据清洗和质量过滤上,以"更少但更好的 token"换取更高的数据效率。
3. GRPO 强化学习沿用:R1 时代验证有效的 Group Relative Policy Optimization(GRPO)算法继续沿用,无需像 PPO 那样单独维护价值函数模型,节省了相当的训练资源。
行业影响:AI 定价体系再次承压
o3 的 API 定价约为 $60/M token,而 R2 预估价格仅 $0.3/M token——200 倍的价格差距,将迫使 OpenAI 重新审视旗舰推理模型的定价策略。类似的压力在 V3 发布时已经出现一次,Claude 和 GPT-4o 相继调低价格。
对 OpenClaw 用户而言,这个消息直接利好:OpenClaw 支持多模型切换,一旦 R2 正式 API 上线,即可无缝接入,以极低成本获得顶级数学推理能力。具体配置方式可参考多模型与故障转移教程。
常见问题
DeepSeek R2 什么时候正式发布?
目前流出的均为预览版数据,DeepSeek 官方尚未公布正式发布时间。根据 R1 的发布节奏,R2 正式版可能在 2026 年 Q2 前后上线。
R2 会开源吗?
DeepSeek R1 系列全部开源,R2 大概率延续这一策略。但开源版本通常滞后于 API 版本 1-2 个月。
DeepSeek R2 和 Claude Sonnet 4.6 哪个更适合我?
取决于使用场景:R2 在数学、代码和逻辑推理上表现突出,成本极低;Claude Sonnet 4.6 在中文写作、多轮对话理解和工具调用(Tool Use)上更为均衡。通过 OpenClaw 同时接入两个模型并按任务类型自动路由,是目前最灵活的方案。
训练成本 1% 的说法可信吗?
需要谨慎看待。o3 的高成本很大程度上源于 OpenAI 的基础设施选择和商业定价策略,而非纯粹的技术效率差距。DeepSeek 的成本数据通常指的是直接计算成本,不包含研发人员、数据采购等固定成本。但即便如此,数量级上的差距仍然具有重要参考意义。
本文发布于 2026-03-15,基于社区泄露的技术数据,正式规格以 DeepSeek 官方公告为准。