AI安全动态约8分钟

Anthropic 最强模型「Claude Mythos」意外泄露:能力跃迁,网安风险引热议

LayerX 研究员发现 Anthropic 内容管理系统配置错误,导致约 3000 份未发布资产公开可索引,其中包含描述新模型「Claude Mythos」(内部代号 Capybara)的草稿博文。Anthropic 官方随后确认:该模型代表能力「阶跃式提升」,目前已向部分早期访问客户开放,但同时警告其网络安全漏洞挖掘和利用能力达到「前所未有」的水准。

今日看点

3月26日,LayerX Security 研究员 Roy Paz 与剑桥大学 Alexandre Pauwels 发现 Anthropic 内容管理系统(CMS)存在配置错误,导致约 3000 份未发布内部资产对公众可索引。泄露内容中包含一份描述全新模型「Claude Mythos」(内部代号 Capybara)的草稿博客文章,内容涉及模型能力描述、基准测试分数及安全风险评估。Anthropic 随后发表声明,确认该模型存在,称其是「迄今最强大的 Claude 模型」,代表能力的「阶跃式提升(step change)」。


一、泄露了什么?

根据已公开的报道,泄露资产中包含:

  • Claude Mythos 的草稿博客文章,描述模型在多项主流基准测试上大幅领先前代
  • 内部代号「Capybara」的使用(与 Claude 系列此前的动物命名传统一致)
  • 关于该模型网络安全能力的专项风险评估章节
  • 早期访问客户(Early Access)测试计划相关内容

Anthropic 官方确认了模型的存在,并表示「正在向部分早期访问客户提供测试」,但未披露正式发布时间表。


二、「阶跃式提升」的背后

「Step change」是 Anthropic 内部对能力跃迁的定义——区别于常规的迭代改进,指的是在核心任务上达到质变级别的提升。此前这一描述仅用于 Claude 3 Opus 相对 Claude 2 的跃迁,以及 Claude Sonnet 4.6 的代码和推理能力突破。

泄露文件显示,Mythos 在以下方向取得了显著进展:

  • 复杂多步推理:在 ARC-AGI、GPQA、FrontierMath 等权威基准上得分大幅提升
  • 长上下文理解:百万 token 窗口下的检索和推理能力进一步强化
  • 代码生成与调试:可完成此前需要人工介入的复杂工程任务
  • 网络安全漏洞分析:可自主识别和描述高危漏洞利用路径(也是最大争议点)

三、最大争议:AI 网络安全军备竞赛

泄露内容中最引发讨论的部分,是 Anthropic 内部对 Mythos 网络安全能力的自我警告:该模型在漏洞挖掘(Vulnerability Discovery)和利用(Exploitation)方面的能力达到「前所未有」的水准,可能引发新一轮网络安全军备竞赛。

这触及了 AI 安全领域一个核心两难困境:

进攻与防御的不对称性

AI 辅助进攻(自动化漏洞发现、生成 Exploit 代码)的规模化成本远低于 AI 辅助防御(需要完整系统可见性和大量上下文)。当 Mythos 级别的模型被不当使用时,即便有 Constitutional AI 和 RLHF 护栏,也难以完全阻断高能力攻击者的滥用路径。

Anthropic 的处理方式是:在发布前向 CISA(美国网络安全和基础设施安全局)等监管机构报告,并限制网络安全相关能力的 API 开放范围。但批评者认为,「先泄露后补救」的现实说明 AI 公司的内部安全管理仍存在严重漏洞。


四、市场反应

消息公布后,比特币和科技股当日出现短暂下跌,市场对 AI 监管风险的定价再次上升。Anthropic 股票(二级市场)未见明显波动,投资者普遍将此事件解读为「能力突破利好 > 短期公关风险」。


常见问题

Claude Mythos 什么时候正式发布?

Anthropic 未公布时间表。结合其惯例,早期访问测试结束后通常有 1-3 个月的公开发布准备期。考虑到 Anthropic 目前在推进 IPO 计划,Mythos 的正式发布可能配合商业节奏,预计最早 Q2 2026 年底或 Q3 初。

泄露事件会影响 Anthropic 的 IPO 计划吗?

短期内影响有限。泄露暴露的是 CMS 配置管理问题,属于运营层面失误,不涉及核心模型权重或训练数据泄露。真正的风险是监管层面:若 Mythos 的网安能力引发国会听证或 CISA 新规,可能推迟部分功能上线,但不影响 IPO 核心叙事。

这对使用 OpenClaw 的开发者有何影响?

Claude Mythos 若正式发布,将提升 OpenClaw 的代码生成和推理能力上限。对于已配置 Claude 多模型故障转移 的工作流,届时将 Mythos 作为主力模型、Sonnet 4.6 作为备用,是值得考虑的配置方案。

Anthropic 如何处理这次泄露?

Anthropic 在泄露被披露后约4小时内关闭了可公开访问的 CMS 端点,并向受影响的资产添加了访问控制。公司表示已向相关监管机构报告了 Mythos 的网络安全能力评估,并承诺发布前进行独立的第三方安全审计。


本文发布于 2026-03-26。信息来源:Fortune、The Decoder、Decrypt、LayerX Security 公开报告。Anthropic 官方声明以公司官网为准。

关注我们,获取最新 AI 动态

在 X 上关注 @lanmiaoai,第一时间获取教程更新、AI 工具推荐。

立即关注

更多 AI 看点