Claude Opus 4.7实测：配得上是最强模型吗？

BlockBeats

· 2026/04/17 06:59:19

微信扫一扫

但还是要看看 Anthropic 自己发了啥吧。这次发布的基调其实不太寻常。 Anthropic 在公告里直接写道：Opus 4.7 的能力不如 Claude Mythos Preview——而 Mythos 只对 Apple、Google、Microsoft、Nvidia 等少数合作伙伴开放，普通开发者和用户无法使用。同时，比它的这种说辞更值得关注的，是它不只是比传说中的 Mythos 更弱...

原文标题：《Opus 4.7 压根没想做「最强模型」：各位吹 Claude 的速度都跟不上 Anthropic 的节奏了》

原文来源：硅星人 Pro

2026 年 4 月 16 日，Anthropic 正式发布 Claude Opus 4.7，距离上一代 Opus 4.6 发布仅两个多月。

在最近一阵密集而疯狂的产品与模型更新后，抛出新模型的 Anthropic 自然给人一种放大招的感觉。想必你也已经看到很多第一时间的模型报告梳理，各个把 Opus 4.7 称为「最强模型」，那些「人类完了」、「失业预警」等等再次刷屏。

但还是要看看 Anthropic 自己发了啥吧。

这次发布的基调其实不太寻常。

Anthropic 在公告里直接写道：Opus 4.7 的能力不如 Claude Mythos Preview——而 Mythos 只对 Apple、Google、Microsoft、Nvidia 等少数合作伙伴开放，普通开发者和用户无法使用。

同时，比它的这种说辞更值得关注的，是它不只是比传说中的 Mythos 更弱，它其实比上一代模型，也在关键的一些能力上更弱。

Opus 4.7 本身那份跑分表里的一个异常数字：长上下文基准 MRCR v2 @1M 从 Opus 4.6 的 78.3% 跌到 32.2%，46 个百分点的暴跌。

很少有旗舰模型迭代会把自家王牌能力砍掉一半。

而且这是它主动做出的选择。

所以，当各位继续无脑惯性吹它的每一个模型是「最强」的时候，其实已经跟不上 Anthropic 自己的节奏了！

它甚至都不 care 去改进一下这个洗车问题

Opus 4.7 是一次根本没有想做成「最强模型」的发布，它是一次有明确取舍的，「精准刀法」式的发布，与以往头部模型厂商的各种发布思路都不同，也是今天头部厂商在明确感受到模型本身的「大跃进」不再可持续后，会集体转向的新方向——Anthropic 某种程度上已经在向苹果、微软等公司在他们非常成熟的产品商业化阶段的发布策略靠拢。

这可能才是 4.7 的真正重要的地方。

一、编程能力：数字背后的真实改善

要更好理解这些变化，最好的方式自然是先仔细看一下它这次到底发了什么。

以下是 Opus 4.7 这次发布的完整信息梳理——哪里进步了、哪里摆烂了、开发者一手反馈是什么、该不该迁移。

官方公告：https://www.anthropic.com/news/claude-opus-4-7

Opus 4.7 的编程成绩是这次发布的主轴。

SWE-bench Verified（500 个真实 GitHub issue，模型需写出能通过测试的补丁）从 Opus 4.6 的 80.8% 升至 87.6%，接近 7 个百分点的提升，是目前公开可用模型中的第一名。对比 Gemini 3.1 Pro 的 80.6%，差距明显。

SWE-bench Pro 是更难的版本，覆盖四种编程语言的完整工程流水线。Opus 4.7 从 53.4% 升至 64.3%，11 个百分点的跳升。对比 GPT-5.4 的 57.7%、Gemini 3.1 Pro 的 54.2%，Opus 4.7 在这项基准上明显领先。

CursorBench 是来自 Cursor 的实战基准，专门衡量模型在真实 IDE 环境中的编程辅助质量。Opus 4.6 是 58%，Opus 4.7 跳到了 70%，12 个百分点的提升。Cursor 联合创始人 Michael Truell 在官方公告中说："这是能力上的有意义跳跃，在解决难题时有更强的创造性推理。"

合作伙伴实测数据：

· Rakuten：Opus 4.7 解决的生产任务数量是 Opus 4.6 的 3 倍，代码质量和测试质量评分都有两位数提升

· Factory：任务成功率提升 10-15%，模型中途停下来的情况明显减少

· Cognition（Devin 背后的公司）：模型"可以连续工作数小时而不掉线"

· CodeRabbit：召回率提升超过 10%，"比 GPT-5.4 xhigh 模式略快"

· Bolt：在较长的应用构建任务上，Opus 4.7 比 Opus 4.6 "最好情况下提升 10%，没有过去那种退步问题"

· Terminal-Bench 2.0：Opus 4.7 解决了三个之前没有任何 Claude 模型（或竞争对手）能处理的任务，其中一个是需要跨复杂代码库多文件推理才能修复的竞争条件（race condition）

这些数据集中指向一个方向：Opus 4.7 在长周期、跨文件、需要保持上下文连贯的复杂编程任务上有明显改善。这正是 Opus 4.6 用户在过去两个月吐槽最多的点——任务执行到一半就自动放弃、遇到多文件 bug 就迷失。

二、视觉能力：这次发布最被低估的改进

视觉精准度基准 XBOW 从 54.5% 跳到 98.5%。这不是渐进式改进，是重建级别的跃迁。

具体规格变化：

· 最大图像分辨率从约 115 万像素（长边 1,568 像素）提升至约 375 万像素（长边 2,576 像素），是前代的 3 倍多

· 模型坐标与实际像素实现 1:1 对应，此前 computer use 任务需要手动换算缩放系数，现在这个步骤消失

· CharXiv 视觉推理基准：不带工具 82.1%，带工具 91.0%

这对哪些场景有实质影响？

对 computer use 产品团队来说，这次升级可能是决定性的。Opus 4.6 时代的 computer use 处于"能做 demo 但不敢上生产"的状态——误点率太高，难以预测。98.5% 的视觉精准度意味着这个功能第一次具备了可靠部署的门槛。多家技术博客在评测里直接写道：如果你因为 Opus 4.6 误点频率太高而搁置了 computer use 产品计划，4.7 清除了这个障碍。

Reddit 上的一手反馈（r/ClaudeAI）：有用户提到，"视觉能力的提升太关键了，我之前做了很多边缘项目，尝试让模型在视觉反馈循环里迭代改进输出，效果一直很混乱，很期待 4.7 能怎么处理这个问题。"

除 computer use 外，受益的场景还包括：扫描文档分析（能读取更小字体、识别更精细的图表细节）、截图理解、仪表盘类应用、复杂 PDF 处理。

需要注意的成本问题：更高分辨率的图像会消耗更多 token。如果你的应用场景对图片细节要求不高，建议在传入前先降采样。

三、最大的退步：长上下文崩了

MRCR v2 @1M（百万 token 长上下文记忆测试）：

· 4.6：78.3%

· 4.7：32.2%

暴跌 46 个百分点，从接近 80% 直接掉到三分之一。

这个跌幅在旗舰模型迭代史上几乎没有先例。MRCR v2 是 Anthropic 自己在 Opus 4.6 时代被重点宣传的能力——当时 Anthropic 的原话是"在一个模型实际能用的上下文量级上发生了质变"。到 4.7，这个"质变"直接消失了。

为什么会这样？Tokenizer 换了。

Opus 4.7 使用新的 tokenizer，同样的输入文本会产生约 1.0-1.35 倍的 token 数量，具体倍数因内容类型而异。

直接连锁反应是：

· 名义上 200K/1M 的上下文窗口还在，但同样的文字能装的量少了

· 长任务 agent 工作流的实际 token 消耗增加约 35%

· 定价没变（输入 $5、输出 $25 每百万 token），但实际使用成本上升

Anthropic 的官方说法是新 tokenizer"提升了文本处理效率"，但 benchmark 数据显示在长上下文场景下是明显退步的。

搜索能力也退步了：

· BrowseComp（网络深度信息检索）：Opus 4.6 的 83.7% → Opus 4.7 的 79.3%

· GPT-5.4 Pro 在这项上得分 89.3%，Gemini 3.1 Pro 得 85.9%，Opus 4.7 目前在主要竞争模型中垫底

搜索和长文本，恰恰是很多企业用户最常用的场景。

Hacker News 上开发者的一手反馈（帖子 275 赞、215 评论，来源：HN 讨论）：

"关掉 adaptive thinking、把 effort 手动拉到最高，才让我回到基线表现。'我们内部评测看起来不错'这种说法现在已经不够了，大家都看到一样的问题。""4.7 默认不再在输出里包含人类可读的推理 token 摘要，必须在 API 请求里加 display: summarized 才能拿回来。"

这些都是实际使用者反映的问题。但这也是 Anthropic 自己主动做出的选择。

四、新的行为特征：自我验证与更字面化的指令跟随

Opus 4.7 官方公告里有一句值得单独拎出来：模型在上报结果之前会核验自己的输出。

Hex 的技术团队在测试中给出了一个具体案例：当数据缺失时，Opus 4.7 会如实报告"数据不存在"，而不是给出一个看上去合理但实际是编造的答案——而后者正是 Opus 4.6 会踩的坑。金融科技平台 Block 对此的评价是："它在规划阶段就能发现自己的逻辑错误，加速了执行速度，比之前的 Claude 模型有明显超越。"

但自我验证带来了另一个连带的行为变化：Opus 4.7 对指令的解读更字面化。

这是一个重要的迁移风险。如果你为 Opus 4.6 精心调过 prompt，4.7 可能不会像 4.6 那样"读出言外之意"，而是严格按照你写的字面意思执行。Anthropic 在官方迁移指南里明确提到了这一点，建议上线 4.7 前对关键 prompt 做回归测试。

一个实用参照数字来自 Hex 的 CTO：低 effort 档的 Opus 4.7，性能大约等于中 effort 档的 Opus 4.6。

五、推理控制机制：xhigh、task budgets 和 /ultrareview

Opus 4.6 发生过一件影响用户信任的事：2 月 9 日切换到自适应思考默认模式，3 月 3 日官方又把 Claude Code 的默认推理深度从最高档调至 medium，理由是"在智能、延迟、成本之间取得平衡"。这件事被用户称为"降智门"，AMD 一位高级总监在 GitHub 的质疑帖被广泛转发。

Opus 4.7 给出的回应是，把推理深度的控制权更显式地交给用户。

xhigh effort 档：新增的推理强度级别，位于原有的 high 和 max 之间。Claude Code 现在已经把所有计划的默认档位更新为 xhigh。

但开发者社区对 xhigh 有一个直接疑问，Reddit 用户的原话是："Opus 4.6 默认是 medium，4.7 默认是 xhigh。我想知道这个决策背后的考虑，因为 effort 档提高显然会带来更多的 token 消耗。"

换句话说：用户看到的是一次"把控制权交还给用户"的修复，但实际上默认档被拉高了，意味着同样的任务要烧更多 token。叠加 tokenizer 变更，这是双重的成本提升。

task budgets（公测中）：针对长任务的 token 预算控制机制。开发者设置一个总 token 预算（最低 20K），模型在执行过程中能实时看到剩余额度，据此分配资源，避免跑到一半因为 token 超支停下来，也防止不必要的计算浪费。

Claude Code 新增 /ultrareview 命令：专项代码审查会话，运行一次专注于 bug 排查和设计问题的深度审查，Pro 和 Max 用户每月赠送 3 次免费使用。

auto 模式对 Max 用户开放：此前只在 Enterprise 计划里有，现在 Max 用户也能用。Claude 在 auto 模式下可以自主做决策、减少中途询问用户的次数。Claude Code 团队负责人 Boris Cherny 的原话是："给 Claude 一个任务，让它跑，回来看已经核验过的结果。"

六、跑分全景：哪里赢了，哪里输了

以下是目前已公布的主要基准数据（来源：Anthropic 官方 system card 及合作伙伴评测）。

编程与工程类（Opus 4.7 领先）

视觉与多模态（Opus 4.7 大幅领先）

知识工作（Opus 4.7 领先）

综合评测（Opus 4.7 明显上台阶）

通用推理（三家基本打平）

这个基准已趋于饱和，不再是有效的竞争分水岭。

研究类任务（GPT-5.4 领先，Opus 4.7 退步）

长上下文（Opus 4.7 大幅退步）

总结选型逻辑：编程、工程 agent、视觉、金融法律知识工作四块 Opus 4.7 有明确优势；研究密集型任务和开放式网络检索 GPT-5.4 更强；长上下文场景下 Opus 4.7 比自己的前代还差一大截，这是最值得警惕的点。

七、安全护栏：Mythos 的铺路石

这部分容易被当作发布稿里的"安全例行声明"跳过，但它是理解 Anthropic 当前战略的关键。

4 月 7 日，Anthropic 宣布了 Project Glasswing：把 Claude Mythos Preview 开放给 Apple、Google、Microsoft、Nvidia、Amazon、Cisco、CrowdStrike、JPMorgan Chase 和 Broadcom 九家合作伙伴，专门用于防御性网络安全场景。

Mythos 是 Anthropic 迄今能力最强的模型，根据 The Hacker News 的报道，它能自主发现零日漏洞，在主要操作系统和浏览器里找出了数千个此前未知的漏洞。但正因为这个能力，它也被判定为带有重大滥用风险，所以不公开发布。

Opus 4.7 在这条线上是第一个测试样本。Anthropic 在训练阶段主动削减了模型的网络安全攻击能力（同时尽量保留防御能力），并上线了自动检测和拦截高风险网络安全请求的实时护栏系统。公告原文："我们将通过 Opus 4.7 的实际部署来学习这套护栏是否有效，再决定是否把它推广到 Mythos 级别的模型上。"

换句话说，每个用 Opus 4.7 的开发者都在帮 Anthropic 标定安全护栏的边界。

Gizmodo 的评价：这次发布采用了"大胆的营销策略——主动宣传自家新模型'通用能力不如别的选择'"，这在旗舰发布里极其罕见。

安全从业者如果需要将 Opus 4.7 用于合法的渗透测试、漏洞研究或红队测试，需要申请加入 Cyber Verification Program。

八、价格与迁移：名义不变，实际涨了

定价：输入 $5/百万 token，输出 $25/百万 token，与 Opus 4.6 相同。API 模型 ID 为 claude-opus-4-7。可用平台包括 Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry，GitHub Copilot 也已同步上线。

但正如前面提到的，tokenizer 变更让同样输入产生约 1.0-1.35 倍的 token 数，叠加更高默认 effort 档位下的思考 token，对于长任务 agent 工作流，实际成本可能是 Opus 4.6 同等设置下的 2-3 倍。

Anthropic 同时把 Claude Code 的缓存 TTL 从一小时缩短到五分钟——这意味着如果你离开电脑超过五分钟再回来，上下文缓存失效，得重新加载，token 消耗会更快。Reddit 社区已经有不少用户吐槽"额度烧得比瀑布还快"。

对现有 Opus 4.6 用户的破坏性变更清单：

1. Extended Thinking Budgets 参数已移除，传入会返回 400 错误，需改用 adaptive thinking 模式

2. 温度（temperature）、top_p、top_k 等采样参数已移除，需用 prompting 控制输出行为

3. 更严格的字面化指令跟随——为 Opus 4.6 调好的 prompt 需要重新测试，不能直接换模型 ID 上线

4. tokenizer 变更导致 token 计数变化，建议先在真实流量上跑样本，再做完整迁移

5. 默认输出不再包含推理 token 摘要，需要显式设置 display: summarized 才能拿回

实用建议：Anthropic 官方迁移指南建议，正式切换前用代表性的生产流量跑 Opus 4.7，对比 token 消耗和任务质量再做决定。

可以放出精准的刀法，最为恐怖

Opus 4.7 是一次有清晰靶向的升级，也是一次有明显代价的升级。而且这些都是 Anthropic 自己设计好的，且很大程度上你必须为它买单。

这个模型进步的一面：

· SWE-bench Verified 的 87.6%、SWE-bench Pro 的 64.3%、CursorBench 的 70%、Rakuten 的 3 倍生产任务——这些是生产环境里能感知到的编程能力提升

· 视觉能力重建（XBOW 54.5% → 98.5%、分辨率翻 3 倍、像素 1:1 对应），让 computer use 第一次具备可靠部署的门槛

· xhigh 档位、task budgets、/ultrareview，是对"降智门"的显式回应

· BigLaw 90.9%、Finance Agent 64.4%，在金融法律这类专业知识工作上明确领先

放弃的一面：

· MRCR v2 @1M 从 78.3% 跌到 32.2%，长上下文能力几乎砍半

· BrowseComp 从 83.7% 跌到 79.3%，搜索能力被 GPT-5.4 和 Gemini 3.1 Pro 双双反超

· tokenizer 变更 + 默认 effort 拉高 + 缓存 TTL 缩短 = 三重隐性涨价

· Mythos 压着不放，意味着 Anthropic 手里还有更强的牌但出不来

这次发布最真实的样子，不是"最强模型"也不是"最强公开模型"，而是：一次有明确取舍的迭代。

最新的消息是，Claude Code 在 2 月的年化收入已经达到 25 亿美元。Opus 4.7 就是这条线上的下一个赌注。

编程和视觉是加法，长上下文和搜索是减法，价格名义不变但账单在涨。Anthropic 正在用 Opus 4.7 做一次平衡——既要修复 Opus 4.6 遗留的信任损伤，又要为 Mythos 级模型将来的更大范围开放做安全护栏的实战演练。以及更重要的，它要充分利用好今天自己所处的领先位置，把用户对它产品的喜欢，转化为对一代一代产品哪怕有缺陷却依然离不开的惯性，然后建立起像苹果等公司已经进入成熟期才有的那种又爱又恨的用户粘性，和真正有商业价值的生态。

原文链接