图解Claude越用越笨:省钱的代价,是API账单涨了100倍

BlockBeats

 · 2026/04/13 05:23:02

思考深度,跌了四分之三 据 Stella Laurenzo 的 GitHub Issue 数据,Claude Code 的平均思考深度在两个月内经历了三段式崩塌:1 月底优质期的 2,200 字符,到 2 月底跌至 720 字符,跌幅 67%。3 月进一步萎缩至 560 字符,较峰值跌去 75%。 思考深度在这里是个代理指标,反映模型在给出答案前愿意投入多少「内部推演」。2,200 字符和 560...

几天前,AMD AI 团队负责人 Stella Laurenzo 在 Claude Code 官方仓库发布了一份标题为「Claude Code 对复杂工程任务已无法使用」的问题报告。这不是一条用户情绪化的投诉,而是一份基于 6,800 个会话的定量分析。它把 AI 圈最不愿面对的问题摆上了桌面,其中有一组数字尤其刺眼:Anthropic 为省算力做的配置调整,把这个团队的 API 月度账单从 345 美元烧到了 42,121 美元。


Laurenzo 的团队追踪了 235,000 次工具调用、18,000 条提示词,记录了 Claude Code 从 2026 年 2 月起出现的系统性能力退化。这份报告随后被 The Register 报道,在开发者社区引发了持续两周的舆论风暴。


Anthropic Claude Code 团队负责人 Boris Cherny 在 Hacker News 作出了说明。2 月 9 日随 Opus 4.6 发布时,默认启用了由模型自主决定思考时长的「自适应思考」机制。3 月 3 日,Anthropic 又把默认思考强度(effort)调低至 85。官方的解释是「在智能、延迟与成本之间的最佳平衡点」。这两次调整的实际效果,数据说得很清楚。


思考深度,跌了四分之三


据 Stella Laurenzo 的 GitHub Issue 数据,Claude Code 的平均思考深度在两个月内经历了三段式崩塌:1 月底优质期的 2,200 字符,到 2 月底跌至 720 字符,跌幅 67%。3 月进一步萎缩至 560 字符,较峰值跌去 75%。



思考深度在这里是个代理指标,反映模型在给出答案前愿意投入多少「内部推演」。2,200 字符和 560 字符的差距,大致等同于从「写完草稿再作答」退化为「脑子里想两秒就开口」。


Laurenzo 还指出,3 月初上线的「思考内容隐藏」功能(redact-thinking-2026-02-12)恰好在这段时间遮蔽了模型思考过程,让用户无法直观感知缩水。Boris Cherny 坚持这只是界面改动,不影响底层推理。两种说法在技术上都成立,但从用户侧来看,效果上没有区别。


Boris Cherny 后来也承认,即使手动将 effort 设回最高,自适应思考机制仍可能在某些轮次分配推理不足,并可能产生幻觉内容。「恢复最高 effort」并不是一个完整的解法,它只是把旋钮拨回了靠近原来的位置,而不是恢复到原有的确定性。


从「研究型程序员」到「盲改型程序员」


Stella Laurenzo 的报告里有个细节比思考深度更直白:改代码前,模型会主动读多少个相关文件。


据 GitHub Issue 数据,优质期的平均读改比是 6.6,改动一处代码前,模型平均会先读 6.6 个文件,了解上下文。退化期这个数字跌到 2.0,降幅 70%。更严重的是,约三分之一的代码修改发生在模型未读取目标文件的情况下,直接下手。



Laurenzo 称之为「盲改」(blind edits)。工程上,这相当于一个程序员在不看函数签名、不知道变量类型的情况下就开始写代码。「我团队的每一位高级工程师都有类似的亲身遭遇。」她在报告中写道,「Claude 现在不能被信赖去执行复杂的工程任务。」


读改比从 6.6 到 2.0,表面是一个行为指标的变化,底层是任务成功率的塌陷。现代代码库的复杂度决定了,任何修改都牵涉多个文件之间的依赖关系。跳过上下文探索直接修改,产生的错误不是「答错了」,而是「看起来对,但会在下游触发新的错误。这类错误的排查成本,远高于一次失败的明确回答。


「省钱」这件事,算反了


这是整个事件里最反直觉的一组数字,来自同一份 GitHub Issue 数据:Stella Laurenzo 团队的 Claude Code API 月度调用成本,从 2026 年 2 月的 345 美元,到 3 月飙升至 42,121 美元,涨幅 122 倍。



Anthropic 调低 effort 的逻辑是减少单次调用的 token 消耗,从而降低成本。但结果相反。原因在于模型退化后出现了大量「推理循环」(Reasoning Loops),在单次回复中反复自我否定,不断重来,用掉的 token 远超节省的量。据 Stella Laurenzo 的数据,同期用户主动中断任务的比率飙升了 12 倍,开发者需要不停介入、纠错、重新提交。


背后的逻辑是一个系统性错误。在复杂任务上砍算力,并不会简单地等比降低成本。一旦低于某个思考阈值,模型开始走弯路,总成本反而放大。调低 effort 在简单查询上省了钱,在代码工程任务上,它把账单炸了。


「降智」这事,GPT-4 三年前演过一遍


2023 年 7 月,斯坦福大学与加州大学伯克利分校的研究团队在 arXiv 发表论文《How is ChatGPT's behavior changing over time?》,记录了同一件事在 GPT-4 上的发生过程。


据该研究数据,2023 年 3 月的 GPT-4,生成的代码中超过 50% 可以直接运行。到 6 月,这个比例跌至 10%,跌幅约 80%,时间跨度三个月。同期,素数识别准确率从 97.6% 跌至 2.4%。OpenAI 的回应和 Anthropic 高度相似:后台有过优化调整,属于正常迭代。


两个故事的结构几乎一致,一家 AI 公司在后台悄悄调整了影响模型能力的参数,用户察觉到了,公司承认有过调整,但把原因解释为「更合理的资源分配」。GPT-4 的退化发生在 2023 年,Claude 的退化发生在 2026 年,两者相隔三年,剧本一样。



这不是某家公司的特殊失误。AI 订阅模式的经济逻辑决定了,当推理成本高于定价可以覆盖的范围时,厂商面临的压力是一样的。调低默认思考强度,是目前成本和性能之间最容易拨动的那根旋钮。用户感知到的是模型「变笨了」。厂商账面上节省的,是每次调用的边际 token 成本。


Boris Cherny 给出了技术性解法,用户可以通过 /effort high 指令或修改配置文件,手动把思考强度恢复至最高级别。这个解法在技术上可行,但它同时意味着,「最高性能」已经不再是默认设置。


345 美元到 42,121 美元,花掉的不只是预算,还有一个假设:厂商做的默认配置变更,是为了让用户的使用效果更好。

相关推荐
告别创始人时代,Neo迎来真正的重构

Neo 作为 2014 年就扛起大旗的老牌公链,双创公开翻脸,财务黑箱争议不断,基金会资产控制和主网治理权也一起被拖到台面上。这事看着像是人闹翻了,实际不是那么简单,更像是很多年没处理干净的问题,在当下被一次性引爆。 也正因为这样,争议声还没散,一份基金会重构提案就已经被推了出来。 重构提案由 Neo 创始人达鸿飞(兼 NGD CEO)提出,提案写得很直接:两位创始人在愿景和优先级上已经出现分歧,...

BlockBeats · 2026/4/14 15:19:30

Robinhood们的悖论:从反华尔街到转身服务有钱人

他们推出年费 695 美元的高端信用卡,为账户余额达百万美元的客户提供专属的精英礼宾服务,并进军复杂的税务规划、财富管理,甚至信托账户领域,以此与传统老牌机构一较高下。 几个月前,29 岁的 David Easterwood 掏出重达 17 克的 Robinhood 金卡购买牛仔帽时,店员对他说道:「你肯定很有钱。」 他确实如此。这位凤凰城的散户交易者 2019 年刚达龄便注册了 Robinhoo...

Foresight News · 2026/4/14 14:52:56

美国小镇开始对AI数据中心说不

Ron Gibson 枪击案现场 倡导组织 Data Center Watch 在 2025 年 Q2 报告里把组织化反对团体数量从一年前的 142 个(24 个州)更新到 188 个(40 个州)。叫停或延期的项目金额从 640 亿美元涨到 1,620 亿美元。2026 年 4 月 1 日,威斯康星州 Port Washington 通过全美第一个以数据中心为明确对象的公投,66% 的选民赞成给...

BlockBeats · 2026/4/14 11:13:51

CoinGecko现货报告:12大CEX现货市场全景,新代币中仅32%短期跑赢发行价

CEX 的竞争格局正在发生变化。USDT 和 USDC 主导着交易对,新币上线后的表现依然是个老大难问题。2026 年 12 家头部 CEX 的总储备达到 2254 亿美元,资金正在从机构型巨头向高换手率、散户驱动的平台迁移。 以下是报告的四大核心发现。完整报告共 21 页,建议下载阅读。 1.USDT 和 USDC 占据 66.6% 的交易对,稳定币几乎垄断现货交易 图:12 大 CEX 的稳定...

深潮TechFlow · 2026/4/14 11:06:55

今年可能不会降息了

一场战争,可能把通胀打回 2022 年? 2 月 28 日,美国与以色列联合对伊朗发动军事打击。这是一条重新定义 2026 年美国经济走势的时间线。 布伦特原油从冲突爆发前的每桶约 70 美元,在 3 月底飙升至每桶 118 美元。此后油价有所回落,但截至近期仍维持在每桶 96 美元左右的高位。油价涨幅超过 50%,背后是一条至关重要的水道:霍尔木兹海峡。 伊朗实际上已封锁霍尔木兹海峡航运,全球约...

BlockBeats · 2026/4/14 10:00:13


BlockBeats
华语区最具影响力的 Web3 媒体之一,拥有专业的原创编辑团队,长期致力于传播区块链、加密货币及金融科技(FinTech)领域的前沿动态与深度洞察。
1906 文章

04

13

图解Claude越用越笨:省钱的代价,是API账单涨了100倍
思考深度,跌了四分之三 据 Stella Laurenzo 的 GitHub Issue 数据,Claude Code 的平均思考深度在两个月内经历了三段式崩塌:1 月底优质期的 2,200 字符,到 2 月底跌至 720 字符,跌幅 67%。3 月进一步萎缩至 560 字符,较峰值跌去 75%。 思考深度在这里是个代理指标,反映模型在给出答案前愿意投入多少「内部推演」。2,200 字符和 560...