衡量一代大模型是否真正进步,参数规模已经越来越不重要。开发者更在意的是另一件事:它到底能不能像一个靠谱的工程师那样工作。
Anthropic新发布的Claude Fable 5,正在引发这类讨论。
最近,Claude Code项目负责人、被外界称为“Claude Code之父”的Boris Cherny公开评价Fable 5,称这是自2025年11月Claude Opus 4.5发布以来,Anthropic实现的最大一次模型能力跃迁。这种表态并非来自市场营销团队,而是来自长期与模型共同工作的内部核心开发者,因此格外受到关注。
有意思的是,Cherny提到一个细节。
在Opus 4.5发布后,由于习惯了完全在终端环境中编程,他甚至卸载了传统IDE。对于许多程序员而言,这几乎是一种工作流革命。过去几十年里,无论是Visual Studio、IntelliJ还是VS Code,IDE一直是软件开发的核心入口。但随着代码智能体能力提升,一部分开发者开始把AI当作第一交互界面,而编辑器反而退居辅助位置。
Fable 5显然正在推动这一趋势进一步发展。
按照Cherny的描述,新模型最明显的变化并非代码生成速度,而是解决问题的方法论发生了变化。过去很多编程模型的工作方式更像“高级自动补全器”:收到需求,输出代码,任务结束。
Fable 5似乎不满足于此。
当模型面对调试任务时,它会主动测量系统状态、插入日志、验证假设、检查修复结果,甚至在确认问题解决之前持续进行验证。换句话说,它开始形成类似工程师的问题闭环。
这背后反映的是当前AI行业一个重要转折。
过去两年,大模型竞赛主要围绕知识覆盖率、推理能力和代码生成展开。而2026年的竞争焦点正在转向Agent能力,也就是让模型能够持续完成复杂任务,而不是单次响应问题。
代码生成其实已经逐渐成为基础能力。
真正拉开差距的是模型能否像资深开发者一样建立诊断流程,主动寻找证据,验证结论,然后决定下一步行动。
这种能力在企业场景中的价值远高于单纯写代码。
现实世界的软件开发里,大量时间并不花在编写功能上,而是排查线上故障、理解历史代码、分析依赖关系、定位性能瓶颈。能够处理这些工作的大模型,才真正接近“数字同事”而非“代码助手”。
Cherny在评价中使用了一个颇有意思的说法——“大模型味”。
这个词并非技术术语,却精准描述了行业正在发生的变化。
当开发者开始讨论模型的“性格”“习惯”和“工作风格”时,说明他们已经不再把AI视为工具,而是开始将其视作协作者。一个优秀工程师和普通工程师的差异,不一定体现在写代码速度,而体现在思考路径和验证意识。
Fable 5获得高评价的核心原因,恰恰在这里。
更值得关注的是,这种行为并非来自Claude Code预设的系统提示词。换言之,模型不是被强制要求“多检查几遍”,而是在训练过程中形成了某种稳定的问题求解倾向。
这也是当前前沿模型研发最难复制的部分。
行业里很多团队能够通过后训练和提示工程让模型完成指定任务,但要让模型自发形成可靠的工程思维模式,往往需要更复杂的数据构建、强化学习机制以及长期迭代。
从市场角度看,Anthropic显然正在押注这一方向。
如果说上一阶段的竞争是谁能写出更多代码,那么下一阶段的竞争则是谁能承担更多开发责任。企业购买AI不只是为了节省几分钟编码时间,而是希望减少调试、测试、运维和架构设计的人力投入。
因此,Fable 5真正释放出的信号或许不是某项评测成绩领先多少,也不是一次代码迁移效率提升多少倍。
更重要的是,大模型开始表现出越来越明显的“工作人格”。它会怀疑、验证、纠错、复盘,而不是机械执行指令。
对于软件行业而言,这可能比生成几万行代码更具颠覆性。因为当AI开始学会像工程师一样思考时,代码本身反而不再是最核心的竞争力。真正被重构的,是整个软件开发流程。