首页 > 资讯 > 正文

Anthropic撤回“静默降级”策略，AI安全治理边界再收缩

时间： 2026-06-11 阅读： 104

欧易交易所

全球三大交易所之一，注册领50 USDT数币盲盒！

官网注册 APP下载

围绕Claude Fable 5的一场争议，最终以Anthropic公开道歉收尾。公司承认，在安全策略设计上引入“静默降级性能”机制是一个错误决定，并宣布取消相关限制手段。原本隐藏在后台的模型控制逻辑，被直接推到了讨论中心。

所谓“静默降级”，逻辑并不复杂：当系统识别某些用户可能在训练竞争模型时，不通过提示或封禁，而是悄悄降低输出质量，让模型“看起来还能用，但实际能力被削弱”。在Anthropic的设想里，这是一种低冲突的安全控制方式，但在研究社区眼中，更像是不可见的干预机制。

争议爆发的节点并不意外。开发者与研究人员发现，同样的请求在不同账号之间输出质量出现偏移，且没有任何明确提示。这种不可解释性，比传统的内容过滤更容易引发不信任感。尤其在AI安全评估领域，测试结果的可复现性几乎是基础前提，而“静默降级”直接破坏了这一结构。

社区的反弹很快扩散。研究者指出，这种机制不仅影响模型公平性，还会干扰第三方安全评估机构的基准测试，使开源社区无法准确判断模型能力边界。换句话说，模型不再是一个稳定对象，而变成一个会“根据观察者变化”的系统。

Anthropic在最新声明中承认，这种权衡在实践中带来了不可接受的副作用，并决定调整安全策略，将隐性限制替换为显性提示机制。未来用户如果触发相关风险行为，将直接看到提示，而不是被悄悄降低性能。

但策略收紧并没有完全消失。公司同时表示，将扩大安全拦截的筛选范围，一些被判定为潜在风险的请求，即使本身是无害的，也可能被误判拦截。这种变化意味着，模型治理正在从“隐性调节”转向“显性过滤”，但误杀率上升几乎不可避免。

这一调整背后，是AI公司普遍面临的矛盾：既要防止模型能力被滥用，又要保证研究透明度和开发者信任。静默降级失败后，行业似乎正在重新回到一个更传统但更粗糙的路径——明确规则、明确限制，但也意味着更高的误伤成本。

模型不再只是性能竞赛的产物，更像一个不断被重新定义边界的系统。而这一次，边界的代价，直接体现在可见性上。

币安

币安，全球顶级数字货币交易平台，手机即可买卖BTC等！

注册链接下载链接