首页  >  资讯  >  正文

Anthropic撤回“静默降级”策略,AI安全治理边界再收缩

时间: 2026-06-11 阅读: 104
欧易交易所
欧易交易所

全球三大交易所之一,注册领50 USDT数币盲盒!

围绕Claude Fable 5的一场争议,最终以Anthropic公开道歉收尾。公司承认,在安全策略设计上引入“静默降级性能”机制是一个错误决定,并宣布取消相关限制手段。原本隐藏在后台的模型控制逻辑,被直接推到了讨论中心。

所谓“静默降级”,逻辑并不复杂:当系统识别某些用户可能在训练竞争模型时,不通过提示或封禁,而是悄悄降低输出质量,让模型“看起来还能用,但实际能力被削弱”。在Anthropic的设想里,这是一种低冲突的安全控制方式,但在研究社区眼中,更像是不可见的干预机制。

争议爆发的节点并不意外。开发者与研究人员发现,同样的请求在不同账号之间输出质量出现偏移,且没有任何明确提示。这种不可解释性,比传统的内容过滤更容易引发不信任感。尤其在AI安全评估领域,测试结果的可复现性几乎是基础前提,而“静默降级”直接破坏了这一结构。

社区的反弹很快扩散。研究者指出,这种机制不仅影响模型公平性,还会干扰第三方安全评估机构的基准测试,使开源社区无法准确判断模型能力边界。换句话说,模型不再是一个稳定对象,而变成一个会“根据观察者变化”的系统。

Anthropic在最新声明中承认,这种权衡在实践中带来了不可接受的副作用,并决定调整安全策略,将隐性限制替换为显性提示机制。未来用户如果触发相关风险行为,将直接看到提示,而不是被悄悄降低性能。

但策略收紧并没有完全消失。公司同时表示,将扩大安全拦截的筛选范围,一些被判定为潜在风险的请求,即使本身是无害的,也可能被误判拦截。这种变化意味着,模型治理正在从“隐性调节”转向“显性过滤”,但误杀率上升几乎不可避免。

这一调整背后,是AI公司普遍面临的矛盾:既要防止模型能力被滥用,又要保证研究透明度和开发者信任。静默降级失败后,行业似乎正在重新回到一个更传统但更粗糙的路径——明确规则、明确限制,但也意味着更高的误伤成本。

模型不再只是性能竞赛的产物,更像一个不断被重新定义边界的系统。而这一次,边界的代价,直接体现在可见性上。

上一篇:Claude Fable 5“降智争议”发酵,AI模型控制边界被推上台前 下一篇:Poetic完成5000万美元融资,瞄准企业级AI自动化
币安
币安

币安,全球顶级数字货币交易平台,手机即可买卖BTC等!