大模型行业最近出现了一个很微妙的变化。
过去两年,整个AI世界都在拼“大”。参数越多越强,训练集越大越先进,算力投入几乎没有上限。可到了2025年之后,越来越多公司开始意识到:真正能跑进消费电子设备里的,可能不是那些万亿参数模型。
而是另一类东西——足够小,但足够聪明。
Liquid AI最新发布的LFM2.5-8B-A1B,就很像这个方向上的代表产品。
表面看,它只是一个8B参数模型。但真正关键的是,每次推理只激活1B参数。换句话说,大部分参数平时并不会参与运算。这种MoE(混合专家)架构现在已经越来越流行,本质逻辑就一句话:把模型做大,但让运行成本变小。
因为AI行业已经开始从“训练竞赛”转向“推理战争”。
训练一次模型很贵,但真正长期烧钱的,其实是推理。用户每问一句话、每调用一次Agent、每生成一次图像,都在持续消耗GPU资源。尤其手机、电脑、机器人这些终端设备,根本不可能像数据中心那样无限供电。
于是行业开始重新思考:有没有办法让模型既保留推理能力,又轻到可以本地运行?
Liquid AI想解决的,就是这个问题。
它直接把目标场景写得很明确——手机、PC、机器人。甚至支持在单张消费级显卡上本地微调和离线运行。这其实已经不是传统意义上的“云模型”,而是在往“个人AI引擎”方向走。
苹果会感兴趣,也不奇怪。
《The Information》披露苹果已经将Liquid AI列入潜在收购名单,背后的逻辑非常直接:苹果需要真正适合端侧运行的AI架构。
因为苹果现在面临一个非常现实的问题。
如果未来Siri、iOS Agent甚至系统级AI服务都依赖云端,苹果最核心的“隐私叙事”会被削弱。而且云推理成本会非常高。全球几十亿台设备同时调用AI,哪怕OpenAI都很难长期承受。
苹果更希望把智能直接压进设备里。
这也是为什么,现在整个行业开始重新重视“小模型”。
注意,这里的“小”已经不是以前那种“阉割版模型”。新一代小模型的方向,是“低激活、高推理密度”。也就是参数虽然不算特别大,但真正调用时效率极高。
LFM2.5-8B-A1B最有意思的一点,是它开始强化“思考能力”。
过去很多小模型的问题是,回答速度快,但推理深度不够。用户一旦提复杂问题,就容易胡说八道。现在Liquid AI开始把模型往“先思考、后回答”的纯推理路线调整。
这其实很像OpenAI o系列模型和DeepSeek-R1带起的新趋势。
行业已经发现,真正提升体验的,不一定是参数继续膨胀,而是模型能不能形成更稳定的推理链条。
尤其端侧AI更需要这一点。
因为本地模型没有云端那种无限算力,一旦回答错误,用户容忍度会更低。所以Liquid AI这次专门提到,他们通过靶向强化学习,把模型准确率从上一代的7.46%直接拉到63.47%。
这个数字本身甚至比参数规模更重要。
它说明小模型行业正在发生一件事:开始认真解决“幻觉”。
过去很多厂商默认,小模型能力弱一点没关系,反正成本低。但现在不同了。AI如果真的要进入手机、机器人、车机这些高频设备,错误率不能太高。
没人希望自己的AI助理天天一本正经乱说话。
另一个容易被忽略的细节,是多语言能力。
LFM2.5在泰语和印地语上的处理效率分别提升238.2%和120.4%。这意味着,小模型竞争已经不只是英语世界。真正的大规模设备部署,一定会面向全球本地语言市场。
尤其苹果这种全球硬件公司,比谁都在意这个。
因为未来端侧AI一旦成熟,手机行业的竞争逻辑可能会被重新改写。过去大家拼摄像头、拼芯片、拼续航,接下来可能会变成:谁的本地AI更聪明、更稳定、更懂用户。
而真正决定这一切的,未必是最大的模型。
可能恰恰是最轻的那个。