在大模型应用不断向“工具化智能体”演进的背景下,Perplexity AI研究团队近日披露了其网页搜索Agent的后训练技术细节,引发行业关注。这份技术文章不仅展示了其在搜索推理能力上的优化路径,也首次较为系统地解释了如何在模型性能与推理成本之间取得平衡。对于当前竞争激烈的AI搜索赛道而言,这一进展具有较强参考价值。
从具体技术流程来看,此次公开的训练体系主要分为两个阶段。第一阶段采用监督微调(SFT),重点让模型掌握指令遵循能力、语言一致性以及基础工具调用规范,使其具备可上线运行的基本行为模式。第二阶段则进入强化学习(RL)优化环节,通过在线策略训练提升搜索准确率与工具使用效率。在模型选择上,团队基于Qwen3.5-122B-A10B与Qwen3.5-397B-A17B作为底座模型进行后训练,并引入GRPO强化学习算法进行优化。在数据构建方面,训练集由两类核心数据组成:一类是自研的多跳可验证问答数据,通过从种子查询出发构建实体链,生成需要2至4步推理才能完成的问题,并由多模型交叉验证答案一致性;另一类则是基于评分规则(rubric)的对话数据,将指令执行、格式约束等拆解为可量化检查项,用于防止模型在强化学习过程中偏离原有行为标准。
在训练机制设计上,有几个关键点尤为突出。首先是奖励函数采用“门控聚合”方式,只有在答案正确或所有评分条件满足的情况下,偏好信号才会被纳入计算,这种设计有效避免了模型在错误答案上获得高奖励的情况。其次,在效率控制方面引入组内锚定机制,以同组正确答案作为基准,对多余的工具调用次数和生成长度进行平滑惩罚,从而避免模型过度冗余调用外部工具。一个明显变化是,这类设计不再单纯追求回答质量,而是同时对“成本效率”进行约束,使模型行为更接近真实生产环境中的工程需求。
从行业影响来看,这套训练方法折射出AI搜索产品正在进入“性能与成本双约束”阶段。过去大模型竞赛更多聚焦于准确率提升,但随着应用规模扩大,推理成本与调用效率开始成为关键指标。此次实验结果显示,经过后训练的Qwen3.5-397B-SFT-RL模型在FRAMES等搜索基准上表现优于多款主流模型,例如在单次工具调用场景下达到57.3%的准确率,相比部分商业模型提升明显,而在4次工具调用的中等预算场景中准确率提升至73.9%,同时每次查询成本约为2美分,显著低于对比模型。这种“性能提升+成本下降”的组合,在当前AI应用商业化阶段具有较强现实意义。
从更广泛的行业背景来看,这种训练思路并非孤立存在。近年来,围绕大模型Agent的优化方向逐渐从“单纯参数规模竞争”转向“系统性能力优化”,包括检索增强生成(RAG)、多步推理链设计以及工具调用控制等技术路径不断成熟。同时,类似OpenAI、Anthropic等公司也在强化模型在复杂任务执行中的稳定性与成本控制能力。在实际应用中,例如搜索引擎、智能客服以及代码助手场景,模型调用频率和响应效率正在成为用户体验的重要决定因素。
此外,强化学习在大模型后训练中的作用正在不断增强。相比传统监督学习,RL更适合处理多目标优化问题,例如同时平衡正确率、推理深度与资源消耗。此次Perplexity提出的“门控奖励机制”与“组内锚定惩罚”,实际上也代表了一种更工程化的RL设计思路,使模型不再只是“答对问题”,而是“以合理成本答对问题”。
综合来看,这次技术披露不仅展示了AI搜索Agent能力提升的具体路径,也反映出行业正在进入一个更加务实的阶段。未来一段时间内,模型能力的竞争或将更多围绕“单位成本下的智能密度”展开,而不仅仅是绝对性能指标的比拼。在这种趋势下,训练方法的工程化程度与系统设计能力,可能会成为决定AI产品竞争力的关键因素。