首页 > 资讯 > 正文

Perplexity公开搜索Agent训练流程性能与成本同步优化

时间： 2026-04-23 阅读： 127

Agent

欧易交易所

全球三大交易所之一，注册领50 USDT数币盲盒！

官网注册 APP下载

在大模型应用不断向“工具化智能体”演进的背景下，Perplexity AI研究团队近日披露了其网页搜索Agent的后训练技术细节，引发行业关注。这份技术文章不仅展示了其在搜索推理能力上的优化路径，也首次较为系统地解释了如何在模型性能与推理成本之间取得平衡。对于当前竞争激烈的AI搜索赛道而言，这一进展具有较强参考价值。

从具体技术流程来看，此次公开的训练体系主要分为两个阶段。第一阶段采用监督微调（SFT），重点让模型掌握指令遵循能力、语言一致性以及基础工具调用规范，使其具备可上线运行的基本行为模式。第二阶段则进入强化学习（RL）优化环节，通过在线策略训练提升搜索准确率与工具使用效率。在模型选择上，团队基于Qwen3.5-122B-A10B与Qwen3.5-397B-A17B作为底座模型进行后训练，并引入GRPO强化学习算法进行优化。在数据构建方面，训练集由两类核心数据组成：一类是自研的多跳可验证问答数据，通过从种子查询出发构建实体链，生成需要2至4步推理才能完成的问题，并由多模型交叉验证答案一致性；另一类则是基于评分规则（rubric）的对话数据，将指令执行、格式约束等拆解为可量化检查项，用于防止模型在强化学习过程中偏离原有行为标准。

在训练机制设计上，有几个关键点尤为突出。首先是奖励函数采用“门控聚合”方式，只有在答案正确或所有评分条件满足的情况下，偏好信号才会被纳入计算，这种设计有效避免了模型在错误答案上获得高奖励的情况。其次，在效率控制方面引入组内锚定机制，以同组正确答案作为基准，对多余的工具调用次数和生成长度进行平滑惩罚，从而避免模型过度冗余调用外部工具。一个明显变化是，这类设计不再单纯追求回答质量，而是同时对“成本效率”进行约束，使模型行为更接近真实生产环境中的工程需求。

从行业影响来看，这套训练方法折射出AI搜索产品正在进入“性能与成本双约束”阶段。过去大模型竞赛更多聚焦于准确率提升，但随着应用规模扩大，推理成本与调用效率开始成为关键指标。此次实验结果显示，经过后训练的Qwen3.5-397B-SFT-RL模型在FRAMES等搜索基准上表现优于多款主流模型，例如在单次工具调用场景下达到57.3%的准确率，相比部分商业模型提升明显，而在4次工具调用的中等预算场景中准确率提升至73.9%，同时每次查询成本约为2美分，显著低于对比模型。这种“性能提升+成本下降”的组合，在当前AI应用商业化阶段具有较强现实意义。

从更广泛的行业背景来看，这种训练思路并非孤立存在。近年来，围绕大模型Agent的优化方向逐渐从“单纯参数规模竞争”转向“系统性能力优化”，包括检索增强生成（RAG）、多步推理链设计以及工具调用控制等技术路径不断成熟。同时，类似OpenAI、Anthropic等公司也在强化模型在复杂任务执行中的稳定性与成本控制能力。在实际应用中，例如搜索引擎、智能客服以及代码助手场景，模型调用频率和响应效率正在成为用户体验的重要决定因素。

此外，强化学习在大模型后训练中的作用正在不断增强。相比传统监督学习，RL更适合处理多目标优化问题，例如同时平衡正确率、推理深度与资源消耗。此次Perplexity提出的“门控奖励机制”与“组内锚定惩罚”，实际上也代表了一种更工程化的RL设计思路，使模型不再只是“答对问题”，而是“以合理成本答对问题”。

综合来看，这次技术披露不仅展示了AI搜索Agent能力提升的具体路径，也反映出行业正在进入一个更加务实的阶段。未来一段时间内，模型能力的竞争或将更多围绕“单位成本下的智能密度”展开，而不仅仅是绝对性能指标的比拼。在这种趋势下，训练方法的工程化程度与系统设计能力，可能会成为决定AI产品竞争力的关键因素。

上一篇：传Anthropic系统遭入侵引安全担忧下一篇：法国兴业银行加码加密业务稳定币需求或加速增长

币安

币安，全球顶级数字货币交易平台，手机即可买卖BTC等！

注册链接下载链接

Perplexity公开搜索Agent训练流程 性能与成本同步优化

Perplexity公开搜索Agent训练流程性能与成本同步优化