来自训练数据公司Mercor的最新研究表明,人工智能在应对现实世界的白领工作任务时仍面临显著挑战。该研究通过名为Apex-Agents的基准测试,评估了顶级AI模型在咨询、银行和法律等专业领域的表现,结果显示即使是Gemini 3 Flash和GPT-5.2这样的先进模型,在大多数实际查询中的准确率仍低于25%,远低于人类专业人士的水平。
此次测试的设计基于真实工作场景的数据,包括多领域信息检索、数据分析、报告撰写以及决策建议等典型任务。研究人员指出,AI在处理跨领域信息和复杂上下文时,表现仍然有限,这是许多专业岗位所需的核心能力。尤其在法律研究、财务分析和咨询报告撰写等任务中,AI模型经常出现信息遗漏、逻辑错误或答案不完整的问题,导致整体准确率不理想。
尽管技术在快速进步,但Mercor的研究强调,现阶段AI仍无法替代人类专业工作者的判断力和综合能力。研究团队指出,AI在数据处理速度和规模上具有优势,但面对现实工作场景的复杂性和多样化要求时,其灵活性和判断力仍远不及人类。这意味着企业在尝试将AI应用于专业岗位时,需要保持谨慎,并将其作为辅助工具而非完全替代方案。
Apex-Agents基准测试还揭示了AI在多领域信息检索方面的关键短板。许多任务要求模型能够整合来自不同领域的知识,并根据具体情境提供合理建议。然而,测试结果显示,当前的AI模型在整合跨领域信息时容易产生偏差或遗漏,这限制了其在实际工作中的可操作性。研究人员指出,解决这一问题需要更复杂的训练方法和更高质量的数据输入,但短期内全面替代专业岗位仍不现实。
Mercor的分析强调了AI在白领领域应用的潜力与局限并存。虽然AI可以显著提升数据处理效率,辅助文档生成和信息汇总,但在需要判断力、策略规划和跨领域整合能力的工作中,人类专业技能仍不可替代。研究结论提醒企业和技术开发者,当前AI应更多用于提高工作效率和辅助决策,而非完全替代专家判断。
总体来看,Mercor的基准测试提供了对AI能力的客观评估。尽管顶级模型如Gemini 3 Flash和GPT-5.2在处理数据和基础任务上表现优异,但面对复杂白领工作任务时,准确率仍低于25%。这一结果显示,AI距离完全取代专业人士还有较长距离,目前更适合作为工作辅助工具,帮助提升效率和减少重复劳动,同时仍需依赖人类判断和专业经验。