首页 > 资讯 > 正文

Mercor基准测试显示AI在白领任务中仍表现不足

时间： 2026-01-23 阅读： 160

欧易交易所

全球三大交易所之一，注册领50 USDT数币盲盒！

官网注册 APP下载

来自训练数据公司Mercor的最新研究表明，人工智能在应对现实世界的白领工作任务时仍面临显著挑战。该研究通过名为Apex-Agents的基准测试，评估了顶级AI模型在咨询、银行和法律等专业领域的表现，结果显示即使是Gemini 3 Flash和GPT-5.2这样的先进模型，在大多数实际查询中的准确率仍低于25%，远低于人类专业人士的水平。

此次测试的设计基于真实工作场景的数据，包括多领域信息检索、数据分析、报告撰写以及决策建议等典型任务。研究人员指出，AI在处理跨领域信息和复杂上下文时，表现仍然有限，这是许多专业岗位所需的核心能力。尤其在法律研究、财务分析和咨询报告撰写等任务中，AI模型经常出现信息遗漏、逻辑错误或答案不完整的问题，导致整体准确率不理想。

尽管技术在快速进步，但Mercor的研究强调，现阶段AI仍无法替代人类专业工作者的判断力和综合能力。研究团队指出，AI在数据处理速度和规模上具有优势，但面对现实工作场景的复杂性和多样化要求时，其灵活性和判断力仍远不及人类。这意味着企业在尝试将AI应用于专业岗位时，需要保持谨慎，并将其作为辅助工具而非完全替代方案。

Apex-Agents基准测试还揭示了AI在多领域信息检索方面的关键短板。许多任务要求模型能够整合来自不同领域的知识，并根据具体情境提供合理建议。然而，测试结果显示，当前的AI模型在整合跨领域信息时容易产生偏差或遗漏，这限制了其在实际工作中的可操作性。研究人员指出，解决这一问题需要更复杂的训练方法和更高质量的数据输入，但短期内全面替代专业岗位仍不现实。

Mercor的分析强调了AI在白领领域应用的潜力与局限并存。虽然AI可以显著提升数据处理效率，辅助文档生成和信息汇总，但在需要判断力、策略规划和跨领域整合能力的工作中，人类专业技能仍不可替代。研究结论提醒企业和技术开发者，当前AI应更多用于提高工作效率和辅助决策，而非完全替代专家判断。

总体来看，Mercor的基准测试提供了对AI能力的客观评估。尽管顶级模型如Gemini 3 Flash和GPT-5.2在处理数据和基础任务上表现优异，但面对复杂白领工作任务时，准确率仍低于25%。这一结果显示，AI距离完全取代专业人士还有较长距离，目前更适合作为工作辅助工具，帮助提升效率和减少重复劳动，同时仍需依赖人类判断和专业经验。

上一篇：Zcash团队变动引发价格波动与市场关注下一篇：TikTok成立美国数据安全合资公司字节跳动保留控股

币安

币安，全球顶级数字货币交易平台，手机即可买卖BTC等！

注册链接下载链接