像真实研究者一样行动：AARRI-Bench评估前沿LLM科研能力

随着基础模型与智能体框架的演进，AI在长程编码及自主实验执行方面展现出惊人潜力，但其在领域敏感度、科研伦理及细微科学判断上仍存显著局限，无法完全替代人类研究者。为此，本文提出AARR基准系列，旨在评估智能体在细粒度科研场景中是否具备人类研究者的专业性与严谨推理能力。作为该系列首个基准，AARRI-Bench聚焦于模拟研究实习生的工作流。实验显示，即便表现最佳的配置成功率仅为68.3%，常忽略对人类而言显而易见的关键细节。结果表明，打造类人研究者AI需深入探索科研行为本质，而非仅依赖复杂框架堆叠。

当前，基础大语言模型与智能体脚手架技术的飞速发展，使得AI系统在处理复杂、长周期的编码任务乃至自主执行科学实验方面取得了令人瞩目的进展。然而，尽管这些系统正从简单的研究助手演变为具备一定自主性的研究智能体，它们在实际应用中仍暴露出明显的短板。特别是在领域敏感度、科研伦理规范以及 nuanced 的科学判断力方面，现有系统与真正的人类研究者之间仍存在巨大鸿沟。这种差距导致前沿智能体尚无法完全取代人类科研人员。为了弥合这一差距并更准确地评估AI的科研潜力，本研究 conceptualize 了AARR（Act As a Real Researcher）基准系列。与以往主要评估宏观执行能力的基准不同，AARR系列的核心目标在于检验智能体能否在细粒度的科研场景中，复刻人类研究者所特有的专业性、 thoroughness 以及细腻的推理过程。本文正式推出了该系列的首个基准——AARRI-Bench（Act As a Real Research Intern），旨在通过模拟研究实习生的日常工作，深入剖析当前前沿模型在真实科研流程中的表现与局限。在技术方法与评估体系构建上，AARRI-Bench并未局限于传统的代码生成或单一任务解答，而是构建了一套涵盖科研全生命周期的细粒度评估场景。该基准特别强调对"研究者行为"的模拟，要求智能体不仅要有执行能力，更需展现出对科研细节的敏锐捕捉和对潜在伦理风险的规避意识。研究团队选取了当前最具代表性的前沿模型与多种agentic systems进行广泛实验，重点考察它们在模拟研究实习生角色时的综合表现。评估维度涵盖了从文献理解、实验设计到结果分析等多个环节，尤其关注智能体在面对模糊指令或隐含约束时的反应。这种方法论上的创新，使得评估不再仅仅停留在"任务是否完成"的二元层面，而是深入到"完成质量是否符合人类专家标准"的深度层面，从而能够更精准地识别出智能体在逻辑链条中的断裂点与认知盲区。实验结果揭示了当前最先进AI系统在科研任务中的真实水位。在对多个前沿模型及智能体系统的全面测试中，表现最佳的组合配置——即采用Mini-SWE-Agent框架搭配Claude Opus 4.7模型——其整体成功率仅为68.3%。这一数据远低于许多乐观预期，且深入分析失败案例发现，智能体频繁忽略那些对于真实人类研究者而言显而易见却又至关重要的细节。例如，在处理特定领域的数据预处理或解释实验异常值时，模型往往缺乏必要的谨慎与背景知识关联能力，导致结论偏差。消融实验进一步表明，单纯增加模型的参数量或优化提示工程策略，并不能根本性解决这些问题。这些错误并非源于计算能力的不足，而是源于对科研语境理解的缺失。这有力地证明了，当前的智能体在处理需要高度上下文感知和隐性知识推理的科研任务时，仍显得笨拙且不可靠，其"直觉"与人类专家相去甚远。本研究的发现对开源社区、工业界落地以及后续学术研究具有深远的意义。首先，AARRI-Bench的发布为评估科研类AI提供了一个标准化、高难度的测试床，有助于社区更客观地衡量不同模型在垂直领域的真实能力，避免被通用的benchmark高分所误导。其次，对于致力于开发自主科研助手的工业界而言，结果警示了仅依靠复杂scaffolding（脚手架）技术的局限性，指出未来的研发重心应转向对"研究行为"本身的建模与学习，包括如何培养模型的领域敏感度与伦理判断力。最后，该研究指明了后续方向：要实现真正的"像研究者一样行动"的AI，必须超越单纯的执行效率优化，深入探索如何让模型内化科研思维模式。作者已公开相关数据，期待激发更多关于提升AI科研素养的创新研究，推动人工智能从"工具"向"伙伴"的实质性跨越。

Sources

arXiv