TxBench-PP基准测试主要评估什么内容？

TxBench-PP是首个针对小分子临床前药理学的可验证基准，包含100个核心任务。它要求AI代理从真实实验数据中推导结论，而非依赖记忆，涵盖作用机制、药效学及安全性等关键领域，旨在评估AI在现实药物发现场景中的决策能力。

当前最强AI模型在该测试中的表现如何？

测试显示，包括Claude Opus 4.8和GPT-5.5在内的11个主流模型均无法可靠完成决策。最佳配置Claude Opus 4.8结合Pi工具通过率仅为59.3%，GPT-5.5为55.3%。这揭示了当前AI在处理复杂科学推理和多变量数据时存在显著短板。

这一结果对药物研发行业意味着什么？

结果表明AI目前难以替代人类专家的严谨判断，行业需从“生成式”向“验证式”评估转型。制药企业在引入AI时应将其视为辅助工具，并在关键决策环节保留人工审核与多重验证机制，以规避因科学推理缺陷导致的研发风险。

TxBench-PP揭示AI药物发现瓶颈：最强模型仅59.3%通过率，科学推理仍是硬伤

最新发布的TxBench-PP基准测试专为评估AI代理在临床前药理学中的真实决策能力而设计，涵盖作用机制、药效学等100个核心任务。测试结果显示，包括Claude Opus 4.8和GPT-5.5在内的11个主流模型，在结合Pi工具后最高通过率仅为59.3%，远低于可靠应用所需的阈值。这一结果深刻揭示了当前大语言模型在处理复杂、多变量实验数据时的科学推理短板，表明AI在药物发现早期阶段仍难以替代人类专家的严谨判断，行业需从"生成式"向"验证式"评估转型。

随着人工智能在药物发现领域的快速渗透，AI代理被寄予厚望，认为其能通过压缩解释和决策循环来加速新药研发进程。然而，要将这些技术真正部署到实际工作流中，必须建立基于现实程序决策的可信评估体系。本研究正式推出了TxBench-PP（TherapeuticsBench Preclinical Pharmacology），这是首个专注于小分子临床前药理学的可验证基准测试，也是更广泛的TherapeuticsBench计划的首个切片，该计划旨在覆盖药物发现的各个阶段和治疗模式。TxBench-PP的核心挑战在于测试AI代理是否能够从真实的实验数据中恢复出准确的结论，而不是简单地从文献中检索或记忆已知事实。这一设定直接针对了当前AI在科学推理中常见的"幻觉"和过度依赖预训练知识的问题，强调了在未知或复杂数据场景下的真实推理能力的重要性。该基准测试不仅关注结果的正确性，更关注决策过程的透明度和可验证性，为后续研究提供了一个坚实的评估基础。在技术方法上，TxBench-PP构建了一个高度仿真的评估环境，旨在模拟真实的药物研发工作流。该基准测试包含100个独立的评估任务，这些任务按照项目阶段、实验类型和任务结构进行了精细索引。

任务范围广泛，涵盖了作用机制（MoA）和药效学（PD）推理、化合物与靶点的结合亲和力预测、因果靶点验证、药物开发潜力及安全性评估，以及转化疗效分析。在测试过程中，AI代理被赋予类似真实研究员的工作快照，它们需要在一个代码环境中主动检查和分析各种数据文件，包括实验记录、统计结果和图表数据。代理必须通过编程或逻辑推理工具来处理这些信息，并最终返回结构化的答案。这种设计迫使AI模型不仅要具备语言理解能力，还要具备数据处理、逻辑推导和领域特定的药理知识。评估过程是确定性的，答案的评分基于严格的规则，确保了评估结果的客观性和可重复性。这种"黑盒"到"白盒"的过渡，使得研究人员能够深入分析AI在哪些具体环节出现了错误，从而更有针对性地改进模型。为了全面评估当前AI代理的性能，研究团队在16种模型配置下进行了广泛的测试，涉及11个主流的大语言模型，累计生成了4800条推理轨迹。实验结果令人警醒：没有任何一个系统能够可靠地恢复临床前药理学决策，表明当前技术在处理复杂、多模态的科学数据时仍存在显著缺陷。

在各项配置中，表现最强的是Claude Opus 4.8配合Pi策略的配置，其仅通过了59.3%的端点尝试（300次尝试中成功178次，95%置信区间为51.1-67.6）。紧随其后的是GPT-5.5配合Pi策略的配置，通过率为55.3%（166/300，95%置信区间为47.0-63.6）。这一数据不仅揭示了当前顶尖模型在专业领域能力的天花板，也暴露了即使是最先进的AI，在面对需要深度领域知识和严谨逻辑推理的科学问题时，仍然难以达到人类专家的水平。消融实验进一步显示，单纯增加模型参数或优化提示工程并不能显著提升性能，关键在于模型对真实实验数据的理解能力和推理链条的构建能力。TxBench-PP的发布对开源社区、工业落地及后续研究具有深远的意义。对于开源社区而言，它提供了一个标准化的、可复现的评估框架，鼓励研究人员在统一的基准上比较不同模型的性能，从而推动算法的透明化和公平性竞争。在工业落地方面，该基准测试警示了制药公司和生物技术企业在引入AI代理时的风险，强调了在关键决策环节引入人工审核和多重验证机制的必要性。它表明，目前AI更适合作为辅助工具而非独立决策者。对于后续研究，TxBench-PP指出了当前模型在因果推理、多模态数据整合和领域特定知识应用方面的不足，为未来的模型架构设计和训练策略提供了明确的方向。随着TherapeuticsBench计划的推进，预计将有更多针对其他药物发现阶段的基准测试出现，这将有助于构建一个更加全面和深入的AI药物研发评估生态系统，最终推动AI技术在生命科学领域的安全、有效应用。

Sources

arXiv