TxBench-PP揭示AI药物发现瓶颈:最强模型仅59.3%通过率,科学推理仍是硬伤

最新发布的TxBench-PP基准测试专为评估AI代理在临床前药理学中的真实决策能力而设计,涵盖作用机制、药效学等100个核心任务。测试结果显示,包括Claude Opus 4.8和GPT-5.5在内的11个主流模型,在结合Pi工具后最高通过率仅为59.3%,远低于可靠应用所需的阈值。这一结果深刻揭示了当前大语言模型在处理复杂、多变量实验数据时的科学推理短板,表明AI在药物发现早期阶段仍难以替代人类专家的严谨判断,行业需从"生成式"向"验证式"评估转型。

随着人工智能在药物发现领域的快速渗透,AI代理被寄予厚望,认为其能通过压缩解释和决策循环来加速新药研发进程。然而,要将这些技术真正部署到实际工作流中,必须建立基于现实程序决策的可信评估体系。本研究正式推出了TxBench-PP(TherapeuticsBench Preclinical Pharmacology),这是首个专注于小分子临床前药理学的可验证基准测试,也是更广泛的TherapeuticsBench计划的首个切片,该计划旨在覆盖药物发现的各个阶段和治疗模式。TxBench-PP的核心挑战在于测试AI代理是否能够从真实的实验数据中恢复出准确的结论,而不是简单地从文献中检索或记忆已知事实。这一设定直接针对了当前AI在科学推理中常见的"幻觉"和过度依赖预训练知识的问题,强调了在未知或复杂数据场景下的真实推理能力的重要性。该基准测试不仅关注结果的正确性,更关注决策过程的透明度和可验证性,为后续研究提供了一个坚实的评估基础。在技术方法上,TxBench-PP构建了一个高度仿真的评估环境,旨在模拟真实的药物研发工作流。该基准测试包含100个独立的评估任务,这些任务按照项目阶段、实验类型和任务结构进行了精细索引。

任务范围广泛,涵盖了作用机制(MoA)和药效学(PD)推理、化合物与靶点的结合亲和力预测、因果靶点验证、药物开发潜力及安全性评估,以及转化疗效分析。在测试过程中,AI代理被赋予类似真实研究员的工作快照,它们需要在一个代码环境中主动检查和分析各种数据文件,包括实验记录、统计结果和图表数据。代理必须通过编程或逻辑推理工具来处理这些信息,并最终返回结构化的答案。这种设计迫使AI模型不仅要具备语言理解能力,还要具备数据处理、逻辑推导和领域特定的药理知识。评估过程是确定性的,答案的评分基于严格的规则,确保了评估结果的客观性和可重复性。这种"黑盒"到"白盒"的过渡,使得研究人员能够深入分析AI在哪些具体环节出现了错误,从而更有针对性地改进模型。为了全面评估当前AI代理的性能,研究团队在16种模型配置下进行了广泛的测试,涉及11个主流的大语言模型,累计生成了4800条推理轨迹。实验结果令人警醒:没有任何一个系统能够可靠地恢复临床前药理学决策,表明当前技术在处理复杂、多模态的科学数据时仍存在显著缺陷。

在各项配置中,表现最强的是Claude Opus 4.8配合Pi策略的配置,其仅通过了59.3%的端点尝试(300次尝试中成功178次,95%置信区间为51.1-67.6)。紧随其后的是GPT-5.5配合Pi策略的配置,通过率为55.3%(166/300,95%置信区间为47.0-63.6)。这一数据不仅揭示了当前顶尖模型在专业领域能力的天花板,也暴露了即使是最先进的AI,在面对需要深度领域知识和严谨逻辑推理的科学问题时,仍然难以达到人类专家的水平。消融实验进一步显示,单纯增加模型参数或优化提示工程并不能显著提升性能,关键在于模型对真实实验数据的理解能力和推理链条的构建能力。TxBench-PP的发布对开源社区、工业落地及后续研究具有深远的意义。对于开源社区而言,它提供了一个标准化的、可复现的评估框架,鼓励研究人员在统一的基准上比较不同模型的性能,从而推动算法的透明化和公平性竞争。在工业落地方面,该基准测试警示了制药公司和生物技术企业在引入AI代理时的风险,强调了在关键决策环节引入人工审核和多重验证机制的必要性。它表明,目前AI更适合作为辅助工具而非独立决策者。对于后续研究,TxBench-PP指出了当前模型在因果推理、多模态数据整合和领域特定知识应用方面的不足,为未来的模型架构设计和训练策略提供了明确的方向。随着TherapeuticsBench计划的推进,预计将有更多针对其他药物发现阶段的基准测试出现,这将有助于构建一个更加全面和深入的AI药物研发评估生态系统,最终推动AI技术在生命科学领域的安全、有效应用。

Sources