TxBench-PP揭示AI药物发现短板:最强模型在临床前药理学决策中通过率不足六成

最新发布的TxBench-PP基准测试针对小分子临床前药理学领域,旨在评估AI智能体在真实药物发现场景中的决策可靠性。该测试摒弃了依赖文献记忆的传统模式,要求智能体从非结构化的真实实验数据中推导准确结论。研究涵盖作用机制、药效动力学等五个维度,对11种模型的16种配置进行了4,800次轨迹测试。结果显示,当前没有任何系统能可靠完成此类复杂决策,表现最佳的Claude Opus 4.8 / Pi组合通过率仅为59.3%。这一结果深刻揭示了现有AI在处理高噪声、高复杂度生物实验数据时的局限性,表明其距离工业级可靠应用仍有显著差距。

人工智能智能体在药物发现领域的应用前景广阔,其核心价值在于压缩解释与决策循环,从而加速新药研发进程。然而,要将这些智能体真正部署到实际工作流程中,必须建立在对其在现实程序决策中表现的可信评估基础之上。当前许多评估往往侧重于智能体对已知文献事实的记忆能力,而非其在面对真实、嘈杂实验数据时的推理与决策能力。为此,研究团队推出了TxBench-PP(TherapeuticsBench Preclinical Pharmacology),这是首个专注于小分子临床前药理学的可验证基准测试,也是更广泛的TherapeuticsBench项目在不同药物发现阶段和治疗模式中的首个细分切片。该基准的核心贡献在于构建了一个能够测试智能体是否具备从真实实验数据中恢复准确结论能力的框架,而非仅仅考察其是否记住了教科书式的知识点。这标志着药物发现AI评估从"知识检索"向"科学推理"的重要转变,为解决药物研发中关键决策环节的自动化可靠性问题提供了新的评估标准和方法论基础。

在技术方法上,TxBench-PP设计了一套高度仿真的评估环境,旨在模拟真实的药物研发工作流。基准测试包含100个评估任务,这些任务按照程序阶段、实验类型和任务结构进行索引,涵盖了作用机制(MoA)推理、药效动力学(PD)推理、化合物-靶点结合、因果靶点验证、可开发性与安全性以及转化效力等多个关键维度。在测试过程中,智能体接收到的不是简化的问题描述,而是真实的 workflows 快照。它们被置于一个编码环境中,需要自行检查和分析各种数据文件,这种设计迫使智能体必须具备处理非结构化数据、识别关键信息以及进行逻辑推导的能力。最终,智能体需要返回结构化的答案,这些答案通过确定性的规则进行评分,确保了评估结果的客观性和可重复性。这种基于真实工作流快照和文件检查的评估方式,极大地提高了测试的生态效度,使得评估结果更能反映智能体在实际工业场景中的表现,而非在理想化数据集上的性能。

实验设置方面,研究团队对16种模型- harness 配置进行了全面评估,这些配置涵盖了11种不同的基础模型,并产生了总计4,800条推理轨迹。这一大规模的测试范围确保了结果的统计显著性和代表性。关键结果显示,没有任何一个系统能够可靠地恢复临床前药理学决策,这表明当前最先进的AI模型在处理此类复杂科学任务时仍存在普遍性瓶颈。具体而言,表现最强的配置是Claude Opus 4.8 / Pi,其仅通过了59.3%的终点尝试(300次尝试中通过178次,95%置信区间为51.1%-67.6%)。紧随其后的是GPT-5.5 / Pi,通过率为55.3%(166/300,置信区间47.0%-63.6%)。这些数字清晰地揭示了当前AI智能体在真实药物发现决策中的局限性:即使是最先进的模型,其准确率也远未达到工业应用所需的可靠性标准。

消融分析虽未在摘要中详细展开,但不同模型配置的显著差异暗示了模型架构、训练数据质量以及提示工程策略对最终性能的关键影响。从行业意义与潜在影响来看,TxBench-PP的发布对开源社区和工业落地具有深远影响。首先,它为药物发现领域的AI研究者提供了一个标准化的、贴近现实的评估基准,有助于更准确地衡量模型进步,避免在过于简化的基准上产生"虚假繁荣"。其次,研究结果明确指出,当前AI智能体尚不具备独立承担临床前药理学决策的能力,这为制药公司引入AI辅助决策提供了重要的风险警示,提示企业在实际部署前需投入更多资源进行人工复核和混合智能工作流设计。此外,该基准作为TherapeuticsBench项目的开端,预示着未来将有更多针对其他药物发现阶段和治疗模式的细分基准出现,这将推动整个领域向更精细化、更实用的评估体系发展。对于后续研究而言,如何在复杂、非结构化的真实数据中提升AI的推理能力和决策可靠性,将成为该领域亟待解决的核心挑战,而TxBench-PP为这一挑战提供了明确的衡量标尺和改进方向。

Sources