TxBench-PP:揭开AI制药的"推理幻觉",临床前药理学决策仍存巨大鸿沟
TxBench-PP作为首个专注于小型分子临床前药理学的可验证基准测试,旨在评估AI智能体在药物发现早期处理真实实验数据的能力。与传统依赖文献记忆的测试不同,该基准要求智能体从原始测定数据中推导准确结论,涵盖作用机制、药效动力学等五大核心任务。通过对16种模型配置及4800条推理轨迹的广泛测试,研究发现当前没有任何系统能可靠完成临床前药理学决策。即便最强的Claude Opus 4.8模型,其端点尝试通过率也仅为59.3%。这一结果揭示了AI在复杂科学推理领域的显著短板,表明现有大模型尚不足以独立承担制药工业中的关键决策任务,行业亟需建立更严谨、基于真实数据流的评估框架以推动技术落地。
人工智能智能体在药物发现领域的潜力巨大,它们有望通过压缩解释和决策循环来加速新药研发进程。然而,要将这些技术真正部署到实际工作中,必须建立基于现实程序决策的可信评估体系。现有的许多基准测试往往侧重于智能体对已知文献事实的记忆能力,而非其在面对真实、嘈杂且复杂的实验数据时的推理能力。为了解决这一关键缺口,研究者引入了TxBench-PP(TherapeuticsBench Preclinical Pharmacology),这是TherapeuticsBench项目的第一个聚焦切片,专门针对小型分子的临床前药理学阶段。该基准测试的核心贡献在于它不再测试智能体是否记住了教科书知识,而是测试它们能否从真实的测定数据中恢复出准确的科学结论。这包括对作用机制、药效动力学、化合物与靶点的结合、因果靶点验证、可开发性与安全性以及转化疗效等多维度的综合评估。
通过构建这一贴近工业界真实场景的测试环境,研究团队旨在揭示当前AI智能体在复杂科学推理任务中的真实水平,为后续模型优化提供明确方向。在技术方法上,TxBench-PP设计了一套高度仿真的工作流评估框架。基准测试包含100个独立的评估案例,这些案例按照项目阶段、测定类型和任务结构进行了精细索引。智能体被置于一个类似真实编程环境的界面中,接收现实世界的工作流快照,并需要自行检查相关文件和数据文件。这种设计迫使智能体不仅要具备自然语言理解能力,还要具备处理结构化数据、编写或理解代码以提取信息的能力。智能体最终需要返回结构化的答案,这些答案将由确定性算法进行评分,从而确保评估结果的客观性和可复现性。
这种基于代码环境和真实数据文件的交互方式,极大地提高了测试的难度和真实性,因为它模拟了药物研发科学家在日常工作中处理非标准化、多源异构数据的真实场景。通过这种方式,研究团队能够精确测量智能体在信息检索、逻辑推理和结论生成各个阶段的性能瓶颈。实验部分涵盖了16种模型-工具配置组合,涉及11个不同的基础模型,并生成了4800条推理轨迹。结果显示,目前没有任何一个系统能够可靠地恢复临床前药理学决策,整体表现远低于工业应用所需的阈值。最强的配置是Claude Opus 4.8结合Pi工具,其端点尝试通过率仅为59.3%(178/300,95%置信区间为51.1-67.6)。紧随其后的是GPT-5.5结合Pi,通过率为55.3%(166/300,95%置信区间为47.0-63.6)。
这一结果令人震惊,因为它表明即使在最先进的模型支持下,AI在处理需要深度领域知识和复杂逻辑推理的科学任务时,仍存在巨大的可靠性缺口。消融实验进一步揭示了不同任务类型对模型能力的挑战差异,例如因果靶点验证和转化疗效评估对智能体的推理深度要求最高,导致错误率显著上升。这些数据清晰地描绘了当前AI智能体在科学推理领域的性能边界,证明了单纯增加模型参数或优化提示工程已不足以解决根本问题。TxBench-PP的发布对开源社区和制药工业具有深远的意义。对于开源社区而言,它提供了一个标准化的、可复现的基准,促使研究者从追求表面准确率转向提升模型在复杂、长链条推理任务中的鲁棒性。对于工业界来说,这一基准揭示了当前AI技术在辅助药物发现方面的局限性,提醒企业在依赖AI进行关键决策时需保持谨慎,并投入更多资源开发针对科学推理优化的专用模型。此外,该基准作为TherapeuticsBench项目的开端,为未来扩展到其他治疗模态和药物发现阶段奠定了基础。它强调了在AI制药领域,建立可信、可验证的评估体系与开发模型本身同样重要。未来的研究应聚焦于如何提升智能体对真实实验数据的噪声容忍度、多模态信息整合能力以及因果推理能力,从而真正实现AI在加速新药研发中的革命性作用。