什么是TxBench-PP？

TxBench-PP是首个专注于小分子临床前药理学的可验证基准测试。它要求AI智能体面对真实、嘈杂的实验测定数据时，能够独立推导出准确的科学结论，而非依赖已有文献记忆。

该测试揭示了什么核心问题？

测试表明当前AI在复杂科学推理上存在巨大缺口，即使是最强的Claude Opus 4.8模型，其通过率也仅为59.3%。这证明现有大语言模型尚不足以独立承担制药关键决策。

未来制药AI的发展方向是什么？

未来行业需建立更严谨的可验证评估体系，重点提升模型对真实实验数据的噪声容忍度与多模态整合能力，并投入资源开发专门针对科学推理优化的专用AI模型。

TxBench-PP：評估AI智能體在小型分子臨床前藥理學中的真實推理能力

本文介紹了TxBench-PP，這是首個專注於小型分子臨床前藥理學的可驗證基準測試，旨在評估AI智能體在藥物發現早期階段處理真實實驗數據的能力。不同於依賴記憶文獻知識的傳統測試，該基準要求智能體從真實的測定量中恢復準確的結論。研究涵蓋了作用機制、藥效動力學、化合物靶點結合等五大類任務，通過16種模型配置和4800條軌跡進行了廣泛測試。結果顯示，目前沒有任何系統能可靠地完成臨床前藥理學決策。最強配置Claude Opus 4.8僅通過59.3%的端點嘗試，表明AI在複雜科學推理方面仍存在顯著差距，亟需更可靠的評估框架來推動其在製藥工業中的落地。

人工智能智能体在药物发现领域的潜力巨大，它们有望通过压缩解释和决策循环来加速新药研发进程。然而，要将这些技术真正部署到实际工作中，必须建立基于现实程序决策的可信评估体系。现有的许多基准测试往往侧重于智能体对已知文献事实的记忆能力，而非其在面对真实、嘈杂且复杂的实验数据时的推理能力。为了解决这一关键缺口，研究者引入了TxBench-PP（TherapeuticsBench Preclinical Pharmacology），这是TherapeuticsBench项目的第一个聚焦切片，专门针对小型分子的临床前药理学阶段。该基准测试的核心贡献在于它不再测试智能体是否记住了教科书知识，而是测试它们能否从真实的测定数据中恢复出准确的科学结论。这包括对作用机制、药效动力学、化合物与靶点的结合、因果靶点验证、可开发性与安全性以及转化疗效等多维度的综合评估。

通过构建这一贴近工业界真实场景的测试环境，研究团队旨在揭示当前AI智能体在复杂科学推理任务中的真实水平，为后续模型优化提供明确方向。在技术方法上，TxBench-PP设计了一套高度仿真的工作流评估框架。基准测试包含100个独立的评估案例，这些案例按照项目阶段、测定类型和任务结构进行了精细索引。智能体被置于一个类似真实编程环境的界面中，接收现实世界的工作流快照，并需要自行检查相关文件和数据文件。这种设计迫使智能体不仅要具备自然语言理解能力，还要具备处理结构化数据、编写或理解代码以提取信息的能力。智能体最终需要返回结构化的答案，这些答案将由确定性算法进行评分，从而确保评估结果的客观性和可复现性。

这种基于代码环境和真实数据文件的交互方式，极大地提高了测试的难度和真实性，因为它模拟了药物研发科学家在日常工作中处理非标准化、多源异构数据的真实场景。通过这种方式，研究团队能够精确测量智能体在信息检索、逻辑推理和结论生成各个阶段的性能瓶颈。实验部分涵盖了16种模型-工具配置组合，涉及11个不同的基础模型，并生成了4800条推理轨迹。结果显示，目前没有任何一个系统能够可靠地恢复临床前药理学决策，整体表现远低于工业应用所需的阈值。最强的配置是Claude Opus 4.8结合Pi工具，其端点尝试通过率仅为59.3%（178/300，95%置信区间为51.1-67.6）。紧随其后的是GPT-5.5结合Pi，通过率为55.3%（166/300，95%置信区间为47.0-63.6）。

这一结果令人震惊，因为它表明即使在最先进的模型支持下，AI在处理需要深度领域知识和复杂逻辑推理的科学任务时，仍存在巨大的可靠性缺口。消融实验进一步揭示了不同任务类型对模型能力的挑战差异，例如因果靶点验证和转化疗效评估对智能体的推理深度要求最高，导致错误率显著上升。这些数据清晰地描绘了当前AI智能体在科学推理领域的性能边界，证明了单纯增加模型参数或优化提示工程已不足以解决根本问题。TxBench-PP的发布对开源社区和制药工业具有深远的意义。对于开源社区而言，它提供了一个标准化的、可复现的基准，促使研究者从追求表面准确率转向提升模型在复杂、长链条推理任务中的鲁棒性。对于工业界来说，这一基准揭示了当前AI技术在辅助药物发现方面的局限性，提醒企业在依赖AI进行关键决策时需保持谨慎，并投入更多资源开发针对科学推理优化的专用模型。此外，该基准作为TherapeuticsBench项目的开端，为未来扩展到其他治疗模态和药物发现阶段奠定了基础。它强调了在AI制药领域，建立可信、可验证的评估体系与开发模型本身同样重要。未来的研究应聚焦于如何提升智能体对真实实验数据的噪声容忍度、多模态信息整合能力以及因果推理能力，从而真正实现AI在加速新药研发中的革命性作用。

Sources

arXiv