TxBench-PP 是什么？

首个面向小分子临床前药理学的可验证基准测试，要求 AI 智能体从真实实验数据中推导结论，而非记忆文献。测试涵盖5大维度、100项任务。

该测试揭示了什么关键问题？

当前最先进 AI 最高通过率仅 59.3%，表明 AI 尚不具备独立处理临床前药理学决策的能力，距离工业级可靠应用仍有显著差距。

未来还有哪些发展方向？

TxBench-PP 是 TherapeuticsBench 项目的开篇，未来将推出更多针对不同药物发现阶段的细分基准，推动评估体系向更实用方向发展。

TxBench-PP：評估AI智能體在小分子臨床前藥理學中的真實決策能力

本文介紹了TxBench-PP，這是一個針對小分子臨床前藥理學的可驗證基準測試，旨在評估AI智能體在真實藥物發現場景中的決策可靠性。不同於依賴文獻記憶的傳統測試，該基準要求智能體從真實的實驗數據中恢復準確的結論。研究在涵蓋作用機制、藥效動力學等五個維度的100個評估任務中，測試了11種模型組成的16種配置，共計4,800條軌跡。結果顯示，沒有任何系統能可靠地完成臨床前藥理學決策。最強配置Claude Opus 4.8 / Pi僅通過59.3%的終點嘗試，表明當前AI在處理複雜、非結構化的真實實驗數據時仍存在顯著局限，距離工業級可靠應用尚有差距。

人工智能智能体在药物发现领域的应用前景广阔，其核心价值在于压缩解释与决策循环，从而加速新药研发进程。然而，要将这些智能体真正部署到实际工作流程中，必须建立在对其在现实程序决策中表现的可信评估基础之上。当前许多评估往往侧重于智能体对已知文献事实的记忆能力，而非其在面对真实、嘈杂实验数据时的推理与决策能力。为此，研究团队推出了TxBench-PP（TherapeuticsBench Preclinical Pharmacology），这是首个专注于小分子临床前药理学的可验证基准测试，也是更广泛的TherapeuticsBench项目在不同药物发现阶段和治疗模式中的首个细分切片。该基准的核心贡献在于构建了一个能够测试智能体是否具备从真实实验数据中恢复准确结论能力的框架，而非仅仅考察其是否记住了教科书式的知识点。这标志着药物发现AI评估从"知识检索"向"科学推理"的重要转变，为解决药物研发中关键决策环节的自动化可靠性问题提供了新的评估标准和方法论基础。

在技术方法上，TxBench-PP设计了一套高度仿真的评估环境，旨在模拟真实的药物研发工作流。基准测试包含100个评估任务，这些任务按照程序阶段、实验类型和任务结构进行索引，涵盖了作用机制（MoA）推理、药效动力学（PD）推理、化合物-靶点结合、因果靶点验证、可开发性与安全性以及转化效力等多个关键维度。在测试过程中，智能体接收到的不是简化的问题描述，而是真实的 workflows 快照。它们被置于一个编码环境中，需要自行检查和分析各种数据文件，这种设计迫使智能体必须具备处理非结构化数据、识别关键信息以及进行逻辑推导的能力。最终，智能体需要返回结构化的答案，这些答案通过确定性的规则进行评分，确保了评估结果的客观性和可重复性。这种基于真实工作流快照和文件检查的评估方式，极大地提高了测试的生态效度，使得评估结果更能反映智能体在实际工业场景中的表现，而非在理想化数据集上的性能。

实验设置方面，研究团队对16种模型- harness 配置进行了全面评估，这些配置涵盖了11种不同的基础模型，并产生了总计4,800条推理轨迹。这一大规模的测试范围确保了结果的统计显著性和代表性。关键结果显示，没有任何一个系统能够可靠地恢复临床前药理学决策，这表明当前最先进的AI模型在处理此类复杂科学任务时仍存在普遍性瓶颈。具体而言，表现最强的配置是Claude Opus 4.8 / Pi，其仅通过了59.3%的终点尝试（300次尝试中通过178次，95%置信区间为51.1%-67.6%）。紧随其后的是GPT-5.5 / Pi，通过率为55.3%（166/300，置信区间47.0%-63.6%）。这些数字清晰地揭示了当前AI智能体在真实药物发现决策中的局限性：即使是最先进的模型，其准确率也远未达到工业应用所需的可靠性标准。

消融分析虽未在摘要中详细展开，但不同模型配置的显著差异暗示了模型架构、训练数据质量以及提示工程策略对最终性能的关键影响。从行业意义与潜在影响来看，TxBench-PP的发布对开源社区和工业落地具有深远影响。首先，它为药物发现领域的AI研究者提供了一个标准化的、贴近现实的评估基准，有助于更准确地衡量模型进步，避免在过于简化的基准上产生"虚假繁荣"。其次，研究结果明确指出，当前AI智能体尚不具备独立承担临床前药理学决策的能力，这为制药公司引入AI辅助决策提供了重要的风险警示，提示企业在实际部署前需投入更多资源进行人工复核和混合智能工作流设计。此外，该基准作为TherapeuticsBench项目的开端，预示着未来将有更多针对其他药物发现阶段和治疗模式的细分基准出现，这将推动整个领域向更精细化、更实用的评估体系发展。对于后续研究而言，如何在复杂、非结构化的真实数据中提升AI的推理能力和决策可靠性，将成为该领域亟待解决的核心挑战，而TxBench-PP为这一挑战提供了明确的衡量标尺和改进方向。

Sources

arXiv