TxBench-PP:評估AI代理在臨床前藥理學決策中的真實能力

本文介紹TxBench-PP,一個面向小分子臨床前藥理學的可驗證基準測試,旨在評估AI代理在真實藥物發現場景中的決策能力。該基準包含100個評估任務,涵蓋作用機制、藥效學、化合物靶點結合及安全性等核心領域,要求AI從真實實驗數據中推導結論。對11個模型、4800條軌跡的測試顯示,沒有任何系統能可靠完成臨床前藥理學決策。最強配置Claude Opus 4.8 / Pi僅通過59.3%的端點,GPT-5.5 / Pi為55.3%。結果表明當前AI在複雜科學推理方面仍存在顯著差距。

Sources