TxBench-PP:評估AI智能體在小型分子臨床前藥理學中的真實推理能力
本文介紹了TxBench-PP,這是首個專注於小型分子臨床前藥理學的可驗證基準測試,旨在評估AI智能體在藥物發現早期階段處理真實實驗數據的能力。不同於依賴記憶文獻知識的傳統測試,該基準要求智能體從真實的測定量中恢復準確的結論。研究涵蓋了作用機制、藥效動力學、化合物靶點結合等五大類任務,通過16種模型配置和4800條軌跡進行了廣泛測試。結果顯示,目前沒有任何系統能可靠地完成臨床前藥理學決策。最強配置Claude Opus 4.8僅通過59.3%的端點嘗試,表明AI在複雜科學推理方面仍存在顯著差距,亟需更可靠的評估框架來推動其在製藥工業中的落地。