TxBench-PP:評估AI智能體在小分子臨床前藥理學中的真實決策能力
本文介紹了TxBench-PP,這是一個針對小分子臨床前藥理學的可驗證基準測試,旨在評估AI智能體在真實藥物發現場景中的決策可靠性。不同於依賴文獻記憶的傳統測試,該基準要求智能體從真實的實驗數據中恢復準確的結論。研究在涵蓋作用機制、藥效動力學等五個維度的100個評估任務中,測試了11種模型組成的16種配置,共計4,800條軌跡。結果顯示,沒有任何系統能可靠地完成臨床前藥理學決策。最強配置Claude Opus 4.8 / Pi僅通過59.3%的終點嘗試,表明當前AI在處理複雜、非結構化的真實實驗數據時仍存在顯著局限,距離工業級可靠應用尚有差距。