像真實研究者一樣行動:AARRI-Bench評估前沿LLM科研能力

隨著基礎模型與智能體框架的演進,AI在長程程式設計及自主實驗執行方面展現出驚人潛力,但其在領域敏感度、科研倫理及細微科學判斷上仍存顯著局限,無法完全取代人類研究者。為此,本文提出AARR(Act As a Real Researcher)基準系列,旨在評估智能體在細粒度科研場景中是否具備人類研究者的專業性與嚴謹推理能力。作為該系列首個基準,AARRI-Bench(Act As a Real Research Intern)聚焦於模擬研究實習生的工作流程。實驗顯示,即便表現最佳的配置(Mini-SWE-Agent結合Claude Opus 4.7)成功率僅為68.3%,常忽略對人類而言顯而易見的關鍵細節。結果表明,打造類人研究者AI需深入探索科研行為本質,而非僅依賴複雜框架疊加。