MetaSyn:基於Nature Portfolio元分析評估LLM代理的系統推理能力

元分析作為證據合成的最高形式,要求模型具備從文獻檢索到篩選再到統計聚合的全鏈路系統推理能力。現有基準測試缺乏貫穿整個流程的真實標籤,難以全面評估大語言模型在這一複雜任務中的表現。本文提出了MetaSyn,這是一個包含442篇由專家精心策劃的元分析數據集,源自Nature Portfolio期刊。每個條目不僅包含研究問題和PI/ECO篩選標準,還配備了包含14萬篇PubMed文章的檢索語料庫、已驗證的陽性研究、具有高度主題相似性但不符合標準的困難負樣本,以及完整的搜索策略。通過對十二種管道配置(包括九種RAG變體和一個協議驅動的智能體)的基準測試,研究發現存在嚴重的篩選瓶頸:儘管檢索召回率上限可達90.9%,但沒有任何系統能回收超過52.7%的真實納入文獻。這表明當前LLM在從主題相似但標準不符的干擾項中可靠區分合格研究方面存在顯著缺陷。

Sources