인용되었으나 검증되지 않음: LLM 딥 리서치 에이전트의 소스 귀속 분석 및 평가
대규모 언어 모델은 수백 개의 웹 소스에서 정보를 수집하여 인용된 보고서를 생성하는 딥 리서치 에이전트를 구동하지만, 이러한 인용은 신뢰할 수 있게 검증할 수 없습니다. 현재 접근 방식은 모델이 정확히 자체 인용을 하도록 신뢰하거나(편향 위험), 소스 접근성, 관련성, 사실적 일관성을 검증하지 않는 검색 강화 생성(RAG)을 사용합니다. 우리는 대규모 LLM 생성 Markdown 보고서에서 인라인 인용을 추출하고 평가하는 재현 가능한 AST 파서를 사용하는 첫 번째 소스 귀속 평가 프레임워크를 소개합니다. URL 접근성만 검증하는 방법과 달리, 우리의 접근 방식은 구문 분석 트리 수준에서 인용 구조를 분석하고 각 인용의 접근성, 인용 주장에 대한 관련성, 사실적 일관성을 체계적으로 평가합니다.