Zitiert, aber nicht verifiziert: Analyse und Bewertung der Quellenzuordnung in LLM-Deep-Research-Agenten
Große Sprachmodelle antreiben Deep-Research-Agenten, die Informationen aus Hunderten von Webquellen in zitierte Berichte zusammenfassen, doch diese Zitate lassen sich nicht zuverlässig verifizieren. Aktuelle Ansätze vertrauen entweder darauf, dass Modelle korrekt selbst zitieren (Bias-Risiko), oder verwenden Retrieval-Augmented Generation (RAG), das Zugänglichkeit, Relevanz oder faktische Konsistenz der Quellen nicht überprüft. Wir präsentieren den ersten Rahmen zur Bewertung der Quellenzuordnung, der einen reproduzierbaren AST-Parser verwendet, um Inline-Zitate aus von LLM generierten Markdown-Berichten in großem Maßstab zu extrahieren und zu bewerten. Im Gegensatz zu Methoden, die nur URL-Zugänglichkeit prüfen, analysiert unser Ansatz die Zitatstruktur auf AST-Ebene und bewertet systematisch die Zugänglichkeit jedes Zitats, seine Relevanz für die zitierte Aussage und faktische Konsistenz.