Cité mais non vérifié : Analyse et évaluation de l'attribution des sources dans les agents de recherche profonde LLM
Les grands modèles de langage alimentent des agents de recherche profonde qui synthétisent des informations provenant de centaines de sources web en rapports cités, mais ces citations ne peuvent pas être vérifiées de manière fiable. Les approches actuelles font soit confiance aux modèles pour qu'ils se citent de manière précise (risquant un biais), soit utilisent la génération augmentée par récupération (RAG) qui ne valide pas l'accessibilité, la pertinence ou la cohérence factuelle des sources. Nous introduisons le premier cadre d'évaluation de l'attribution des sources qui utilise un analyseur AST reproductible pour extraire et évaluer les citations en ligne à partir de rapports Markdown générés par LLM à grande échelle. Contrairement aux méthodes qui ne vérifient que l'accessibilité URL, notre approche analyse la structure de citation au niveau de l'arbre syntaxique abstrait et évalue systématiquement l'accessibilité de chaque citation, sa pertinence par rapport à la citation et sa cohérence factuelle.