What did the study find about AI chatbots as news intermediaries?

A 14-day evaluation of six commercial chatbots using 2,100 BBC-based questions found 90%+ accuracy on multiple-choice, but performance dropped 11–17 points in free-form mode. Generation introduces significant noise.

Why do high accuracy scores not reflect true reliability?

High accuracy masks regional inequality and English-centric retrieval bias. Non-English performance drops sharply, revealing extreme dependence on retrieval infrastructure and warning of amplified information gaps.

What should developers and users watch for next?

Users must guard against retrieval blind spots and premise fragility. Developers need stronger multilingual sources, better premise-detection, and clarification mechanisms to safely handle flawed or vague queries.

商業AI聊天機器人作為新聞中介的準確性與偏差評估

本研究對六款主流商業AI聊天機器人（包括Gemini、Grok、Claude及GPT系列）進行了為期14天的系統性評估，旨在衡量其在處理多語言、跨區域突發新聞事實時的準確性與可靠性。研究基於BBC新聞六大區域服務的2,100個事實性問題，發現儘管最佳模型在多選題中準確率超過90%，但在自由回答模式下準確率顯著下降11至17個百分點。研究揭示了三大關鍵失敗模式：一是存在嚴重的盎格羅中心主義檢索偏差，導致印地語問題準確率最低；二是錯誤主要源於檢索失敗而非推理缺陷，超過70%的錯誤歸因於未能找到正確信源；三是模型對包含隱含錯誤前提的查詢極度脆弱，部分模型甚至接受了64%的虛構事實。此外，研究還發現了檢測準確性悖論，表明前提檢測與答案恢復是相對獨立的能力。這些發現揭示了高準確率背後掩蓋的區域不平等、對檢索基礎設施的過度依賴，以及對用戶不完美的查詢缺乏魯棒性，為AI新聞中介系統的改進提供了重要方向。

Sources

arXiv