商業AI聊天機器人作為新聞中介的準確性與偏差評估

本研究對六款主流商業AI聊天機器人(包括Gemini、Grok、Claude及GPT系列)進行了為期14天的系統性評估,旨在衡量其在處理多語言、跨區域突發新聞事實時的準確性與可靠性。研究基於BBC新聞六大區域服務的2,100個事實性問題,發現儘管最佳模型在多選題中準確率超過90%,但在自由回答模式下準確率顯著下降11至17個百分點。研究揭示了三大關鍵失敗模式:一是存在嚴重的盎格羅中心主義檢索偏差,導致印地語問題準確率最低;二是錯誤主要源於檢索失敗而非推理缺陷,超過70%的錯誤歸因於未能找到正確信源;三是模型對包含隱含錯誤前提的查詢極度脆弱,部分模型甚至接受了64%的虛構事實。此外,研究還發現了檢測準確性悖論,表明前提檢測與答案恢復是相對獨立的能力。這些發現揭示了高準確率背後掩蓋的區域不平等、對檢索基礎設施的過度依賴,以及對用戶不完美的查詢缺乏魯棒性,為AI新聞中介系統的改進提供了重要方向。