商業AI聊天機器人作為新聞中介的準確性評估與局限性分析
本研究對六大主流商業AI聊天機器人(包括Gemini、Grok、Claude、GPT系列)在新聞事實核查中的表現進行了系統性評估。研究團隊在2026年2月期間,基於BBC新聞六大區域服務的2100個事實性問題,測試了這些系統在檢索與綜合管道中的準確性。結果顯示,儘管最佳系統在多項選擇題中準確率超過90%,但在自由回答模式下準確率下降11至13個百分點,且存在顯著的地區語言偏差,例如印地語準確率僅為79%。研究揭示了三大失敗模式:其一,檢索而非推理是主要錯誤來源;其二,模型對包含虛假前提的問題極度敏感,準確率暴跌至19%至70%;其三,檢測準確性悖論,即虛假前提檢測能力與答案恢復能力部分獨立。這些發現表明,高準確率可能掩蓋系統性區域不平等、對檢索基礎設施的過度依賴以及對用戶不完美查詢的脆弱性。