GPT-Image-2生成文本豐富圖像檢測:多領域基準測試與魯棒性分析
隨著多模態圖像生成模型在合成真實文本內容與結構化視覺設計方面能力的提升,檢測AI生成的文本豐富圖像已成為維護數位信任與內容真實性的關鍵挑戰。現有基準主要關注以物體為中心的圖像,缺乏對文本語義與佈局組織至關重要的場景覆蓋。本文引入針對GPT-Image-2生成文本豐富圖像的多領域基準,包含8,602張圖像,橫跨商業海報、資訊圖、學術海報、收據、表格和UI截圖六類代表性場景。研究在零樣本設定下評估了五種代表性AI生成圖像檢測器的性能,分析其整體、類別特定及後處理魯棒性。結果表明檢測器性能高度依賴領域,最強傳統檢測器對JPEG壓縮極度敏感,多模態視覺語言模型在結構化格式上表現有限。該基準旨在推動文本與佈局感知檢測技術的發展,數據集已開源。