GPT-Image-2生成的圖文圖像檢測:多領域基準測試與魯棒性分析

隨著多模態圖像生成模型如GPT-Image-2在合成逼真文字和結構化視覺設計方面能力的提升,檢測AI生成的圖文圖像已成為維護數位信任與內容真實性的關鍵挑戰。然而,現有基準測試主要關注以物體為中心的圖像,缺乏對文字語義和佈局組織至關重要的場景覆蓋。本文提出了一個針對GPT-Image-2生成的圖文圖像的多領域基準測試,包含8,602張圖像,涵蓋商業海報、資訊圖、學術海報、收據、表格和UI截圖六類。研究在零樣本設定下評估了五種代表性AI生成圖像檢測器的效能,分析了其整體、類別間及後處理魯棒性。結果表明,檢測器效能高度依賴領域,強檢測器對JPEG壓縮極為敏感,且多模態視覺語言模型在結構化格式上存在局限。該研究強調了開發文字和佈局感知檢測方法的必要性,數據集已開源。

Sources