Google秘密武器Gemini Omni洩露:Google I/O上將發布的原生多模態視頻音頻模型
在當前的AI軍備競賽中,"多模態或一無所有"已成為主流基調。OpenAI正在醞釀大規模視覺更新,而Google也不願在自己的主場Google I/O上被超越。據TestingCatalog報導的詳盡洩露資訊顯示,Google正在內部測試下一代模型"Gemini Omni"。這不是Gemini 2.0或3.0系列的又一個漸進式更新,而是一個原生的高保真視頻到音頻模型。這意味著Gemini Omni能夠直接理解視頻內容並生成對應的音頻描述,而非依賴傳統的文本中間層。這種架構升級將使模型在視頻理解、內容創作和無障礙訪問等領域展現出前所未有的能力。隨著Google I/O的臨近,這場多模態競賽的格局正在加速重塑。