Ai2がMolmoWebをオープンソース化:AIエージェントがブラウザを自律操作する新パラダイム

Ai2がマルチモーダル視覚言語モデルを使用してWebページを自律的に操作するオープンソースWebエージェント「MolmoWeb」を発表。

Ai2がMolmoWebをオープンソース化:AIエージェントによるブラウザ操作の新パラダイム

Allen AI研究所がMolmoWebをリリース。視覚言語モデル(VLM)でスクリーンショットを理解しWebを操作する新手法。DOM解析ではなく視覚推論でクロスサイト汎用性を実現。

DOM方式(精度・速度に優れるが脆弱)vs視覚方式(堅牢・汎用だが遅延あり)の比較。高解像度スクリーンショットと精密座標予測で精度課題を緩和。

モデル重み・訓練データ・評価基準を含む完全オープンソース。Google Mariner・OpenAI Operatorと異なり全コンポーネントの研究・改善が可能。Web Agentは最も実用的なAIエージェント分野の一つ。