HumanScale:第一人稱人類影片在具身預訓練中超越真實機器人資料

具身基礎模型亟需大規模資料,但高品質機器人軌跡資料收集成本高昂且多樣性不足。本研究透過系統性對比實驗,首次證實經過嚴格過濾與標註管道處理的第一人稱人類影片,在具身模型預訓練效果上顯著優於傳統遙操作真實機器人軌跡資料。在固定後訓練與驗證協定下,使用同等規模預訓練資料,基於人類影片預訓練的模型在真實機器人動作預測上的驗證損失降低24%,分佈內和分佈外任務成功率分別提升52.5%和90%。該發現驗證了一種可擴展的具身基礎模型新範式:利用低成本、高多樣性的第一人稱影片學習豐富世界表徵,再輔以少量標註機器人資料進行動作空間對齊,為降低具身智能資料門檻和提升模型泛化能力提供了關鍵實證依據。

Sources