HumanScale:第一人称人类视频预训练,以低成本突破具身智能数据瓶颈
针对具身基础模型预训练数据稀缺的痛点,HumanScale研究系统对比了第一人称人类视频与真实机器人轨迹的有效性。研究指出,尽管机器人数据动作监督精确,但采集成本高且多样性受限。通过精心设计的过滤与标注流程,利用人类视频进行预训练的模型在真实机器人动作预测上验证损失降低24%,分布内和分布外任务成功率分别提升52.5%和90%。这一发现验证了"人类视频学习世界表征+少量机器人数据动作对齐"的可扩展预训练新范式,为具身智能的大规模数据获取提供了极具潜力的解决方案。
具身基础模型的发展正面临与大型语言模型相似的数据扩展挑战,但其数据瓶颈尤为严峻。长期以来,遥操作真实机器人轨迹因其精确的动作监督和具身对齐特性,成为预训练的主要数据源。然而,这类数据收集成本高昂、获取难度大,且行为与环境多样性有限,严重制约了模型的泛化能力。为突破这一限制,第一人称人类视频因其低成本、高可扩展性和丰富的多样性受到关注,但其作为预训练数据的有效性尚未得到充分验证。本研究旨在解决这一关键问题,通过构建严格的对比实验框架,系统评估第一人称人类视频与遥操作真实机器人轨迹在具身基础模型预训练中的表现。研究的核心贡献在于揭示了一种被忽视的高效数据利用范式,证明经过适当处理的人类视频不仅能替代机器人数据,甚至能带来更优的性能表现,从而为具身智能的数据收集策略提供了重要的理论依据和实践指导。在技术方法层面,研究并未简单地将人类视频直接输入模型,而是设计了一套精细的数据处理流水线。这套流程包括严格的数据过滤机制和自动化标注策略,旨在从海量、嘈杂的人类视频中提取出高质量、与具身任务相关的语义信息。
通过这种处理,人类视频中的动作意图、物体交互和环境动态被转化为模型可学习的结构化表征。与直接使用遥操作轨迹相比,该方法更侧重于从视频中提取通用的世界知识,而非仅仅模仿特定的动作序列。这种策略使得模型能够在预训练阶段接触到极其多样化的场景和交互模式,从而学习到更具鲁棒性的特征表示。此外,研究固定了后训练和验证协议,确保对比的公平性,突出了预训练数据源本身对模型最终性能的独立影响。这种对数据质量的精细化管控,是提升人类视频预训练效果的关键技术环节。实验设置方面,研究在真实的机器人平台上进行了广泛的测试,涵盖了分布内和分布外两种任务场景。关键结果显示,在预训练数据量相同的情况下,基于第一人称人类视频预训练的模型在真实机器人动作预测任务上实现了24%的验证损失降低。更为显著的是,在任务执行成功率上,该模型在分布内任务上提升了52.5%,在分布外任务上更是实现了90%的大幅提升。
消融实验进一步证实,数据过滤和标注流程的质量直接决定了预训练效果,未经处理的人类视频优势不明显,而经过优化流程的数据则能带来性能飞跃。这些结果不仅验证了人类视频作为预训练数据的有效性,还揭示了其在提升模型泛化能力方面的巨大潜力,特别是在面对未见过的环境和任务时,基于人类视频预训练的模型表现出更强的适应性和鲁棒性。这一发现对具身智能领域具有深远的行业意义。首先,它提供了一种极具成本效益的预训练范式,即先利用大规模、低成本的人类视频数据进行预训练以学习丰富的世界表征,再使用少量标注的真实机器人数据进行动作空间对齐。这种两步走策略极大地降低了具身基础模型的研发门槛,使得资源有限的研究团队也能构建高性能模型。其次,该研究鼓励开源社区更多地探索和利用第一人称视频数据,推动了数据共享和基准测试的发展。对于工业落地而言,这意味着机器人训练数据的获取不再完全依赖昂贵的遥操作设备,从而加速了具身智能技术在物流、服务等领域的规模化应用。最后,该研究为后续工作提供了数据质量评估的指导原则,强调了在投入高昂成本收集机器人数据之前,充分评估替代数据源价值的重要性,为具身智能的可持续发展指明了方向。