具身智能数据范式重构：第一人称人类视频预训练为何超越真实机器人数据

具身基础模型的发展长期受制于高质量机器人轨迹数据收集成本高昂且多样性匮乏的瓶颈。最新研究通过系统性对比实验证实，经过严格过滤与标注管道处理的第一人称人类视频，在具身模型预训练效果上显著优于传统遥操作真实机器人轨迹数据。在固定后训练与验证协议下，基于同等规模人类视频预训练的模型，在真实机器人动作预测上的验证损失降低24%，分布内和分布外任务成功率分别提升52.5%和90%。这一发现验证了一种可扩展的新范式：利用低成本、高多样性的第一人称视频学习丰富世界表征，再辅以少量标注机器人数据进行动作空间对齐，为降低具身智能数据门槛提供了关键实证依据。

具身智能领域正面临与大型语言模型相似的数据扩展瓶颈，但困境更为严峻。传统的具身基础模型预训练高度依赖遥操作真实机器人轨迹数据，这类数据虽然提供了精确的动作监督和完美的具身对齐，但其收集成本极高，获取难度大，且难以覆盖足够丰富的行为模式和环境多样性。这种数据稀缺性严重制约了模型的泛化能力和规模化发展。针对这一核心痛点，本研究提出并验证了一种极具潜力的替代方案：利用第一人称人类视频作为预训练数据源。论文的核心贡献在于通过严谨的控制变量实验，系统性地比较了第一人称人类视频与遥操作机器人轨迹在具身基础模型预训练中的有效性。研究不仅打破了"机器人数据必然优于人类视频"的传统认知，更揭示了一种通过高质量人类视频数据实现高效预训练的新路径，为突破具身智能的数据瓶颈提供了全新的理论视角和实证支持。在技术方法层面，研究并未简单地将人类视频直接输入模型，而是设计了一套精细的数据处理管道，包括严格的过滤机制和标注策略，以最大化人类视频中的有效信息并最小化噪声。模型架构采用标准的具身基础模型结构，重点在于预训练阶段的输入数据源差异。研究设定了固定的后训练和验证协议，确保对比的公平性。通过这种方式，模型能够从第一人称视角中学习到的视觉-动作对应关系中，提取出关于物理世界交互的通用表征。这种表征学习侧重于理解物体属性、空间关系以及交互意图，而非仅仅记忆特定的机器人关节运动轨迹。这种策略使得模型能够更灵活地适应不同的具身平台，因为人类视频所蕴含的世界知识具有更高的抽象性和通用性，从而为后续的动作空间对齐奠定了更坚实的基础。实验设置在真实机器人平台上进行，涵盖了分布内和分布外两种任务场景，以全面评估模型的泛化能力。关键结果显示，在预训练数据量相同的情况下，基于第一人称人类视频预训练的模型表现惊艳。具体而言，该模型在真实机器人动作预测任务上的验证损失比基于机器人轨迹预训练的模型降低了24%，表明其动作预测更加精准。更重要的是，在任务执行成功率方面，分布内任务的成功率提升了52.5%，而分布外任务的成功率更是大幅提升了90%。这一巨大的性能差距不仅验证了第一人称视频作为预训练数据的有效性，也揭示了其在提升模型应对未知环境和新任务能力方面的巨大优势。消融实验进一步证实，数据过滤和标注管道的质量对最终性能至关重要，粗糙的人类视频数据无法达到如此优异的效果。这项研究的行业意义深远，它提出了一种可扩展的具身基础模型训练范式：首先利用低成本、高多样性的第一人称人类视频进行预训练，以学习丰富的世界表征；随后，仅需少量标注的真实机器人数据进行动作空间对齐即可。这一范式极大地降低了具身智能模型的开发门槛和成本，使得更多研究者和工业界能够利用易于收集的人类视频数据来训练强大的具身模型。对于开源社区而言，这鼓励了更大规模的人类视频数据集的构建和共享；对于工业落地，它提供了一种快速迭代和优化具身智能系统的有效路径；对于后续研究，它强调了数据质量评估在机器人数据收集前的重要性，引导学界从单纯追求数据量转向追求数据多样性和代表性。这一发现有望推动具身智能从实验室走向更广泛的应用场景。

Sources

arXiv