8个Token完成规划:紧凑离散分词器让世界模型更高效

世界模型(World Model)能够模拟环境动态以实现动作规划和策略学习,但现有方法在决策时规划中面临严重的计算瓶颈——传统分词器将每帧观测编码为数百个Token,导致基于注意力机制的规划延迟呈二次增长。KAIST与POSTECH团队提出CompACT,一种能将每张图像压缩至仅8个离散Token(约128比特)的紧凑分词器,相比NWM使用的SD-VAE所需的784个Token实现了近百倍压缩。

CompACT的核心设计有两大创新:编码端利用冻结的DINOv3视觉基础模型提取语义特征,通过可学习查询Token与交叉注意力机制仅蒸馏出与规划决策相关的高层语义信息;解码端采用生成式策略,以紧凑Token为条件,通过MaskGIT式的掩码生成建模来合成中间Token,将不可逆的解压缩问题转化为可控的条件生成任务。

在RECON导航规划任务上,CompACT的8-Token模型不仅超越了使用64个Token的先前方法,还在与784个连续Token的模型精度相当的同时实现了约40倍的规划加速。该论文已被CVPR 2026接收,标志着世界模型向实时部署迈出关键一步。

8个Token完成规划:CompACT如何重新定义世界模型的效率极限

背景:世界模型的计算瓶颈

世界模型(World Model)是强化学习与机器人控制领域的核心组件——它是一个能在给定当前状态和动作的条件下,预测未来状态的神经网络。理论上,有了高质量的世界模型,智能体无需与真实环境交互,便可在"脑内"推演行动方案,从而大幅提升样本效率与规划质量。

然而,当世界模型被应用于实时控制场景时,Token数量爆炸成为无法回避的关键瓶颈。当前主流方法采用图像分词器将每帧观测编码为数百甚至数千个潜在Token。以当前最先进的导航世界模型NWM为例,其使用SD-VAE将每张图像编码为784个连续Token。在单块RTX 6000 ADA GPU上,每个规划Episode需要长达3分钟——这在需要快速决策的机器人应用中几乎毫无实用价值。

核心假说:语义压缩优于逼真重建

来自韩国KAIST与POSTECH的研究者们提出了一个反直觉的核心假说:**激进的压缩不仅不会损害规划能力,反而可能有益于它。**

这一想法源于对人类认知机制的观察。人类在导航和规划时,并不依赖像素级完美的视觉记忆,而是通过极度紧凑的心理图式来捕获决策所需的关键信息——方向感、空间关系、地标识别。CompACT(Compact Action-Conditioned Tokenizer)正是基于这一洞察:迫使世界模型学习更抽象、更与动作相关的表征,反而能让规划更高效、更准确。

CompACT架构详解

#### 编码器:基于冻结视觉基础模型的语义蒸馏

CompACT的编码流程分为三步:

第一步:冻结的DINOv3视觉编码器。 不对视觉编码器进行微调,直接使用预训练的DINOv3提取语义级别的Patch表征。这一选择确保了编码器获得的是高层语义特征,而非低层纹理细节。

第二步:潜在重采样器(Latent Resampler)。 使用N个(N≤16)可学习查询Token,通过交叉注意力机制从DINOv3的输出中选择性地蒸馏高层语义线索。这一模块将数百个Patch Token压缩为极少数关键Token,同时保留规划所必需的空间与语义信息。

第三步:有限标量量化(FSQ,Finite Scalar Quantization)。 将连续的压缩表征进一步离散化为有限词表中的Token。离散化的好处是双重的:一方面极大压缩了表征所需的比特数(8个Token × 16比特/Token = 128比特,仅相当于一张图片原始数据的极小一部分);另一方面,离散Token在自回归或掩码生成建模中计算效率更高。

#### 解码器:生成式解码策略

从8个Token直接重建像素是一个严重的病态逆问题——信息丢失太多,任何确定性解码器都无法合理还原。CompACT创造性地提出生成式解码方案:以紧凑Token作为条件,借助MaskGIT式的掩码生成建模,生成196个中间VQGAN Token,再由这些中间Token还原出完整图像。这一设计将不可解的解压缩问题巧妙转化为可控的条件生成任务,同时保证了视觉重建的多样性与合理性。

#### 世界模型:紧凑潜在空间中的前向规划

世界模型在CompACT的紧凑潜在空间中学习条件分布 p(z_{t+1} | z_t, a_t),同样采用掩码生成建模实现。规划通过模型预测控制(MPC)与交叉熵方法(CEM)优化实现:在紧凑潜在空间中快速前向展开候选动作序列,每步仅需处理8–16个Token而非数百个,推理速度因此获得数十倍提升。

实验结果

#### 视觉导航(RECON数据集)

在标准导航规划基准RECON上,8-Token的CompACT模型不仅超越了使用64个Token的先前最优方法,还与使用784个连续Token的NWM基线相比实现了约**40倍的规划延迟降低**。这意味着原本需要3分钟的规划,现在只需数秒即可完成。

#### 机器人操控(RoboNet数据集)

在视频预测与动作回归任务上,CompACT使用**16倍更少的Token**,实现了与先前方法相当乃至更优的动作回归精度。

#### 关键发现

  • **极致压缩反而提升规划质量**:8-Token明显优于64-Token,说明信息过载会干扰世界模型提炼决策相关特征;
  • **语义信息足以支撑高质量规划**:视觉细节对规划任务是噪声,而非信号;
  • **离散Token推理效率更高**:相比连续Token,离散表征在硬件上的并行计算更友好,加速效果显著。

更广泛的技术意义

CompACT的成功验证了一个在机器人与强化学习领域具有深远意义的命题:**有效规划不需要逼真的世界模型,而需要紧凑的决策关键信息表征。** 这一结论对未来世界模型的设计哲学提出了根本性挑战——昂贵的像素级重建能力可能是对计算资源的误导性消耗。

从工程实践角度看,CompACT的40倍加速意味着基于世界模型的规划首次在真实机器人控制回路(通常要求100ms量级的决策延迟)中具备了实用可能性。这为具身智能、自动驾驶、实时游戏AI等领域打开了新的技术窗口。

该工作已被CVPR 2026接收,来自韩国KAIST和POSTECH的研究团队。

参考信源

  • arXiv论文(CompACT: Compact Action-Conditioned Tokenizer for Latent World Models)
  • CVPR 2026 Accepted Paper