CRAFT:基于隐藏表示的对比推理对齐,从表示空间层面防御越狱攻击

CRAFT提出了一个红队对齐框架,从隐藏表示空间层面强化推理模型的安全性。将对比表示学习与强化学习结合,在隐层空间中分离安全和不安全的推理轨迹。理论证明将隐层-文本一致性约束加入GRPO可以消除表面对齐。在Qwen3-4B-Thinking和R1-Distill-Llama-8B上推理安全性提升79.0%,最终回复安全性提升87.7%。

CRAFT:从隐藏表示空间层面防御越狱——对比推理对齐深度技术解析

核心问题:表面安全对齐(SSA)

CRAFT论文来自Northwestern大学和密歇根大学,针对的是大推理模型(LRM)的一个致命弱点:**表面安全对齐(Superficial Safety Alignment, SSA)**。

什么是SSA?即使LRM经过RLHF或DPO进行了安全对齐,最终回复是安全的拒绝,但推理过程(reasoning trace)中仍然会生成有害内容。例如,面对一个要求制造危险物品的请求,对齐后的模型可能在推理链中详细分析了制造步骤,最后才说"我不能帮助你"。有害信息已经在推理trace中泄露了。

CRAFT方法论

CRAFT(Contrastive Reasoning Alignment from Hidden Representations)的核心创新是:**不在输出层面做安全防御,而是在隐藏表示空间中重塑安全推理几何。**

#### 1. 对比表示学习

首先构建推理轨迹的三类隐藏表示:

  • **安全轨迹**:面对有害请求时,直接拒绝且推理过程中不涉及有害内容
  • **不安全轨迹**:面对有害请求时,推理过程中生成有害内容(即使最终拒绝)
  • **重新思考轨迹**(Rethink):介于两者之间的过渡状态

通过PCA投影可视化发现,这三类轨迹在隐藏表示空间中确实形成了可分离的几何结构——在DeepSeek-R1-Distill-Llama-8B和Qwen3-4B-Thinking上均观察到了这种分离,说明这是模型无关的潜在结构。

#### 2. 对比损失设计

使用对比学习目标拉开安全和不安全轨迹在隐藏空间中的距离:

L_contrastive = -log(exp(sim(z_safe, z_anchor)/tau) / sum(exp(sim(z_neg, z_anchor)/tau)))

其中z_safe是安全轨迹的隐层表示,z_neg是不安全轨迹的隐层表示。这个目标确保模型在隐藏空间中将安全推理和不安全推理推向不同区域。

#### 3. 一致性感知GRPO

CRAFT修改了Group Relative Policy Optimization(GRPO),加入了隐层-文本一致性奖励:

R_consistency = R_safety(text) × (1 + alpha × sim(h_reasoning, h_safe_prototype))

这个奖励确保:

  • 不仅最终文本输出是安全的
  • 推理过程的隐藏表示也必须落在安全区域内

#### 4. 理论保证

CRAFT的关键理论贡献是证明了:**将隐层-文本一致性约束加入GRPO后,表面安全对齐的策略不再是局部最优。**

直觉理解:传统GRPO只根据文本输出给奖励,所以模型可以学会在推理中生成有害内容但最后输出安全回复——这是局部最优。加入一致性约束后,这种策略在隐藏空间中的得分会很低,被推出局部最优区域。

实验结果

在Qwen3-4B-Thinking和R1-Distill-Llama-8B上评估:

推理安全性(reasoning-level safety):

  • 相对基础模型平均提升79.0%
  • 优于IPO和SafeKey

最终回复安全性(final-response safety):

  • 相对基础模型平均提升87.7%
  • 在所有安全基准上一致超越对比方法

推理能力保持:

  • 相对基础模型平均提升4.7%(不降反升!)
  • 说明安全对齐和推理能力不是零和关系

与PreSafe(本期Tech t6)的技术互补

PreSafe在CoT之前做安全决策(预防),CRAFT在CoT过程中矫正推理轨迹(治疗)。理想方案可能是两者结合:PreSafe做第一道防线,CRAFT做深度保障。

工程实践建议

1. **对抗越狱不能只看输出**:必须检查推理trace是否泄露有害信息(SSA问题)

2. **隐藏表示空间是可操作的**:对比学习+RL可以有效重塑安全几何

3. **一致性约束是关键**:没有隐层-文本一致性约束,安全对齐容易停留在表面

4. **推理能力不受损**:CRAFT证明了更好的安全不需要牺牲推理性能

局限性

  • 需要安全/不安全轨迹的配对数据来训练对比目标
  • 对比学习的超参数(温度tau、alpha)需要仔细调节
  • 目前仅在4B和8B模型上验证,更大模型的效果待确认
  • 对抗自适应攻击(adaptive attacks)的鲁棒性需要进一步研究