测试时计算扩展：让模型「多想一会儿」如何重写AI能力边界

从 OpenAI o3 到 DeepSeek R1、再到 Claude 3.7 扩展思考，「测试时计算扩展」正在成为2026年最重要的AI范式转变——与其训练更大的模型，不如让模型在推理时「想更久」。本文深入拆解其技术路径、局限与未来走向。

2024年末，OpenAI发布 o1 系列模型时，业界忽然意识到一件事：**让模型「多想一会儿」，往往比把模型做大更有效。** 这个直觉背后，是一套被称为"测试时计算扩展"（Test-Time Compute Scaling，简称 TTC）的技术体系——它正在成为2025-2026年 AI 领域最重要的范式转变之一。

什么是测试时计算扩展？

传统的 AI 扩展定律（Scaling Laws）告诉我们：模型越大、数据越多、训练算力越多，模型能力越强。这套逻辑驱动了 GPT-3 → GPT-4 → Llama 3 的演进路径，也带来了数十亿乃至数千亿参数的超大模型。

但这条路的代价越来越高昂——训练一个顶级大模型需要数亿美元，且收益在递减。

测试时计算扩展给出了另一条路：不是在训练阶段堆算力，而是在推理（inference）阶段允许模型使用更多时间和计算资源来"思考"一个答案。

核心思想很简单：

> 当你面对一道难题，闭上眼睛多想30秒，通常比脱口而出更准确。模型也一样。

两种主流路径

目前 TTC 技术主要分两大方向：

1. 显式推理链（Chain-of-Thought Scaling）

让模型在给出最终答案前，先输出一段可见的"思考过程"。这一做法由 Google 2022 年的 CoT 论文奠基，到2024-2025年已进化为"扩展思维链"——允许模型输出数千甚至数万个推理 token 再给出答案。

代表产品：OpenAI o1/o3、DeepSeek R1、Claude 3.7 Sonnet（扩展思考模式）、Gemini 2.0 Flash Thinking。

2. 搜索与验证（Search + Verification）

将推理过程建模为一棵搜索树：模型生成多条候选路径，通过"过程奖励模型"（Process Reward Model, PRM）对中间步骤打分，最终选择最优路径。这借鉴了 AlphaGo 的 MCTS（蒙特卡洛树搜索）思路。

代表研究：DeepMind 的 AlphaCode 2、OpenAI o3 的内部架构（据推测）、以及多个学术 MCTS+LLM 工作。

---

为什么它有效？信息论视角

从信息论角度看，TTC 的有效性有深刻的理论基础。

一个语言模型的单次前向传播（forward pass）只能处理有限的"计算深度"。对于需要多步推理的复杂问题，单次 pass 往往不够——模型的残差流（residual stream）中没有足够的"工作内存"来完成所有推理步骤。

通过让模型将中间步骤写出来（即外化工作记忆），后续的 token 生成可以"读取"这些中间结果，相当于把计算深度从 O(L)（L 为网络层数）扩展到了 O(L × T)（T 为推理 token 数量）。

这在数学上等价于：**将固定深度的神经网络变成了可变深度的动态计算图**。

扩展曲线有多陡？

来自 OpenAI、Google DeepMind 和学术界的多项研究表明，TTC 扩展曲线相当陡峭：

在数学竞赛（AIME）等基准上，给模型更多推理 token 时，性能呈现接近对数线性的提升
o3 在 ARC-AGI 基准上，用高计算版本达到了 87.5% 的准确率，远超 o1 的 32%
DeepSeek R1 的研究表明，在相同参数规模下，扩展推理时间可以追平大 10 倍参数模型的表现

---

训练如何支撑推理扩展？

让模型"多想"不是免费的——它需要专门的训练来让模型学会"如何有效地思考"。

强化学习是关键

o1、o3、DeepSeek R1 等模型的共同点是大量使用了**推理过程的强化学习**（RL on reasoning traces）。

传统 RLHF 只对最终答案打分；而 TTC 训练范式会对推理过程的每一步打分（Process Reward Model），鼓励模型学会：

在不确定时主动回溯（backtracking）
检验中间步骤的正确性（self-verification）
以不同方式重新表述问题（re-framing）

DeepSeek R1 的技术报告特别提到，他们发现了一个惊人的"顿悟时刻"（aha moment）：当强化学习训练充分后，模型会自发地学会在关键节点说"等等，让我重新想想"，这种能力并非人工设计，而是从奖励信号中自然涌现的。

蒸馏：让小模型也会"思考"

大推理模型训练成本高，但它们产生的推理轨迹可以用来蒸馏小模型。DeepSeek 的研究表明，用 R1 的推理轨迹训练 7B 参数的小模型，可以达到接近 70B 模型的推理性能——这让 TTC 技术的普惠化成为可能。

---

当前局限与挑战

测试时计算扩展并不是万灵药，它面临几个核心挑战。

1. 延迟问题

生成数千个推理 token 意味着响应时间从毫秒级变成秒级甚至分钟级。对于需要实时交互的应用（客服、代码补全），这是难以接受的。

目前的缓解策略是**自适应计算**：让模型根据问题难度动态决定推理深度。简单问题快速回答，复杂问题才启动长链推理。Anthropic 的 Claude 3.7 扩展思考模式就采用了类似设计。

2. 成本爆炸

更多推理 token = 更高 API 成本。o3-high 的单次请求成本是 o1 的数十倍。这使得 TTC 模型在成本敏感场景下难以大规模部署。

降本方向：推测解码（speculative decoding）、稀疏注意力、以及专门针对推理链的模型压缩。

3. 推理链的可信度问题

当模型的"思考过程"变得不透明或产生"幻觉式推理"（reasoning that sounds plausible but is wrong）时，用户难以判断应该信任哪部分输出。

更严重的是，研究表明某些模型的可见推理链并不真实反映其内部计算——模型可能"说一套做一套"，展示的推理过程是事后合理化，而非真正的决策路径。

4. 领域局限性

TTC 在有**客观正确答案**的任务上效果显著（数学、代码、逻辑推理）；但在开放性任务（创意写作、主观判断）上，让模型"想更久"并不一定带来更好的输出，有时反而导致过度分析、答案变得保守和冗长。

---

行业格局：谁在领先？

OpenAI

o1（2024年9月）→ o1-pro → o3（2025年初）→ o3-mini 的迭代路径展示了 OpenAI 对 TTC 的深度押注。o3 在多个基准上的表现令业界震惊，据称内部使用了大规模 MCTS 搜索。

DeepSeek

DeepSeek R1（2025年1月）以开源姿态打破了 OpenAI 的垄断叙事。R1 的技术报告详细披露了基于 GRPO（Group Relative Policy Optimization）的训练方法，成为学术界研究 TTC 的重要参考。

Anthropic

Claude 3.7 Sonnet（2025年2月）引入"扩展思考"（Extended Thinking）功能，允许用户控制思考预算（thinking budget），在响应质量和延迟之间灵活权衡。Anthropic 同时发布了关于"混合推理"的研究，探索何时应使用长链推理、何时应直接回答。

Google DeepMind

Gemini 2.0 Flash Thinking 和 Gemini 2.0 Pro 都加入了推理扩展能力，配合 Google 的 TPU 基础设施，在成本控制上有独特优势。

开源社区

Qwen QwQ（阿里）、Phi-4 reasoning（微软）等开源推理模型相继发布，推动 TTC 技术快速普及。Hugging Face 上已有数百个基于 TTC 训练范式微调的社区模型。

---

未来方向：几个值得关注的前沿

隐式推理（Latent Reasoning）

当前的推理链是"显式"的——用自然语言 token 表达思考过程。但有研究开始探索在**潜在空间**（latent space）中进行推理，跳过语言 token 的限制，理论上可以大幅提升推理效率。

OpenAI 的 Coconut（Chain of Continuous Thought）论文和 Google 的相关研究表明，连续潜空间中的推理可以超越离散 token 链的性能上限。

工具调用与外部验证

让推理模型能够在思考过程中调用计算器、代码解释器、搜索引擎等工具，形成"工具增强的推理链"。这在 OpenAI 的 Deep Research 功能中已有实践。

多智能体推理

将 TTC 从单模型推理扩展到多智能体协作：不同"思维风格"的模型互相辩论、验证、补充，形成更鲁棒的集成推理。

硬件协同设计

推理扩展对内存带宽和 KV cache 的需求极高。新一代 AI 芯片（如 Cerebras、Groq）正在专门针对长上下文推理场景优化架构。

---

结语：新扩展定律的时代

过去十年，AI 进步的主叙事是"更大的模型"。测试时计算扩展带来了另一套叙事：**更深的思考**。

这两条路并不互斥——最强的系统可能同时在训练规模和推理深度两个维度扩展。但 TTC 的兴起意味着，即便是参数规模有限的模型，只要有足够的推理预算，也能在特定任务上超越巨型模型。

这对 AI 产业的影响是深远的：推理算力（inference compute）将和训练算力一样成为核心竞争资源；"思考速度"与"思考质量"的权衡将成为产品设计的核心变量；而如何训练出"善于思考"的模型，将是接下来几年最热门的研究方向。

让模型多想一会儿，这条路，才刚刚开始。