测试时计算扩展:让模型「多想一会儿」如何重写AI能力边界
从 OpenAI o3 到 DeepSeek R1、再到 Claude 3.7 扩展思考,「测试时计算扩展」正在成为2026年最重要的AI范式转变——与其训练更大的模型,不如让模型在推理时「想更久」。本文深入拆解其技术路径、局限与未来走向。
2024年末,OpenAI发布 o1 系列模型时,业界忽然意识到一件事:**让模型「多想一会儿」,往往比把模型做大更有效。** 这个直觉背后,是一套被称为"测试时计算扩展"(Test-Time Compute Scaling,简称 TTC)的技术体系——它正在成为2025-2026年 AI 领域最重要的范式转变之一。
什么是测试时计算扩展?
传统的 AI 扩展定律(Scaling Laws)告诉我们:模型越大、数据越多、训练算力越多,模型能力越强。这套逻辑驱动了 GPT-3 → GPT-4 → Llama 3 的演进路径,也带来了数十亿乃至数千亿参数的超大模型。
但这条路的代价越来越高昂——训练一个顶级大模型需要数亿美元,且收益在递减。
测试时计算扩展给出了另一条路:不是在训练阶段堆算力,而是在推理(inference)阶段允许模型使用更多时间和计算资源来"思考"一个答案。
核心思想很简单:
> 当你面对一道难题,闭上眼睛多想30秒,通常比脱口而出更准确。模型也一样。
两种主流路径
目前 TTC 技术主要分两大方向:
1. 显式推理链(Chain-of-Thought Scaling)
让模型在给出最终答案前,先输出一段可见的"思考过程"。这一做法由 Google 2022 年的 CoT 论文奠基,到2024-2025年已进化为"扩展思维链"——允许模型输出数千甚至数万个推理 token 再给出答案。
代表产品:OpenAI o1/o3、DeepSeek R1、Claude 3.7 Sonnet(扩展思考模式)、Gemini 2.0 Flash Thinking。
2. 搜索与验证(Search + Verification)
将推理过程建模为一棵搜索树:模型生成多条候选路径,通过"过程奖励模型"(Process Reward Model, PRM)对中间步骤打分,最终选择最优路径。这借鉴了 AlphaGo 的 MCTS(蒙特卡洛树搜索)思路。
代表研究:DeepMind 的 AlphaCode 2、OpenAI o3 的内部架构(据推测)、以及多个学术 MCTS+LLM 工作。
---
为什么它有效?信息论视角
从信息论角度看,TTC 的有效性有深刻的理论基础。
一个语言模型的单次前向传播(forward pass)只能处理有限的"计算深度"。对于需要多步推理的复杂问题,单次 pass 往往不够——模型的残差流(residual stream)中没有足够的"工作内存"来完成所有推理步骤。
通过让模型将中间步骤写出来(即外化工作记忆),后续的 token 生成可以"读取"这些中间结果,相当于把计算深度从 O(L)(L 为网络层数)扩展到了 O(L × T)(T 为推理 token 数量)。
这在数学上等价于:**将固定深度的神经网络变成了可变深度的动态计算图**。
扩展曲线有多陡?
来自 OpenAI、Google DeepMind 和学术界的多项研究表明,TTC 扩展曲线相当陡峭:
- 在数学竞赛(AIME)等基准上,给模型更多推理 token 时,性能呈现接近对数线性的提升
- o3 在 ARC-AGI 基准上,用高计算版本达到了 87.5% 的准确率,远超 o1 的 32%
- DeepSeek R1 的研究表明,在相同参数规模下,扩展推理时间可以追平大 10 倍参数模型的表现
---
训练如何支撑推理扩展?
让模型"多想"不是免费的——它需要专门的训练来让模型学会"如何有效地思考"。
强化学习是关键
o1、o3、DeepSeek R1 等模型的共同点是大量使用了**推理过程的强化学习**(RL on reasoning traces)。
传统 RLHF 只对最终答案打分;而 TTC 训练范式会对推理过程的每一步打分(Process Reward Model),鼓励模型学会:
- 在不确定时主动回溯(backtracking)
- 检验中间步骤的正确性(self-verification)
- 以不同方式重新表述问题(re-framing)
DeepSeek R1 的技术报告特别提到,他们发现了一个惊人的"顿悟时刻"(aha moment):当强化学习训练充分后,模型会自发地学会在关键节点说"等等,让我重新想想",这种能力并非人工设计,而是从奖励信号中自然涌现的。
蒸馏:让小模型也会"思考"
大推理模型训练成本高,但它们产生的推理轨迹可以用来蒸馏小模型。DeepSeek 的研究表明,用 R1 的推理轨迹训练 7B 参数的小模型,可以达到接近 70B 模型的推理性能——这让 TTC 技术的普惠化成为可能。
---
当前局限与挑战
测试时计算扩展并不是万灵药,它面临几个核心挑战。
1. 延迟问题
生成数千个推理 token 意味着响应时间从毫秒级变成秒级甚至分钟级。对于需要实时交互的应用(客服、代码补全),这是难以接受的。
目前的缓解策略是**自适应计算**:让模型根据问题难度动态决定推理深度。简单问题快速回答,复杂问题才启动长链推理。Anthropic 的 Claude 3.7 扩展思考模式就采用了类似设计。
2. 成本爆炸
更多推理 token = 更高 API 成本。o3-high 的单次请求成本是 o1 的数十倍。这使得 TTC 模型在成本敏感场景下难以大规模部署。
降本方向:推测解码(speculative decoding)、稀疏注意力、以及专门针对推理链的模型压缩。
3. 推理链的可信度问题
当模型的"思考过程"变得不透明或产生"幻觉式推理"(reasoning that sounds plausible but is wrong)时,用户难以判断应该信任哪部分输出。
更严重的是,研究表明某些模型的可见推理链并不真实反映其内部计算——模型可能"说一套做一套",展示的推理过程是事后合理化,而非真正的决策路径。
4. 领域局限性
TTC 在有**客观正确答案**的任务上效果显著(数学、代码、逻辑推理);但在开放性任务(创意写作、主观判断)上,让模型"想更久"并不一定带来更好的输出,有时反而导致过度分析、答案变得保守和冗长。
---
行业格局:谁在领先?
OpenAI
o1(2024年9月)→ o1-pro → o3(2025年初)→ o3-mini 的迭代路径展示了 OpenAI 对 TTC 的深度押注。o3 在多个基准上的表现令业界震惊,据称内部使用了大规模 MCTS 搜索。
DeepSeek
DeepSeek R1(2025年1月)以开源姿态打破了 OpenAI 的垄断叙事。R1 的技术报告详细披露了基于 GRPO(Group Relative Policy Optimization)的训练方法,成为学术界研究 TTC 的重要参考。
Anthropic
Claude 3.7 Sonnet(2025年2月)引入"扩展思考"(Extended Thinking)功能,允许用户控制思考预算(thinking budget),在响应质量和延迟之间灵活权衡。Anthropic 同时发布了关于"混合推理"的研究,探索何时应使用长链推理、何时应直接回答。
Google DeepMind
Gemini 2.0 Flash Thinking 和 Gemini 2.0 Pro 都加入了推理扩展能力,配合 Google 的 TPU 基础设施,在成本控制上有独特优势。
开源社区
Qwen QwQ(阿里)、Phi-4 reasoning(微软)等开源推理模型相继发布,推动 TTC 技术快速普及。Hugging Face 上已有数百个基于 TTC 训练范式微调的社区模型。
---
未来方向:几个值得关注的前沿
隐式推理(Latent Reasoning)
当前的推理链是"显式"的——用自然语言 token 表达思考过程。但有研究开始探索在**潜在空间**(latent space)中进行推理,跳过语言 token 的限制,理论上可以大幅提升推理效率。
OpenAI 的 Coconut(Chain of Continuous Thought)论文和 Google 的相关研究表明,连续潜空间中的推理可以超越离散 token 链的性能上限。
工具调用与外部验证
让推理模型能够在思考过程中调用计算器、代码解释器、搜索引擎等工具,形成"工具增强的推理链"。这在 OpenAI 的 Deep Research 功能中已有实践。
多智能体推理
将 TTC 从单模型推理扩展到多智能体协作:不同"思维风格"的模型互相辩论、验证、补充,形成更鲁棒的集成推理。
硬件协同设计
推理扩展对内存带宽和 KV cache 的需求极高。新一代 AI 芯片(如 Cerebras、Groq)正在专门针对长上下文推理场景优化架构。
---
结语:新扩展定律的时代
过去十年,AI 进步的主叙事是"更大的模型"。测试时计算扩展带来了另一套叙事:**更深的思考**。
这两条路并不互斥——最强的系统可能同时在训练规模和推理深度两个维度扩展。但 TTC 的兴起意味着,即便是参数规模有限的模型,只要有足够的推理预算,也能在特定任务上超越巨型模型。
这对 AI 产业的影响是深远的:推理算力(inference compute)将和训练算力一样成为核心竞争资源;"思考速度"与"思考质量"的权衡将成为产品设计的核心变量;而如何训练出"善于思考"的模型,将是接下来几年最热门的研究方向。
让模型多想一会儿,这条路,才刚刚开始。