Pencil Puzzle Bench:用铅笔谜题测试LLM多步推理,51个模型大比拼

用铅笔谜题(NP完全约束满足问题)评测LLM推理能力。62231道谜题、94种类型,精选300道评测51个模型。关键发现:GPT-5.2在推理effort从无到最大时正确率提升81倍;Claude Opus 4.6在Agent模式下从0.3%跃升至30%;GPT-5.2@xhigh在Agent模式下从20.2%升至56%。最长的Agent尝试超过1221轮、14.3小时——不仅考推理,更考长上下文利用能力。

铅笔谜题:一种被低估的AI推理试金石

在评测大语言模型(LLM)推理能力的赛道上,选手们早已拥挤不堪——GSM8K、MATH、HumanEval、ARC……各类基准层出不穷,但一个共同的问题始终困扰着研究者:现有基准是否真正考察了模型的多步推理能力,还是在某种程度上只是记忆力的测验?

Pencil Puzzle Bench的出现,给出了一个独特且令人信服的答案。这项研究选择了一类在休闲娱乐领域深入人心、但在AI评测领域几乎从未被系统性研究的谜题类型——铅笔谜题(Pencil Puzzles)——作为评测LLM多步推理能力的新基准,并组织了迄今为止规模最大的推理模型横向对比:51个主流大语言模型同台竞技。

什么是铅笔谜题?

铅笔谜题是一类以纸笔解题为特征的约束满足问题(Constraint Satisfaction Problem, CSP),涵盖数独(Sudoku)、蜂巢填数(Suguru)、逻辑岛(Nurikabe)、连接线(Slither Link)等94种变体。这类谜题具备几个关键特性,使其成为极为理想的AI推理评测工具:

NP完全性:绝大多数铅笔谜题在计算复杂度理论中属于NP完全问题,这意味着解题过程无法走捷径,必须通过真实的逻辑推导和约束传播才能得出正确答案,蛮力猜测几乎不可能奏效。

答案客观可验证:不同于主观性问答或开放式生成任务,铅笔谜题的答案是完全确定的,可以程序化地自动评分,完全排除了评测的主观性干扰。

天然抵抗训练集污染:铅笔谜题的规模和具体数字千变万化,组合空间极大,训练数据中几乎不可能出现完全相同的谜题实例,从根本上遏制了"背答案"的捷径。

多步依赖性:解题往往需要在网格中多次填入、推导、回溯,构成真实意义上的多步推理链,而非单步问答。

基准构建:62231道谜题,94种类型,300道精选

研究团队为构建这一基准付出了大量工程努力。最终的Pencil Puzzle Bench包含:

  • **62,231道谜题**,涵盖94种不同的铅笔谜题类型
  • **精选300道评测题目**,在难度分布和类型多样性上经过精心设计
  • 全套自动化评分系统,可在不借助人工判断的情况下完成准确评分

这种规模的基准构建本身就是一项挑战——研究团队不仅需要收集和整理各类谜题,还需要为每种谜题类型实现精准的解答验证逻辑,确保评分的严谨性。

参与对比的51个模型

本次评测涵盖截至研究时可访问的51个主流大语言模型,包括来自OpenAI(GPT系列)、Anthropic(Claude系列)、Google(Gemini系列)、Meta(LLaMA系列)等主要AI实验室的最新旗舰模型,以及多个开源社区模型。评测在标准模式(单次生成)和Agent模式(多轮工具调用与自我修正)两种条件下分别进行,后者更接近人类实际解谜的过程。

关键发现:推理能力的天花板远未触及

GPT-5.2的81倍跃升:推理计算量的惊人红利

本次评测中最令人震撼的数据来自GPT-5.2:当推理计算量(reasoning effort)从最低档切换到最高档(xhigh)时,GPT-5.2的正确率实现了**81倍**的大幅提升。这一数字直接揭示了当前顶级模型在"能力上限"和"默认表现"之间存在的巨大鸿沟——模型并非无法推理,而是在不投入足够计算资源时选择了"就够了"的低成本路径。

这对于理解推理扩展定律(Reasoning Scaling Law)具有重要意义:更多的测试时计算(test-time compute)能够显著提升模型在复杂逻辑问题上的表现,而当前的默认设置往往远未发挥模型的真实推理潜力。换句话说,我们通常在日常使用中接触到的模型,其实一直处于"省力模式"。

此外,GPT-5.2在Agent模式下的表现同样亮眼:从标准模式的20.2%跃升至Agent模式@xhigh的56%,展示了给予模型足够的"思考空间"和"行动空间"后的惊人潜力。

Claude Opus 4.6:Agent模式的0.3%→30%

Claude Opus 4.6的表现对比同样令人印象深刻:在非Agent的标准模式下,该模型的正确率仅有**0.3%**,几乎完全无法应对铅笔谜题;但切换到Agent模式后,正确率飙升至**30%**——提升了近100倍。

这一结果有力说明,铅笔谜题对"单次生成即答"的解题方式极为不友好——谜题的约束传播本质上需要迭代式的推理过程。而赋予模型反复尝试、自我纠错和状态追踪的工具后,推理能力获得了质的释放。这也启示我们:评测AI推理能力时,仅考虑单次生成模式可能会严重低估模型的实际能力。

Agent模式的极端案例:1221轮、14.3小时

评测中出现了极为极端的案例:某次Agent尝试超过了**1221轮工具调用**,耗时长达**14.3小时**。这不仅是对模型逻辑推理能力的考验,更是对长上下文(Long Context)处理能力和状态追踪能力的严格压测。

对于AI系统而言,在超长上下文中保持推理的连贯性、不丢失先前推导的约束条件,是极为困难的挑战。Pencil Puzzle Bench通过这类极端案例,揭示了当前LLM在长上下文推理上的明显短板——即便模型本身具备强大的单步推理能力,在极长的推理链条中"不迷失"依然是一个未被充分解决的问题。

对LLM推理研究的深层启示

解决评测污染问题

当前AI评测领域面临的最大挑战之一是"评测集污染"——模型在训练过程中可能已经见过评测题目的答案,从而导致成绩虚高。铅笔谜题在这一问题上具有天然的抵抗力:谜题实例是程序生成的,组合空间极大,每道题的具体数字排列几乎唯一,即使训练数据中包含了部分谜题规则和例题,也无法覆盖所有可能的具体实例。

推理能力与记忆能力的分离

铅笔谜题评测的另一大价值在于:它能够相对干净地将**推理能力**与**记忆能力**分离开来。现有许多基准,尤其是知识问答类,很难区分模型是真正在推理还是在"背答案"。铅笔谜题的结构化约束特性,要求模型必须在解题过程中进行真实的逻辑运算——没有捷径。

Test-Time Compute的价值再确认

GPT-5.2的81倍提升,以及Agent模式下各模型的普遍跃升,再次坚实地确认了test-time compute(推理期计算)对于提升复杂任务表现的巨大价值。这一发现与近期OpenAI o系列、DeepSeek R1等"思维链推理模型"的研究方向高度吻合,进一步支持了"让模型多想一想"的技术路线。

未来展望与当前局限

Pencil Puzzle Bench也存在一些值得关注的局限性。94种谜题类型中,不同类型的难度差异悬殊,部分类型对语言模型的挑战更多来自格式理解(如网格表示方式)而非纯粹的逻辑推理。此外,Agent模式的评测成本极高,14.3小时的极端案例在大规模评测中难以常规复现。

未来的改进方向可能包括:针对不同难度层级构建更细粒度的子集、开发更高效的Agent评测协议,以及将铅笔谜题与其他推理基准结合进行多维度综合评测。

Pencil Puzzle Bench的发布,为AI推理评测领域注入了一个既有趣又严格的新标准。在大模型推理能力争议不休的今天,这把"铅笔谜题"试金石,或许能帮助我们看清楚:那些号称"推理能力一流"的模型,在真正需要逐步推导、反复验证的NP完全约束满足问题面前,到底表现如何。而81倍这个数字,也在提醒着所有人:AI推理能力的上限,远比我们日常感受到的要高得多。