告别昂贵标注：DataCOPE如何以无监督方式重塑数据分析Agent的技能进化

针对数据分析智能体在推理时增强面临的高质量监督信号稀缺难题，最新研究提出DataCOPE框架。该框架无需人工标注，仅利用未标记的探索轨迹，通过迭代协调智能体、无监督验证器与技能管理器，自动发现可复用的程序性知识。针对报告式与推理式任务，分别引入自适应清单验证器与答案一致性验证器。实验显示，DataCOPE在多个基准测试中显著优于基线，平均提升报告式任务得分9.71%、推理式任务32.30%，为低成本构建高阶数据分析Agent提供了全新范式。

当前，推理时技能增强被视为提升数据分析智能体性能的一种轻量级且高效的手段，它通过注入可复用的程序性知识来优化代理行为，而无需更新庞大的模型参数。然而，这一领域面临着一个核心挑战：如何在不依赖昂贵人工标注的情况下，发现真正有效的数据分析技能？由于不同分析格式的成功标准差异巨大，且可靠的外部监督信号难以获取，传统方法往往受限于数据瓶颈。为此，本研究提出了DataCOPE，一个创新的无监督验证器引导技能发现框架。DataCOPE的核心贡献在于解决了"如何仅从未标记的探索中发现可复用技能"这一关键问题。它不再依赖预定义的奖励函数或人工标注的黄金标准，而是通过智能体自身的探索轨迹来衍生验证信号，从而实现对技能质量的相对评估与提炼。这种方法不仅降低了对监督数据的依赖，还使得智能体能够适应多样化的分析场景，无论是结构化的推理任务还是开放式的报告生成，都能从中受益，为构建更自主、更强大的数据分析Agent奠定了理论基础。在技术实现上，DataPOSE构建了一个由三个核心组件组成的迭代闭环系统：数据分析智能体（Data-Analytic Agent）、无监督验证器（Unsupervised Verifier）和技能管理器（Skill Manager）。智能体负责生成多样化的探索轨迹，验证器则从这些轨迹中提取信号以表征其相对质量或一致性，而技能管理器利用对比学习进行技能蒸馏，将高质量的模式固化为可复用的技能。针对不同类型的分析任务，研究设计了两种具体的验证器实例。对于报告式分析（Report-style analysis），引入了自适应清单验证器（Adaptive Checklist Verifier）。该验证器能够根据任务上下文动态推导出一套特定的检查清单，通过评估报告对清单中可验证标准的覆盖程度来进行打分，并在迭代过程中不断 refinement 清单本身，确保评估标准的针对性与准确性。对于推理式分析（Reasoning-style analysis），则采用了答案一致性验证器（Answer Agreement Verifier）。它通过将具有相同答案的轨迹分组，并利用自一致性（Self-consistency）作为辅助信号来衡量推理路径的可靠性。这种双轨制的验证机制确保了框架在不同分析范式下的通用性与有效性，使得技能发现过程既具备广度又拥有深度。为了全面评估DataCOPE的有效性，研究在两个具有代表性的基准数据集上进行了广泛实验：针对报告式分析的Deep Data Research和针对推理式分析的DABStep。实验设计涵盖了四种不同的底层模型设置，以确保结果的鲁棒性和泛化能力。关键结果显示，DataCOPE在所有测试场景中均一致地超越了现有的基线方法，展现了其在提升持外样本（held-out）性能方面的显著优势。具体而言，在报告式分析任务中，DataCOPE使平均得分提升了9.71%；而在更具挑战性的推理式分析任务中，提升幅度更是高达32.30%。这一巨大的性能差距表明，特别是在缺乏明确标准答案的复杂推理场景中，基于一致性的无监督信号提取尤为有效。消融实验进一步证实了各个组件的贡献，特别是验证器引导的技能蒸馏过程，对于从噪声较大的探索轨迹中筛选出高质量程序性知识起到了决定性作用。这些数据有力地证明了DataCOPE不仅在理论上可行，在实际应用中也具备显著的性能增益。 DataCOPE的提出对开源社区和工业界落地具有深远的意义。首先，它极大地降低了构建高性能数据分析Agent的门槛，摆脱了对昂贵人工标注数据的依赖，使得中小团队甚至个人开发者也能利用开源模型构建具备专业分析能力的智能体。其次，该框架提供的"无监督技能发现"范式为后续研究开辟了新的方向，即如何更好地利用模型自身的探索能力来进化其工具使用策略和推理逻辑，而不仅仅依赖于静态的微调数据。在工业应用中，这意味着企业可以更快速地部署适应特定业务场景的数据分析助手，通过让Agent在实际业务数据中"自我探索"来积累专属的分析技能，从而实现更灵活、更低成本的自动化数据分析解决方案。随着大模型在垂直领域的深入应用，这种能够自动从非结构化交互中学习并固化最佳实践的技术，将成为提升AI代理自主性和实用性的关键驱动力。

Sources

arXiv