autoresearch:Karpathy式自动实验循环,整个repo没一行真正的代码

Andrej Karpathy的autoresearch项目两天获860万浏览,被移植为Claude Code Skill(github.com/uditgoenka/autoresearch)。核心设计极简:约630行Python代码,整个Skill版本几乎全是Markdown。工作流为人类定义量化目标→AI自动改代码→跑验证→成功保留/失败回滚→循环。Karpathy在已高度优化的nanochat GPT-2代码上,经约700次自动实验仍找到11%的加速。适用于任何可量化优化:测试覆盖率、API响应时间、内存使用等。代表了一种新的人机协作范式:策略是人的,战术是机器的。

autoresearch:整个repo没一行代码,却能让AI跑一夜实验

Andrej Karpathy上周发布了一个项目,两天斩获860万浏览量——autoresearch。随后,有人将这套思路移植到了Claude Code,做成了一个Skill。这个项目的精妙之处在于:它用最小的复杂度,解锁了最大的自动化潜力。

核心理念:策略是人的,战术是机器的

autoresearch的设计哲学极其简洁:

> 人类负责定义"什么叫更好"(一个可量化指标),AI负责无限次地去试。

整个工作流:

1. **设定一个可量化目标**(比如测试覆盖率、API响应时间、模型准确率)

2. **AI自己循环**:改代码 → 跑验证 → 对比指标

3. **成功则保留,失败则回滚** → 继续下一轮

4. **你去睡觉**

Karpathy用自己已经高度优化的nanochat GPT-2训练代码做测试——autoresearch在约700次实验后仍然找到了11%的加速优化。人类花了大量时间手动优化的代码,AI在一夜之间又挤出了11%的性能。

技术实现:630行的极简主义

原版autoresearch只有约630行Python代码。这个极简设计是刻意的——整个代码库小到能完整放进LLM的上下文窗口,让AI能全面理解正在操作的系统。

关键设计决策:

  • **无框架依赖**:纯Python,没有复杂的Agent框架
  • **strategy文件**:`program.md`用自然语言描述研究策略
  • **自动回滚**:失败的实验不会污染代码库
  • **全程日志**:每次实验的修改、结果、推理过程全部记录

Claude Code Skill版本

GitHub用户uditgoenka将autoresearch的核心逻辑移植到了Claude Code的Skill体系中(github.com/uditgoenka/autoresearch)。

这个版本最有趣的地方是:**整个repo几乎全是Markdown,没有一行"真正的代码"**。它完全依赖Claude Code的能力来执行所有操作——读代码、改代码、跑测试、评估结果、回滚失败。

这证明了一个重要观点:在AI时代,"写代码"越来越不是解决问题的唯一方式。精心设计的Prompt和工作流描述,本身就是一种"编程"。

适用场景

几乎任何可以量化结果的优化任务都能丢给autoresearch:

  • 测试覆盖率从72%提到90%
  • API响应时间压到100ms以下
  • 冷邮件回复率预测分优化
  • 编译时间优化
  • 内存使用量降低
  • 机器学习模型准确率提升

核心约束条件是:**你必须能回答一个问题——"如果给你一个命令行,输出一个数字,这个数字越高/越低代表越好,那是什么?"**

如果能定义这个数字,autoresearch就能工作。

与传统CI/CD的区别

autoresearch不是CI/CD的替代品——它是CI/CD的前序。CI/CD确保"代码是否正确",autoresearch探索"代码能否更好"。一个是守门员,一个是前锋。

传统的优化循环是人类驱动的:人想一个优化方案 → 实现 → 测试 → 评估。autoresearch将这个循环的速度提升了两个数量级——一夜跑700次实验,相当于一个优秀工程师几个月的探索量。

对研究工作流的启示

autoresearch代表了一种新的人机协作范式:

  • **人类**:定义目标、约束条件、评估标准(what to optimize)
  • **AI**:执行搜索、实验、迭代(how to optimize)

这不是取代研究者,而是把研究者从"手动调参"的苦力中解放出来,让人类专注于更高层的策略思考。

潜在风险和局限

当然,autoresearch也有明显的局限:

1. **局部最优陷阱**:贪心搜索可能陷入局部最优,错过需要"退一步再进两步"的优化路径

2. **不可解释性**:AI找到的优化可能是有效的但不可解释的,增加了维护难度

3. **过拟合风险**:如果评估指标设计不当,AI可能"钻空子"优化指标而非真正改善系统

4. **资源消耗**:700次实验意味着700次完整的训练/测试循环,计算成本不可忽略

结语

autoresearch不是什么魔法。它的核心思想朴素到令人意外:给AI一个明确的优化目标和一个安全的沙箱,然后放手让它跑。但就是这么一个简单的框架,揭示了人类与AI协作的最高效模式——人定义方向,机器执行搜索。

正如陈成在介绍这个项目时所说:"想清楚那个数字是什么,剩下的让Claude跑一夜。"