autoresearch:Karpathy式自动实验循环,整个repo没一行真正的代码
Andrej Karpathy的autoresearch项目两天获860万浏览,被移植为Claude Code Skill(github.com/uditgoenka/autoresearch)。核心设计极简:约630行Python代码,整个Skill版本几乎全是Markdown。工作流为人类定义量化目标→AI自动改代码→跑验证→成功保留/失败回滚→循环。Karpathy在已高度优化的nanochat GPT-2代码上,经约700次自动实验仍找到11%的加速。适用于任何可量化优化:测试覆盖率、API响应时间、内存使用等。代表了一种新的人机协作范式:策略是人的,战术是机器的。
autoresearch:整个repo没一行代码,却能让AI跑一夜实验
Andrej Karpathy上周发布了一个项目,两天斩获860万浏览量——autoresearch。随后,有人将这套思路移植到了Claude Code,做成了一个Skill。这个项目的精妙之处在于:它用最小的复杂度,解锁了最大的自动化潜力。
核心理念:策略是人的,战术是机器的
autoresearch的设计哲学极其简洁:
> 人类负责定义"什么叫更好"(一个可量化指标),AI负责无限次地去试。
整个工作流:
1. **设定一个可量化目标**(比如测试覆盖率、API响应时间、模型准确率)
2. **AI自己循环**:改代码 → 跑验证 → 对比指标
3. **成功则保留,失败则回滚** → 继续下一轮
4. **你去睡觉**
Karpathy用自己已经高度优化的nanochat GPT-2训练代码做测试——autoresearch在约700次实验后仍然找到了11%的加速优化。人类花了大量时间手动优化的代码,AI在一夜之间又挤出了11%的性能。
技术实现:630行的极简主义
原版autoresearch只有约630行Python代码。这个极简设计是刻意的——整个代码库小到能完整放进LLM的上下文窗口,让AI能全面理解正在操作的系统。
关键设计决策:
- **无框架依赖**:纯Python,没有复杂的Agent框架
- **strategy文件**:`program.md`用自然语言描述研究策略
- **自动回滚**:失败的实验不会污染代码库
- **全程日志**:每次实验的修改、结果、推理过程全部记录
Claude Code Skill版本
GitHub用户uditgoenka将autoresearch的核心逻辑移植到了Claude Code的Skill体系中(github.com/uditgoenka/autoresearch)。
这个版本最有趣的地方是:**整个repo几乎全是Markdown,没有一行"真正的代码"**。它完全依赖Claude Code的能力来执行所有操作——读代码、改代码、跑测试、评估结果、回滚失败。
这证明了一个重要观点:在AI时代,"写代码"越来越不是解决问题的唯一方式。精心设计的Prompt和工作流描述,本身就是一种"编程"。
适用场景
几乎任何可以量化结果的优化任务都能丢给autoresearch:
- 测试覆盖率从72%提到90%
- API响应时间压到100ms以下
- 冷邮件回复率预测分优化
- 编译时间优化
- 内存使用量降低
- 机器学习模型准确率提升
核心约束条件是:**你必须能回答一个问题——"如果给你一个命令行,输出一个数字,这个数字越高/越低代表越好,那是什么?"**
如果能定义这个数字,autoresearch就能工作。
与传统CI/CD的区别
autoresearch不是CI/CD的替代品——它是CI/CD的前序。CI/CD确保"代码是否正确",autoresearch探索"代码能否更好"。一个是守门员,一个是前锋。
传统的优化循环是人类驱动的:人想一个优化方案 → 实现 → 测试 → 评估。autoresearch将这个循环的速度提升了两个数量级——一夜跑700次实验,相当于一个优秀工程师几个月的探索量。
对研究工作流的启示
autoresearch代表了一种新的人机协作范式:
- **人类**:定义目标、约束条件、评估标准(what to optimize)
- **AI**:执行搜索、实验、迭代(how to optimize)
这不是取代研究者,而是把研究者从"手动调参"的苦力中解放出来,让人类专注于更高层的策略思考。
潜在风险和局限
当然,autoresearch也有明显的局限:
1. **局部最优陷阱**:贪心搜索可能陷入局部最优,错过需要"退一步再进两步"的优化路径
2. **不可解释性**:AI找到的优化可能是有效的但不可解释的,增加了维护难度
3. **过拟合风险**:如果评估指标设计不当,AI可能"钻空子"优化指标而非真正改善系统
4. **资源消耗**:700次实验意味着700次完整的训练/测试循环,计算成本不可忽略
结语
autoresearch不是什么魔法。它的核心思想朴素到令人意外:给AI一个明确的优化目标和一个安全的沙箱,然后放手让它跑。但就是这么一个简单的框架,揭示了人类与AI协作的最高效模式——人定义方向,机器执行搜索。
正如陈成在介绍这个项目时所说:"想清楚那个数字是什么,剩下的让Claude跑一夜。"