AI 写得更多,不等于团队交付更快:重新审视“Tokenmaxxing”对开发效率的误导
TechCrunch AI 把“Tokenmaxxing”概括为一种越来越常见的开发倾向:开发者把 AI 生成的代码量、提示词长度和产出速度,当成效率提升的直接证据,但真实的软件工程成本并不只在“写出代码”这一刻。大量看似省下的时间,会在理解、调试、返工、重构、测试、维护与团队协作中重新付出。文章提醒行业,AI 编程的价值不能只用代码行数衡量,真正决定生产率的,是系统质量、可维护性以及组织能否承受后续复杂度。
在生成式 AI 深度进入软件开发流程之后,围绕“开发效率”的讨论几乎被重新定义了。越来越多开发者开始使用代码补全、自动生成函数、批量搭建脚手架、甚至让模型直接输出一个完整模块。在这种氛围里,一种颇具讽刺意味的现象被总结为“Tokenmaxxing”:人们不断把更多上下文、更多提示、更长对话和更多生成代码塞给模型,试图以更大的 token 消耗换取更高的开发产出,并把“写得更快、写得更多”默认为“做得更有效率”。TechCrunch AI 的这篇文章所指出的问题,恰恰是这种直觉很可能正在误导开发团队。
表面上看,AI 编程工具确实放大了代码生成速度。一个原本需要半小时搭脚手架的功能,现在几分钟内就能得到初稿;一个需要查文档拼接的 API 调用,也能在对话里迅速成形。对个人开发者来说,这种即时反馈极具吸引力,因为它会制造一种非常强烈的推进感:屏幕上不断出现新文件、新函数、新测试样例,提交记录变得更密集,任务列表似乎被快速清空。问题在于,软件工程从来都不是单纯的文本生成工作。真正昂贵的部分,往往发生在代码出现之后:它是否真的符合需求,是否与现有系统契合,是否会引入隐蔽风险,是否便于团队接手,是否在几周或几个月后仍然容易修改。若把这些成本排除在外,只统计“今天生成了多少代码”,那得到的效率结论很可能是失真的。
“Tokenmaxxing”之所以危险,首先在于它鼓励一种错误的优化目标。开发者可能会不自觉地把注意力从“解决问题”转向“驱动模型持续产出”。在这种模式下,工作的成就感来自可见的文字规模,而不是业务问题被准确地拆解和收敛。很多人会发现,自己一天里看起来推进了大量工作:让 AI 写了多个版本的实现、扩展了边界处理、补上了文档注释、顺手生成了测试框架。但到了真正集成、联调、上线或者排障时,才发现这些代码并没有形成稳定的交付物,而只是把未来的理解成本和维护成本提前埋进了仓库。
文章强调的一点很关键:AI 辅助写出来的代码,虽然数量更多,但并不天然更便宜。相反,它常常更贵。这里的“贵”并不只是指调用模型要花多少钱,而是指组织为这些代码付出的总成本更高。因为 AI 生成的内容往往缺少项目独有的上下文边界,它可以模仿一种通用而正确的写法,却不一定知道这个团队在过去两年中为何形成了今天的架构折衷。它也可能给出一个逻辑上可运行、工程上不合适的方案:重复已有抽象、绕过既定约束、误判性能瓶颈、忽视隐含依赖,或者用看似优雅的方式掩盖复杂度。开发者随后不得不花额外时间去阅读、怀疑、验证、删改、重构。这些工作不像“生成代码”那样带来即时兴奋,却恰恰构成了软件开发最真实的成本中心。
从团队管理视角看,AI 带来的最大错觉之一是把局部速度误认为全局效率。单个开发者在本地快速生成了一个功能,不代表整个团队的吞吐量同步提升。因为软件项目不是独立小作文的集合,而是一个持续演化的系统。任何新增代码都会进入共同维护的代码库,参与代码评审、测试、发布、监控和后续迭代。如果 AI 让每个人都更容易提交大量未经充分消化的实现,那么评审者面对的不是更少工作,而是更多工作:要理解作者是否真正掌握了实现细节,要确认生成逻辑没有隐藏假设,要排查重复封装和命名漂移,要审视异常处理是否只是“看起来完整”。当团队整体把时间花在消化膨胀的代码表层时,所谓效率提升很可能已经在协作链条中被抵消。
这也是为什么许多工程团队在实际使用 AI 编程工具一段时间后,会出现一种复杂感受:刚开始确实更快,但越到后面越觉得“乱”。这种“乱”并非简单来自代码质量下降,而是来自系统可理解性的降低。人类开发者写代码时,即便实现不够完美,也往往会留下某种思路痕迹:为什么这样拆、为什么这样命名、为什么在这里做权衡。AI 生成的代码则常常具有一种表面完整、内部动机模糊的特征。它能把常见模式拼得很像样,但并不对团队的长期语义负责。结果就是,代码能运行,却很难解释;功能能演示,却难以扩展;短期看似节约人力,长期却侵蚀了系统的认知清晰度。
进一步看,“Tokenmaxxing”背后折射的是整个行业对生产率指标的焦虑。过去衡量开发效率至少还会讨论发布频率、缺陷率、恢复时间、客户价值和团队满意度;在 AI 浪潮里,很多组织开始重新迷恋更容易被展示的数字,比如生成代码比例、接受建议次数、单日提交量、工单关闭速度。它们不是完全没有参考价值,但如果被上升为核心目标,就会诱导团队把工作方式朝模型最擅长的方向扭曲。AI 最擅长的是高速生成近似合理的文本,不是替组织承担长期维护责任。企业如果围绕前者设计激励,就可能无意中把工程文化推向短平快、重产量、轻理解的方向。
这并不意味着 AI 编程工具没有价值。恰恰相反,它们在许多环节都很有用:帮助熟悉陌生库的基础用法、快速生成重复性模板、补齐单元测试骨架、重写机械性的样板代码、为重构提供思路、协助阅读遗留系统中的局部逻辑。真正的问题不是“能不能用 AI 写代码”,而是“把 AI 用在什么层级”。如果开发者把 AI 当作加速器,用来压缩低判断密度的劳动,那么收益往往清晰;如果把它当作判断的替代品,要求它承担需求理解、架构收敛、边界识别和长期演化责任,那么后续返工几乎是必然的。文章所批评的,正是后一种被过度包装的想象:好像只要 token 足够多、对话足够长、模型足够强,软件工程里的复杂性就会自动消失。
事实上,复杂性并没有消失,只是被转移了位置。以前的复杂性发生在“动手之前”:开发者需要先理解需求、推演数据流、设计抽象,再开始编码。现在的复杂性越来越多地发生在“生成之后”:开发者要判断哪些内容可信、哪些实现只是语气自信、哪些细节需要彻底推翻、哪些片段会污染架构。看起来工作门槛下降了,但高质量交付所需的判断能力反而更加重要。因为在没有 AI 的时候,很多糟糕方案根本写不出来;而在有 AI 的时候,糟糕方案会以极低成本、大批量、格式优雅地出现,迫使人类承担更重的筛选义务。
从商业逻辑上说,这种现象也值得警惕。大量公司采购 AI 编程工具,预期往往建立在一个简化假设上:开发者写代码更快,因此单位人力产出更高,因此团队规模可以缩减或项目交付可以加速。但如果新增代码伴随更高的维护与返工成本,那么企业得到的可能不是净效率提升,而是一种被延后的成本堆积。短期财务报表很难立刻显现这类问题,因为代码库质量恶化、架构一致性下降、调试复杂度上升,通常要在几个迭代周期之后才逐渐浮现。到那时,组织会发现自己不是“花更少人完成更多事”,而是“用更快的方式制造更多待处理问题”。
对于初创公司而言,这个问题尤其敏感。创业团队普遍资源有限,天然愿意拥抱任何能提升速度的工具。AI 编程因此往往最先在早期团队中成为默认配置。但早期阶段也是产品方向变化最快、系统边界最不稳定的时期。此时若持续用 AI 扩张代码量,却没有足够纪律去维护最小可行架构,就容易形成一种危险局面:产品表面迭代很快,底层却越来越难改。等到真正找到 PMF 或进入增长阶段,团队不得不回头为此前堆叠的大量“半理解代码”付出昂贵的整理成本。
文章对行业的提醒,本质上是在把讨论从“写代码”拉回“做工程”。真正成熟的软件生产率,不是看开发者一天能让模型吐出多少 token,而是看团队能否稳定地把需求变成可靠、可维护、可演进的系统。这里面包含很多 AI 不擅长替代的部分:对业务语义的把握、对历史决策的记忆、对异常情境的预判、对代码库风格的长期维护、对跨团队依赖的协调、对系统健康度的持续负责。越是复杂的产品,越不能把这些能力误解为“生成几段实现以后再慢慢修”。
未来一段时间,AI 编程工具大概率仍会继续普及,而且模型能力还会显著增强。因此,行业真正需要建立的不是对 AI 的简单乐观或悲观态度,而是一套更清醒的使用原则。第一,衡量效率时要看全生命周期,而不是只看生成阶段。第二,尽量把 AI 用在重复性高、可验证性强、失败成本低的环节,而不是直接交出核心判断。第三,团队需要明确代码所有权,确保每一段进入主干的实现都有人真正理解。第四,管理层在制定 KPI 时应避免把“产出更多代码”与“创造更多价值”画上等号。第五,要把重构、删减和收敛视作效率的一部分,而不是只奖励扩张。
“Tokenmaxxing”这个说法之所以引发共鸣,正因为它精准点出了当下技术行业的一种集体心理:我们太容易把可量化、可展示、可即时反馈的东西,当作生产率的代名词。AI 让这种倾向被进一步放大。可软件开发的本质从来不是比谁写得更多,而是比谁更稳定地解决真实问题。如果一项工具让人产生强烈的忙碌感,却没有同步提升系统质量、团队认知和交付可靠性,那么它带来的未必是效率革命,也可能只是更高级的低效。TechCrunch AI 这篇文章的重要价值,就在于它及时提醒开发者和管理者:在 AI 编程时代,真正需要被重新审视的,不是模型还能多写多少代码,而是我们究竟在为什么样的“效率”付费。