深度研究 · 易读版

当写代码变得便宜:软件组织怎么转向 AI-native(易读版)

TL;DR

AI 把「写代码」变便宜,把瓶颈推到「确认代码是对的」。个人变快 ≠ 组织变快;评估 AI 靠交付数据、不靠体感;维护高可靠老系统的组织,从迁移类任务切入、护栏先于规模。

90% 在用 AI实测 −19% vs 自感 +20%稳定性连续两年负相关迁移:1.5 人年 → 6 周

本文是同名深入版的精简版。深入版有完整的理论推导、全部数据出处和证据分级;这一版只保留主线,用直白的话讲清楚。所有数字都经过独立核查,想看出处请移步深入版。

一个怪现象

先看两组都是真的、但互相打架的数据。

2025 年 DORA(Google 旗下、做了十几年软件工程效能研究的团队)调查了近五千名工程师:90% 的人在用 AI,超过 80% 的人觉得自己变快了。但同一份研究连续两年发现:AI 用得越多的组织,软件交付反而越不稳定——除非它有扎实的自动化测试、版本控制和快速反馈机制。

更扎心的是一个随机对照实验(就是医药界验证新药的那种方法)。研究机构 METR 找来 16 位资深开源维护者,在他们自己维护了多年的大型代码库上随机分配任务:一半允许用 AI,一半不允许。结果:用 AI 的任务平均慢了 19%。而这些开发者事前预测 AI 会让自己快 24%——做完之后、在实际被拖慢的情况下,他们仍然觉得自己快了 20%。

感觉快了,实际慢了,而且本人完全察觉不到。

这就是本文要回答的问题:为什么每个人都觉得 AI 让自己更快了,但组织整体却没有变快,甚至变得更不稳定?答案不复杂,但它会改变你对"AI 转型"该怎么做的全部判断。

成本没有消失,它搬家了

软件开发的总成本,粗略分两块:把代码写出来的成本,和确认代码是对的的成本(读代码、评审、测试、集成、出了问题排查)。

示意图:生成成本趋零后,成本与瓶颈移向验证/整合环节(比例为示意,非实测)

过去几十年,"写出来"很贵,所以整个行业的组织方式——团队规模、招聘标准、流程设计——都是围绕"写"来优化的。AI 把"写"的成本压到接近零,很多人以为总成本也跟着降了。

没有。成本只是从"写"搬到了"确认写得对"。

那 16 位资深开发者为什么变慢?屏幕录像显示,他们的时间从写代码转移到了给 AI 写提示、等待生成、然后逐行审查 AI 的产出。在他们熟悉的复杂代码库里,写本来就不是瓶颈,审查才是——AI 让不是瓶颈的环节更快,让是瓶颈的环节更堵。
一家做工程效能遥测的公司(Faros)分析了一万多名开发者的真实数据:重度使用 AI 的人,合并的代码提交量几乎翻倍——但每个提交变大了 1.5 倍,评审时间涨了 91%,而整个团队从需求到上线的周期没有任何变化。个人的产出堆到了评审环节,在那里排队。
为什么组织会不稳定?变更量放大了,但测试、灰度发布、回滚这些"确认"机制没有跟着加强,错误就会漏过去。DORA 给这个现象的总结很精辟:AI 不会修复一个团队,它放大这个团队本来的样子。强的更强,乱的更乱。

这一条,是全文所有结论的根:AI 时代的组织设计,本质是围绕"验证"这个新瓶颈的重新布局。谁先想明白这一点,谁的转型就不会跑偏。

那人该干什么

经济学家给了一个好用的框架(Agrawal、Gans、Goldfarb 三人,研究 AI 经济学的权威):把 AI 理解为"预测成本的下降"。写代码、补全、执行,本质都是预测类工作,AI 越来越便宜;而判断——定目标、定标准、决定"什么算好"、验收——AI 便宜不了,反而因为预测变便宜而更值钱。

真实数据和这个框架对得上。Anthropic 分析了几十万个 AI 编程会话:人类保留了约 70% 的"规划类决策",而把约 80% 的"执行类决策"交给了 AI。更有意思的是:懂不懂编程,对用 AI 写代码的成功率影响不大(会编程 34%,不会 29%)——真正拉开差距的是领域知识:懂业务的专家一句话能让 AI 干对一大串活,不懂的人指挥不动它。

一个极端案例把这件事演到了头。巴西 Itaú 银行(受严格监管的老系统环境)让一位 8 年经验的工程师带着一组 AI 工具单干,3 个迭代干完了原本 4 人团队 6 个迭代的项目,质量不打折(集成测试全过、上线零缺陷)。注意这只是一个案例、当事人自己写的论文,不能推广——但它的复盘结论很有价值:提速的关键不是这个人代码写得快,而是原来需要产品、架构、安全、测试好几拨人开会往返好几天的事,现在一个人指挥 AI 几分钟打一个来回。而项目里所有的返工,都来自模糊的需求和没写成文档的旧系统"潜规则"。

所以 AI 时代最稀缺的人,不是"会用 AI 的程序员",而是能把业务知识讲清楚、写成明确规格、并且有能力判断"这个产出行不行"的人。如果你的招聘和晋升还在按"代码写得多快"给人定价,你在给一项正在贬值的资产定价。

公司会变小吗?

"AI 让十个人干一百个人的活,公司会碎成一堆小团队"——这是最流行的说法。诚实的回答是:没人知道,而且目前的证据反而偏向相反方向。

鼓吹"公司变小"的代表性论文,经不起核查:没有同行评审、没有任何实证数据,而且两位作者是卖 agent 基础设施的创业公司创始人——"公司会碎片化"正好是他们的产品卖点。而经过同行评审的实证研究(发表在金融学顶刊)发现:AI 投资集中在大公司,推动大公司更大、行业更集中。

对读者有用的不是站队,而是两个可以自己盯的指标:你的组织里,每次变更的验证成本是随着变更量线性涨还是更快地涨?如果验证越来越便宜,小团队化有戏;如果验证还是最贵的环节,大组织的优势会继续。谁现在就断言方向,谁就是在卖超出证据的确定性。

如果你维护的是"不能出事"的老系统

BigQuery、支付系统、核心银行系统——代码库几千万行、历史十几年、每秒扛海量请求、出事就上新闻。这类组织读到的 AI 转型文章几乎都是初创公司写的,而初创的玩法对你不但没用,而且危险。

Perrow 风险透镜(示意):同一个 AI 工具,在两个象限积分出完全不同的风险;高危象限还叠加短时延——系统滑向灾难快于人类认知

为什么危险,一个真实故事就够了。2012 年 8 月 1 日,做美股做市的骑士资本(Knight Capital)上线新代码,8 台服务器只更新了 7 台。没更新的那台,激活了一段停用八年但一直没删的旧代码。45 分钟,亏损超过 4.6 亿美元,公司一年内被收购。注意细节:系统开盘前其实发过 97 封报错邮件,但那些邮件"不是被设计成告警的",没人看。——现在想象 AI 以十倍速度生成代码,而你的组织连死代码都没人清理、告警没人管。老系统 + 高速变更 + 弱验证,这是灾难配方,AI 是加速剂。

为什么不划算,前面那个实验就是证据。METR 那个"用 AI 反而慢 19%"的实验,情境恰好是:资深工程师 + 百万行级成熟代码库 + 严格的质量门槛——这不是什么特殊实验室条件,这就是你们组织的日常。原因也直白:老系统里最难的东西是"潜规则"——历史上踩过的坑、没写文档的行为依赖、组织约定——这些恰恰是用公开代码训练出来的 AI 最不懂的。指望"把整个代码库塞进 AI 的上下文窗口"也不行,实测显示输入越长、模型表现越差,海量相似代码反而是干扰。

那从哪里开始?有一类任务,AI 在巨型老代码库上有多家公司验证过的成功记录:大规模迁移和升级。老写法换新写法、测试框架更换、语言版本升级——这类活有三个共同点:繁重、没人愿意干、机器能自动判断做没做对(编译过不过、测试过不过)。几个真实数字:Google 用 AI 做代码迁移,四分之三的修改由 AI 生成,项目时间省一半,搁置多年没人碰的迁移被重新启动;Airbnb 把 3,500 个测试文件迁到新框架,原本估 1.5 人年,实际 6 周。

而且这些公司的做法惊人地一致,可以直接抄:

AI 只负责中间一段:用确定性工具找到该改哪儿,AI 生成修改,再用编译和测试自动裁决——AI 永远没有"合入代码"的决定权;
AI 的代码和人的代码走同一套评审、同一道测试门禁,不开绿色通道;
按评审能力限速:Google 明确记录过,他们刻意压低 AI 的生成速度,因为瓶颈是人审得过来审不过来——生成能力过剩,验证能力才是闸门。

反面教材同样真实:英国 TSB 银行 2018 年把 500 万客户一次性切到新系统,结果网银瘫痪、钓鱼诈骗暴增 70 倍、总成本超过 3 亿英镑、监管罚款近 5 千万英镑。大爆炸式的一次性重写,在 AI 时代依然是死路——AI 没有改变"小步渐进、每步可验证、随时可回退"这个老原则,它只是把渐进路线上最累的体力活变便宜了十倍。

三步走,给这类组织:先用迁移类任务练手(顺便建立自己组织的 AI 数据基线)→ 护栏建好再放量(测试、灰度、回滚、评审工具,这些"确认"基础设施先行)→ 把验证能力当成一等资产来投资和考核,并且立一条规矩:评估 AI 的收益只看交付数据,不听体感——记住那 40 个百分点的感知错位。

怎么推动转型

最后是组织层面的四条,每条背后都有几十年的管理学研究撑着:

难转不是因为人蠢,是因为组织理性。成熟组织拿到 AI,会本能地用它"把原来的事做得更快",而不是重新设计做事的方式——这在创新研究里是被反复验证的模式,后果是只拿到边际收益,把真正的机会留给别人。
给转型单独开一块试验田。让同一个团队"既保住交付又搞转型"注定失败;正确做法是分出一个独立小单元,给它不同的目标、激励和流程,让它按 AI 的新成本结构重新设计工作方式,跑通了再推广。
顺序不能反:先修地基,再上 AI。AI 放大组织本来的样子——测试和发布流程不牢的团队,先上 AI 只会收获更多的不稳定,然后在信任崩塌中失去第二次机会。基本功扎实的团队,AI 的红利是复利。
真正的瓶颈在管理层。工程师用不用工具从来不是问题(有个实验发现,免费送、领导推,还是有三四成工程师碰都不碰——但这能靠时间解决)。真正难的是管理层的决策:把投资从"生成能力"移到"验证基础设施",把人才定价从"执行"移到"判断",这些只有管理层能拍板。

记住三件事

个人变快 ≠ 组织变快。成本从"写代码"搬到了"确认代码是对的",不升级验证能力,AI 只会让你更快地生产问题。
别信体感,信数据。被 AI 拖慢的资深工程师坚信自己变快了。评估 AI,用交付周期、变更失败率、评审时长这些硬指标。
老系统组织,从迁移任务切入,护栏先于规模。这是唯一有多家大厂真实成功记录的路径;大爆炸式重写在 AI 时代依然是死路。