有个问题我一直在想。如果 AI 能帮你写出完全能用的代码,做出看起来专业的东西,拿到真实的结果,那花几百个小时自己练,到底还有没有意义?
2025 年 2 月,Karpathy 发了条推文,说自己写代码全凭感觉。不看 diff,不读生成的代码,报错直接贴回去。450 万次浏览。Collins Dictionary 年度词汇。一夜之间所有人都在 vibe code。
大家忽略了一个细节。Karpathy 是 OpenAI 前研究副总裁,Tesla Autopilot 前负责人。他写了二十年代码。他的「凭感觉」,建立在他闭着眼睛都能写出来的基础上。
一个专家的放松模式,传着传着就变成了新手的学习方法。
METR 找了 16 个资深开源开发者,平均十几年经验,用 AI 完成 246 个真实任务。结果速度慢了 19%。但开发者自己觉得快了 20%。感知和现实之间差了 43 个百分点。
Wharton 的研究更直接:大约一千名高中生用 ChatGPT 做数学练习,成绩涨了 48%。把 AI 拿走考试,成绩比从没用过 AI 的学生低 17%。
这两个实验测到的是同一个东西。AI 制造了一种「我会了」的错觉。你看着 AI 生成的答案觉得都懂,但那是识别,不是理解。认知科学里有个概念叫存储强度,就是信息在你脑子里扎得多深。看一遍答案能拉高你此刻的熟悉感,但存储强度几乎没动。
真正让知识扎下去的是主动提取:不看答案,先从脑子里拼。这个过程很慢,经常拼不出来。但 Bjork 的研究发现,提取越费劲,存储扎得越深。他管这叫必要难度。
AI 做的事情,恰好是把必要难度拿掉了。不只是学习。用 GPS 导航三年的人,海马体依赖的空间记忆显著退化。不是因为他们天生方向感差才用 GPS,而是用了 GPS 之后方向感才变差的。用进废退不是比喻,是生理事实。
上面说的都是学习层面的:AI 让你跳过了练习,所以没真正学会。道理很清楚。可如果换个角度呢?
如果你不需要学会呢?
伦敦的 black cab 司机要考 The Knowledge,花四五年把两万五千条街道记在脑子里。神经科学家扫描他们的大脑,发现司机们的海马体确实比普通人大。
但对乘客来说,black cab 价格贵,叫车不方便。早期的 GPS 确实不靠谱,定位漂移、路线绕远、不知道哪条路在修。但今天的地图应用实时更新路况,精确到每个路口。Uber 2012 年进了伦敦之后,2014 年有两万五千多名持证出租车司机,到 2025 年只剩一万六千多,2024 年全年只发了 104 张新执照。
一个人用 AI 做了一个产品,用户喜欢,能解决问题,能赚钱。他不懂底层实现,但结果是实实在在的。你说他不行,依据是什么?就像你说一个用 Google Maps 的 Uber 司机不如一个背了四年街道的 black cab 司机。但乘客到了,花的钱更少,等的时间更短。
这是我真正卡住的地方,认知科学告诉我过程重要,但现实不断在展示结果就够了。
Peter Steinberger 做了二十年 iOS 开发,创办过 PSPDFKit,退休后回来用 AI 做了 OpenClaw,GitHub 上 27 万星。他用 AI 用得很猛。但你用 OpenClaw 的时候能感觉到,很多细节做得很舒服。这种 taste 不是 AI 能生成的。AI 帮他跑得更快,但方向盘一直在他手里。
Django 的作者 Simon Willison、Google 的工程总监 Addy Osmani,也在大量用 AI 写代码。但他们的共同点是:关掉 AI,照样能判断代码好不好。
但能不能判断好坏,才是真正拉开差距的地方。
AI 给你五个方案,你选哪个?它生成了一段逻辑,你怎么知道有没有漏洞?当你自己没有建立过判断框架,你只能选「看起来最专业的那个」。但「看起来专业」恰恰是 AI 最擅长制造的东西。
你的产出完全依赖一个你无法评估的黑箱。
今天它给的结果碰巧是对的,你觉得自己很厉害。明天它错了,你不会知道。
2009 年法航 447 航班在大西洋上空遭遇空速传感器结冰,自动驾驶断开。两名副驾驶需要手动接管,但他们几乎没有高空手动飞行的经验。失速警报响了 54 秒,他们始终没有做出正确的恢复动作。4 分 20 秒后,飞机坠入大西洋,228 人遇难。
同一年,萨利机长的飞机在起飞后撞上鸟群,双引擎全部失效。从撞鸟到迫降哈德逊河,一共 208 秒。他后来说:「42 年来我一直在往经验银行里存小额存款。1 月 15 日那天,余额刚好够我做一次大额提取。」NTSB 做了模拟测试,发现即便让飞行员提前知道会撞鸟、立刻掉头,加上 35 秒的判断延迟后,每一次模拟返航都坠毁了。萨利的判断不只是「一个好决定」,是唯一活路。
同样的故事发生在 2018 年。四川航空 8633 航班,风挡玻璃在万米高空爆裂脱落。驾驶舱瞬间失压,温度降到零下 40 度,风速接近飓风,副驾驶被吸出窗外一半。自动驾驶失效,仪表板损毁。机长刘传健靠手动操控,在几乎看不见仪表的情况下把飞机飞回了成都。128 人全部生还。
三个案例,同一个规律:自动化越强,手动接管的机会越少。但一旦需要接管,能不能活下来,完全取决于之前积累了多少。
但我还是没想通那个更大的问题。
这些人已经花了十几二十年建立底层能力,今天能把 AI 当杠杆用,前提是判断力早就在了。可对正在学的人来说,路径可能完全不同。也许未来真正值钱的不是写代码,而是知道该写什么、判断写得对不对。但「知道该写什么」能不能跳过「自己写过」直接到达?
Bjork 的研究说不能。深度加工需要你亲手跟问题较劲,这个过程没法外包。但他的结论来自 AI 之前的世界。
当 AI 不只是帮你做事,而是帮你筛选信息、构建观点的时候,你怎么确定那些「你的想法」真的是你的?你读的摘要是 AI 挑的,你做的决定是在 AI 框定的选项里选的。每一步看起来都是你在选。但选项空间是别人划的。
Jobs 说过,“People don’t know what they want until you show it to them.” 心理学家 Slovic 的研究更进一步:偏好不是提前存在等你去发现的,是在你做选择的那一刻被建构出来的。问法不同,答案就不同。如果连「我想要什么」都是被框架塑造的,那当 AI 成为你最主要的框架提供者,你的选择还在多大程度上是你的?
也许三年后回看,今天的焦虑全是多余的。也许 AI 真的会重新定义什么叫「能力」,就像计算器重新定义了什么叫「会算数」,过程真的不重要了,只要结果够好。
但在还看不清的时候,我觉得至少有一件事值得做:搞清楚哪些东西是自己真懂的,哪些是借来的。
参考
- Karpathy, A. (2025). 原推
- Bastani, H. et al. (2025). “Generative AI Can Harm Learning.” PNAS.
- METR (2025). AI experienced OS dev study
- Bjork, R.A. & Bjork, E.L. “A New Theory of Disuse and an Old Theory of Stimulus Fluctuation.”
- Willison, S. (2025). Not all AI-assisted programming is vibe coding
- Osmani, A. (2025). Vibe Coding is Not an Excuse
- Steinberger, P. OpenClaw
- BEA (2012). Air France Flight 447 Final Report
- NTSB (2010). US Airways Flight 1549 Accident Report
- Dahmani, L. & Bohbot, V.D. (2020). “Habitual use of GPS negatively impacts spatial memory.” Scientific Reports.
- Slovic, P. (1995). “The Construction of Preference.” American Psychologist.