巴别塔上的风景：AI 时代的一些思考

有个问题我一直在想。如果 AI 能帮你写出完全能用的代码，做出看起来专业的东西，拿到真实的结果，那花几百个小时自己练，到底还有没有意义？

2025 年 2 月，Karpathy 发了条推文，说自己写代码全凭感觉。不看 diff，不读生成的代码，报错直接贴回去。450 万次浏览。Collins Dictionary 年度词汇。一夜之间所有人都在 vibe code。

大家忽略了一个细节。Karpathy 是 OpenAI 前研究副总裁，Tesla Autopilot 前负责人。他写了二十年代码。他的「凭感觉」，建立在他闭着眼睛都能写出来的基础上。

一个专家的放松模式，传着传着就变成了新手的学习方法。

METR 找了 16 个资深开源开发者，平均十几年经验，用 AI 完成 246 个真实任务。结果速度慢了 19%。但开发者自己觉得快了 20%。感知和现实之间差了 43 个百分点。

Wharton 的研究更直接：大约一千名高中生用 ChatGPT 做数学练习，成绩涨了 48%。把 AI 拿走考试，成绩比从没用过 AI 的学生低 17%。

这两个实验测到的是同一个东西。AI 制造了一种「我会了」的错觉。你看着 AI 生成的答案觉得都懂，但那是识别，不是理解。认知科学里有个概念叫存储强度，就是信息在你脑子里扎得多深。看一遍答案能拉高你此刻的熟悉感，但存储强度几乎没动。

真正让知识扎下去的是主动提取：不看答案，先从脑子里拼。这个过程很慢，经常拼不出来。但 Bjork 的研究发现，提取越费劲，存储扎得越深。他管这叫必要难度。

AI 做的事情，恰好是把必要难度拿掉了。不只是学习。用 GPS 导航三年的人，海马体依赖的空间记忆显著退化。不是因为他们天生方向感差才用 GPS，而是用了 GPS 之后方向感才变差的。用进废退不是比喻，是生理事实。

上面说的都是学习层面的：AI 让你跳过了练习，所以没真正学会。道理很清楚。可如果换个角度呢？

如果你不需要学会呢？

伦敦的 black cab 司机要考 The Knowledge，花四五年把两万五千条街道记在脑子里。神经科学家扫描他们的大脑，发现司机们的海马体确实比普通人大。

但对乘客来说，black cab 价格贵，叫车不方便。早期的 GPS 确实不靠谱，定位漂移、路线绕远、不知道哪条路在修。但今天的地图应用实时更新路况，精确到每个路口。Uber 2012 年进了伦敦之后，2014 年有两万五千多名持证出租车司机，到 2025 年只剩一万六千多，2024 年全年只发了 104 张新执照。

一个人用 AI 做了一个产品，用户喜欢，能解决问题，能赚钱。他不懂底层实现，但结果是实实在在的。你说他不行，依据是什么？就像你说一个用 Google Maps 的 Uber 司机不如一个背了四年街道的 black cab 司机。但乘客到了，花的钱更少，等的时间更短。

这是我真正卡住的地方，认知科学告诉我过程重要，但现实不断在展示结果就够了。

Peter Steinberger 做了二十年 iOS 开发，创办过 PSPDFKit，退休后回来用 AI 做了 OpenClaw，GitHub 上 27 万星。他用 AI 用得很猛。但你用 OpenClaw 的时候能感觉到，很多细节做得很舒服。这种 taste 不是 AI 能生成的。AI 帮他跑得更快，但方向盘一直在他手里。

Django 的作者 Simon Willison、Google 的工程总监 Addy Osmani，也在大量用 AI 写代码。但他们的共同点是：关掉 AI，照样能判断代码好不好。

但能不能判断好坏，才是真正拉开差距的地方。

AI 给你五个方案，你选哪个？它生成了一段逻辑，你怎么知道有没有漏洞？当你自己没有建立过判断框架，你只能选「看起来最专业的那个」。但「看起来专业」恰恰是 AI 最擅长制造的东西。

你的产出完全依赖一个你无法评估的黑箱。

今天它给的结果碰巧是对的，你觉得自己很厉害。明天它错了，你不会知道。

2009 年法航 447 航班在大西洋上空遭遇空速传感器结冰，自动驾驶断开。两名副驾驶需要手动接管，但他们几乎没有高空手动飞行的经验。失速警报响了 54 秒，他们始终没有做出正确的恢复动作。4 分 20 秒后，飞机坠入大西洋，228 人遇难。

同一年，萨利机长的飞机在起飞后撞上鸟群，双引擎全部失效。从撞鸟到迫降哈德逊河，一共 208 秒。他后来说：「42 年来我一直在往经验银行里存小额存款。1 月 15 日那天，余额刚好够我做一次大额提取。」NTSB 做了模拟测试，发现即便让飞行员提前知道会撞鸟、立刻掉头，加上 35 秒的判断延迟后，每一次模拟返航都坠毁了。萨利的判断不只是「一个好决定」，是唯一活路。

同样的故事发生在 2018 年。四川航空 8633 航班，风挡玻璃在万米高空爆裂脱落。驾驶舱瞬间失压，温度降到零下 40 度，风速接近飓风，副驾驶被吸出窗外一半。自动驾驶失效，仪表板损毁。机长刘传健靠手动操控，在几乎看不见仪表的情况下把飞机飞回了成都。128 人全部生还。

三个案例，同一个规律：自动化越强，手动接管的机会越少。但一旦需要接管，能不能活下来，完全取决于之前积累了多少。

但我还是没想通那个更大的问题。

这些人已经花了十几二十年建立底层能力，今天能把 AI 当杠杆用，前提是判断力早就在了。可对正在学的人来说，路径可能完全不同。也许未来真正值钱的不是写代码，而是知道该写什么、判断写得对不对。但「知道该写什么」能不能跳过「自己写过」直接到达？

Bjork 的研究说不能。深度加工需要你亲手跟问题较劲，这个过程没法外包。但他的结论来自 AI 之前的世界。

当 AI 不只是帮你做事，而是帮你筛选信息、构建观点的时候，你怎么确定那些「你的想法」真的是你的？你读的摘要是 AI 挑的，你做的决定是在 AI 框定的选项里选的。每一步看起来都是你在选。但选项空间是别人划的。

Jobs 说过，“People don’t know what they want until you show it to them.” 心理学家 Slovic 的研究更进一步：偏好不是提前存在等你去发现的，是在你做选择的那一刻被建构出来的。问法不同，答案就不同。如果连「我想要什么」都是被框架塑造的，那当 AI 成为你最主要的框架提供者，你的选择还在多大程度上是你的？

也许三年后回看，今天的焦虑全是多余的。也许 AI 真的会重新定义什么叫「能力」，就像计算器重新定义了什么叫「会算数」，过程真的不重要了，只要结果够好。

但在还看不清的时候，我觉得至少有一件事值得做：搞清楚哪些东西是自己真懂的，哪些是借来的。

参考

Karpathy, A. (2025). 原推
Bastani, H. et al. (2025). “Generative AI Can Harm Learning.” PNAS.
METR (2025). AI experienced OS dev study
Bjork, R.A. & Bjork, E.L. “A New Theory of Disuse and an Old Theory of Stimulus Fluctuation.”
Willison, S. (2025). Not all AI-assisted programming is vibe coding
Osmani, A. (2025). Vibe Coding is Not an Excuse
Steinberger, P. OpenClaw
BEA (2012). Air France Flight 447 Final Report
NTSB (2010). US Airways Flight 1549 Accident Report
Dahmani, L. & Bohbot, V.D. (2020). “Habitual use of GPS negatively impacts spatial memory.” Scientific Reports.
Slovic, P. (1995). “The Construction of Preference.” American Psychologist.