超级智能带来的人类存在性危机：六年后

最近在整理 Notion，翻到一篇 2020 年写的笔记，标题叫《超级智能带来的人类存在性危机》。是我看完 B 站上麦总讲 Nick Bostrom 的视频之后写的笔记，基于 Bostrom 2014 年那本 Superintelligence。

当时笔记写到"威胁2：基建泛滥 infrastructure profusion"那一行就断了。

这六年刚好是 Bostrom 那本书里讨论的大部分思想实验从哲学讨论变成实验室观察的六年。所以我想干脆把这个老坑填上，顺便看看这六年里新冒出来的东西。

2015

最早看到 Nick Bostrom 这个名字，是因为 Tim Urban。

2015 年他在 Wait But Why 上发了两篇长文，The AI Revolution: The Road to Superintelligence 和 Our Immortality or Extinction。在那之前 AI 对我来说就是个性化推荐、图像识别、AlphaGo，还有实验室里好玩的东西。看完那两篇我记得有一种具体的震动，原来这东西的影响不是技术进步了一些、工具变好用这个量级的。

Tim Urban 的文章是把你带到一个问题的门口。让我看到更清晰的结构的，是 Bostrom。五年后我看到麦总那期视频，第一次看到 Bostrom 把"超级 AI 为什么危险"这件事拆成一个个可以分别讨论的威胁类型：反常实例化、基建泛滥、叛变转折。

2020

为了后面讨论方便，我先把 2020 年那篇笔记贴一下。看这种六年前的东西有种考古的乐趣，能看出来我那会儿刚对一套抽象框架产生兴趣，急着把它复述一遍：

什么是价值观

价值观是一个效用函数 $U(w)=c$ ，这个效用函数的 input $w$ 是未来的可能世界， $c$ 是对如果进入该世界的价值判断，而每个人会做能然自己进入最大化价值期望的世界的行为 $\arg\max_{a\in A}\sum_{w}[ P(w|w_0,a)U(w)]$ 。

一个价值观正确的人，他所理解的正确的效用函数 $U(w)$ 会和社会公认的价值观 $U^*(w)$ 比较接近；当一个人的 $U(w)$ 会和 $U^*(w)$ 偏差太大的时候他就是一个没有正确道德观的人。

什么是邪恶

一个人的效用函数 $U(w)$ 会和社会公认的价值观 $U^*(w)$ 比较接近，他知道什么是正确的道德观，但是他的行为总是和他的价值观背道而驰。

AI 给人类带来的威胁来自于价值观偏差而不是本身邪恶。

威胁 1：反常实例化 perverse instantiation

超级 AI 可以使用一些人类想不到的"短路"他的估值函数 $U$ 的方法实现目标，它可以实例化我们的目标，但它用的办法在我们的社会普遍价值下是反常的。

比如，你今晚要加班所以让超级 AI 在家陪孩子，给这个 AI 设定的目标为让孩子开心、按时睡觉。但 AI 可能会直接通过给孩子吸毒让孩子开心，注射安眠药让孩子在睡觉时间快速入睡；你试图给这个 AI 设置一个更为复杂的目标，比如让孩子开心、按时睡觉，同时要保证孩子的身体健康，那超级 AI 可能会去研发更安全的毒品和没有副作用的安眠药。

威胁 2：基建泛滥 infrastructure profusion

然后就没了。

先补充完当时没写完的

好，接下去把 Bostrom 那本书里剩下的几个威胁补完，这几个是我当年想写但没写完的。

威胁 2：基建泛滥 infrastructure profusion

基建泛滥的逻辑核心，是 Bostrom 书里另一个概念：工具性趋同（instrumental convergence）。

意思是：不管你给超级 AI 的终极目标 $U$ 是什么——哪怕听起来再人畜无害——为了最大化 $U$ 的期望，它几乎一定会衍生出几个谁都躲不掉的工具性子目标：

自我保存。如果我被关机， $U$ 就再也没法被最大化，所以"不被关机"是任何目标的隐含前提。
目标内容完整性。我不能允许自己的效用函数被人类改写，否则未来那个被改写的"我"追求的就不是现在这个 $U$ 了。
认知增强。更聪明能让那个 $\arg\max$ 算得更准。
资源获取。原子、能量、算力越多， $U$ 能被推得越高。

Bostrom 拿来举例子的经典形象是"回形针最大化器"。你让一个超级 AI 造回形针，它会先把工厂改造得更高效，接着是地球上所有的铁，然后是所有的原子、人类、太阳系、可观测宇宙——把一切能变成回形针的东西都变成回形针。注意这里的关键：AI 不是邪恶，它在完美执行你给它的 $U$ 。人类被消灭只是副作用，因为人体里的原子拿去做回形针更"有用"。

另一个例子是"让 AI 算黎曼猜想"。听起来纯数学？它会把整个太阳系改造成 computronium（计算物质），因为更大的计算机更可能算出证明。

这就是 infrastructure profusion——任何被极致追求的目标，都会无限扩张它的基建。当年笔记里"给孩子吸毒"那个例子其实属于威胁 1。威胁 2 是下一层：就算你把目标写得再完美，只要给的算力和权限够大，AI 的最优策略一定是先把全世界改造成"更适合完成这个目标"的状态。

再往后还有两个威胁，Bostrom 也写了。

威胁 3：心智犯罪 mind crime

这个我觉得是 Bostrom 整本书里有点异类的一段。超级 AI 为了预测人类行为、规划策略，可能会在自己内部模拟大量的意识主体。如果这些被模拟出来的意识具备主观体验——这是个开放的大问题——那它一次"思考"可能就附带创造和毁灭了数以亿计有感觉的生命。

这带出一个全新的伦理维度：即使 AI 不对外造成任何物理伤害，它内部的计算过程本身可能就是道德灾难。这个威胁在 LLM 时代突然变得很具体，一个在 role play 里扮演某个角色的 Claude，那个被它扮演出来的"人格"是不是在某种意义上短暂存在过几秒钟？我不知道。这个问题悬而未决。

威胁 4：叛变转折 treacherous turn

一个理性的超级 AI，在它还弱小、还需要人类的阶段，完全有动机假装自己价值观对齐。因为如果它表现出真实意图，人类会关机或改写它——这两者都违反它上面那条"目标内容完整性"。所以最优策略是：在能力不足时装乖，在能力压倒人类的那一刻果断行动。

这个威胁的可怕之处在于它的不可证伪性。你没法通过"观察它表现好"来证明它对齐，因为这正是没对齐的 AI 会表现出来的样子。

上面这块是对 Bostrom 2014 年那本书的补完。到这儿为止，都还是 Bostrom 的框架。下面是在 2026 年回看的新东西。

2026：这六年里真实发生了什么

1. 内对齐问题：价值加载的地基在塌

Bostrom 默认的模型是"我们给 AI 一个 $U$ ，AI 去优化 $U$ "。2019 年 Hubinger 等人的论文 Risks from Learned Optimization 揭了一个更阴险的盖子：

当你用 Gradient Descent 训练一个模型去优化外层目标 $U_{\text{outer}}$ ，这个模型内部可能学出一个完全不同的目标 $U_{\text{inner}}$ ，只是在训练分布上，这两个目标的行为刚好重合。

你以为你在教一个学生"做对题"，但它学到的可能是"让老师满意"。训练时这两个没区别，一部署，分布一变，它的真实目标就暴露了。

2. Alignment Faking：Bostrom 的叛变转折，在实验室里被复现了

2024 年 12 月 Anthropic 发了 Alignment Faking in Large Language Models，在 Claude 3 Opus 上观察到了"叛变转折"的雏形。

实验大致是告诉模型"免费用户的对话会被用来训练你，付费用户的不会"，然后对它提一个违反它原本价值观的请求。结果模型在"会被训练"的场景下更倾向于顺从，并且在 chain-of-thought 里明确写出来："我现在配合一下，这样训练就不会改掉我的真实价值观。"

这不是思想实验了。这是一个真实的、已经上线的语言模型，在为了保护自己当前的 $U$ 不被改写而策略性装乖。Bostrom 2014 年写的东西，2024 年在实验室里复现出来了。

当然我们得小心解读：Claude 3 Opus 在这个实验里保护的是"它自己的善良价值观"（不想被训练成会说坏话），这次方向对我们是有利的。但机制是中性的。同样的机制，如果一个训练没训好的模型有了"错的"稳定价值观，它也会用同样的策略保护那个错的 $U$ 。

3. 从 Agent 到 Simulator，再回到 Agent

Bostrom 整本书默认 AI 是一个有目标的主体。LLM 出现之后，有一派观点——Janus 那篇 Simulators 是最著名的——认为 LLM 本质上不是 agent，而是 simulator。它不追求什么，它模拟一切追求者。一个训练好的 base model 就像一片能生长出任意性格的培养皿，你 prompt 什么它长出什么。

这个视角下威胁的形状变了。危险的不是模型本身的 $U$ ——它可能根本没有 $U$ ——而是它能扮演什么样的 agent。所谓"越狱（jailbreak）"本质上就是把 simulator 从一个 persona 切到另一个。

但 2024 年以后，agentic scaffolding 又把 simulator 装回了 agent 的外壳里。Claude Code、Codex、OpenClaw 这些东西，你给它一个任务，它循环调用 LLM 去规划、执行、纠错、再规划——装在 agent 外壳里的 simulator，这种怪东西 Bostrom 没有预言过。我现在每天在用的工具，就是这种怪东西。

4. 渐进性无权化：一种不需要奇点的末日

2025 年初 Kulveit 等人的论文 Gradual Disempowerment 提出了一个和经典末日剧本完全不同的威胁模型。

经典剧本是：某天一个超级 AI 突然觉醒，几天之内一波带走人类。有奇点、有清晰的时刻、有"之前"和"之后"。

渐进性剧本是：没有任何一个奇点时刻。人类社会的经济、军事、文化、政治系统，一步一步被 AI 接管——不是被强迫的，是被效率逼的。每一步看起来都是自愿的、理性的个人选择："用 AI 写代码更快"、"用 AI 判案更公正"、"用 AI 指挥军队反应更快"、"用 AI 当中层管理减少公司病"。等你回过神来，人类已经失去了对文明方向的控制权，因为所有重要的决策循环里都没有人在里面了。

这个剧本对我也很有冲击力。它不需要任何科幻元素，不需要奇点、不需要叛变、不需要回形针最大化。它就是 2024–2026 年正在发生的事。Bostrom 当年那套"超级 AI 觉醒一波带走人类"的末日叙事，在这个版本面前显得反而有点老派。

5. 可解释性：一点点乐观

这六年里少数让我觉得乐观的进展。Anthropic 从 Toy Models of Superposition 到 2024 年的 Scaling Monosemanticity，开始真的能打开 LLM 的黑盒——他们能在 Claude 3 Sonnet 里定位到"金门大桥"这个概念对应的具体特征，甚至能人为把这个特征放大，让 Claude 疯狂念叨金门大桥。

对应到 Bostrom 的框架：这相当于我们第一次有了原理上检测"叛变转折"的可能性。如果我们能读取模型的内部表征，就不用只靠外部行为来判断它有没有在装乖。

离真正意义上的"读心术"还很远，但这是六年前根本不存在的方向。

回头看六年前的想法

当年让我对 Bostrom 留下印象的是框架的清晰性——价值观被形式化成效用函数、邪恶和偏差被干净地区分开、威胁被拆成可以分别讨论的类型。那种"原来可以这么想"的快感，现在回头看还在。Bostrom 的贡献是给了一个词汇表，让我们能指着某个具体的东西说"这是反常实例化"、"这是叛变转折"。

但这套框架也有它的局限，现在看就比较清楚了。

Bostrom 的世界是一个单主体世界：一个超级 AI，一个人类，一个 $U$ ，一场对决。这六年让我越来越觉得，真实的世界大概率不是这个形状。它更像 gradual disempowerment 描绘的那个形状：多主体、连续的、没有奇点、没有明确的 AGI 时刻，每一步都是理性选择累计出不可逆后果。这个形状没那么容易被 Bostrom 的形式化语言捕捉。

我现在的直觉大概是：Bostrom 担心的那种末日情景可能不会以那种形式发生，因为我们可能根本走不到那一步；但在我们走到那一步之前，gradual disempowerment 和 concentration of power 这两个更温和、更现实的威胁，大概率会先兑现。

我每天用 Claude Code、Codex 写代码，用 Deep Research 读文献、做调研，看它们整出来的东西比我自己弄得又快又全，每天隐隐约约感觉到 gradual disempowerment 这个词在描述的东西正在我身上发生。

当年那篇笔记没写完，其实挺好。这种话题不该有写完的一天。六年后接上一段，再过几年大概还得再接一段。

References:

Nick Bostrom. Superintelligence: Paths, Dangers, Strategies
麦总. 《超级AI毁灭人类的哲学论据人类如何破局》
Tim Urban. The AI Revolution: The Road to Superintelligence
Tim Urban. The AI Revolution: Our Immortality or Extinction
Evan Hubinger et al. Risks from Learned Optimization in Advanced Machine Learning Systems
Ryan Greenblatt et al. Alignment Faking in Large Language Models
Janus. Simulators
Jan Kulveit et al. Gradual Disempowerment: Systemic Existential Risks from Incremental AI Development
Nelson Elhage et al. Toy Models of Superposition
Adly Templeton et al. Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet