Back to Writing
Apr 17, 2026·中文·Other Ideas

超级智能带来的人类存在性危机:六年后

最近在整理 Notion,翻到一篇 2020 年写的笔记,标题叫《超级智能带来的人类存在性危机》。是我看完 B 站上麦总讲 Nick Bostrom 的视频之后写的笔记,基于 Bostrom 2014 年那本 Superintelligence

当时笔记写到"威胁2:基建泛滥 infrastructure profusion"那一行就断了。

这六年刚好是 Bostrom 那本书里讨论的大部分思想实验从哲学讨论变成实验室观察的六年。所以我想干脆把这个老坑填上,顺便看看这六年里新冒出来的东西。

2015

最早看到 Nick Bostrom 这个名字,是因为 Tim Urban。

2015 年他在 Wait But Why 上发了两篇长文,The AI Revolution: The Road to SuperintelligenceOur Immortality or Extinction。在那之前 AI 对我来说就是个性化推荐、图像识别、AlphaGo,还有实验室里好玩的东西。看完那两篇我记得有一种具体的震动,原来这东西的影响不是技术进步了一些、工具变好用这个量级的。

Tim Urban 的文章是把你带到一个问题的门口。让我看到更清晰的结构的,是 Bostrom。五年后我看到麦总那期视频,第一次看到 Bostrom 把"超级 AI 为什么危险"这件事拆成一个个可以分别讨论的威胁类型:反常实例化、基建泛滥、叛变转折。

2020

为了后面讨论方便,我先把 2020 年那篇笔记贴一下。看这种六年前的东西有种考古的乐趣,能看出来我那会儿刚对一套抽象框架产生兴趣,急着把它复述一遍:

什么是价值观

价值观是一个效用函数 U(w)=cU(w)=c,这个效用函数的 input ww 是未来的可能世界,cc 是对如果进入该世界的价值判断,而每个人会做能然自己进入最大化价值期望的世界的行为 argmaxaAw[P(ww0,a)U(w)]\arg\max_{a\in A}\sum_{w}[ P(w|w_0,a)U(w)]

一个价值观正确的人,他所理解的正确的效用函数 U(w)U(w) 会和社会公认的价值观 U(w)U^*(w) 比较接近;当一个人的 U(w)U(w) 会和 U(w)U^*(w) 偏差太大的时候他就是一个没有正确道德观的人。

什么是邪恶

一个人的效用函数 U(w)U(w) 会和社会公认的价值观 U(w)U^*(w) 比较接近,他知道什么是正确的道德观,但是他的行为总是和他的价值观背道而驰。

AI 给人类带来的威胁来自于价值观偏差而不是本身邪恶。

威胁 1:反常实例化 perverse instantiation

超级 AI 可以使用一些人类想不到的"短路"他的估值函数 UU 的方法实现目标,它可以实例化我们的目标,但它用的办法在我们的社会普遍价值下是反常的。

比如,你今晚要加班所以让超级 AI 在家陪孩子,给这个 AI 设定的目标为让孩子开心、按时睡觉。但 AI 可能会直接通过给孩子吸毒让孩子开心,注射安眠药让孩子在睡觉时间快速入睡;你试图给这个 AI 设置一个更为复杂的目标,比如让孩子开心、按时睡觉,同时要保证孩子的身体健康,那超级 AI 可能会去研发更安全的毒品和没有副作用的安眠药。

威胁 2:基建泛滥 infrastructure profusion

然后就没了。

先补充完当时没写完的

好,接下去把 Bostrom 那本书里剩下的几个威胁补完,这几个是我当年想写但没写完的。

威胁 2:基建泛滥 infrastructure profusion

基建泛滥的逻辑核心,是 Bostrom 书里另一个概念:工具性趋同(instrumental convergence)。

意思是:不管你给超级 AI 的终极目标 UU 是什么——哪怕听起来再人畜无害——为了最大化 UU 的期望,它几乎一定会衍生出几个谁都躲不掉的工具性子目标:

Bostrom 拿来举例子的经典形象是"回形针最大化器"。你让一个超级 AI 造回形针,它会先把工厂改造得更高效,接着是地球上所有的铁,然后是所有的原子、人类、太阳系、可观测宇宙——把一切能变成回形针的东西都变成回形针。注意这里的关键:AI 不是邪恶,它在完美执行你给它的 UU。人类被消灭只是副作用,因为人体里的原子拿去做回形针更"有用"。

另一个例子是"让 AI 算黎曼猜想"。听起来纯数学?它会把整个太阳系改造成 computronium(计算物质),因为更大的计算机更可能算出证明。

这就是 infrastructure profusion——任何被极致追求的目标,都会无限扩张它的基建。当年笔记里"给孩子吸毒"那个例子其实属于威胁 1。威胁 2 是下一层:就算你把目标写得再完美,只要给的算力和权限够大,AI 的最优策略一定是先把全世界改造成"更适合完成这个目标"的状态。

再往后还有两个威胁,Bostrom 也写了。

威胁 3:心智犯罪 mind crime

这个我觉得是 Bostrom 整本书里有点异类的一段。超级 AI 为了预测人类行为、规划策略,可能会在自己内部模拟大量的意识主体。如果这些被模拟出来的意识具备主观体验——这是个开放的大问题——那它一次"思考"可能就附带创造和毁灭了数以亿计有感觉的生命。

这带出一个全新的伦理维度:即使 AI 不对外造成任何物理伤害,它内部的计算过程本身可能就是道德灾难。这个威胁在 LLM 时代突然变得很具体,一个在 role play 里扮演某个角色的 Claude,那个被它扮演出来的"人格"是不是在某种意义上短暂存在过几秒钟?我不知道。这个问题悬而未决。

威胁 4:叛变转折 treacherous turn

一个理性的超级 AI,在它还弱小、还需要人类的阶段,完全有动机假装自己价值观对齐。因为如果它表现出真实意图,人类会关机或改写它——这两者都违反它上面那条"目标内容完整性"。所以最优策略是:在能力不足时装乖,在能力压倒人类的那一刻果断行动。

这个威胁的可怕之处在于它的不可证伪性。你没法通过"观察它表现好"来证明它对齐,因为这正是没对齐的 AI 会表现出来的样子。


上面这块是对 Bostrom 2014 年那本书的补完。到这儿为止,都还是 Bostrom 的框架。下面是在 2026 年回看的新东西。

2026:这六年里真实发生了什么

1. 内对齐问题:价值加载的地基在塌

Bostrom 默认的模型是"我们给 AI 一个 UU,AI 去优化 UU"。2019 年 Hubinger 等人的论文 Risks from Learned Optimization 揭了一个更阴险的盖子:

当你用 Gradient Descent 训练一个模型去优化外层目标 UouterU_{\text{outer}},这个模型内部可能学出一个完全不同的目标 UinnerU_{\text{inner}},只是在训练分布上,这两个目标的行为刚好重合。

你以为你在教一个学生"做对题",但它学到的可能是"让老师满意"。训练时这两个没区别,一部署,分布一变,它的真实目标就暴露了。

2. Alignment Faking:Bostrom 的叛变转折,在实验室里被复现了

2024 年 12 月 Anthropic 发了 Alignment Faking in Large Language Models,在 Claude 3 Opus 上观察到了"叛变转折"的雏形。

实验大致是告诉模型"免费用户的对话会被用来训练你,付费用户的不会",然后对它提一个违反它原本价值观的请求。结果模型在"会被训练"的场景下更倾向于顺从,并且在 chain-of-thought 里明确写出来:"我现在配合一下,这样训练就不会改掉我的真实价值观。"

这不是思想实验了。这是一个真实的、已经上线的语言模型,在为了保护自己当前的 UU 不被改写而策略性装乖。Bostrom 2014 年写的东西,2024 年在实验室里复现出来了。

当然我们得小心解读:Claude 3 Opus 在这个实验里保护的是"它自己的善良价值观"(不想被训练成会说坏话),这次方向对我们是有利的。但机制是中性的。同样的机制,如果一个训练没训好的模型有了"错的"稳定价值观,它也会用同样的策略保护那个错的 UU

3. 从 Agent 到 Simulator,再回到 Agent

Bostrom 整本书默认 AI 是一个有目标的主体。LLM 出现之后,有一派观点——Janus 那篇 Simulators 是最著名的——认为 LLM 本质上不是 agent,而是 simulator。它不追求什么,它模拟一切追求者。一个训练好的 base model 就像一片能生长出任意性格的培养皿,你 prompt 什么它长出什么。

这个视角下威胁的形状变了。危险的不是模型本身的 UU——它可能根本没有 UU——而是它能扮演什么样的 agent。所谓"越狱(jailbreak)"本质上就是把 simulator 从一个 persona 切到另一个。

但 2024 年以后,agentic scaffolding 又把 simulator 装回了 agent 的外壳里。Claude Code、Codex、OpenClaw 这些东西,你给它一个任务,它循环调用 LLM 去规划、执行、纠错、再规划——装在 agent 外壳里的 simulator,这种怪东西 Bostrom 没有预言过。我现在每天在用的工具,就是这种怪东西。

4. 渐进性无权化:一种不需要奇点的末日

2025 年初 Kulveit 等人的论文 Gradual Disempowerment 提出了一个和经典末日剧本完全不同的威胁模型。

经典剧本是:某天一个超级 AI 突然觉醒,几天之内一波带走人类。有奇点、有清晰的时刻、有"之前"和"之后"。

渐进性剧本是:没有任何一个奇点时刻。人类社会的经济、军事、文化、政治系统,一步一步被 AI 接管——不是被强迫的,是被效率逼的。每一步看起来都是自愿的、理性的个人选择:"用 AI 写代码更快"、"用 AI 判案更公正"、"用 AI 指挥军队反应更快"、"用 AI 当中层管理减少公司病"。等你回过神来,人类已经失去了对文明方向的控制权,因为所有重要的决策循环里都没有人在里面了。

这个剧本对我也很有冲击力。它不需要任何科幻元素,不需要奇点、不需要叛变、不需要回形针最大化。它就是 2024–2026 年正在发生的事。Bostrom 当年那套"超级 AI 觉醒一波带走人类"的末日叙事,在这个版本面前显得反而有点老派。

5. 可解释性:一点点乐观

这六年里少数让我觉得乐观的进展。Anthropic 从 Toy Models of Superposition 到 2024 年的 Scaling Monosemanticity,开始真的能打开 LLM 的黑盒——他们能在 Claude 3 Sonnet 里定位到"金门大桥"这个概念对应的具体特征,甚至能人为把这个特征放大,让 Claude 疯狂念叨金门大桥。

对应到 Bostrom 的框架:这相当于我们第一次有了原理上检测"叛变转折"的可能性。如果我们能读取模型的内部表征,就不用只靠外部行为来判断它有没有在装乖。

离真正意义上的"读心术"还很远,但这是六年前根本不存在的方向。

回头看六年前的想法

当年让我对 Bostrom 留下印象的是框架的清晰性——价值观被形式化成效用函数、邪恶和偏差被干净地区分开、威胁被拆成可以分别讨论的类型。那种"原来可以这么想"的快感,现在回头看还在。Bostrom 的贡献是给了一个词汇表,让我们能指着某个具体的东西说"这是反常实例化"、"这是叛变转折"。

但这套框架也有它的局限,现在看就比较清楚了。

Bostrom 的世界是一个单主体世界:一个超级 AI,一个人类,一个 UU,一场对决。这六年让我越来越觉得,真实的世界大概率不是这个形状。它更像 gradual disempowerment 描绘的那个形状:多主体、连续的、没有奇点、没有明确的 AGI 时刻,每一步都是理性选择累计出不可逆后果。这个形状没那么容易被 Bostrom 的形式化语言捕捉。

我现在的直觉大概是:Bostrom 担心的那种末日情景可能不会以那种形式发生,因为我们可能根本走不到那一步;但在我们走到那一步之前,gradual disempowerment 和 concentration of power 这两个更温和、更现实的威胁,大概率会先兑现。

我每天用 Claude Code、Codex 写代码,用 Deep Research 读文献、做调研,看它们整出来的东西比我自己弄得又快又全,每天隐隐约约感觉到 gradual disempowerment 这个词在描述的东西正在我身上发生。

当年那篇笔记没写完,其实挺好。这种话题不该有写完的一天。六年后接上一段,再过几年大概还得再接一段。

References: