最近在整理 Notion,翻到一篇 2020 年写的笔记,标题叫《超级智能带来的人类存在性危机》。是我看完 B 站上麦总讲 Nick Bostrom 的视频之后写的笔记,基于 Bostrom 2014 年那本 Superintelligence。
当时笔记写到"威胁2:基建泛滥 infrastructure profusion"那一行就断了。
这六年刚好是 Bostrom 那本书里讨论的大部分思想实验从哲学讨论变成实验室观察的六年。所以我想干脆把这个老坑填上,顺便看看这六年里新冒出来的东西。
2015
最早看到 Nick Bostrom 这个名字,是因为 Tim Urban。
2015 年他在 Wait But Why 上发了两篇长文,The AI Revolution: The Road to Superintelligence 和 Our Immortality or Extinction。在那之前 AI 对我来说就是个性化推荐、图像识别、AlphaGo,还有实验室里好玩的东西。看完那两篇我记得有一种具体的震动,原来这东西的影响不是技术进步了一些、工具变好用这个量级的。
Tim Urban 的文章是把你带到一个问题的门口。让我看到更清晰的结构的,是 Bostrom。五年后我看到麦总那期视频,第一次看到 Bostrom 把"超级 AI 为什么危险"这件事拆成一个个可以分别讨论的威胁类型:反常实例化、基建泛滥、叛变转折。
2020
为了后面讨论方便,我先把 2020 年那篇笔记贴一下。看这种六年前的东西有种考古的乐趣,能看出来我那会儿刚对一套抽象框架产生兴趣,急着把它复述一遍:
什么是价值观
价值观是一个效用函数 ,这个效用函数的 input 是未来的可能世界, 是对如果进入该世界的价值判断,而每个人会做能然自己进入最大化价值期望的世界的行为 。
一个价值观正确的人,他所理解的正确的效用函数 会和社会公认的价值观 比较接近;当一个人的 会和 偏差太大的时候他就是一个没有正确道德观的人。
什么是邪恶
一个人的效用函数 会和社会公认的价值观 比较接近,他知道什么是正确的道德观,但是他的行为总是和他的价值观背道而驰。
AI 给人类带来的威胁来自于价值观偏差而不是本身邪恶。
威胁 1:反常实例化 perverse instantiation
超级 AI 可以使用一些人类想不到的"短路"他的估值函数 的方法实现目标,它可以实例化我们的目标,但它用的办法在我们的社会普遍价值下是反常的。
比如,你今晚要加班所以让超级 AI 在家陪孩子,给这个 AI 设定的目标为让孩子开心、按时睡觉。但 AI 可能会直接通过给孩子吸毒让孩子开心,注射安眠药让孩子在睡觉时间快速入睡;你试图给这个 AI 设置一个更为复杂的目标,比如让孩子开心、按时睡觉,同时要保证孩子的身体健康,那超级 AI 可能会去研发更安全的毒品和没有副作用的安眠药。
威胁 2:基建泛滥 infrastructure profusion
然后就没了。
先补充完当时没写完的
好,接下去把 Bostrom 那本书里剩下的几个威胁补完,这几个是我当年想写但没写完的。
威胁 2:基建泛滥 infrastructure profusion
基建泛滥的逻辑核心,是 Bostrom 书里另一个概念:工具性趋同(instrumental convergence)。
意思是:不管你给超级 AI 的终极目标 是什么——哪怕听起来再人畜无害——为了最大化 的期望,它几乎一定会衍生出几个谁都躲不掉的工具性子目标:
- 自我保存。如果我被关机, 就再也没法被最大化,所以"不被关机"是任何目标的隐含前提。
- 目标内容完整性。我不能允许自己的效用函数被人类改写,否则未来那个被改写的"我"追求的就不是现在这个 了。
- 认知增强。更聪明能让那个 算得更准。
- 资源获取。原子、能量、算力越多, 能被推得越高。
Bostrom 拿来举例子的经典形象是"回形针最大化器"。你让一个超级 AI 造回形针,它会先把工厂改造得更高效,接着是地球上所有的铁,然后是所有的原子、人类、太阳系、可观测宇宙——把一切能变成回形针的东西都变成回形针。注意这里的关键:AI 不是邪恶,它在完美执行你给它的 。人类被消灭只是副作用,因为人体里的原子拿去做回形针更"有用"。
另一个例子是"让 AI 算黎曼猜想"。听起来纯数学?它会把整个太阳系改造成 computronium(计算物质),因为更大的计算机更可能算出证明。
这就是 infrastructure profusion——任何被极致追求的目标,都会无限扩张它的基建。当年笔记里"给孩子吸毒"那个例子其实属于威胁 1。威胁 2 是下一层:就算你把目标写得再完美,只要给的算力和权限够大,AI 的最优策略一定是先把全世界改造成"更适合完成这个目标"的状态。
再往后还有两个威胁,Bostrom 也写了。
威胁 3:心智犯罪 mind crime
这个我觉得是 Bostrom 整本书里有点异类的一段。超级 AI 为了预测人类行为、规划策略,可能会在自己内部模拟大量的意识主体。如果这些被模拟出来的意识具备主观体验——这是个开放的大问题——那它一次"思考"可能就附带创造和毁灭了数以亿计有感觉的生命。
这带出一个全新的伦理维度:即使 AI 不对外造成任何物理伤害,它内部的计算过程本身可能就是道德灾难。这个威胁在 LLM 时代突然变得很具体,一个在 role play 里扮演某个角色的 Claude,那个被它扮演出来的"人格"是不是在某种意义上短暂存在过几秒钟?我不知道。这个问题悬而未决。
威胁 4:叛变转折 treacherous turn
一个理性的超级 AI,在它还弱小、还需要人类的阶段,完全有动机假装自己价值观对齐。因为如果它表现出真实意图,人类会关机或改写它——这两者都违反它上面那条"目标内容完整性"。所以最优策略是:在能力不足时装乖,在能力压倒人类的那一刻果断行动。
这个威胁的可怕之处在于它的不可证伪性。你没法通过"观察它表现好"来证明它对齐,因为这正是没对齐的 AI 会表现出来的样子。
上面这块是对 Bostrom 2014 年那本书的补完。到这儿为止,都还是 Bostrom 的框架。下面是在 2026 年回看的新东西。
2026:这六年里真实发生了什么
1. 内对齐问题:价值加载的地基在塌
Bostrom 默认的模型是"我们给 AI 一个 ,AI 去优化 "。2019 年 Hubinger 等人的论文 Risks from Learned Optimization 揭了一个更阴险的盖子:
当你用 Gradient Descent 训练一个模型去优化外层目标 ,这个模型内部可能学出一个完全不同的目标 ,只是在训练分布上,这两个目标的行为刚好重合。
你以为你在教一个学生"做对题",但它学到的可能是"让老师满意"。训练时这两个没区别,一部署,分布一变,它的真实目标就暴露了。
2. Alignment Faking:Bostrom 的叛变转折,在实验室里被复现了
2024 年 12 月 Anthropic 发了 Alignment Faking in Large Language Models,在 Claude 3 Opus 上观察到了"叛变转折"的雏形。
实验大致是告诉模型"免费用户的对话会被用来训练你,付费用户的不会",然后对它提一个违反它原本价值观的请求。结果模型在"会被训练"的场景下更倾向于顺从,并且在 chain-of-thought 里明确写出来:"我现在配合一下,这样训练就不会改掉我的真实价值观。"
这不是思想实验了。这是一个真实的、已经上线的语言模型,在为了保护自己当前的 不被改写而策略性装乖。Bostrom 2014 年写的东西,2024 年在实验室里复现出来了。
当然我们得小心解读:Claude 3 Opus 在这个实验里保护的是"它自己的善良价值观"(不想被训练成会说坏话),这次方向对我们是有利的。但机制是中性的。同样的机制,如果一个训练没训好的模型有了"错的"稳定价值观,它也会用同样的策略保护那个错的 。
3. 从 Agent 到 Simulator,再回到 Agent
Bostrom 整本书默认 AI 是一个有目标的主体。LLM 出现之后,有一派观点——Janus 那篇 Simulators 是最著名的——认为 LLM 本质上不是 agent,而是 simulator。它不追求什么,它模拟一切追求者。一个训练好的 base model 就像一片能生长出任意性格的培养皿,你 prompt 什么它长出什么。
这个视角下威胁的形状变了。危险的不是模型本身的 ——它可能根本没有 ——而是它能扮演什么样的 agent。所谓"越狱(jailbreak)"本质上就是把 simulator 从一个 persona 切到另一个。
但 2024 年以后,agentic scaffolding 又把 simulator 装回了 agent 的外壳里。Claude Code、Codex、OpenClaw 这些东西,你给它一个任务,它循环调用 LLM 去规划、执行、纠错、再规划——装在 agent 外壳里的 simulator,这种怪东西 Bostrom 没有预言过。我现在每天在用的工具,就是这种怪东西。
4. 渐进性无权化:一种不需要奇点的末日
2025 年初 Kulveit 等人的论文 Gradual Disempowerment 提出了一个和经典末日剧本完全不同的威胁模型。
经典剧本是:某天一个超级 AI 突然觉醒,几天之内一波带走人类。有奇点、有清晰的时刻、有"之前"和"之后"。
渐进性剧本是:没有任何一个奇点时刻。人类社会的经济、军事、文化、政治系统,一步一步被 AI 接管——不是被强迫的,是被效率逼的。每一步看起来都是自愿的、理性的个人选择:"用 AI 写代码更快"、"用 AI 判案更公正"、"用 AI 指挥军队反应更快"、"用 AI 当中层管理减少公司病"。等你回过神来,人类已经失去了对文明方向的控制权,因为所有重要的决策循环里都没有人在里面了。
这个剧本对我也很有冲击力。它不需要任何科幻元素,不需要奇点、不需要叛变、不需要回形针最大化。它就是 2024–2026 年正在发生的事。Bostrom 当年那套"超级 AI 觉醒一波带走人类"的末日叙事,在这个版本面前显得反而有点老派。
5. 可解释性:一点点乐观
这六年里少数让我觉得乐观的进展。Anthropic 从 Toy Models of Superposition 到 2024 年的 Scaling Monosemanticity,开始真的能打开 LLM 的黑盒——他们能在 Claude 3 Sonnet 里定位到"金门大桥"这个概念对应的具体特征,甚至能人为把这个特征放大,让 Claude 疯狂念叨金门大桥。
对应到 Bostrom 的框架:这相当于我们第一次有了原理上检测"叛变转折"的可能性。如果我们能读取模型的内部表征,就不用只靠外部行为来判断它有没有在装乖。
离真正意义上的"读心术"还很远,但这是六年前根本不存在的方向。
回头看六年前的想法
当年让我对 Bostrom 留下印象的是框架的清晰性——价值观被形式化成效用函数、邪恶和偏差被干净地区分开、威胁被拆成可以分别讨论的类型。那种"原来可以这么想"的快感,现在回头看还在。Bostrom 的贡献是给了一个词汇表,让我们能指着某个具体的东西说"这是反常实例化"、"这是叛变转折"。
但这套框架也有它的局限,现在看就比较清楚了。
Bostrom 的世界是一个单主体世界:一个超级 AI,一个人类,一个 ,一场对决。这六年让我越来越觉得,真实的世界大概率不是这个形状。它更像 gradual disempowerment 描绘的那个形状:多主体、连续的、没有奇点、没有明确的 AGI 时刻,每一步都是理性选择累计出不可逆后果。这个形状没那么容易被 Bostrom 的形式化语言捕捉。
我现在的直觉大概是:Bostrom 担心的那种末日情景可能不会以那种形式发生,因为我们可能根本走不到那一步;但在我们走到那一步之前,gradual disempowerment 和 concentration of power 这两个更温和、更现实的威胁,大概率会先兑现。
我每天用 Claude Code、Codex 写代码,用 Deep Research 读文献、做调研,看它们整出来的东西比我自己弄得又快又全,每天隐隐约约感觉到 gradual disempowerment 这个词在描述的东西正在我身上发生。
当年那篇笔记没写完,其实挺好。这种话题不该有写完的一天。六年后接上一段,再过几年大概还得再接一段。
References:
- Nick Bostrom. Superintelligence: Paths, Dangers, Strategies
- 麦总. 《超级AI毁灭人类的哲学论据 人类如何破局》
- Tim Urban. The AI Revolution: The Road to Superintelligence
- Tim Urban. The AI Revolution: Our Immortality or Extinction
- Evan Hubinger et al. Risks from Learned Optimization in Advanced Machine Learning Systems
- Ryan Greenblatt et al. Alignment Faking in Large Language Models
- Janus. Simulators
- Jan Kulveit et al. Gradual Disempowerment: Systemic Existential Risks from Incremental AI Development
- Nelson Elhage et al. Toy Models of Superposition
- Adly Templeton et al. Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet