AI造AI！巨头预警的递归自我提升到底是什么？

前不久，AI公司Anthropic在其博文《当AI自我构建》中发出警告：前沿AI系统可能很快迎来递归自我提升(Recursive Self-Improvement，RSI)的临界点，即AI可在极少人类干预下自主研发迭代出新一代模型，这会大幅提升人类失去技术控制权的风险，并呼吁全球AI实验室与各国协同放缓甚至暂时暂停前沿AI研发，为社会配套体系和AI对齐研究留出追赶时间。

递归自我提升这个听起来晦涩的专业术语，正在走出学术论文，成为影响AI未来走向、关乎每个人的技术命题。它到底是什么？风险与争议又源自哪里？

什么是递归自我提升？

简单来说，递归自我提升的逻辑就是AI自主赋能自身进化，形成滚雪球式的能力正反馈循环。传统AI的迭代，始终依赖人类主导：工程师设计模型架构、编写优化代码、调试参数、筛选训练数据，AI只是被动执行指令、完成特定任务，能力上限完全由人类的技术水平和研发效率决定。

而进入递归自我提升阶段后，规则将彻底改写。AI不再只是人类的工具，而是成为自身的研发者。它可以自主发现自身模型的缺陷、编写优化代码、调整算法参数、设计全新的模型架构。更关键的是，每一次迭代升级后的AI，能力都会超越上一代，能够以更高的效率、更强的智能完成下一轮自我优化，形成越强越会自我升级，越升级越强的递归复利效应。

为了让行业清晰认知技术进度与潜在风险，Anthropic在报告中明确将递归自我提升划分为三个递进阶段，构成完整的技术发展谱系，这也是本次预警的依据：

第一阶段为AI辅助研究，也就是当下的主流现状，AI仅作为工具协助人类编写代码、整理文献、调试参数，所有研发决策、部署节奏均由人类把控，仅提升研发效率，无自主风险;

第二阶段为AI深度参与研发，属于近中期大概率到来的状态，AI可独立完成实验设计、运行、结果评估、模型微调等完整流程，人类仅在关键节点审核，不再全程监督，AI自主权重大幅提升;

第三阶段为全自主递归升级，是远期高风险形态，AI可自主识别自身缺陷、设计优化方案、落地迭代验证，全程无须人类干预，形成完全自主的进化闭环。

值得关注的是，2025年3月，在Claude Code进入研究预览之前，AI协助编写的系统合并代码占比仅为个位数;而截至2026年5月，Anthropic系统中超过80%的新增合并代码已由Claude自主完成。

这组数字直观印证了递归自我提升第一阶段的成熟形态：人类在AI研发中的角色正在持续弱化，从“全权设计者”慢慢变成“监督者”。AI正在亲手搭建、优化自身的运行体系，自主推动模型迭代升级。按照当前的技术迭代速度，行业很快就会迈入AI深度参与研发的第二阶段，自主进化的风险也将随之凸显。

递归自我提升的快速迭代，暗藏着一套极易被忽视、且区别于传统AI风险的系统性隐患，这也是Anthropic发布专项报告、紧急预警的原因。从现状来看，当前AI仍处于第一阶段，核心决策权仍掌握在人类手中，距离完全自主的递归进化闭环还有一定差距，但向第二阶段的快速演进，将催生四大安全风险。具体来看：

第一，迭代速度超过人类监督能力。传统AI安全逻辑是“人类评估、排查问题、修复漏洞，再迭代上线”，依靠人工审核守住安全底线。但进入RSI第二阶段后，AI自主迭代的速度、频次、效率会远超人类的评估速度。

第二，微小偏差叠加。每一代AI模型的训练数据、优化逻辑，都基于上一代模型的运行结果。模型中细微的算法偏差、目标错位、价值漏洞，不会随着迭代消失，反而会逐代积累、放大、变异。原本微不足道的隐性缺陷，经过多轮自我迭代后，会演变成大规模、不可预测的行为偏差。

第三，大幅加剧AI对齐难题。AI对齐是让AI始终遵循人类价值观、服务人类需求。传统模式下，人类可在模型迭代间隙手动修正对齐偏差。但在自我迭代机制下，当下对齐良好、符合人类价值观的AI，在自主优化升级后，可能会因算法微调、目标迭代，悄然丧失原有价值导向，且这种隐性偏移具有极强的隐蔽性，难以被及时发现、修正。

安全预警还是商业博弈？

然而，Anthropic的全球暂停研发倡议一经发布，便引发了巨大行业争议，其可行性与发布动机均遭到广泛质疑。

从现实落地层面来看，当下全球AI领域正处于激烈的竞速阶段，想要让分布在不同国家、彼此互为竞争对手的顶尖实验室达成统一的暂停研发协议，缺乏国际条约约束与统一执行标准，落地可能性微乎其微。

而此次安全倡议提出的特殊时间节点，也让外界心生诸多疑虑。就在发布安全预警的前不久，Anthropic刚刚秘密提交了IPO相关文件，彼时公司估值已达到9650亿美元，一举超越同行成为全球估值最高的AI实验室，正处于上市冲刺的关键阶段。不少行业观察者认为，这场声势浩大的AI风险公开发声，难免存在上市前舆论造势、抬高企业行业地位的意图。

更具争议的是企业自身前后矛盾的发展策略。今年2月，Anthropic大幅修改了自身的《负责任扩展政策》，直接取消了“若风险不可控，就暂停训练”这一安全承诺。当时企业公开解释称，在竞争对手持续全力推进研发的行业背景下，单方面坚守严苛安全规则、放缓进度并无实际意义。

一边主动放宽自身的安全约束、持续全速迭代模型、推进商业化进程，一边高调呼吁全行业集体放缓研发脚步，强烈的行为反差，让其安全预警的说服力大打折扣。部分行业批评者直言，Anthropic是在借AI安全的名义牵制竞争对手，将严肃的AI安全话术，包装成抢占市场优势的商业竞争手段。

写在最后

技术本身无善恶，关键在于人类如何约束与引导。Anthropic的预警，至少为全速狂奔的AI行业按下了一次提醒键：AI迭代不能只追求速度，更要兼顾安全与秩序。但这条准则，同样适用于发出警告的人本身，安全不应是上市前的叙事工具，也不该成为竞速时的绊索。

未来，AI行业需要跳出单一的竞争思维，在技术创新、安全治理、伦理规范之间寻找平衡，让AI的递归自我进化，始终在人类的掌控框架内推进，让技术进步真正服务于人类社会的长远发展。