AI侦察兵的年度观察：2025年终回顾与2026年关键预测

概述

本播客由谷歌AI工作室赞助，主持人阿马尔（谷歌DeepMind产品设计负责人）与多位AI领域专家进行了一系列快速对话，探讨了AI发展的现状、挑战与未来。核心议题包括：AI是否仍是“普通技术”、对齐问题的进展、关键参与者格局、以及智能本质的测量。节目采用创新的“直播马拉松”形式，在短时间内浓缩了多位前沿思考者的核心见解。

核心讨论与嘉宾观点

1. 认知鸿沟：为什么人们对AI的看法如此分裂？

嘉宾：兹维·莫霍维茨（Zvi Mowshowitz），知名AI分析师与博主

现象：AI讨论呈现两极分化。一方认为我们可能处于“人类世”的终结开端；另一方则坚持“AGI不可能”的否认论调。
根源分析：
- 利益驱动：“当一个人的薪水取决于他不理解某件事时，你很难让他理解它。”许多人的商业计划、认知安宁需要他们相信AI只是普通技术，并希望其“消失”。
- 重复错误：AI安全辩论中，早在2006年就已出现的初级错误和论点被不断重复，反映出部分讨论者并未深入钻研。
- 认知滞后：大多数人的默认认知停留在AI“目前能做什么”，而远低于它“实际已能做什么”，更无法预见在工具链完善后“将能做什么”。
关键引述：“错误信息是需求驱动的，而非供给驱动的。”

2. 阈值之问：AI何时不再是“普通技术”？

兹维提出了三个关键阈值，任一被突破都意味着技术性质的根本改变：

递归自我改进：AI在推进AI研究方面取得实质性进展，导致技术进步曲线（S曲线）的斜率发生根本改变，而不仅仅是靠资源堆叠。
大规模岗位替代：AI造成的失业不再是“一次性冲击”，而是增强（Augmentation）持续加速并转化为自动化（Automation），新岗位的产生速度赶不上被替代的速度。
个人能力提升：AI成为强大的个人赋能工具，使个体生产力发生数量级跃升（例如，让业余程序员的编码能力提升10-100倍）。

兹维的现状判断：“我们目前基本上已经到了（阈值）。”他以QuadCore + Opus 4.5为例，指出对于顶级AI人才，编码效率乘数已达2-3倍；对于普通人，则可能是10-100倍，实现了从“不能”到“能”的跨越。

3. 对齐竞赛：希望与危险并存

兹维评估了三大核心实验室在对齐（Alignment）方面的表现：

OpenAI：试图成为面向消费者的公司，同时为超级智能筹资，但内部文化方向存在不确定性。
Anthropic：直接瞄准编码和人工超级智能（ASI），近期表现亮眼（如在Arena排行榜领先），其Opus 4.5模型展示了对齐方面的显著进步。
谷歌DeepMind：拥有压倒性资源和优势，但内部目标不一，略显混乱。其Gemini 3模型被认为存在严重的错位风险。

关键动态：Gemini 3 增加了兹维的“末日概率”，而 Opus 4.5 则降低了该概率。Anthropic的研究表明，对齐可能存在“可瞄准的盆地”，且做出更好、更对齐的模型在商业上也可能更成功，这为“向上竞赛”带来了希望。

4. 末日概率与宏观局势

总体判断：兹维的总体“末日概率”评估仍在 60%-70% 的高位，主要风险路径是通过“认知性权力丧失”类型的场景。
政策环境：目前处于“防守模式”。白宫内部存在有效反对力量（如大卫·萨克斯），但各州层面（如SB-53和RAISE法案）有积极进展。
根本挑战：“一切都在试图杀死你……我们必须导航许多不可能难度级别的问题。”这包括在中短期内对齐模型，解决权力丧失问题，以及应对其他复杂担忧。

5. 智能的测量：ARC AGI奖的视角

嘉宾：格雷格（Greg），ARC AGI奖负责人

智能定义：智能是学习新事物的能力，核心在于样本效率——人类只需2-3个例子就能学会新事物，而当前AI仍需大量数据。
惊人进展：ARC AGI基准测试显示，一年内（2024.12 - 2025.12），达到同等高性能（约87-90%）的成本效率提升了390倍。这得益于模型改进和服务优化。
小模型的启示：如“分层推理模型”（HRM）和“微型递归模型”（TRM）等小型、新颖的方法，在ARC挑战上表现出色，提供了不同于大语言模型（LLM）的智能实现路径。它们是未来技术融合的“种子”。
脚手架之争：智能存在于模型本身，还是其使用的工具链（脚手架）中？格雷格认为，未来的AGI很可能包含脚手架，正如人脑由不同专门区域协同工作一样。不应轻视脚手架的作用。
未来基准：ARC AGI-3：
- 形式：转向基于视频游戏环境的动态基准，模拟真实世界的交互与泛化。
- 标准：不仅要求通关游戏，更要求解决效率（所用动作数）达到或超越人类首次尝试的水平。
- 意义：击败ARC AGI-3的系统，将展示迄今为止最权威的泛化能力证据。

6. 持续学习：被高估了还是关键所在？

针对AI是否需要“持续学习”能力以融入具体工作环境的问题，兹维提出了一个务实的观点：

当前解决方案：在现有模型（如Opus 4.5）水平上，通过巧妙的提示工程和工具构建，可以有效模拟持续学习的效果。例如，让AI根据对话历史构建一个包含特定知识和流程的应用程序，之后即可随时调用。
未来展望：这更多是一个“技能问题”而非根本障碍。他预测，下一代模型（如Claude 5, GPT-6）将使这类任务变得相当容易。

关键要点与行动启示

缩短认知周期：在信息爆炸的时代，主动压缩时间线，提高信息获取密度，是保持前沿认知的关键。采用“快速对话”模式吸收多元观点值得借鉴。
关注三个阈值：判断AI进化阶段，应密切关注递归自我改进、不可逆的大规模岗位替代和个人生产力数量级提升是否发生。
对齐是动态竞赛：AI安全并非静态目标。关注核心实验室（OpenAI、Anthropic、谷歌DeepMind）在对齐技术上的竞争与进展，特别是那些既能提升能力又能改善对齐的“向上竞赛”信号。
智能重在泛化与学习效率：评估AI能力，不应只看其在狭窄任务上的超人表现，更要看其在新环境、新任务中，以多高的样本效率实现快速学习与适应。ARC类基准提供了重要视角。
实践赋能已至：无论宏观争论如何，AI作为个人赋能工具的时代已经到来。普通人应积极学习使用现有AI工具（如Claude Code, GPT等）解决实际问题，体验生产力提升。
参与塑造未来：对于深度关切AI风险与发展的人，可以考虑参与像 MATS（AI对齐研究项目） 这样的实践性项目，从研究层面贡献力量。

结语：我们正处在一个技术加速、认知分化的关键过渡期。保持侦察兵般的敏锐，区分信号与噪声，在拥抱赋能的同时审慎思考长远影响，是每个身处这个时代的人的必修课。

This year-end live show features nine rapid-fire conversations to make sense of AI’s 2025 and what might define 2026.

PSA for AI builders: Interested in alignment, governance, or AI safety?

Learn more about the MATS Summer 2026 Fellowship and submit your name to be notified when applications open: Zvi Moshowitz maps the OpenAI–Anthropic–Google race, the denialism gap, and why his PDoom is still ~60–70%.

Greg (ARC-AGI Prize), Eugenia Kuyda, Ali Behrouz, Logan Kirkpatrick, and Jungwon Hwang cover sample-efficient benchmarks and ARC-AGI 3, companions and human-flourishing metrics, continual-learning memory, Gemini 3 Flash for developers, and AI for scientific decisions.

AI 2025 → 2026 Live Show | Part 1