AI侦察兵的年度观察:2025年终回顾与2026年关键预测
概述
本播客由谷歌AI工作室赞助,主持人阿马尔(谷歌DeepMind产品设计负责人)与多位AI领域专家进行了一系列快速对话,探讨了AI发展的现状、挑战与未来。核心议题包括:AI是否仍是“普通技术”、对齐问题的进展、关键参与者格局、以及智能本质的测量。节目采用创新的“直播马拉松”形式,在短时间内浓缩了多位前沿思考者的核心见解。
核心讨论与嘉宾观点
1. 认知鸿沟:为什么人们对AI的看法如此分裂?
嘉宾:兹维·莫霍维茨(Zvi Mowshowitz),知名AI分析师与博主
- 现象:AI讨论呈现两极分化。一方认为我们可能处于“人类世”的终结开端;另一方则坚持“AGI不可能”的否认论调。
- 根源分析:
- 利益驱动:“当一个人的薪水取决于他不理解某件事时,你很难让他理解它。”许多人的商业计划、认知安宁需要他们相信AI只是普通技术,并希望其“消失”。
- 重复错误:AI安全辩论中,早在2006年就已出现的初级错误和论点被不断重复,反映出部分讨论者并未深入钻研。
- 认知滞后:大多数人的默认认知停留在AI“目前能做什么”,而远低于它“实际已能做什么”,更无法预见在工具链完善后“将能做什么”。
- 关键引述:“错误信息是需求驱动的,而非供给驱动的。”
2. 阈值之问:AI何时不再是“普通技术”?
兹维提出了三个关键阈值,任一被突破都意味着技术性质的根本改变:
- 递归自我改进:AI在推进AI研究方面取得实质性进展,导致技术进步曲线(S曲线)的斜率发生根本改变,而不仅仅是靠资源堆叠。
- 大规模岗位替代:AI造成的失业不再是“一次性冲击”,而是增强(Augmentation)持续加速并转化为自动化(Automation),新岗位的产生速度赶不上被替代的速度。
- 个人能力提升:AI成为强大的个人赋能工具,使个体生产力发生数量级跃升(例如,让业余程序员的编码能力提升10-100倍)。
兹维的现状判断:“我们目前基本上已经到了(阈值)。”他以QuadCore + Opus 4.5为例,指出对于顶级AI人才,编码效率乘数已达2-3倍;对于普通人,则可能是10-100倍,实现了从“不能”到“能”的跨越。
3. 对齐竞赛:希望与危险并存
兹维评估了三大核心实验室在对齐(Alignment)方面的表现:
- OpenAI:试图成为面向消费者的公司,同时为超级智能筹资,但内部文化方向存在不确定性。
- Anthropic:直接瞄准编码和人工超级智能(ASI),近期表现亮眼(如在Arena排行榜领先),其Opus 4.5模型展示了对齐方面的显著进步。
- 谷歌DeepMind:拥有压倒性资源和优势,但内部目标不一,略显混乱。其Gemini 3模型被认为存在严重的错位风险。
关键动态:Gemini 3 增加了兹维的“末日概率”,而 Opus 4.5 则降低了该概率。Anthropic的研究表明,对齐可能存在“可瞄准的盆地”,且做出更好、更对齐的模型在商业上也可能更成功,这为“向上竞赛”带来了希望。
4. 末日概率与宏观局势
- 总体判断:兹维的总体“末日概率”评估仍在 60%-70% 的高位,主要风险路径是通过“认知性权力丧失”类型的场景。
- 政策环境:目前处于“防守模式”。白宫内部存在有效反对力量(如大卫·萨克斯),但各州层面(如SB-53和RAISE法案)有积极进展。
- 根本挑战:“一切都在试图杀死你……我们必须导航许多不可能难度级别的问题。”这包括在中短期内对齐模型,解决权力丧失问题,以及应对其他复杂担忧。
5. 智能的测量:ARC AGI奖的视角
嘉宾:格雷格(Greg),ARC AGI奖负责人
- 智能定义:智能是学习新事物的能力,核心在于样本效率——人类只需2-3个例子就能学会新事物,而当前AI仍需大量数据。
- 惊人进展:ARC AGI基准测试显示,一年内(2024.12 - 2025.12),达到同等高性能(约87-90%)的成本效率提升了390倍。这得益于模型改进和服务优化。
- 小模型的启示:如“分层推理模型”(HRM)和“微型递归模型”(TRM)等小型、新颖的方法,在ARC挑战上表现出色,提供了不同于大语言模型(LLM)的智能实现路径。它们是未来技术融合的“种子”。
- 脚手架之争:智能存在于模型本身,还是其使用的工具链(脚手架)中?格雷格认为,未来的AGI很可能包含脚手架,正如人脑由不同专门区域协同工作一样。不应轻视脚手架的作用。
- 未来基准:ARC AGI-3:
- 形式:转向基于视频游戏环境的动态基准,模拟真实世界的交互与泛化。
- 标准:不仅要求通关游戏,更要求解决效率(所用动作数)达到或超越人类首次尝试的水平。
- 意义:击败ARC AGI-3的系统,将展示迄今为止最权威的泛化能力证据。
6. 持续学习:被高估了还是关键所在?
针对AI是否需要“持续学习”能力以融入具体工作环境的问题,兹维提出了一个务实的观点:
- 当前解决方案:在现有模型(如Opus 4.5)水平上,通过巧妙的提示工程和工具构建,可以有效模拟持续学习的效果。例如,让AI根据对话历史构建一个包含特定知识和流程的应用程序,之后即可随时调用。
- 未来展望:这更多是一个“技能问题”而非根本障碍。他预测,下一代模型(如Claude 5, GPT-6)将使这类任务变得相当容易。
关键要点与行动启示
- 缩短认知周期:在信息爆炸的时代,主动压缩时间线,提高信息获取密度,是保持前沿认知的关键。采用“快速对话”模式吸收多元观点值得借鉴。
- 关注三个阈值:判断AI进化阶段,应密切关注递归自我改进、不可逆的大规模岗位替代和个人生产力数量级提升是否发生。
- 对齐是动态竞赛:AI安全并非静态目标。关注核心实验室(OpenAI、Anthropic、谷歌DeepMind)在对齐技术上的竞争与进展,特别是那些既能提升能力又能改善对齐的“向上竞赛”信号。
- 智能重在泛化与学习效率:评估AI能力,不应只看其在狭窄任务上的超人表现,更要看其在新环境、新任务中,以多高的样本效率实现快速学习与适应。ARC类基准提供了重要视角。
- 实践赋能已至:无论宏观争论如何,AI作为个人赋能工具的时代已经到来。普通人应积极学习使用现有AI工具(如Claude Code, GPT等)解决实际问题,体验生产力提升。
- 参与塑造未来:对于深度关切AI风险与发展的人,可以考虑参与像 MATS(AI对齐研究项目) 这样的实践性项目,从研究层面贡献力量。
结语:我们正处在一个技术加速、认知分化的关键过渡期。保持侦察兵般的敏锐,区分信号与噪声,在拥抱赋能的同时审慎思考长远影响,是每个身处这个时代的人的必修课。
This year-end live show features nine rapid-fire conversations to make sense of AI’s 2025 and what might define 2026.
PSA for AI builders: Interested in alignment, governance, or AI safety?
Learn more about the MATS Summer 2026 Fellowship and submit your name to be notified when applications open: Zvi Moshowitz maps the OpenAI–Anthropic–Google race, the denialism gap, and why his PDoom is still ~60–70%.
Greg (ARC-AGI Prize), Eugenia Kuyda, Ali Behrouz, Logan Kirkpatrick, and Jungwon Hwang cover sample-efficient benchmarks and ARC-AGI 3, companions and human-flourishing metrics, continual-learning memory, Gemini 3 Flash for developers, and AI for scientific decisions.