AI 2025 → 2026 Live Show | Part 1

AI 2025 → 2026 Live Show | Part 1

"The Cognitive Revolution" | AI Builders, Researchers, and Live Player Analysis
about 2 months ago1h 55m

This year-end live show features nine rapid-fire conversations to make sense of AI’s 2025 and what might define 2026.

PSA for AI builders: Interested in alignment, governance, or AI safety?

Learn more about the MATS Summer 2026 Fellowship and submit your name to be notified when applications open: Zvi Moshowitz maps the OpenAI–Anthropic–Google race, the denialism gap, and why his PDoom is still ~60–70%.

Greg (ARC-AGI Prize), Eugenia Kuyda, Ali Behrouz, Logan Kirkpatrick, and Jungwon Hwang cover sample-efficient benchmarks and ARC-AGI 3, companions and human-flourishing metrics, continual-learning memory, Gemini 3 Flash for developers, and AI for scientific decisions.

Episode Content
Original Audio

AI侦察兵的年度观察:2025年终回顾与2026年关键预测

概述

本播客由谷歌AI工作室赞助,主持人阿马尔(谷歌DeepMind产品设计负责人)与多位AI领域专家进行了一系列快速对话,探讨了AI发展的现状、挑战与未来。核心议题包括:AI是否仍是“普通技术”、对齐问题的进展、关键参与者格局、以及智能本质的测量。节目采用创新的“直播马拉松”形式,在短时间内浓缩了多位前沿思考者的核心见解。

核心讨论与嘉宾观点

1. 认知鸿沟:为什么人们对AI的看法如此分裂?

嘉宾:兹维·莫霍维茨(Zvi Mowshowitz),知名AI分析师与博主

  • 现象:AI讨论呈现两极分化。一方认为我们可能处于“人类世”的终结开端;另一方则坚持“AGI不可能”的否认论调。
  • 根源分析
    • 利益驱动:“当一个人的薪水取决于他不理解某件事时,你很难让他理解它。”许多人的商业计划、认知安宁需要他们相信AI只是普通技术,并希望其“消失”。
    • 重复错误:AI安全辩论中,早在2006年就已出现的初级错误和论点被不断重复,反映出部分讨论者并未深入钻研。
    • 认知滞后:大多数人的默认认知停留在AI“目前能做什么”,而远低于它“实际已能做什么”,更无法预见在工具链完善后“将能做什么”。
  • 关键引述:“错误信息是需求驱动的,而非供给驱动的。”

2. 阈值之问:AI何时不再是“普通技术”?

兹维提出了三个关键阈值,任一被突破都意味着技术性质的根本改变:

  1. 递归自我改进:AI在推进AI研究方面取得实质性进展,导致技术进步曲线(S曲线)的斜率发生根本改变,而不仅仅是靠资源堆叠。
  2. 大规模岗位替代:AI造成的失业不再是“一次性冲击”,而是增强(Augmentation)持续加速并转化为自动化(Automation),新岗位的产生速度赶不上被替代的速度。
  3. 个人能力提升:AI成为强大的个人赋能工具,使个体生产力发生数量级跃升(例如,让业余程序员的编码能力提升10-100倍)。

兹维的现状判断:“我们目前基本上已经到了(阈值)。”他以QuadCore + Opus 4.5为例,指出对于顶级AI人才,编码效率乘数已达2-3倍;对于普通人,则可能是10-100倍,实现了从“不能”到“能”的跨越。

3. 对齐竞赛:希望与危险并存

兹维评估了三大核心实验室在对齐(Alignment)方面的表现:

  • OpenAI:试图成为面向消费者的公司,同时为超级智能筹资,但内部文化方向存在不确定性。
  • Anthropic:直接瞄准编码和人工超级智能(ASI),近期表现亮眼(如在Arena排行榜领先),其Opus 4.5模型展示了对齐方面的显著进步。
  • 谷歌DeepMind:拥有压倒性资源和优势,但内部目标不一,略显混乱。其Gemini 3模型被认为存在严重的错位风险。

关键动态Gemini 3 增加了兹维的“末日概率”,而 Opus 4.5 则降低了该概率。Anthropic的研究表明,对齐可能存在“可瞄准的盆地”,且做出更好、更对齐的模型在商业上也可能更成功,这为“向上竞赛”带来了希望。

4. 末日概率与宏观局势

  • 总体判断:兹维的总体“末日概率”评估仍在 60%-70% 的高位,主要风险路径是通过“认知性权力丧失”类型的场景。
  • 政策环境:目前处于“防守模式”。白宫内部存在有效反对力量(如大卫·萨克斯),但各州层面(如SB-53和RAISE法案)有积极进展。
  • 根本挑战:“一切都在试图杀死你……我们必须导航许多不可能难度级别的问题。”这包括在中短期内对齐模型,解决权力丧失问题,以及应对其他复杂担忧。

5. 智能的测量:ARC AGI奖的视角

嘉宾:格雷格(Greg),ARC AGI奖负责人

  • 智能定义:智能是学习新事物的能力,核心在于样本效率——人类只需2-3个例子就能学会新事物,而当前AI仍需大量数据。
  • 惊人进展:ARC AGI基准测试显示,一年内(2024.12 - 2025.12),达到同等高性能(约87-90%)的成本效率提升了390倍。这得益于模型改进和服务优化。
  • 小模型的启示:如“分层推理模型”(HRM)和“微型递归模型”(TRM)等小型、新颖的方法,在ARC挑战上表现出色,提供了不同于大语言模型(LLM)的智能实现路径。它们是未来技术融合的“种子”。
  • 脚手架之争:智能存在于模型本身,还是其使用的工具链(脚手架)中?格雷格认为,未来的AGI很可能包含脚手架,正如人脑由不同专门区域协同工作一样。不应轻视脚手架的作用。
  • 未来基准:ARC AGI-3
    • 形式:转向基于视频游戏环境的动态基准,模拟真实世界的交互与泛化。
    • 标准:不仅要求通关游戏,更要求解决效率(所用动作数)达到或超越人类首次尝试的水平。
    • 意义:击败ARC AGI-3的系统,将展示迄今为止最权威的泛化能力证据

6. 持续学习:被高估了还是关键所在?

针对AI是否需要“持续学习”能力以融入具体工作环境的问题,兹维提出了一个务实的观点:

  • 当前解决方案:在现有模型(如Opus 4.5)水平上,通过巧妙的提示工程和工具构建,可以有效模拟持续学习的效果。例如,让AI根据对话历史构建一个包含特定知识和流程的应用程序,之后即可随时调用。
  • 未来展望:这更多是一个“技能问题”而非根本障碍。他预测,下一代模型(如Claude 5, GPT-6)将使这类任务变得相当容易。

关键要点与行动启示

  1. 缩短认知周期:在信息爆炸的时代,主动压缩时间线,提高信息获取密度,是保持前沿认知的关键。采用“快速对话”模式吸收多元观点值得借鉴。
  2. 关注三个阈值:判断AI进化阶段,应密切关注递归自我改进不可逆的大规模岗位替代个人生产力数量级提升是否发生。
  3. 对齐是动态竞赛:AI安全并非静态目标。关注核心实验室(OpenAI、Anthropic、谷歌DeepMind)在对齐技术上的竞争与进展,特别是那些既能提升能力又能改善对齐的“向上竞赛”信号。
  4. 智能重在泛化与学习效率:评估AI能力,不应只看其在狭窄任务上的超人表现,更要看其在新环境、新任务中,以多高的样本效率实现快速学习与适应。ARC类基准提供了重要视角。
  5. 实践赋能已至:无论宏观争论如何,AI作为个人赋能工具的时代已经到来。普通人应积极学习使用现有AI工具(如Claude Code, GPT等)解决实际问题,体验生产力提升。
  6. 参与塑造未来:对于深度关切AI风险与发展的人,可以考虑参与像 MATS(AI对齐研究项目) 这样的实践性项目,从研究层面贡献力量。

结语:我们正处在一个技术加速、认知分化的关键过渡期。保持侦察兵般的敏锐,区分信号与噪声,在拥抱赋能的同时审慎思考长远影响,是每个身处这个时代的人的必修课。


Original Description

This year-end live show features nine rapid-fire conversations to make sense of AI’s 2025 and what might define 2026.

PSA for AI builders: Interested in alignment, governance, or AI safety?

Learn more about the MATS Summer 2026 Fellowship and submit your name to be notified when applications open: Zvi Moshowitz maps the OpenAI–Anthropic–Google race, the denialism gap, and why his PDoom is still ~60–70%.

Greg (ARC-AGI Prize), Eugenia Kuyda, Ali Behrouz, Logan Kirkpatrick, and Jungwon Hwang cover sample-efficient benchmarks and ARC-AGI 3, companions and human-flourishing metrics, continual-learning memory, Gemini 3 Flash for developers, and AI for scientific decisions.