[State of Post-Training] From GPT-4.1 to 5.1: RLVR, Agent & Token Efficiency — Josh McGrath, OpenAI

[State of Post-Training] From GPT-4.1 to 5.1: RLVR, Agent & Token Efficiency — Josh McGrath, OpenAI

Latent Space: The AI Engineer Podcast
about 1 month ago27m

From pre-training data curation to shipping GPT-4o, o1, o3, and now GPT-5 thinking and the shopping model, Josh McGrath has lived through the full arc of OpenAI's post-training evolution—from the PPO vs DPO debates of 2023 to today's RLVR era, where the real innovation isn't optimization methods but data quality, signal trust, and token efficiency.

We sat down with Josh at NeurIPS 2025 to dig into the state of post-training heading into 2026: why RLHF and RLVR are both just policy gradient methods (the difference is the input data, not the math), how GRPO from DeepSeek Math was underappreciated as a shift toward more trustworthy reward signals (math answers you can verify vs.

human preference you can't), why token efficiency matters more than wall-clock time (GPT-5 to 5.

1 bumped evals and slashed tokens), how Codex has changed his workflow so much he feels "trapped" by 40-minute design sessions

Episode Content
Original Audio

OpenAI后训练研究员揭秘:从GPT-4.1到购物模型的技术演进

概述

本期播客邀请到OpenAI后训练研究员乔希,深入探讨了从GPT-4.1到GPT-5.1的技术发展历程。对话涵盖了后训练领域的核心挑战、购物模型的创新交互、上下文窗口的扩展极限,以及预训练与后训练的资源分配等前沿话题。乔希分享了作为研究员的真实工作体验,包括深夜调试强化学习系统的复杂性,以及Codex如何彻底改变他的编程方式。

核心话题

1. 后训练研究的演变与挑战

  • 从PPO/DPO到RLVR:后训练方法已从早期的PPO(近端策略优化)和DPO(直接偏好优化)转向RLVR(强化学习与验证奖励)和针对智能体的特定强化学习训练。
  • 信号质量谱系:RLHF(基于人类反馈的强化学习)信号本质上是“不可验证的”,因为它基于人类偏好而非客观事实。关键在于评估信号的清洁度和可信度。
  • 规模化复杂性:强化学习涉及更多移动部件,每个任务可能有不同的评分设置,需要更多基础设施支持,调试难度远高于预训练。

2. 购物模型的交互创新

  • 可中断的思维链:购物模型允许用户在模型思考过程中实时打断并修正需求(例如:“我想要带USB-C接口的”),创造了新的交互范式。
  • 专用模型的意义:虽然技术上可以在同一模型中实现购物功能,但创建专用模型有助于深度优化特定领域的搜索和推理能力。
  • 模型能力趋同:从深度研究模型到GPT-5的高推理模型,不同模型的能力最终会趋于一致,但用户可能因个性偏好而选择特定版本。

3. 上下文窗口的扩展与挑战

  • 词元效率优先:从GPT-5.0到5.1,核心改进之一是显著提升了完成相同任务所需的词元效率,直接影响用户体验和系统负载。
  • 长上下文评估:通过GraphWalks(图遍历)等评估方法测试模型在整个上下文窗口中进行复杂转换的能力,而不仅仅是“大海捞针”式的简单检索。
  • 未来扩展性:虽然目前百万级词元上下文已足够,但某些用例(如企业代码库分析、视频处理、生命科学数据)可能需要数十亿甚至数万亿词元,这需要系统层面的创新突破。

4. 模型个性化与开发者需求

  • 安东 vs Clippy:开发者通常偏好“安东”式工具型AI(安静高效地完成任务),而非“Clippy”式(过度友好和互动)的个性。
  • 自定义指令:OpenAI通过提供个性切换开关和自定义指令功能,让用户自主选择模型交互风格,平衡工具性和友好性。

5. 行业趋势与跨公司交流

  • 优化论文的叙事性:学术论文往往更关注优化方法(如GRPO),因为数据工程和规模化的工作更难包装成“好故事”。
  • 跨公司对话:与Anthropic、DeepMind等同行的交流更多是泛泛而谈(“我在搞些东西”),而非深入讨论具体方法,因为规模化实施比算法细节更重要。

关键启示

技术洞察

  • 后训练的计算投入正在增加:随着模型复杂度提升,后训练所需的计算资源已逐渐接近预训练水平,改变了传统的资源分配比例。
  • 系统与模型的协同设计:OpenAI的文化鼓励研究员同时参与系统工程和机器学习研究,这种跨界能力是推动前沿的关键。
  • Codex改变了编程工作流:AI编程助手能将数小时的工作压缩到15分钟,但这也要求开发者重新规划任务管理和时间分配。

行业展望

  • 教育体系需适应:行业急需既精通分布式系统/核心工程,又具备统计学和机器学习研究能力的人才,而当前教育体系尚未为此优化。
  • 技术革命的“战争迷雾”:我们正处于一场实时发生的技术革命中,类似于电力革命早期阶段——最终的应用形态可能远超当前想象。
  • 保持情绪稳定的重要性:在AI快速迭代的浪潮中,“一切都结束了,我们又回来了”的循环会多次出现,保持理智和耐心至关重要。

实用建议

  • 关注词元效率指标:对于开发者而言,模型完成特定任务所需的词元数比单纯的能力提升更影响实际应用成本。
  • 善用个性化设置:根据使用场景(工具型 vs 交互型)灵活调整模型个性,能显著提升工作效率。
  • 理解信号质量差异:在设计强化学习系统时,需明确区分基于人类偏好的信号(如RLHF)和基于客观验证的信号(如数学解题),前者更主观但适用于用户体验优化。

结语

乔希的分享揭示了一个核心现实:AI发展已进入深水区,工程挑战与研究创新同等重要。从购物模型的可中断交互,到上下文窗口的极限探索,再到预训练与后训练的资源平衡,每一个决策都影响着技术落地的轨迹。这场对话最深刻的启示或许是——在追求AGI的道路上,保持对未知的敬畏和跨学科协作的开放心态,比任何单一技术突破都更为重要。


收听价值:适合AI研究者、工程师、产品经理以及对大模型技术演进感兴趣的所有人。通过一线研究员的真实经历,理解AI前沿的挑战、权衡与未来方向。


Original Description

From pre-training data curation to shipping GPT-4o, o1, o3, and now GPT-5 thinking and the shopping model, Josh McGrath has lived through the full arc of OpenAI's post-training evolution—from the PPO vs DPO debates of 2023 to today's RLVR era, where the real innovation isn't optimization methods but data quality, signal trust, and token efficiency.

We sat down with Josh at NeurIPS 2025 to dig into the state of post-training heading into 2026: why RLHF and RLVR are both just policy gradient methods (the difference is the input data, not the math), how GRPO from DeepSeek Math was underappreciated as a shift toward more trustworthy reward signals (math answers you can verify vs.

human preference you can't), why token efficiency matters more than wall-clock time (GPT-5 to 5.

1 bumped evals and slashed tokens), how Codex has changed his workflow so much he feels "trapped" by 40-minute design sessions