[State of RL/Reasoning] IMO/IOI Gold, OpenAI o3/GPT-5, and Cursor Composer — Ashvin Nair, Cursor

[State of RL/Reasoning] IMO/IOI Gold, OpenAI o3/GPT-5, and Cursor Composer — Ashvin Nair, Cursor

Latent Space: The AI Engineer Podcast
about 1 month ago45m

From Berkeley robotics and OpenAI's 2017 Dota-era internship to shipping RL breakthroughs on GPT-4o, o1, and o3, and now leading model development at Cursor, Ashvin Nair has done it all.

We caught up with Ashvin at NeurIPS 2025 to dig into the inside story of OpenAI's reasoning team (spoiler: it went from a dozen people to 300+), why IOI Gold felt reachable in 2022 but somehow didn't change the world when o1 actually achieved it, how RL doesn't generalize beyond the training distribution (and why that means you need to bring economically useful tasks into distribution by co-designing products and models), the deeper lessons from the RL research era (2017–2022) and why most of it didn't pan out because the community overfitted to benchmarks, how Cursor is uniquely positioned to do continual learning at scale with policy updates every two hours and product-model co-design that keeps engineers in the loop instead of context-switching into ADHD hell, and his bet that the next paradigm shift is continual learning with infinite memory—where models experience something once (a bug, a mistake, a user pattern) and never forget it, storing millions of deployment tokens in weights without overloading capacity.

Episode Content
Original Audio

好的,这是为您生成的播客内容摘要:

标题:从机器人到O1:一位OpenAI老兵揭秘AI推理的崛起与未来

概述

本次采访在NeurIPS 2024现场进行,嘉宾是前OpenAI O1/O3团队成员、现Cursor机器学习负责人Ashwin。他分享了自己从机器人学博士到投身大语言模型研究的独特路径,深入探讨了OpenAI内部如何孕育出O系列推理模型,并展望了AI智能体与机器人技术的未来。

关键话题与核心观点

1. 机器人学背景:从“最接地气”到“万亿美元市场”的预判

  • 独特的训练场:Ashwin认为,机器人领域的经历培养了研究者坚韧、注重数据的特质,因为“你必须与现实世界打交道”。这与Lex Fridman的观点一致,即机器人领域的研究者“最值得交谈”,因为他们无法脱离现实数据。
  • AGI的遥远前线:在相当长的时间里,机器人领域让人感觉离真正的AGI(通用人工智能)非常遥远,因为让实体机器人可靠工作极其困难。
  • 市场判断的转变:尽管近期机器人公司融资活跃,但Ashwin个人判断,LLM智能体市场将远比实体机器人市场更早达到万亿规模。原因在于软件智能体已在创造价值,而机器人还需克服单位经济效益、可靠性和维护等硬性挑战。他将当前机器人技术的发展阶段类比为“GPT-1到GPT-2”时期,虽有趣但尚未到达拐点。

2. OpenAI内部:O1/O3的诞生与“扩展信念”

  • ChatGPT的意外与平静:Ashwin在ChatGPT发布前加入OpenAI的CodeGen团队,原本期待一个“轻松的研究实验室”,结果遭遇了产品发布的爆炸性增长。但他指出,OpenAI内部对ChatGPT的发布其实“没那么兴奋”,因为他们当时已经拥有更先进的GPT-4。
  • O系列的起源:第一性原理的信念:O1/O3的成功并非偶然,它源于OpenAI内部(尤其是Ilya Sutskever和Jakub Pachocki等人)长期坚信强化学习(RL)是实现更高智能的途径。当预训练模型足够好之后,这条路径开始真正奏效。
  • 内部研发的“平稳”与“领先优势”
    • 平稳进展:外界看到的是AI能力的“大跃进”,但在OpenAI内部,感觉是通过大量实验稳步叠加改进,过程相对平稳。
    • 领先窗口缩短:由于竞争压力,OpenAI现在发布产品时,内部领先外部的时间可能只有一到两个月,远短于过去的六个月或更久。
  • 对“一个模型适应所有”的反思:Ashwin观察到,社区(包括OpenAI)正在放弃“一个通用模型解决所有问题”的幻想。当前的推理模型在特定领域表现出色但“非常挑剔”,这更多是数据和产品设计问题,而非单纯的模型容量限制。

3. 能力跃迁与“移动的球门柱”

  • IOI金牌后的思考:当AI模型能够在国际信息学奥林匹克竞赛(IOI)中获得金牌时,理论上似乎标志着AGI的达成。但现实是“生活还是一样”。这引发了Ashwin的深度思考:我们是否在不断“移动球门柱”?
  • 古德哈特定律与社区共识:他认为,整个AI社区在元层面上做出了许多隐性决定,去追求那些最重要的评估基准,这本质上是一种“古德哈特化”——优化过程会逐渐抽空指标原本意图度量的能力。学术界的强化学习研究在2017-2022年间也经历了类似的困境,产生了大量对基准过拟合但实用性有限的研究。

4. 未来方向:产品与模型的共同设计

  • RL的泛化难题:Ashwin指出,当前应用于LLM的RL是一种“奇怪、有趣的工具”,它能在训练分布内表现极佳,但难以泛化到训练分布之外
  • 关键突破口:要实现经济上有用的自动化,必须将完整的任务上下文带入RL的训练分布。这意味着需要共同设计产品和模型,让LLM能够接触到完成一项工作所需的全部信息(如代码库、Slack消息、图表、PDF文件等),而不仅仅是处理简化后的人工任务。
  • Cursor的独特优势:这正是他加入Cursor的原因。作为一个产品与机器学习团队紧密协作、规模较小的公司,Cursor有能力进行这种深度共同设计,例如实现每两小时更新策略的“在线学习”,这在大型实验室复杂的部门架构下难以想象。

5. 行业观察与开放问题

  • 收敛的RL方法:Ashwin观察到,2024年各大实验室的RL方法似乎收敛到了非常相似的形式,导致模型能力前沿也大致相同。
  • 持续学习的挑战与机遇:让模型能够从部署中持续学习(如Cursor Tab所做),并且不再重复犯错,是一个深刻且未解决的难题。这涉及到数据效率、记忆容量等基础问题。Ashwin认为这可能成为下一个范式转变的领域。
  • 治理的未解之谜:谈及OpenAI的治理动荡,Ashwin表达了对AI治理结构的深切关心,认为无论AGI何时到来,目前都没有一个好的解决方案。无论是小型的非营利董事会还是大型的商业董事会,都各有利弊,且人类尚未解决类似社交媒体、不健康食品等技术的治理问题。

主要启示与行动要点

  1. 实践出真知:机器人等需要与现实交互的领域,能培养研究者对数据的深刻理解和务实精神,这种能力可迁移至AI研究。
  2. 信念与坚持:重大技术突破(如O1)往往源于长期的第一性原理信念,并在时机成熟时通过坚定的资源投入和扩展得以实现。
  3. 警惕指标陷阱:在追求SOTA(最先进水平)时,需警惕对基准的过拟合和“古德哈特定律”,真正的进步应体现在解决实际问题的泛化能力上。
  4. 未来在于融合:下一代AI能力的飞跃,可能不主要依赖于更大的模型,而在于产品与模型的深度共同设计,使AI能接触到并学习完整的工作流程上下文。
  5. 小团队的敏捷优势:在探索模型与产品紧密结合的新范式时,小而专注的团队可能比资源庞大但结构复杂的大团队更具创新速度和优势。
  6. 关注根本问题:持续学习、模型的信息存储与处理机制(“硬盘”与“CPU”视角)等基础科学问题,虽短期内不直接产生应用,但长期看至关重要。

行动号召:Ashwin代表Cursor发出邀请,欢迎对代码数据、奖励模型以及产品-模型共同设计感兴趣的人才加入。


Original Description

From Berkeley robotics and OpenAI's 2017 Dota-era internship to shipping RL breakthroughs on GPT-4o, o1, and o3, and now leading model development at Cursor, Ashvin Nair has done it all.

We caught up with Ashvin at NeurIPS 2025 to dig into the inside story of OpenAI's reasoning team (spoiler: it went from a dozen people to 300+), why IOI Gold felt reachable in 2022 but somehow didn't change the world when o1 actually achieved it, how RL doesn't generalize beyond the training distribution (and why that means you need to bring economically useful tasks into distribution by co-designing products and models), the deeper lessons from the RL research era (2017–2022) and why most of it didn't pan out because the community overfitted to benchmarks, how Cursor is uniquely positioned to do continual learning at scale with policy updates every two hours and product-model co-design that keeps engineers in the loop instead of context-switching into ADHD hell, and his bet that the next paradigm shift is continual learning with infinite memory—where models experience something once (a bug, a mistake, a user pattern) and never forget it, storing millions of deployment tokens in weights without overloading capacity.