OpenAI计划在2025年前推出介于GPT-4.1与GPT-4.5之间的新模型,并转向以强化学习(RL)为核心的训练策略。由于算力瓶颈,OpenAI放弃盲目扩大参数规模,转而通过优化训练方式提升性能。新模型o4基于GPT-4.1,利用RL提升推理效率,尤其在代码任务中表现优异。RL通过生成候选答案、奖励函数调整参数,使模型具备持续进化能力。行业趋势显示,RL正从辅助工具升级为驱动核心,重塑AI研发优先级,从参数规模转向奖励设计与数据质量。但RL面临奖励不可验证、幻觉问题及高算力成本挑战,需结合人类反馈与复杂评判机制。中小公司可通过精细化RL在特定领域突破,但通用智能仍需探索。

关键点:

  1. 模型迭代:OpenAI新模型介于GPT-4.1与GPT-4.5之间,采用强化学习优化推理效率。
  2. RL核心驱动:RL取代传统预训练,通过奖励函数和候选答案生成提升任务能力,如代码生成。
  3. 效率与性能平衡:避免超大规模算力依赖,通过RL在特定领域实现突破,如Anthropic专注代码优化。
  4. 挑战与风险:RL面临奖励不可验证(如创意写作)、幻觉问题及高算力成本,需结合人类反馈与复杂评判机制。
  5. 行业战略分化:OpenAI采用“数据混合”,Anthropic聚焦代码优化,谷歌融合硬件-软件协同优化。
  6. 小模型技术路线:知识蒸馏比RL更高效,但存在“尖峰效应”,需根据模型定位选择技术方案。
  7. 范式转型:AI从“无所不知”转向“特定环境持续进化”,推动代码生成、自动化工具等实际应用落地。</document>

Translation

OpenAI计划在2025年前推出介于GPT-4.1与GPT-4.5之间的新模型,并转向以强化学习(RL)为核心的训练策略。由于算力瓶颈,OpenAI放弃盲目扩大参数规模,转而通过优化训练方式提升性能。新模型o4基于GPT-4.1,利用RL提升推理效率,尤其在代码任务中表现优异。RL通过生成候选答案、奖励函数调整参数,使模型具备持续进化能力。行业趋势显示,RL正从辅助工具升级为驱动核心,重塑AI研发优先级,从参数规模转向奖励设计与数据质量。但RL面临奖励不可验证、幻觉问题及高算力成本挑战,需结合人类反馈与复杂评判机制。中小公司可通过精细化RL在特定领域突破,但通用智能仍需探索。

关键点:

  1. 模型迭代:OpenAI新模型介于GPT-4.1与GPT-4.5之间,采用强化学习优化推理效率。
  2. RL核心驱动:RL取代传统预训练,通过奖励函数和候选答案生成提升任务能力,如代码生成。
  3. 效率与性能平衡:避免超大规模算力依赖,通过RL在特定领域实现突破,如Anthropic专注代码优化。
  4. 挑战与风险:RL面临奖励不可验证(如创意写作)、幻觉问题及高算力成本,需结合人类反馈与复杂评判机制。
  5. 行业战略分化:OpenAI采用“数据混合”,Anthropic聚焦代码优化,谷歌融合硬件-软件协同优化。
  6. 小模型技术路线:知识蒸馏比RL更高效,但存在“尖峰效应”,需根据模型定位选择技术方案。
  7. 范式转型:AI从“无所不知”转向“特定环境持续进化”,推动代码生成、自动化工具等实际应用落地。

Reference:

https://semianalysis.com/2025/06/08/scaling-reinforcement-learning-environments-reward-hacking-agents-scaling-data/#tool-use-and-o3


<
Previous Post
Robotaxi vs Waymo and Cruise
>
Next Post
Uprising of Plantier