GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现
2025-07-12 17:41:46 - 风汇快
天下武功唯快不破,竟的接棒键但 OpenAI 不走寻常路,革命新出的由o研究 o1 系列宣告天下:
我们更慢,但更强了。最关
o1 要花更多的发现时间思考问题,再做出反应,竟的接棒键西安医科大学曝光推荐但在复杂推理层面直接窜了几个档位。革命
在国际数学奥林匹克 (IMO) 资格考试中,由o研究GPT-4o 仅正确解决了 13% 的最关问题,而 o1 得分为 83%。发现
好家伙,竟的接棒键这数学水平,革命上一次见面还是由o研究小学生,现在直接博士毕业了?最关
OpenAI 也很得意,表示 o1 已经达到AI能力新高度了,发现所以直接把计数重置到1,开启新的大模型系列 OpenAI o1。
本次 OpenAI o1系列分为三个型号,上海理工大学实拍排名最强但还未发布的 o1,o1 的预览版 o1-preview,和性价比最高的轻量版 o1-mini。
之前的 GPT 系列还被诟病更新“挤牙膏”,没想到 OpenAI 一直都是老样子,不鸣则已一鸣惊人,直接给 AI 界来了个大大大地震。
综合网络对于 o1 的报道和评论,我们注意到几个关键信息:
这可能是Scaling Law提出以来,LLM领域最关键的发现。这一进展的核心是推理时间和参数规模两条曲线的协同作用,而不是单一曲线;
与强化学习的完美结合,可能为我们指明了通往人工通用智能(AGI)的有效路径(此前AI科技评论8月28日曾举办《大模型时代的强化学习》网络研讨会,讨论了强化学习与大模型的结合,感兴趣的朋友点击下方链接进行回看);
o1 并非 GPT-4o 的升级版本,目前仍然无法解决像黎曼假设这样极其复杂或开放的问题,也没能解决幻觉问题。
OpenAI 对大模型的这次重新构想,无疑将对大模型的未来走向和整个AI领域的格局产生深远作用。
OpenAI的又一里程碑
奥特曼表示,o1 是他们迄今为止功能最强大、最一致的模型系列,只是使用的时候要花更多时间(凡尔赛了)。
如图所示,o1 在绝大多数重推理任务中显著优于 GPT-4o
正在休长假、沉寂了一个月的 OpenAI 的另一位联创 Greg Brockman 洋洋洒洒写了一长段推文,表扬了 o1 的超强性能,并特别指出 o1 是第一个使用强化学习训练的模型,会在回答问题之前进行深入的思考。
lmsys 也马上在 Chatbot Arena 更新了 o1-preview 和 o1-mini,欢迎大家测试。
参与研发o1的 Shengjia Zhao 很谦虚地表示,o1 并不是完美的,也不会适合所有事情。不过人们能感受到它潜力无限,并再一次感受到 AGI。
Jim Fan 认为,o1 透露出的研究进展可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最关键的发现。
他还提到了两篇近期发表的关于 Scaling Law 的论文,并指出 OpenAI 早已意识到这一点,并通过 o1 证实了这些发现。
大模型+强化学习=AGI?
大模型与强化学习的结合是近几年来的热门研究方向之一。
大模型的泛化能力和背景知识与强化学习的交互学习和任务优化相结合,可以创建出能够更好地适应复杂环境、解决多任务问题、并提供更高效和可解释决策的智能系统。这种互补性使得两者的结合成为推动机器智能增长的关键方向。
o1 大模型的发布,首次证明了语言模型可以进行真正的强化学习。而 OpenAI 的一位研究员说,o1 证明了强化学习才是通往 AGI 道路上的必备要素(RL研究者狂喜)。
OpenAI 另一位专注推理的研究员也说,通过强化学习,o1 能够在做出反应进行“思考”,让他们不用再受预训练的瓶颈限制,终于可以做扩展推理计算了。
强化学习和LLM可以说是非常适配了,只不过在 o1 之前还没有人能用 LLM 真正实现强化学习。
之前就有人说,模仿是 LLM 训练的基础,而模仿其实就是强化学习的问题。
DeepMind 的新论文也有提到,与监督学习相比,强化学习可以更好地利用序列结构、在线信息并进一步提取奖励。
领导 DeepMind 强化学习研究小组的David Silver,也在前段时间的演讲中强调,“需要重新关注强化学习,才能走出 LLM 低谷。”
局限
不过,一众好评声中,也有人指出了 o1 存在的一些问题。
Andrej Karpathy 在测试后发推特说,o1-mini 还是有大模型的老毛病,问它黎曼假设这类复杂问题就偷懒逃避。
Gary Marcus 认为 o1 并不是通用机器智能(AGI),甚至离 AGI 还很远。
他尖锐地点出了 o1 的八条问题,从多个方面批评了o1模型的细节披露不足、改进不够全面,认为实际测试与宣传间存在差距,并提醒消费者要慎重。
Hugging Face 的 CEO 也表示,AI 并不是在思考,只是在在“处理”、“运行预测”……和谷歌或者计算机做的事情是一样的。这种工艺系统是人类的错误印象,只是廉价的骗术和营销手段,让人误以为它比实际更聪明。
OpenAI 自己也承认了 o1 的不足。在一些自然语言任务测试中,尤其是写作能力方面,GPT-4o 还是更胜一筹。
并且,o1 的推理依然存在缺陷,在实现质的提升的同时也没能解决LLM的幻觉问题。
著名程序员、Django Web 框架的联合创建者 Simon Willison 在推特上收集在 GPT-4o 上推理失败,但在 o1 成功的例子,只找到了几个让他满意的案例。他认为从推理来看,o1 并不是 GPT-4o 的升级版。
他在博客中写道,o1 并不是简单的 GPT-4o 升级版,而是通过在成本和性能方面引入重大权衡,换取了更进一步的推理能力。
很明显,o1 和 GPT-4o 代表大模型的两个不同方向。OpenAI 也提到,以后会分别研发升级两个模型,这意味着,过去适用于 GPT-4o 的 Prompt 技巧未必同样适用于 o1。
实测
那么,o1 的表现到底怎么样呢?
在 Toqan 的排行榜中,我们可以看到 OpenAI O1 模型在 ProLLM StackUnseen 基准测试中表现出来的水平,比 SOTA 要高出 20%。
elvis 做了详细测试,他提到 o1-preview 能够一次性解决很多难以回答的问题,包括很多当前大型语言模型(LLMs)难以处理的数学问题。
他的完整测试影片已经上传YouTube,可以点击以下链接观看:
https://www.youtube.com/watch?v=xJJ2h3wQByg
OpenAI 首席研究官 Bob McGrew 在The Verge的采访中说,“从根本上说,o1 是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”雷峰网雷峰网(公众号:雷峰网)
o1-preview和o1 mini已经带给我们这么多惊喜,不敢想最后发布的o1到底能有多强悍,让我们拭目以待。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
男演员身份证照片引热议,证件照怎样拍才规范?

近日,有网友表示在上海一公园捡到了演员金世佳的身份证,喊话“金世佳你身份证掉了”,相关话题登上微博热搜。▲图片来自某社交媒体截图▲图片来自微博截图7月6日下午,@金世佳工作室 回应身份证丢失一事:已联
智元发布商用人形全家桶,双足10月开始量产,今年出货200台

8月18日,智元机器人举行“智元远征 商用启航” 2024年度新品发布会,智元联合创始人彭志辉主持并发布了“远征”与“灵犀”两大系列共五款商用人形机器人新品——远征A2、远征A2-W、远征A2-Max
AI 搜索热潮背后:注定要逾越场景的门槛

在 2024 上半年并算不明朗的 AI 应用局势中,AI 搜索正成为新共识并迎来了一波热潮,短时间内涌现出了多个 AI 搜索产品。其中,国外原生 AI 搜索工具 Perplexity AI 最新估值已
视频生成赛道再添“猛将”,智谱清影正式上线

年初Sora横空出世,验证了Scalling Law在视频生成方面的有效性。但Sora始终止步于公开的60秒demo,产品落地计划迟迟未有公开。随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角
用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

作者:赖文昕编辑:郭思、陈彩娴说起扩散模型生成的东西,你会立刻想到什么?是OpenAI的经典牛油果椅子?是英伟达Magic3D生成的蓝色箭毒蛙?还是斯坦福大学和微软Folding Diffusion生
Jim Gao:曾助谷歌节能40%的AI专家,如今致力打造“虚拟工厂操作员”

只是使用了AI就让工厂能耗降低40%是的,你没有看错,就是降低了整整40%,几乎将能耗砍半!这是Jim Gao在Google大型数据中心的一次尝试。这位华人机械工程师巧妙地使用了AI系统辅助控制数据中
徐凌杰创立魔形智能,国际头部GPU高管加盟

导语:创业方向是做大模型基础设施。作者丨马蕊蕾编辑丨陈彩娴近日,前「壁仞科技」总裁徐凌杰,离开壁仞4个月后,于2024年6月份,正式成立了上海魔形智能有限公司。据悉,徐凌杰毕业于上海交通大学电子工程系
AI短剧公司获百度投资;苹果AI将登VisionPro,今秋或将接入谷歌Gemini;上海医院用AI自动生成病历丨AI情报局

融资快报CreativeFitting获百度PreA+轮融资:CreativeFitting井英科技)推出全球首款AI短剧APP,Reel.AI在海外市场正式发布,并迅速登上娱乐应用畅销榜,主创团队获
聚焦AI科技与医疗的跨学科融合,CAIR香港人工智能与机器人医疗论坛开幕

2024年3月28日至29日,“CAIR香港人工智能与机器人医疗论坛”在香港科学园举行。论坛由中国科学院香港创新研究院人工智能与机器人创新中心主办,聚焦人工智能与机器人在医疗领域的创新应用。来自全球的
成立996天,MiniMax 每日与世界的30亿次交互

8月31日,“2024 MiniMax Link伙伴日”活动在上海正式举行。本次活动以Link连接)为主题,聚焦AI创新技术发展。活动现场,MiniMax创始人闫俊杰分享了基于MOE混合专家模型)+
AI短剧公司获百度投资;苹果AI将登VisionPro,今秋或将接入谷歌Gemini;上海医院用AI自动生成病历丨AI情报局

融资快报CreativeFitting获百度PreA+轮融资:CreativeFitting井英科技)推出全球首款AI短剧APP,Reel.AI在海外市场正式发布,并迅速登上娱乐应用畅销榜,主创团队获
豆包视频生成大模型正式发布,首次突破多主体互动难关

字节跳动正式宣告进军AI视频生成。9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。活