GPT未竟的革命,由o1接棒:或是LLM研究最关键的发现
2025-07-11 08:52:13 - 风闻站
天下武功唯快不破,竟的接棒键但 OpenAI 不走寻常路,革命新出的由o研究西安医科大学曝光推荐 o1 系列宣告天下:
我们更慢,但更强了。最关
o1 要花更多的发现时间思考问题,再做出反应,竟的接棒键但在复杂推理层面直接窜了几个档位。革命
在国际数学奥林匹克 (IMO) 资格考试中,由o研究GPT-4o 仅正确解决了 13% 的最关问题,而 o1 得分为 83%。发现
好家伙,竟的接棒键这数学水平,革命上一次见面还是由o研究小学生,现在直接博士毕业了?最关
OpenAI 也很得意,表示 o1 已经达到AI能力新高度了,发现所以直接把计数重置到1,开启新的大模型系列 OpenAI o1。
本次 OpenAI o1系列分为三个型号,西安医科大学曝光推荐最强但还未发布的 o1,o1 的预览版 o1-preview,和性价比最高的轻量版 o1-mini。
之前的 GPT 系列还被诟病更新“挤牙膏”,没想到 OpenAI 一直都是老样子,不鸣则已一鸣惊人,直接给 AI 界来了个大大大地震。
综合网络对于 o1 的报道和评论,我们注意到几个关键信息:
这可能是Scaling Law提出以来,LLM领域最关键的发现。这一进展的核心是推理时间和参数规模两条曲线的协同作用,而不是单一曲线;
与强化学习的完美结合,可能为我们指明了通往人工通用智能(AGI)的有效路径(此前AI科技评论8月28日曾举办《大模型时代的强化学习》网络研讨会,讨论了强化学习与大模型的结合,感兴趣的朋友点击下方链接进行回看);
o1 并非 GPT-4o 的升级版本,目前仍然无法解决像黎曼假设这样极其复杂或开放的问题,也没能解决幻觉问题。
OpenAI 对大模型的这次重新构想,无疑将对大模型的未来走向和整个AI领域的格局产生深远作用。
OpenAI的又一里程碑
奥特曼表示,o1 是他们迄今为止功能最强大、最一致的模型系列,只是使用的时候要花更多时间(凡尔赛了)。
如图所示,o1 在绝大多数重推理任务中显著优于 GPT-4o
正在休长假、沉寂了一个月的 OpenAI 的另一位联创 Greg Brockman 洋洋洒洒写了一长段推文,表扬了 o1 的超强性能,并特别指出 o1 是第一个使用强化学习训练的模型,会在回答问题之前进行深入的思考。
lmsys 也马上在 Chatbot Arena 更新了 o1-preview 和 o1-mini,欢迎大家测试。
参与研发o1的 Shengjia Zhao 很谦虚地表示,o1 并不是完美的,也不会适合所有事情。不过人们能感受到它潜力无限,并再一次感受到 AGI。
Jim Fan 认为,o1 透露出的研究进展可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最关键的发现。
他还提到了两篇近期发表的关于 Scaling Law 的论文,并指出 OpenAI 早已意识到这一点,并通过 o1 证实了这些发现。
大模型+强化学习=AGI?
大模型与强化学习的结合是近几年来的热门研究方向之一。
大模型的泛化能力和背景知识与强化学习的交互学习和任务优化相结合,可以创建出能够更好地适应复杂环境、解决多任务问题、并提供更高效和可解释决策的智能系统。这种互补性使得两者的结合成为推动机器智能增长的关键方向。
o1 大模型的发布,首次证明了语言模型可以进行真正的强化学习。而 OpenAI 的一位研究员说,o1 证明了强化学习才是通往 AGI 道路上的必备要素(RL研究者狂喜)。
OpenAI 另一位专注推理的研究员也说,通过强化学习,o1 能够在做出反应进行“思考”,让他们不用再受预训练的瓶颈限制,终于可以做扩展推理计算了。
强化学习和LLM可以说是非常适配了,只不过在 o1 之前还没有人能用 LLM 真正实现强化学习。
之前就有人说,模仿是 LLM 训练的基础,而模仿其实就是强化学习的问题。
DeepMind 的新论文也有提到,与监督学习相比,强化学习可以更好地利用序列结构、在线信息并进一步提取奖励。
领导 DeepMind 强化学习研究小组的David Silver,也在前段时间的演讲中强调,“需要重新关注强化学习,才能走出 LLM 低谷。”
局限
不过,一众好评声中,也有人指出了 o1 存在的一些问题。
Andrej Karpathy 在测试后发推特说,o1-mini 还是有大模型的老毛病,问它黎曼假设这类复杂问题就偷懒逃避。
Gary Marcus 认为 o1 并不是通用机器智能(AGI),甚至离 AGI 还很远。
他尖锐地点出了 o1 的八条问题,从多个方面批评了o1模型的细节披露不足、改进不够全面,认为实际测试与宣传间存在差距,并提醒消费者要慎重。
Hugging Face 的 CEO 也表示,AI 并不是在思考,只是在在“处理”、“运行预测”……和谷歌或者计算机做的事情是一样的。这种工艺系统是人类的错误印象,只是廉价的骗术和营销手段,让人误以为它比实际更聪明。
OpenAI 自己也承认了 o1 的不足。在一些自然语言任务测试中,尤其是写作能力方面,GPT-4o 还是更胜一筹。
并且,o1 的推理依然存在缺陷,在实现质的提升的同时也没能解决LLM的幻觉问题。
著名程序员、Django Web 框架的联合创建者 Simon Willison 在推特上收集在 GPT-4o 上推理失败,但在 o1 成功的例子,只找到了几个让他满意的案例。他认为从推理来看,o1 并不是 GPT-4o 的升级版。
他在博客中写道,o1 并不是简单的 GPT-4o 升级版,而是通过在成本和性能方面引入重大权衡,换取了更进一步的推理能力。
很明显,o1 和 GPT-4o 代表大模型的两个不同方向。OpenAI 也提到,以后会分别研发升级两个模型,这意味着,过去适用于 GPT-4o 的 Prompt 技巧未必同样适用于 o1。
实测
那么,o1 的表现到底怎么样呢?
在 Toqan 的排行榜中,我们可以看到 OpenAI O1 模型在 ProLLM StackUnseen 基准测试中表现出来的水平,比 SOTA 要高出 20%。
elvis 做了详细测试,他提到 o1-preview 能够一次性解决很多难以回答的问题,包括很多当前大型语言模型(LLMs)难以处理的数学问题。
他的完整测试影片已经上传YouTube,可以点击以下链接观看:
https://www.youtube.com/watch?v=xJJ2h3wQByg
OpenAI 首席研究官 Bob McGrew 在The Verge的采访中说,“从根本上说,o1 是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”雷峰网雷峰网(公众号:雷峰网)
o1-preview和o1 mini已经带给我们这么多惊喜,不敢想最后发布的o1到底能有多强悍,让我们拭目以待。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
神舟十九号航天员乘组太空归来后首次公开亮相

2025年7月9日下午,中国航天员科研训练中心在北京航天城举行神舟十九号乘组与记者见面会。这是航天员蔡旭哲、宋令东、王浩泽返回60余天后,首次面向媒体与公众正式公开亮相,并分享了183天太空驻留的经历
视频生成赛道再添“猛将”,智谱清影正式上线

年初Sora横空出世,验证了Scalling Law在视频生成方面的有效性。但Sora始终止步于公开的60秒demo,产品落地计划迟迟未有公开。随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角
商汤大模型的「5o」交互,普通人如何和 AI 过一天?

「雷峰网(公众号:雷峰网)」在刚刚结束的堪称「AI 界春晚」的世界人工智能大会WAIC 2024)上,「中国版GPT-4o」亮相,它是来自商汤科技发布的“日日新5o”——国内首个「流式交互」多模态大模
无问芯穹完成近 5 亿元 A 轮融资,累计融资近 10 亿元

9月2日,无问芯穹Infinigence AI)宣布完成近5亿元A轮融资,本轮融资联合领投方为社保基金中关村自主创新专项基金君联资本担任管理人)、启明创投和洪泰基金。跟投方包括联想创投、小米、软通高科
英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

作者丨赖文昕 马蕊蕾编辑丨陈彩娴大模型浪潮一起,被视为是大模型最佳载体的机器人,热度也随之飙升,「具身智能」这个在1950年由艾伦·图灵提出的概念,时隔75年再次成为了 AI 界的宠儿。2024年才过
黑神话手办炒到6000,AI自己做一个可行?

图:B站up主 黑板Black这两天不是在玩黑神话就是在刷黑神话的视频,而本人一直以来的怨念就是没抢到典藏版。这个怨念在刷到典藏版手办的开箱视频后达到了极致,而当我试图某鱼圆梦的时候,打开一看,好家伙
AI VC Radical Ventures 融资近 8 亿美元,李飞飞、Hinton支持;谷歌发布四款 AI 手机丨AI情报局

今日融资快报专注于 AI 的 VC Radical Ventures 融资接近 8 亿美元Radical Ventures是一家加拿大风险投资公司,已为新基金筹集了近 8 亿美元的资金,其资产管理规模
启明创投发布2024生成式AI十大展望

7月6日,由启明创投主办的2024世界人工智能大会WAIC)“启明创投·创业与投资论坛——超级模型、超级应用、超级机遇”在上海世博中心红厅成功举办。大语言模型、多模态模型、具身智能和生成式AI应用领域
牵手五大顶尖高校教授 “云阙智能”打造AIGC智囊团

大模型竞争已进入白热化阶段,盲目卷资源已不再是长久之计,AI 创业公司的可持续性和科学性则是更重要的考量因素。在这一背景下,背靠强大高校,有科研能力、学术资源和充足的后备人才作为补充,变得愈发重要。2
人形机器人「星尘智能」获数千万美元Pre

图片来源:星尘智能近日,AI机器人公司星尘智能Astribot)宣布完成数千万美元Pre-A轮融资,由经纬创投领投,道彤投资及清辉投资等产业资本跟投,老股东云启资本跟投。华兴资本担任独家财务顾问。本轮
最受欢迎开源大模型,为什么是通义?

开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的
AI 手术平台 Caresyntax 获 1.8 亿美元融资;智元发布 5 款商用人形机器人,开发者还能“0元购”丨AI情报局

今日融资快报AI手术平台Caresyntax获1.8亿美元C+轮融资caresyntax致力于促进特定医疗环境如外科手术、介入放射检查及产科)更加智能和安全。其推出的解决方案利用物联网、数据分析和人工