推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025-07-11 08:57:13 - 速站
2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着工艺报告的热帖公布,有网友表示:“这应该是因为艺全球范围内,除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧!”
一时间,项工Kimi k1.5 成了话题王者。推特
但在一个月后的热帖 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖,博主直言 k1.5 所用到的作团强化学习运算规则,其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。
消息一出,推特瞬间吸引了数万人关注。热帖
Kimi k1.5 背后的 SPPO 工艺
在这则爆料中,博主 Yue Wu 先是项工对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈运算规则,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:
值得一提的是,点开论文链接,你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。
紧接着,他开始对 SPPO 工艺进行解析:
通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。
让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):
从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:
SPPO 中的胜率充当奖励函数(红色部分)。
分区函数项自然地成为(软)值函数(蓝色部分)。
那么这到底意味着什么呢?
标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。
SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。
这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!
上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的增长趋势:
离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)
迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法
更加精细的迭代 → 回归到在线强化学习
鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。
另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。
在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。
SPPO 工艺背后的科研大牛
除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。
除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。
强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药品发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式机器智能的增长做出了贡献。
雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
“寒冬”还是“拂晓”?第四范式成功上市率先交卷

作者丨孙溥茜编辑丨陈彩娴AI科技评论消息,今天,第四范式以“6682”为股票代码,正式在香港联合交易所挂牌上市。第四范式是从去年年底大模型浪潮兴起以来首家成功上市的国内AI公司。值得注意的是,第四范式
当「养老」遇上 AI 大模型

作者:赖文昕编辑:陈彩娴鲜少有人关注到这样一个现象:在大模型的发展初期,「研发」与「产品」往往来自同一个群体——程序员。由于大模型技术的系统复杂,新一代大模型产品经理的数量稀少,程序员往往既是技术、又
AIGC:我不是元宇宙的附庸品

“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。01 来自机器的审视在过去短短的两年间,算法从业者王超岳有过两次被 AI 震撼住的时刻。一
万兴科技正式布局AIGC赛道 首款AIGC产品万兴AI绘画开启公测

11月10日,2022全球元宇宙大会“数字人技术与应用场景专场论坛”举办,元宇宙创作者经济A股上市公司万兴科技300624.SZ)在论坛中正式宣布与优链时代达成战略合作。结合万兴科技在视频领域的长期积
相声演员杨少华去世,曾登上春晚

9日下午,记者从相声演员苗阜、天津知名相声主持人小佀老师处获悉,相声演员杨少华去世,享年94岁。苗阜在个人微博悼念杨少华:一辈子了!走好杨少华,1931年出生于北京,中国内地相声男演员。杨少华早年家庭
李彦宏在百度世界2023:我们即将进入一个AI原生的时代

“大模型带来的智能涌现,这是我们开发AI原生应用的基础。”10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本,并带来新搜索
用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

作者:赖文昕编辑:郭思、陈彩娴说起扩散模型生成的东西,你会立刻想到什么?是OpenAI的经典牛油果椅子?是英伟达Magic3D生成的蓝色箭毒蛙?还是斯坦福大学和微软Folding Diffusion生
问鼎「AI 之巅」,第四届全国人工智能大赛决赛在深举行

近年来,中国人工智能产业的科技浪潮乘风渐起,从“技术研发”到“成果转化”再到“赋能应用”,众多行业因为AI的嵌入而焕发新的光彩。以赛事为牵引,为中国人工智能产业发现人才,挖掘创新是全国人工智能大赛一直
RASP技术,"入侵者"如何成为网络安全"守护神"?

作者丨赖文昕编辑丨陈彩娴应用安全危机四伏2024年的网络安全形势依旧严峻。2月,澳大利亚电信公司 Tangerine 遭遇网络攻击,导致23万人的个人信息泄露;3月,人工智能图像编辑工具 Cutout
港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高

探索 AI 和医学结合更多的可能性,是人工智能发展的一个重要命题。AutoML 作为近年来备受瞩目的概念之一,被视为解决算法工程师来提高训练模型效率的一个工具,在工业、农业、零售等诸多场景中均有被使用
从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型

【雷峰网(公众号:雷峰网)】雨果曾经说过:“开启人类智慧宝库的三把钥匙,即数字、字母、音符。”音乐早已成为人类表达情感的最佳载体。但音乐创作是一件门槛很高的事情,因为音乐创作不是某一个人的独角戏,而一
产业跑进数字世界,要先迈过安全这道坎

当数字化转型成为时代的浪潮,企业的发展已经无法脱离数字行为、单打独斗。各类商业场景与链接的裂变与新生,驱动产业协作数字化的不断升级。与此同时,参与数字活动的安全与风险,也成为企业融入新产业协作模式的阻