推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

2025-07-12 17:55:39 - 风点报

2025 年 1 月 20 日 Kimi k1.5 正式发布，推特伴随着工艺报告的热帖公布，有网友表示：“这应该是因为艺全球范围内，除 OpenAI 之外的作团公司首次实现 o1 正式版的多模态推理性能了吧！”

一时间，项工Kimi k1.5 成了话题王者。推特苏州理工大学偷拍评论

但在一个月后的热帖 2 月 24 日，X 上出现了一篇关于 Kimi k1.5 的因为艺工艺爆料帖，博主直言 k1.5 所用到的作团强化学习运算规则，其实是项工借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的工艺。

消息一出，推特瞬间吸引了数万人关注。热帖

推特热帖：k1.5 很牛，因为艺因为借鉴了 UCLA 与 CMU 合作团队的作团这项工艺

Kimi k1.5 背后的 SPPO 工艺

在这则爆料中，博主 Yue Wu 先是项工对 SPPO 进行了简单解释，并且附上了相关论文（https://arxiv.org/abs/2405.00675），简单来说，SPPO是一种自博弈运算规则，最初的动机来源于刻画广泛意义上的人类偏好，并且使用了如下图所示的平方损失函数：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的<strong>北京医科大学实拍全集</strong>这项工艺

值得一提的是，点开论文链接，你会发现原来 Yue Wu 和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

紧接着，他开始对 SPPO 工艺进行解析：

通过迭代求解上式中的 theta_t，我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率（红色部分）作为奖励，并用常数近似基线（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

让我们感兴趣的是，我们发现它与 RLHF 目标的策略梯度有着深层的联系：如果我们直接用普通的策略梯度优化 RLHF （人类反馈强化学习）目标会怎样？根据策略梯度定理，策略梯度实际上也具有平方损失形式（蓝色项是策略梯度中的基线）：

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

从数学上，我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体：

SPPO 中的胜率充当奖励函数（红色部分）。

分区函数项自然地成为（软）值函数（蓝色部分）。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

那么这到底意味着什么呢？

标准策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次，然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成！

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

上述分析揭示了大型语言模型（LLM）后训练阶段一个有趣的增长趋势：

离线 DPO（IPO、KTO 等）取代 RLHF（奖励模型 + 强化学习）

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

鉴于 GRPO（Deepseek-R1）和平方损失（Kimi k1.5）的成功，端到端强化学习的强大作用愈发凸显，或许在大型语言模型（LLM）后训练阶段无需额外技巧——价值函数、广义优势估计（GAE），甚至梯度裁剪都无需使用。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

另一个简单但有趣的发现是，他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

在我们后续的研究 GPO 中，我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度，但它是以迭代的方式进行的。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

SPPO 工艺背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 工艺外，Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授，博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授，目前以博士后研究员的身份在普林斯顿大学机器智能实验室继续着自己的科研之路。推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

除此之外，2023 年至今他一共参与发布了 9 篇 Paper，其中 3 篇均为第一作者。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

强大的学术背景之外，Wu Yue 的实习经历也非常加分。2022 年至 2024 年，他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间，Wu Yue 从事个性化联邦学习研究，并开发了一种基于混合模型的方法，该方法被 ICML 2023 接受发表；在字节美国 AI lab 时，他专注于药品发现领域的多构象生成，将分子动力学的物理先验纳入基于扩散的生成模型，相关成果被 ICML 2024 接受；来到 Meta 后，Wu Yue 又致力于词汇级别奖励建模和新架构设计，用于一般人类偏好和一般偏好优化，为生成式机器智能的增长做出了贡献。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺雷峰网(公众号：雷峰网)还了解到，与他同为第一作者的 Zhiqing Sun ，目前已经从 CMU 毕业，并在今年 2 月加入 OpenAI。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项工艺

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

- END -

672

60岁大叔扮女装与千余人发生亲密行为？警方通报

60岁大叔扮女装与千余人发生亲密行为？警方通报

2025-07-12 17:54

南京警方7月8日发布警情通报：近日，江宁警方接到群众报警称其隐私视频被他人传播至互联网。江宁警方立即开展调查并于7月5日将犯罪嫌疑人焦某某抓获归案。经查，焦某某男，38岁，外省来宁人员）假扮女性，相约

《船山先生》：追索王夫之“成贤入圣”之路

《船山先生》：追索王夫之“成贤入圣”之路

2025-07-12 17:33

来源标题：《船山先生》：追索王夫之“成贤入圣”之路近期湖南卫视与芒果TV联合推出的纪录片《船山先生》，讲述了明末清初思想家王夫之的传奇人生。该片深入挖掘这位思想大家的精神世界，以创新的方式实现了中华传

文泰一性侵案一审宣判获刑3年半

文泰一性侵案一审宣判获刑3年半

2025-07-12 17:29

7月10日，据媒体援引韩媒报道，前NCT成员文泰一音译，Moon Tae-il）涉特殊准强奸案今日一审宣判。他被判3年6个月有期徒刑，被当庭拘留。此外，法院要求他完成40小时性暴力治疗课程、公开告知身

徽风皖韵绕濠江经典黄梅戏澳门上演

徽风皖韵绕濠江经典黄梅戏澳门上演

2025-07-12 17:12

来源标题：徽风皖韵绕濠江经典黄梅戏澳门上演新华社澳门5月25日电记者齐菲、刘刚）第五届粤港澳大湾区中国戏剧文化节之澳门—安徽黄梅戏文化周正在此间举行。中国戏剧梅花奖“二度梅&

“寒冬”还是“拂晓”？第四范式成功上市率先交卷

“寒冬”还是“拂晓”？第四范式成功上市率先交卷

2025-07-12 17:02

作者丨孙溥茜编辑丨陈彩娴AI科技评论消息，今天，第四范式以“6682”为股票代码，正式在香港联合交易所挂牌上市。第四范式是从去年年底大模型浪潮兴起以来首家成功上市的国内AI公司。值得注意的是，第四范式

神舟十九号航天员乘组太空归来后首次公开亮相

神舟十九号航天员乘组太空归来后首次公开亮相

2025-07-12 16:45

2025年7月9日下午，中国航天员科研训练中心在北京航天城举行神舟十九号乘组与记者见面会。这是航天员蔡旭哲、宋令东、王浩泽返回60余天后，首次面向媒体与公众正式公开亮相，并分享了183天太空驻留的经历

商务部回应美商务部长称可能于8月初与中方谈判代表会面

商务部回应美商务部长称可能于8月初与中方谈判代表会面

2025-07-12 16:38

财联社7月10日电，据日月谭天，美商务部长称可能于8月初与中方谈判代表会面。对此，中国商务部新闻发言人何咏前10日在新闻发布会上回应表示，目前，双方在多个层级就经贸领域各自关切保持密切沟通。相关新闻美

男演员身份证照片引热议，证件照怎样拍才规范？

男演员身份证照片引热议，证件照怎样拍才规范？

2025-07-12 16:30

近日，有网友表示在上海一公园捡到了演员金世佳的身份证，喊话“金世佳你身份证掉了”，相关话题登上微博热搜。▲图片来自某社交媒体截图▲图片来自微博截图7月6日下午，@金世佳工作室回应身份证丢失一事：已联

吉祥航空通报一航班发动机启动阶段出现机械故障

吉祥航空通报一航班发动机启动阶段出现机械故障

2025-07-12 16:25

7月10日，@吉祥航空发布关于7月9日HO1860航班情况的说明：7月9日，公司广州飞往上海浦东的HO1860航班未能按时起飞，在发动机启动阶段出现机械故障，机组按程序处置滑回航站楼执行排故工作，为

网易云音乐升级Beat创作者扶持，全免佣金+超高激励金上线

网易云音乐升级Beat创作者扶持，全免佣金+超高激励金上线

2025-07-12 16:03

来源标题：网易云音乐升级Beat创作者扶持，全免佣金+超高激励金上线近日，网易云音乐正式推出BEATSOUL激励计划，推出“播放分成+云梯激励+年度奖金”三重支持体系，为Bea

多地官宣：音乐节可在现场领结婚证

多地官宣：音乐节可在现场领结婚证

2025-07-12 15:27

每经编辑|何小桃音乐节可以在现场领证。据新疆广播电视台报道，7月12日至7月13日，2025新疆超级草莓音乐节将在乌鲁木齐市水磨沟区天山明月城火热开唱。此次音乐节不仅有超燃的音乐盛宴，更有一系列“花式

《少年书院行》：用青春脚步丈量文明厚度

《少年书院行》：用青春脚步丈量文明厚度

2025-07-12 15:15

来源标题：《少年书院行》：用青春脚步丈量文明厚度在文化类节目不断探索年轻化、可视化、沉浸式表达的新语境中，由湖南卫视与芒果TV联合推出的《少年书院行》以鲜活的少年视角与行走式的叙事模式，开辟出一条传统