影片生成赛道再添“猛将”,智谱清影正式上线

2025-07-11 08:18:11 - 时尚


年初 Sora 横空出世,猛将验证了 Scalling Law 在影片生成方面的影片有效性。但 Sora 始终止步于公开的生成赛道上线朱某深夜录音视频流出 60 秒 demo,产物落地计划迟迟未有公开。再添智谱正式

 

随后的清影半年时间,不少“玩家”继续在AI影片生成赛道展开角逐,猛将并逐步实现落地。影片今年6月,生成赛道上线快手打“前锋”,再添智谱正式发布即可用的清影“可灵”成为国内影片生成赛道的“黑马”。

 

紧随其后,猛将国外知名 3D 建模平台 Luma AI 也高调入局,影片发布文生影片模型 ,生成赛道上线并宣布对所有客户免费开放使用,再添智谱正式再掀波澜。清影

 

昨日,快手进一步宣布全面开放内测,同时推进商业化,上线了会员付费体系。

 

而就在今日,智谱也正式上线了AI影片生成功能清影(Ying),正式入局文生影片及图生影片赛道,生成6秒影片仅需30秒的时间。首发测试期间,可以免费试用。朱某深夜录音视频流出

 

值得关注的是,智谱是目前国内超 200 亿估值的大模型公司中、第一家发布影片生成成果的创业团队。

 

此前,智谱在外界传递的工艺优势以文本、检索为先,Tier 1 中多模态能力被寄予众望的两家是月之暗面、MiniMax,但在影片生成上,智谱却先人一步,率先亮出了耀眼的成绩。

 

快速的多模态能力成长,不仅得益于行业的工艺进步,展露了智谱在多模态运算规则、算力储备上少为人关注的“肌肉”,更归功于智谱的扎实积累:

 

实际上,智谱在 all in 大模型之初就开始布局多模态,且在2022年率先发布了基于大模型的文本到影片生成模型 CogVideo。

 

智谱清影便是基于这一模型的升级版——CogVideoX 实现的。

 

“CogVideoX能将文本、时间、空间三个维度融合起来,参考了Sora的运算规则设计,它也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。我们将继续努力迭代,在后续版本中,陆续推出更高分辨率、更长时长的生成影片功能。”智谱 AI CEO 张鹏说道。

 

智谱“清影”正式上线

 

今日,智谱在Open Day 上正式发布“清影”后,当前,在智谱清言平台上,该功能已正式开放内测,支持PC、APP及小程序。

 

目前,清影所能生成的影片时长为 6s,渲染时长在 30s 左右。此外,所生成影片的分辨率已达1440p。

  影片生成赛道再添“猛将”,智谱清影正式上线

(链接:https://chatglm.cn/video )

 

从文生影片的具体操作来看,输入一段文字后(俗称“Prompt”),便可以自主选择想要生成的风格,包括卡通3D、黑白、油画、电影感等,再叠加清影自带的音乐,随即生成影片。

 

同步上线的还有图生影片功能,包括表情包梗图、广告制作、剧情创作、短影片创作等。同时,基于清影的“老照片动起来”小程序也将上线,清影在让老照片“复活”方面表现可观,且能够自动实现上色:

 影片生成赛道再添“猛将”,智谱清影正式上线

原图为未上色黑白版

 

https://sfile.chatglm.cn/testpath/video/6954cc06-7293-5144-a410-dc53c980a9b6_0.mp4

生成后影片(指令为:图中的奶奶带上头戴式耳机)

 

从生成影片的类型维度上看,清影主要在风景、动物、超现实、人文历史类需求上表现更好;在影片风格维度上,皮克斯风格、卡通风格、摄影风格、动漫风格均能够自主选择;镜头画面实现效果最好的是近景。

 

需要注意的是,在实操过程中,提示词作为关键一环,会对生成影片的效果产生一定作用。

 

例如,描述为“小男孩喝咖啡”与“摄影机平移,一个小男孩坐在公园的长椅上,手里拿着一杯热气腾腾的咖啡。他穿着一件蓝色的衬衫,看起来很愉快,背景是绿树成荫的公园,阳光透过树叶洒在男孩身上。”所达成的效果便不尽相同。

  

此外,为了使提示词更加清晰可执行,智谱还相应地提供了文生影片及图生影片的prompt智能体,辅助达成更好的影片生成效果。在图生影片界面,直接点击“帮我想一条”即可快速获得提示词。

 

从价格上来看,此次首发测试期间,所有客户均可免费使用。

 

当前,清影生成影片需要排队等待 1 分钟以上,而如需走 VIP 通道快速“提货”,则需要购买加速包。清影界面显示,解锁一天(24小时)的高速通道权益收费5元,付费199元解锁一年付费高速通道权益。 

 影片生成赛道再添“猛将”,智谱清影正式上线


值得一提的是,智谱还将成为国内首个面向开发者开放影片生成大模型的厂商。在 CogVideoX 上线开放平台后,开发者可以通过调用API的方式,体验和使用文生影片以及图生影片的模型能力。

 

依托自研提质增效

 

清影主要依托于智谱团队自研的影片生成大模型 CogVideoX。

 

而从工艺维度进行深度剖析来看,首先,智谱自研了一个高效的三维变分自编码器结构(3D VAE)来解决内容连贯性的问题,将原影片空间压缩至2%大小,以减少影片扩散生成模型的训练成本及训练难度。

 

模型结构方面,采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

 

同时,在时间维度上因果卷积的形式也使得模型具备影片编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

 

从工程部署的角度,基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数影片的编解码的能力。

 

其次,针对目前的影片信息大多缺乏对应的描述性文本或者描述质量低下的情况,智谱自研了一个端到端的影片理解模型,用于为海量的影片信息生成详细的、贴合内容的描述,增强模型的文本理解和指令遵循能力,使生成的影片更符合客户的输入,能够理解超长复杂prompt指令。

 

最后,智谱还自研了一个将文本、时间、空间三个维度全部融合起来的 transformer 架构,摒弃了传统的 cross attention 模块,在输入阶段就将文本 embedding 和影片 embedding concat 起来,以便更充分地进行两种模态的交互。

 

由于两种模态的特征空间存在很大差异,智谱进一步通过 expert adaptive layernorm 对文本和影片两个模态分别进行处理来弥补,更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

 

其中,注意力模块采用了 3D 全注意力机制,先前的研究通常使用分离的空间和时间注意力,或者分块时空注意力,需要大量隐式传递视觉信息,大大增加了建模难度,同时,也无法与现有的高效训练框架适配。位置编码模块设计了 3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起影片中的长程依赖。

 

多模态领域厚积薄发

 

多模态大模型工艺底座的支撑,让智谱发布“清影”,成为积淀已久的使然。2021年,智谱正式发布文生图大模型 CogView,次年迭代至 CogView2,并在今年发布 CogView3。

 

而实际上,早在2022年,基于CogView,智谱团队便已正式推出了文生影片大模型 CogVideo。

 

据介绍,CogVideo 采用多帧率分层训练策略生成高质量的影片片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的影片片段,并将这些影片片段逐层插值得到最终的影片片段。

 

过去一年多,智谱在多模态大模型增长上一路狂飙。2023 年3月,智谱推出了千亿开源基座对话模型 ChatGLM ,5月,又发布了图文对话大模型VisualGLM,随后,迅速在6 月、10 月推出迭代版的 ChatGLM2 与 ChatGLM3,并在今年 1 月迭代至 GLM-4 。

 

去年年末,智谱还推出了多模态对话模型 CogVLM,今年逐步迭代至 CogVLM2。

 

智谱 GLM 大模型团队认为,“文本是构建大模型的关键基础,下一步则应该把文本、图像、影片、音频等多种模态混合在一起训练,构建真正原生的多模态模型。”未来大模型的工艺突破方向之一就是原生多模态大模型。

 

当前,“多模态模型的探索还处于非常初级的阶段”。从生成影片的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。而从模型本身角度看,需要更具突破式创新的新模型架构,能够更高效压缩影片信息,更充分融合文本和影片内容,贴合客户指令的同时,让生成内容真实感更高。

 

而在生成式影片模型的研发中,Scaling Law 将继续在运算规则和信息两方面发挥作用。“我们积极在模型层面探索更高效的scaling方式。”张鹏表示,“随着运算规则、信息不断迭代,相信Scaling Law将继续发挥强有力作用。”雷峰网雷峰网(公众号:雷峰网)


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

影片生成赛道再添“猛将”,智谱清影正式上线

- END -

727

北京:优化小客车指标配置,更好支持家庭用车需求

北京:优化小客车指标配置,更好支持家庭用车需求

7月10日,《北京市深化改革提振消费专项行动方案》对外发布。《行动方案》提出,完善汽车消费新生态。优化小客车指标配置,更好支持家庭用车需求。培育壮大二手车经营主体,持续落实二手车销售“反向开票”、异地

上交大冷静文:模型发展需要和芯片、系统厂商协同

上交大冷静文:模型发展需要和芯片、系统厂商协同

作者丨朱可轩编辑丨陈彩娴近期,上海交通大学与 AI Infra 创企魔形智能联合研究团队在由 IEEE 计算机协会主办的 HPCA 2025International Symposium on Hig

舞台艺术生涯五十周年 名家新秀锦上添花 京剧名家张克将上演“看家好戏”

舞台艺术生涯五十周年 名家新秀锦上添花 京剧名家张克将上演“看家好戏”

来源标题:舞台艺术生涯五十周年 名家新秀锦上添花 京剧名家张克将上演“看家好戏”“需要有扎实的唱念做打基本功、深入理解人物内心世界,做到以情带声、以声传情,将人物的情感世界完整地呈现给观众

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧!”一时间,

价格战之后,智谱来到商业化的下一站

价格战之后,智谱来到商业化的下一站

「雷峰网(公众号:雷峰网)消息」刚刚过去的 5 月里,中国 AI 大模型领域掀起一场价格战,激起行业热议。这次价格战的两股势力分别是互联网大厂和大模型创业公司,以字节、阿里云、腾讯和智谱为主要参战代表

Bonree ONE 2025春季版全球发布

Bonree ONE 2025春季版全球发布

在数字化转型浪潮席卷全球的今天,企业业务系统愈加复杂,日志、指标、链路、事件等海量数据如同迷雾,遮蔽故障根因,拖慢业务响应。可观测性技术正从“看得见”向着“智能预判、自主决策”层级演进,已成为保障数据

谭咏麟引爆上海LIVERSE首演,音宇宙重塑演唱会奢侈品新定义

谭咏麟引爆上海LIVERSE首演,音宇宙重塑演唱会奢侈品新定义

来源标题: 谭咏麟引爆上海LIVERSE首演,音宇宙重塑演唱会奢侈品新定义270度环绕巨幕前,谭咏麟《卡拉永远OK》的旋律裹挟着4D全息影像倾泻而下,1200名观众无论身处哪个角落,都如同站在舞台中心

著名表演艺术家王昆诞辰100周年 成方圆郭蓉追忆艺术引路人

著名表演艺术家王昆诞辰100周年 成方圆郭蓉追忆艺术引路人

来源标题:著名表演艺术家王昆诞辰100周年 成方圆郭蓉追忆艺术引路人王昆演出资料图“对现在的年轻演员来说,王昆老师是一个历史人物,但对我们这代人来说,王昆老师是我们的引路人,是伯乐。&rd

MediaTek 举办天玑开发者大会 MDDC2024,携手产业伙伴共创生成式 AI 新生态

MediaTek 举办天玑开发者大会 MDDC2024,携手产业伙伴共创生成式 AI 新生态

2024年5月7日,MediaTek 举办天玑开发者大会2024MDDC 2024),本届大会以“AI予万物”为主题,深入研讨生成式 AI 技术为移动生态带来的变革与全新机遇。会上,MediaTek

上合组织国家电影节闭幕,《三大队》获最佳影片

上合组织国家电影节闭幕,《三大队》获最佳影片

来源标题:上合组织国家电影节闭幕,《三大队》获最佳影片电影节的电影市场活动上,嘉宾观看中国电影科技企业的虚拟影片。 新华社发7月6日晚,2025上合组织国家电影节闭幕式在重庆永川区举办。本届电影节集中

知情人士确认周杰伦即将入驻抖音

知情人士确认周杰伦即将入驻抖音

蓝鲸新闻7月8日电,就市场有关周杰伦即将入驻抖音的消息,抖音相关知情人士和蓝鲸科技透露,消息属实。记者 武静静)

“为一场演出赴一座城”,演唱会经济持续升温

“为一场演出赴一座城”,演唱会经济持续升温

“你总是心太软”“我等的船还不来,我等的人还不明白”,7月4日晚,任贤齐“齐迹”演唱会北京的首场演出在首都体育馆落下帷幕,歌迷们哼着熟悉的旋律从体育馆走出,兴奋劲儿久久不散。“我们去吃个夜宵吧,魏公村