新闻中心

Kaleido— 智谱AI开源的多主体视频生成框架

2025-12-13
浏览次数:
返回列表

Kaleido 是什么

kaleido 是智谱ai推出的开源多智能体视频生成框架,专注于攻克多主体视频生成中的核心挑战——主体身份一致性与背景信息解耦。该框架依托自主研发的数据构造流程及 r-rope(reference rotary positional encoding)机制,精准剥离主体特征与场景背景,在多人物、多物体共存的复杂动态画面中稳定保留各主体的视觉辨识度。目前,kaleido 在多项多主体视频生成基准测试中刷新 sota 表现,为学术界与工业界提供了一个高性能、可复现、完全开源的视频生成技术底座,显著降低高质量多主体内容创作门槛。

Figma Figma

Figma 是一款基于云端的 UI 设计工具,可以在线进行产品原型、设计、评审、交付等工作。

Figma 1371 查看详情 Figma

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Kaleido— 智谱AI开源的多主体视频生成框架Kaleido 的核心能力

  • 多主体身份稳定生成:支持在连续帧中精准维持多个独立主体(如不同人物、道具或动物)的外观、姿态与风格一致性,即使在密集交互、遮挡频繁或视角剧烈变化的场景下,仍能保障各主体特征不混淆、不变形。
  • 背景无关化建模:通过结构化建模策略主动抑制参考图像中背景元素对生成过程的干扰,使主体可自由迁移至任意新背景中,大幅提升生成结果的可控性与泛化能力。
  • 高保真动态输出:融合精细化数据预处理、分阶段训练调度与时空一致性正则,产出细节丰富、运动自然、时序连贯的高清视频,满足*级内容生产需求。
  • 多模态条件协同控制:兼容多张主体参考图 + 自然语言描述的联合输入方式,赋予创作者更强的语义引导能力与组合创意自由度。

Kaleido 的核心技术机制

  • 跨实例数据合成管线:构建了一套面向多主体解耦的端到端数据工程体系。该管线通过主体-背景跨样本重组(例如将A人物置于B场景)、背景语义修复、主体掩码精标、多尺度质量筛选等步骤,强制模型学习“仅关注主体本质特征”的表示范式,从根本上缓解训练数据中的背景耦合偏差。
  • R-RoPE(Reference Rotary Positional Encoding)机制:针对多参考图像引发的 Token 混淆问题,Kaleido 设计了具备空间位移特性的旋转位置编码方案。为每张参考图像分配专属 RoPE 偏置,使其 Token 在扩散 Transformer 的时空嵌入空间中占据唯一坐标,从而在注意力层显式区分“谁是参考主体”、“谁是待生成帧”,大幅增强多主体时空定位精度。
  • 轻量高效条件融合架构:基于 Diffusion Transformer 主干,采用序列拼接式条件注入策略——将多张参考图编码后的 Token 序列与视频噪声 Token 序列沿时间维度直接拼接,并辅以 R-RoPE 进行结构化标识,实现低开销、高鲁棒的多源条件融合。

Kaleido 的官方资源入口

  • 项目主页:https://www.php.cn/link/9e334886ffd1815f6e50841119fb3065
  • GitHub 代码库:https://www.php.cn/link/fcc3d4757401a955a260255ff217a10d
  • HuggingFace 模型页:https://www.php.cn/link/1a1b083d532028fdb17114d3776635b4
  • arXiv 论文原文:https://www.php.cn/link/6a6b9ab46b610b6bf661a9c766f195eb

Kaleido 的典型应用方向

  • 动画工业化生产:依据角色多角度参考图,批量生成符合设定的动作片段,加速原画→中间帧→成片的制作链路。
  • 品牌营销视频生成:快速组合多个产品、代言人及场景要素,生成适配不同投放渠道的定制化广告短片。
  • 沉浸式电商体验:驱动用户上传照片与商品图,实时生成其虚拟试穿/试戴全过程视频,提升转化率与参与感。
  • AI 虚拟人内容生态:为数字人主播、游戏 NPC 或社交机器人生成表情自然、肢体协调、响应及时的互动短视频流。
  • 交互式教学资源开发:构建涵盖教师讲解、学生操作、仪器反馈等多主体协同的教学演示视频,强化知识传递的具象性与代入感。

以上就是Kaleido— 智谱AI开源的多主体视频生成框架的详细内容,更多请关注其它相关文章!


# github  # 建设政府网站的公司  # 互动  # 自然语言  # 体视  # 安装包  # 结构化  # 多张  # 一键  # 多个  # 开源  # 短视频  # pdf  # ai  # 编码  # git  # 谁是  # 河北网站推广效果  # 海口网站排名优化软件  # 宁河网站seo推广方案  # 便利店如何营销引流推广  # 丰台母婴种草营销推广  # telegram营销推广软件  # 怎么推广交易网站赚钱  # 批量seo文章  # seo搜索需要技术吗 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: linux如何打开命令窗口  bugly是什么  命令行如何启动应用程序  焊机上power指示灯亮是什么意思  固态硬盘如何测试好坏  j*a数组对象怎么取  没网环境如何安装typescript  12306退票手续费最新规定  debian和ubuntu命令一样吗  ensp命令如何提示  如何在昇腾Ascend 910B上运行Qwen2.5教程  j*a map数组怎么用  固态硬盘如何拆除  如何管理员打开cmd命令行窗口  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程  如何安装tree命令  固态硬盘如何备份  光刻机的分类及其优缺点  ospf中交换机命令如何设置  跑步机power键是什么意思  苹果16自带配件有哪些  typescript变量是什么  如何退出数据库命令行  夸克用的什么服务器  计数器上power是什么意思  mac如何使用vi命令行  折叠屏手机好不好,耐不耐用  交管12123协议头不完整怎么弄  如何正确使用固态硬盘  如何winpe cmd命令  夸克高考为什么不靠谱  vue组件typescript怎么用  如何查询固态硬盘序列  双十一的哪一天最优惠呢  春运抢票最新技巧与方法  typescript接口怎么选  安全的ao3镜像网站链接入口  春运抢票如何快速抢到票  如何学好typescript  j*a中如何创建列表数组  j*a二数组怎么创建  typescript如何标记私有方法  typescript与es6学哪个  苹果16更新了哪些软件  主板如何禁用固态硬盘  电动车power灯亮是什么意思  typescript多久能学会  如何在命令行执行存储过程  typescript是什么时候出来的  typescript属性只读如何修改 

搜索