新闻中心

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

2024-03-22
浏览次数:
返回列表

openai 的 sora 在今年 2 月惊艳亮相,为文本生成视频带来了全新的突破。它可以根据文字输入创作出仿佛来自好莱坞的逼真且充满想象力的影片,让人叹为观止。许多人都对这一创新赞叹不已,认为openai 的表现实现了巅峰之作。

Sora引发的热潮持续不减,同时研究者们也开始认识到AI视频生成技术的巨大潜力,这一领域正受到越来越多人的关注。

然而,当前 AI 视频生成领域,大部分算法研究将重点放在了通过文本提示生成视频,对于多模态输入,特别是图片与文本结合的场景,并没有进行深入探讨或广泛应用。这种偏向降低了生成视频的多样性和可控制性,限制了从静态图像到动态视频的转换能力。

另一方面,现有的大部分视频生成模型对生成视频内容缺乏可编辑性的支持,无法满足用户对生成视频进行个性化调整的需求。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

提示:把熊猫变成熊,并且让它跳舞。(Change the panda to a bear and make it dance.)

本文,来自 SEEKING AI、哈佛大学、斯坦福大学以及北京大学的研究者们共同提出了一种创新的基于图片 - 文本的视频生成编辑统一框架,名为 WorldGPT。该框架建立在 SEEKING AI 与上述顶尖高校共同研发的 VisionGPT 框架之上,不仅能够实现由图片和文本直接生成视频的功能,还支持通过简单的文本提示(prompt)对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。

该框架的另一个显著优势在于其无需进行训练,这使得技术门槛大幅降低,同时也使得部署和使用变得非常方便。用户可以直接使用模型进行创作,而无需关注背后繁琐的训练过程。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

  • 论文地址:https://arxiv.org/pdf/2403.07944.pdf
  • 论文标题:WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

接下来我们看看 WorldGPT 在多种复杂视频生成控制场景中的示例展示。

背景替换 + 生成视频

提示:「一支船队在呼啸的风暴中奋力前行,他们的船帆在无情风暴的巨浪中航行。(A fleet of ships pressed on through the howling tempest, their sails billowing as they n*igated the towering w*es of the relentless storm.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

背景替换 + 风格化 + 生成视频

提示:「一条可爱的龙在城市的街道上喷火。(A cute dragon is spitting fire on an urban street.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

对象替换 + 背景替换 + 生成视频

提示:「一个赛博朋克风格的机器人在霓虹灯照亮的反乌托邦城市景观中疾驰,高耸的全息图和数字衰变的反射投影到其光滑的金属机身上。(A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.)」

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

从上面的示例可以看出,WorldGPT 在面对复杂视频生成指令时具有以下优点:

1)较好的保持了原输入图像的结构和环境;

2)生成符合图片 - 文本描述的生成视频,展现出了强大的视频生成定制能力;

3)可以通过 prompt 对生成视频进行定制化编辑。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

了解更多有关 WorldGPT 的原理、实验和用例的信息,请查看原论文。

VisonGPT

前面已经提到,WorldGPT 框架建立在 VisionGPT 框架之上。接下来我们简单介绍一下有关 VisionGPT 的信息。

VisionGPT 是由 SeekingAI、斯坦福大学、哈佛大学及北京大学等世界顶尖机构联合研发,是一款开创性的开放世界视觉感知大模型框架。该框架通过智能整合和决策选择最先进的 SOTA 大模型,提供了强大的 AI 多模态图像处理功能。

VisionGPT 的创新之处主要体现在三个方面:

  1. 首先,它以大型语言模型(例如 LLaMA-2)为核心,将用户的 prompt 请求分解成详细的步骤需求,并自动化调用最合适的大模型进行处理;
  2. 其次,VisionGPT 自动接受并融合来自多个 SOTA 大模型产生的多模态输出,从而生成针对用户需求的图像处理结果;
  3. 最后,VisionGPT 具有极高的灵活性和多功能性,无需用户对模型进行微调,就能够支持包括文本驱动的图像理解、生成、编辑在内的广泛应用场景。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

  • 论文地址:https://arxiv.org/pdf/2403.09027.pdf
  • 论文标题:VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

VisionGPT 用例

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

从上面可以看出,VisionGPT 无需 fine-tune,即可以轻松实现 1)开放世界的实例分割;2)基于 prompt 的图像生成和编辑功能等。VisionGPT 的工作流程如下图所示。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

更多详细信息可以参考论文。

VisionGPT-3D

此外,研究者们还推出了 VisionGPT-3D,旨在解决从文本到视觉元素转换中的一大挑战:如何高效、准确地将 2D 图像转换成 3D 表示。在这个过程中,经常面临算法与实际需求不匹配的问题,从而影响最终结果的质量。VisionGPT-3D 通过整合多种最先进的 SOTA 视觉大模型,提出了一个多模态框架,优化了这一转换流程。其核心创新点在于自动选择最适合的视觉 SOTA 模型和 3D 点云创建算法,并且根据文本提示等多模态输入生成最符合用户需求的输出的能力。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

  • 论文地址:https://arxiv.org/pdf/2403.09530v1.pdf
  • 论文标题: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

了解更多信息,请参考原论文。

以上就是WorldGPT来了:打造类Sora视频AI智能体,「复活」图文的详细内容,更多请关注其它相关文章!


# 博客  # 均安网站优化计划书  # 福州网站建设 时时在  # 去哪儿网网站建设  # 绍兴网络营销推广推荐  # 全网营销整合推广排名  # 昆明网站seo优化哪家排名靠前  # 推广与营销区别在哪儿  # 优化排名推广网站蜘蛛屯  # 绥滨网站推广电话  # 长沙正规网站建设价钱  # 最先进  # 可以看出  # 入门  # 提出了  # 北京大学  # 哈佛大学  # 多模  # 斯坦福大学  # 这一  # 来了  # sora  # ai agent  # llama  # 视频生成 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 台机如何安装固态硬盘  python 如何执行linux命令  安装固态硬盘如何设置  春运抢票要用抢票软件吗  awful是什么意思  什么是base64  学typescript有什么用  轩逸e-power挡位b是什么意思  一天多少分钟  冰柜power是什么意思这个黄灯怎么不亮  域名解析后为什么要进行域名备案  夸克投屏为什么那么卡  市盈率回落是什么意思  kingston是什么_kingston是什么意思  单片机程序负数怎么表示  5G手机导航怎么旋转  5r是多少钱  typescript是什么软件  虽千万人吾往矣什么意思  苹果手机16有哪些功能  单片机怎么读取电流值  春运抢票多久能知道成功  苹果手机16新款颜色有哪些  怎么用typescript 写js  宵衣旰食是什么意思  单片机串口接收怎么实现  得物上怎么样申请退换货 得物上退换货详细指南(包含海外)  域名批量查询工具有哪些  望远镜上power是什么意思  ip dhcp是什么意思  苹果16有哪些亮点功能  单片机显存怎么设置最佳  哪些框架支持typescript  安卓手机怎么打开5g  如何修改cad中的命令  为什么都用typescript  平仓是什么意思?  单片机怎么做组合  如何查看固态硬盘分区  记录仪power灯亮是什么意思  固态硬盘如何拆除  语音聊天软件哪个好 语音聊天软件2025排行榜  苹果16主打颜色有哪些  镜像ao3链接入口  vivo手机爱奇艺怎么投屏到电视操作步骤  交管12123协议头不完整是什么原因  商誉是什么意思  ka是什么意思  如何使用ping命令  苹果怎么没出5g手机 

搜索