新闻中心

MineWorld— 微软研究院开源的实时交互式世界模型

2025-04-20
浏览次数:
返回列表

mineworld是由微软研究院开源的一个基于《我的世界》(minecraft)的实时交互式世界模型。它利用视觉-动作自回归transformer架构,将游戏场景和动作转化为离散的token id,通过预测下一个token进行训练。模型采用了并行解码算法,实现了每秒4至7帧的生成速度,支持实时互动。mineworld在视频质量、可控性和推理速度方面都优于现有模型,如oasis。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MineWorld— 微软研究院开源的实时交互式世界模型

MineWorld的主要功能包括:

  • 高生成质量:通过视觉-动作自回归Transformer,MineWorld能够根据视觉和动作生成连贯且高保真的游戏帧。
  • 强可控性:模型在动作跟随能力的基准测试中表现出色,能够精确且一致地根据输入动作生成游戏场景。
  • 快速推理速度:利用并行解码算法,模型能够以每秒4至7帧的速度生成图像,支持实时互动。
  • 作为游戏代理:在训练过程中,MineWorld同时预测游戏状态和动作,可以作为独立的游戏代理进行自主游戏。
  • 实时交互能力:用户可以通过Web演示或本地运行与模型进行实时互动,选择初始帧、控制相机移动并执行游戏动作。

MineWorld的技术原理如下:

Whimsical Whimsical

Whimsical推出的AI思维导图工具

Whimsical 182 查看详情 Whimsical
  • 视觉-动作自回归Transformer:MineWorld通过将游戏场景和玩家动作转化为离散的token序列,实现视觉和动作的联合建模。具体包括:
    • 图像标记器(Visual Tokenizer):采用VQ-VAE架构,将游戏场景分割为离散的视觉标记。标记器从预训练的检查点开始,在Minecraft数据集上进行微调,以实现高质量的图像重建。
    • 动作标记器(Action Tokenizer):将玩家的连续动作(如鼠标移动)量化为离散的标记,将离散动作(如前进、攻击)归类为不同的类别,每个类别由唯一的标记表示。
    • Transformer解码器:采用LLaMA架构,接收交错拼接的视觉标记和动作标记序列作为输入,通过下一个标记预测进行训练。解码器能够同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。
  • 并行解码算法:为了实现实时交互,MineWorld开发了一种并行解码算法。算法利用相邻图像标记之间的空间依赖性,同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比,显著提升了生成速度,使模型能够在不同规模下达到每秒4至7帧的生成速度。
  • 训练:模型通过下一个标记预测进行训练,学习游戏状态之间的动态演变规律以及动作与状态之间的关联。
  • 推理:在推理阶段,模型根据输入的当前游戏状态和动作,生成后续的游戏场景。并行解码算法的应用使得模型能够快速生成高质量的游戏帧。
  • 评估指标:MineWorld提出了新的评估指标,用于评估生成场景的视觉质量和动作跟随能力。例如,通过比较生成场景中预测的动作与输入的真实动作之间的准确性,来量化模型的可控性。

MineWorld的项目地址包括:

  • Github仓库:https://www.php.cn/link/299bb6d67f1bf42897291cc8f4aa3a95
  • HuggingFace模型库:https://www.php.cn/link/c55da58933dadf65138cee2fe9a4169e
  • arXiv技术论文:https://www.php.cn/link/fd7b27cb8f482d541add663d421a0b5d

MineWorld的应用场景包括:

  • 具身智能研究:MineWorld提供了一个高保真、可交互的虚拟环境,适合用于具身智能的研究。研究人员可以用模型训练智能体,学习在虚拟环境中执行任务,如物体定位导航和环境探索。
  • 强化学习训练:MineWorld的实时交互能力和高生成质量使其成为强化学习训练的理想平台。研究人员可以用模型快速生成大量的训练数据,帮助智能体在模拟环境中学习最优策略。
  • 游戏代理开发:由于MineWorld在训练过程中同时预测游戏状态和动作,具备作为游戏代理的潜力。给定初始游戏状态和动作,模型可以迭代生成未来的状态和动作,模拟长期的游戏过程。
  • 实时交互式模拟:MineWorld的快速推理速度(每秒4至7帧)能支持与游戏玩家的实时交互。
  • 视频生成与编辑:MineWorld能够生成高质量、连贯一致的游戏视频,可用于视频内容创作,例如生成游戏预告片和教学视频。

以上就是MineWorld— 微软研究院开源的实时交互式世界模型的详细内容,更多请关注其它相关文章!


# 安装包  # 怎样开通淘宝店铺网站推广  # 大连seo整站  # 海南seo优化哪里不错  # 营销推广的方案包括  # 商品推广单页网站源码  # 眉山银川网站推广  # 拼多多农产品营销推广方案  # 重庆綦江网站优化费用  # 崇明区推广网站价格对比  # 吉林seo排名怎样收费  # 鼠标  # git  # 过程中  # 一键  # 转化为  # 可以用  # 高质量  # 开源  # 互动  # 微软  # oasis  # llama  # 我的世界 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 统计学中power值是什么意思  充电器上的power是什么意思  学typescript有什么用  夸克po什么意思  如何给电脑加装固态硬盘  怎么更新typescript  折叠手机屏易坏吗为什么  单片机加法程序怎么写  typescript需要学多久  如何安装m.2固态硬盘  j*a如何运行curl命令行  手机如何ip绑定域名解析  如何安装固态硬盘win10  j*a怎么创建json数组  如何寻找和修复无法在 AI 中找到文件的问题  萝卜快跑的收费标准是什么  如何提高固态硬盘速度  笔记本如何使用固态硬盘  单片机for循环怎么用  md5解密是什么意思  电脑如何查看固态硬盘  服务器系统怎么装  苹果16系统多了哪些  300秒等于多少分钟  j*a怎么讲数组打印  如何查找固态硬盘  花呗征信不好如何恢复 如何修复不良的花呗征信  win10系统如何打开cmd命令  typescript适合什么用  如何修改域名解析  如何加装固态硬盘  苹果怎么没出5g手机  苹果16新增哪些功能  juice是什么意思  阿里云盘的会员怎么用  苹果16哪些功能好用  vue项目如何用typescript  固态硬盘如何启动  税负是什么意思  对应市盈率是30X是什么意思  sql isnull函数如何使用  选哪个折叠屏手机好  怎么下载360桌面壁纸  ts什么意思  typescript参数怎么用  春运抢票失败怎么抢  如何自己加装固态硬盘  怎么在爱奇艺中投屏到电视最新方法  阿里云盘扩容工具怎么用  hp固态硬盘如何安装 

搜索