新闻中心
两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
只需2张图片,无需测量任何额外数据——
当当,一个完整的3D小熊就有了:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
这个名为DUSt3R的新
工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。

有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟!
(除了3D图,深度图、置信度图和点云图它都能一并给出)

惊得这位朋友直呼:
大伙先忘掉sora吧,这才是我们真正看得见摸得着的东西。

实验显示,DUSt3R在单目/多视图深度估计以及相对位姿估计三个任务上,均取得SOTA。
作者团队(来自芬兰阿尔托大学+N*ER LABS人工智能研究所欧洲分所)的“宣语”也是气势满满:
我们就是要让天下没有难搞的3D视觉任务。
所以,它是如何做到?
“all-in-one”
对于多视图立体重建(MVS)任务来说,第一步就是估计相机参数,包括内外参。
这个操作很枯燥也很麻烦,但对于后续在三维空间中进行三角测量的像素不可或缺,而这又是几乎所有性能比较好的MVS算法都离不开的一环。
在本文研究中,作者团队引入的DUSt3R则完全采用了截然不同的方法。
它不需要任何相机校准或视点姿势的先验信息,就可完成任意图像的密集或无约束3D重建。
在此,团队将成对重建问题表述为点图回归,统一单目和双目重建情况。
在提供超过两张输入图像的情况下,通过一种简单而有效的全局对准策略,将所有成对的点图表示为一个共同的参考框架。
如下图所示,给定一组具有未知相机姿态和内在特征的照片,DUSt3R输出对应的一组点图,从中我们就可以直接恢复各种通常难以同时估计的几何量,如相机参数、像素对应关系、深度图,以及完全一致的3D重建效果。

(作者提示,DUSt3R也适用于单张输入图像)
具体网络架构方面,DUSt3R基于的是标准Transformer编码器和解码器,受到了CroCo(通过跨视图完成3D视觉任务的自我监督预训练的一个研究)的启发,并采用简单的回归损失训练完成。
如下图所示,场景的两个视图(I1,I2)首先用共享的ViT编码器以连体(Siamese)方式进行编码。
刺鸟创客
一款专业高效稳定的AI内容创作平台
110
查看详情
所得到的token表示(F1和F2)随后被传递到两个Transformer解码器,后者通过交叉注意力不断地交换信息。

最后,两个回归头输出两个对应的点图和相关的置信图。
重点是,这两个点图都要在第一张图像的同一坐标系中进行表示。
多项任务获SOTA
实验首先在7Scenes(7个室内场景)和Cambridge Landmarks(8个室外场景)数据集上评估DUSt3R在绝对姿态估计任务上性能,指标是平移误差和旋转误差(值越小越好)。
作者表示,与现有其他特征匹配和端到端方法相比,DUSt3R表现算可圈可点了。

因为它一从未接受过任何视觉定位训练,二是在训练过程中,也没有遇到过查询图像和数据库图像。
其次,是在10个随机帧上进行的多视图姿态回归任务。结果DUSt3R在两个数据集上都取得了最佳效果。

而单目深度估计任务上,DUSt3R也能很好地hold室内和室外场景,性能优于自监督基线,并与最先进的监督基线不相上下。

在多视图深度估计上,DUSt3R的表现也可谓亮眼。

以下是两组官方给出的3D重建效果,再给大伙感受一下,都是仅输入两张图像:
(一)

(二)

网友实测:两张图无重叠也行
有网友给了DUSt3R两张没有任何重叠内容的图像,结果它也在几秒内输出了准确的3D视图:

(图片是他的办公室,所以肯定没在训练中见过)

对此,有网友表示,这意味着该方法不是在那进行“客观测量”,而是表现得更像一个AI。

除此之外,还有人好奇当输入图像是两个不同的相机拍的时,方法是否仍然有效?
有网友还真试了,答案是yes!

传送门:
[1]论文https://arxiv.org/abs/2312.14132
[2]代码https://github.com/n*er/dust3r
以上就是两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora的详细内容,更多请关注其它相关文章!
# 数据
# sora
# 两张
# 这款
# 是在
# 模型
# 资阳网站优化代理商
# 网站推广策划书的启发
# 甘孜网站建设外包
# 武汉网站建设路
# 餐饮视觉网站建设方案
# 怎么能学好seo
# 葫芦岛网站推广价格
# 安顺网站建设平台
# 宜昌房地产网站推广方案
# 河南网站建设团队招聘
# 参数设置
# 结构化
# 如下图
# 开源
# 室外
# 所示
# 法相
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
科技型企业成长"十步法"
爱玛电动车power模式是什么意思
空调主板单片机怎么拆开
如何进入cmd命令行
问一下市盈率是什么意思
迅达热水器显示power是什么意思
汽车的type-c接口是什么
nfc近场通讯功能是什么意思
固态硬盘如何判断大小
夸克解压什么意思
固态硬盘2m如何修复
j*a数组对象怎么取
市盈率ttm市盈动静是什么意思
单片机加法程序怎么写
苹果16有哪些变化尺寸
区块链的热闹将何去何从?
油烟机上的power是什么意思
typescript接口怎么选
typescript中如何定义json
5G类似微信的聊天软件有哪些
为什么ai老是说链接面板中缺少某些文件
夸克po什么意思
云淡风轻什么意思
vi命令如何使用方法
如何提高固态硬盘性能
typescript怎么使用map
固态硬盘如何显示
ssd固态硬盘如何安装
gs是什么意思
early什么意思
typescript中范围如何设定
如何辨别固态硬盘坏块
calm是什么意思
python如何命令行换行
j*a怎么保存到数组
16苹果有哪些机型
bc是什么意思
位置控制单片机怎么用的
安全的ao3镜像网站链接入口
折叠屏手机哪个卖得最好
折叠屏手机哪个有性价比
华为的nfc功能是什么意思
j*a怎么存放数组中
access 如何输入命令
望远镜上power是什么意思
12306退票手续费最新规定
阿里云盘扩容是什么_扩容阿里云盘方法是什么教程
j*a数组元素怎么用
awful是什么意思
一分钟等于多少秒


2024-03-07
浏览次数:次
返回列表