新闻中心
OccNeRF:完全无需激光雷达数据监督
写在前面&笔者的个人总结
近年来,自动驾驶领域的3D占据预测任务因其独特的优势受到学术界和工业界的广泛关注。该任务通过重建周围环境的3D结构,为自动驾驶的规划和导航提供详细信息。然而,目前主流的方法大多依赖于基于激光雷达(LiDAR)点云生成的标签来监督网络训练。 在最近的OccNeRF研究中,作者提出了一种自监督的多相机占据预测方法,名为参数化占据场(Parameterized Occupancy Fields)。该方法解决了室外场景中无边界的问题,并重新组织了采样策略。然后,通过体渲染(Volume Rendering)技术,将占据场转换为多相机深度图,并通过多帧光度一致性(Photometric Error)进行监督。 此外,该方法还利用预训练的开放词汇语义分割模型来生成2D语义标签,以赋予占据场语义信息。这种开放词汇语义分割模型能够对场景中的不同物体进行分割,并为每个物体分配语义标签。通过将这些语义标签与占据场结合,模型能够更好地理解环境并做出更准确的预测。 总之,OccNeRF方法通过参数化占据场、体渲染和多帧光度一致性的组合使用,以及与开放词汇语义分割模型的结合,实现了自动驾驶场景中的高精度占据预测。这种方法为自动驾驶系统提供了更多的环境信息,有望提高自动驾驶的安全性和可靠性。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

- 论文链接:https://arxiv.org/pdf/2312.09243.pdf
- 代码链接:https://github.com/LinShan-Bin/OccNeRF
OccNeRF问题背景
近年来,随着人工智能技术的飞速发展,自动驾驶领域也取得了巨大进展。3D 感知是实现自动驾驶的基础,为后续的规划决策提供必要信息。传统方法中,激光雷达能直接捕获精确的 3D 数据,但传感器成本高且扫描点稀疏,限制了其落地应用。相比之下,基于图像的 3D 感知方法成本低且有效,受到越来越多的关注。多相机 3D 目标检测在一段时间内是 3D 场景理解任务的主流,但它无法应对现实世界中无限的类别,并受到数据长尾分布的影响。
3D 占据预测能很好地弥补这些缺点,它通过多视角输入直接重建周围场景的几何结构。大多数现有方法关注于模型设计与性能优化,依赖 LiDAR 点云生成的标签来监督网络训练,这在基于图像的系统中是不可用的。换言之,我们仍需要利用昂贵的数据采集车来收集训练数据,并浪费大量没有 LiDAR 点云辅助标注的真实数据,这一定程度上限制了 3D 占据预测的发展。因此探索自监督 3D 占据预测是一个非常有价值的方向。
详解OccNeRF算法
下图展示了 OccNeRF 方法的基本流程。模型以多摄像头图像 作为输入,首先使用 2D backbone 提取 N 个图片的特征 ,随后直接通过简单的投影与双线性插值获 3D 特征(在参数化空间下),最后通过 3D CNN 网络优化 3D 特征并输出预测结果。为了训练模型,OccNeRF 方法通过体渲染生成当前帧的深度图,并引入前后帧来计算光度损失。为了引入更多的时序信息,OccNeRF 会使用一个占据场渲染多帧深度图并计算损失函数。同时,OccNeRF 还同时渲染 2D 语义图,并通过开放词汇语义分割模型进行监督。

Parameterized Occupancy Fields
Parameterized Occupancy Fields 的提出是为了解决相机与占据网格之间存在感知范围差距这一问题。理论上来讲,相机可以拍摄到无穷远处的物体,而以往的占据预测模型都只考虑较近的空间(例如 40 m 范围内)。在有监督方法中,模型可以根据监督信号学会忽略远处的物体;而在无监督方法中,若仍然只考虑近处的空间,则图像中存在的大量超出范围的物体将对优化过程产生负面影响。基于此,OccNeRF 采用了 Parameterized Occupancy Fields 来建模范围无限的室外场景。

OccNeRF 中的参数化空间分为内部和外部。内部空间是原始坐标的线性映射,保持了较高的分辨率;而外部空间表示了无穷大的范围。具体来说,OccNeRF 分别对 3D 空间中点的 坐标做如下变化:
其中 为 坐标,, 是可调节的参数,表示内部空间对应的边界值, 也是可调节的参数,表示内部空间占据的比例。在生成 parameterized occupancy fields 时,OccNeRF 先在参数化空间中采样,通过逆变换得到原始坐标,然后将原始坐标投影到图像平面上,最后通过采样和三维卷积得到占据场。
Multi-frame Depth Estimation
为了实现训练 occupancy 网络,OccNeRF选择利用体渲染将 occupancy 转换为深度图,并通过光度损失函数来监督。渲染深度图时采样策略很重要。在参数化空间中,若直接根据深度或视差均匀采样,都会造成采样点在内部或外部空间分布不均匀,进而影响优化过程。因此,OccNeRF 提出在相机中心离原点较近的前提下,可直接在参数化空间中均匀采样。此外,OccNeRF 在训练时会渲染并监督多帧深度图。
下图直观地展示了使用参数化空间表示占据的优势。(其中第三行使用了参数化空间,第二行没有使用。)

Semantic Label Generation
OccNeRF 使用预训练的 GroundedSAM (Grounding DINO + SAM) 生成 2D 语义标签。为了生成高质量的标签,OccNeRF 采用了两个策略,一是提示词优化,用精确的描述替换掉 nuScenes 中模糊的类别。OccNeRF中使用了三种策略优化提示词:歧义词替换(car 替换为 sedan)、单词变多词(manmade 替换为 building, billboard and bridge)和额外信息引入(bicycle 替换为 bicycle, bicyclist)。二是根据 Grounding DINO 中检测框的置信度而不是 SAM 给出的逐像素置信度来决定类别。OccNeRF
生成的语义标签效果如下:

刺鸟创客
一款专业高效稳定的AI内容创作平台
110
查看详情
OccNeRF实验结果
OccNeRF 在 nuScenes 上进行实验,并主要完成了多视角自监督深度估计和 3D 占据预测任务。
多视角自监督深度估计
OccNeRF 在 nuScenes 上多视角自监督深度估计性能如下表所示。可以看到基于 3D 建模的 OccNeRF 显著超过了 2D 方法,也超过了 SimpleOcc,很大程度上是由于 OccNeRF 针对室外场景建模了无限的空间范围。

论文中的部分可视化效果如下:

3D 占据预测
OccNeRF 在 nuScenes 上 3D 占据预测性能如下表所示。由于 OccNeRF 完全不使用标注数据,其性能与有监督方法仍有差距。但部分类别(如 drivable surface 与 manmade)已达到与有监督方法可比的性能。

文中的部分可视化效果如下:

总结
在许多汽车厂商都尝试去掉 LiDAR 传感器的当下,如何利用好成千上万无标注的图像数据,是一个重要的课题。而 OccNeRF 给我们带来了一个很有价值的尝试。

原文链接:https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA
以上就是OccNeRF:完全无需激光雷达数据监督的详细内容,更多请关注其它相关文章!
# 自动驾驶
# 网站建设系统哪家服务好
# seo肖司令
# seo 搬家
# seo分享大会
# 陪诊师营销有哪推广
# 巫山县网站推广公司电话
# 罗湖高端网站优化软件
# 闸北新网站优化
# 湖州网站排名优化方案
# 转换为
# 景中
# 所示
# 站上
# 采用了
# 腾讯
# 十大
# 这一
# 榜单
# 多相
# tome
# 3d
# 企业seo代码优化
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
a股等权平均市盈率是什么意思
笔记本如何使用固态硬盘
焊机上power指示灯亮是什么意思
如何将系统移到固态硬盘
苹果16有哪些可以设置
drawing是什么意思
typescript多久能学会
苹果16更新了哪些软件
typescript需要学多久
debug中如何用n命令命名程序文件名
如何设置sql命令
夸克*免费吗
折叠屏手机为什么凉凉
power在坐标轴中是什么意思
闲鱼上面的power是什么意思
爱奇艺会员qq登录可以几个人用?
语音聊天软件哪个好 语音聊天软件2025排行榜
苹果16如何预购
固态硬盘如何启动
typescript是做什么用的
43寸电视长宽多少厘米
多少毫安的充电宝可以带上飞机
树莓派命令行如何新建文件
shell如何执行sql脚本命令行
j*a怎么处理json数组
typescript中文怎么读
羽毛球拍power9是什么意思
选哪个折叠屏手机好用
单片机的速度怎么求
typescript怎么用
苹果16充电方式有哪些
pp是什么意思
什么是域名解析地址
wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享
vue怎么连接typescript
如何查询固态硬盘序列
grub命令如何进dos
vb中的datediff函数怎么用 VB中的DateDiff函数:详尽指南
如何用adb命令停用系统软件
苹果怎么没出5g手机
vs怎么编写typescript
一分钟等于多少秒
划水是什么意思
手机如何ip绑定域名解析
typescript怎么拼接
苹果16配置参数有哪些
固态硬盘如何显示
市盈率292是什么意思
苹果手机16新款颜色有哪些
如何在命令行执行存储过程


2024-02-07
浏览次数:次
返回列表