新闻中心

OccNeRF:完全无需激光雷达数据监督

2024-02-07
浏览次数:
返回列表

写在前面&笔者的个人总结

近年来,自动驾驶领域的3D占据预测任务因其独特的优势受到学术界和工业界的广泛关注。该任务通过重建周围环境的3D结构,为自动驾驶的规划和导航提供详细信息。然而,目前主流的方法大多依赖于基于激光雷达(LiDAR)点云生成的标签来监督网络训练。 在最近的OccNeRF研究中,作者提出了一种自监督的多相机占据预测方法,名为参数化占据场(Parameterized Occupancy Fields)。该方法解决了室外场景中无边界的问题,并重新组织了采样策略。然后,通过体渲染(Volume Rendering)技术,将占据场转换为多相机深度图,并通过多帧光度一致性(Photometric Error)进行监督。 此外,该方法还利用预训练的开放词汇语义分割模型来生成2D语义标签,以赋予占据场语义信息。这种开放词汇语义分割模型能够对场景中的不同物体进行分割,并为每个物体分配语义标签。通过将这些语义标签与占据场结合,模型能够更好地理解环境并做出更准确的预测。 总之,OccNeRF方法通过参数化占据场、体渲染和多帧光度一致性的组合使用,以及与开放词汇语义分割模型的结合,实现了自动驾驶场景中的高精度占据预测。这种方法为自动驾驶系统提供了更多的环境信息,有望提高自动驾驶的安全性和可靠性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

occnerf:完全无需激光雷达数据监督

  • 论文链接:https://arxiv.org/pdf/2312.09243.pdf
  • 代码链接:https://github.com/LinShan-Bin/OccNeRF

OccNeRF问题背景

近年来,随着人工智能技术的飞速发展,自动驾驶领域也取得了巨大进展。3D 感知是实现自动驾驶的基础,为后续的规划决策提供必要信息。传统方法中,激光雷达能直接捕获精确的 3D 数据,但传感器成本高且扫描点稀疏,限制了其落地应用。相比之下,基于图像的 3D 感知方法成本低且有效,受到越来越多的关注。多相机 3D 目标检测在一段时间内是 3D 场景理解任务的主流,但它无法应对现实世界中无限的类别,并受到数据长尾分布的影响。

3D 占据预测能很好地弥补这些缺点,它通过多视角输入直接重建周围场景的几何结构。大多数现有方法关注于模型设计与性能优化,依赖 LiDAR 点云生成的标签来监督网络训练,这在基于图像的系统中是不可用的。换言之,我们仍需要利用昂贵的数据采集车来收集训练数据,并浪费大量没有 LiDAR 点云辅助标注的真实数据,这一定程度上限制了 3D 占据预测的发展。因此探索自监督 3D 占据预测是一个非常有价值的方向。

详解OccNeRF算法

下图展示了 OccNeRF 方法的基本流程。模型以多摄像头图像  作为输入,首先使用 2D backbone 提取 N 个图片的特征 ,随后直接通过简单的投影与双线性插值获 3D 特征(在参数化空间下),最后通过 3D CNN 网络优化 3D 特征并输出预测结果。为了训练模型,OccNeRF 方法通过体渲染生成当前帧的深度图,并引入前后帧来计算光度损失。为了引入更多的时序信息,OccNeRF 会使用一个占据场渲染多帧深度图并计算损失函数。同时,OccNeRF 还同时渲染 2D 语义图,并通过开放词汇语义分割模型进行监督。

OccNeRF:完全无需激光雷达数据监督

Parameterized Occupancy Fields

Parameterized Occupancy Fields 的提出是为了解决相机与占据网格之间存在感知范围差距这一问题。理论上来讲,相机可以拍摄到无穷远处的物体,而以往的占据预测模型都只考虑较近的空间(例如 40 m 范围内)。在有监督方法中,模型可以根据监督信号学会忽略远处的物体;而在无监督方法中,若仍然只考虑近处的空间,则图像中存在的大量超出范围的物体将对优化过程产生负面影响。基于此,OccNeRF 采用了 Parameterized Occupancy Fields 来建模范围无限的室外场景。

OccNeRF:完全无需激光雷达数据监督

OccNeRF 中的参数化空间分为内部和外部。内部空间是原始坐标的线性映射,保持了较高的分辨率;而外部空间表示了无穷大的范围。具体来说,OccNeRF 分别对 3D 空间中点的  坐标做如下变化:

其中    坐标,, 是可调节的参数,表示内部空间对应的边界值, 也是可调节的参数,表示内部空间占据的比例。在生成 parameterized occupancy fields 时,OccNeRF 先在参数化空间中采样,通过逆变换得到原始坐标,然后将原始坐标投影到图像平面上,最后通过采样和三维卷积得到占据场。

Multi-frame Depth Estimation

为了实现训练 occupancy 网络,OccNeRF选择利用体渲染将 occupancy 转换为深度图,并通过光度损失函数来监督。渲染深度图时采样策略很重要。在参数化空间中,若直接根据深度或视差均匀采样,都会造成采样点在内部或外部空间分布不均匀,进而影响优化过程。因此,OccNeRF 提出在相机中心离原点较近的前提下,可直接在参数化空间中均匀采样。此外,OccNeRF 在训练时会渲染并监督多帧深度图。

下图直观地展示了使用参数化空间表示占据的优势。(其中第三行使用了参数化空间,第二行没有使用。)

OccNeRF:完全无需激光雷达数据监督

Semantic Label Generation

OccNeRF 使用预训练的 GroundedSAM (Grounding DINO + SAM) 生成 2D 语义标签。为了生成高质量的标签,OccNeRF 采用了两个策略,一是提示词优化,用精确的描述替换掉 nuScenes 中模糊的类别。OccNeRF中使用了三种策略优化提示词:歧义词替换(car 替换为 sedan)、单词变多词(manmade 替换为 building, billboard and bridge)和额外信息引入(bicycle 替换为 bicycle, bicyclist)。二是根据 Grounding DINO 中检测框的置信度而不是 SAM 给出的逐像素置信度来决定类别。OccNeRF 生成的语义标签效果如下:

OccNeRF:完全无需激光雷达数据监督

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

OccNeRF实验结果

OccNeRF 在 nuScenes 上进行实验,并主要完成了多视角自监督深度估计和 3D 占据预测任务。

多视角自监督深度估计

OccNeRF 在 nuScenes 上多视角自监督深度估计性能如下表所示。可以看到基于 3D 建模的 OccNeRF 显著超过了 2D 方法,也超过了 SimpleOcc,很大程度上是由于 OccNeRF 针对室外场景建模了无限的空间范围。

OccNeRF:完全无需激光雷达数据监督

论文中的部分可视化效果如下:

OccNeRF:完全无需激光雷达数据监督

3D 占据预测

OccNeRF 在 nuScenes 上 3D 占据预测性能如下表所示。由于 OccNeRF 完全不使用标注数据,其性能与有监督方法仍有差距。但部分类别(如 drivable surface 与 manmade)已达到与有监督方法可比的性能。

OccNeRF:完全无需激光雷达数据监督

文中的部分可视化效果如下:

OccNeRF:完全无需激光雷达数据监督

总结

在许多汽车厂商都尝试去掉 LiDAR 传感器的当下,如何利用好成千上万无标注的图像数据,是一个重要的课题。而 OccNeRF 给我们带来了一个很有价值的尝试。

OccNeRF:完全无需激光雷达数据监督

原文链接:https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

以上就是OccNeRF:完全无需激光雷达数据监督的详细内容,更多请关注其它相关文章!


# 自动驾驶  # 网站建设系统哪家服务好  # seo肖司令  # seo 搬家  # seo分享大会  # 陪诊师营销有哪推广  # 巫山县网站推广公司电话  # 罗湖高端网站优化软件  # 闸北新网站优化  # 湖州网站排名优化方案  # 转换为  # 景中  # 所示  # 站上  # 采用了  # 腾讯  # 十大  # 这一  # 榜单  # 多相  # tome  # 3d  # 企业seo代码优化 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: a股等权平均市盈率是什么意思  笔记本如何使用固态硬盘  焊机上power指示灯亮是什么意思  如何将系统移到固态硬盘  苹果16有哪些可以设置  drawing是什么意思  typescript多久能学会  苹果16更新了哪些软件  typescript需要学多久  debug中如何用n命令命名程序文件名  如何设置sql命令  夸克*免费吗  折叠屏手机为什么凉凉  power在坐标轴中是什么意思  闲鱼上面的power是什么意思  爱奇艺会员qq登录可以几个人用?  语音聊天软件哪个好 语音聊天软件2025排行榜  苹果16如何预购  固态硬盘如何启动  typescript是做什么用的  43寸电视长宽多少厘米  多少毫安的充电宝可以带上飞机  树莓派命令行如何新建文件  shell如何执行sql脚本命令行  j*a怎么处理json数组  typescript中文怎么读  羽毛球拍power9是什么意思  选哪个折叠屏手机好用  单片机的速度怎么求  typescript怎么用  苹果16充电方式有哪些  pp是什么意思  什么是域名解析地址  wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享  vue怎么连接typescript  如何查询固态硬盘序列  grub命令如何进dos  vb中的datediff函数怎么用 ​VB中的DateDiff函数:详尽指南  如何用adb命令停用系统软件  苹果怎么没出5g手机  vs怎么编写typescript  一分钟等于多少秒  划水是什么意思  手机如何ip绑定域名解析  typescript怎么拼接  苹果16配置参数有哪些  固态硬盘如何显示  市盈率292是什么意思  苹果手机16新款颜色有哪些  如何在命令行执行存储过程 

搜索