新闻中心
OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架
从一个新颖的3d mllm架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3d,然后将其输入llm。
题目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning
作者单位:北京理工大学,NVIDIA,华中科技大学
开源地址:GitHub - NVlabs/OmniDrive
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
多模态大语言模型(MLLMs)的发展导致了对基于LLM的自动驾驶的兴趣不断增长,利用它们强大的推理能力。利用MLLMs强大的推理能力来改进规划行为是具有挑战性的,因为它们需要超越2D推理的完整3D情境意识。为了解决这一挑战,本工作提出了OmniDrive,这是一个关于智能体模型与3D驱动任务之间强大对齐的全面框架。框架从一个新颖的3D+MLLM架构开始,该架构使用稀疏查询将观察表达提升和压缩到3D,然后将其输入LLM。这种基于查询的表达允许我们联合编码动态对象和静态地图元素(例如,交通道路),为3D中的感知-行动对齐提供了一个简洁的世界模型。进一步提出了一个新的基准,其中包括全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D基础、反事实推理、决策制定和规划。广泛的研究表明,OmniDrive在复杂的3D场景中具有出色的推理和规划能力。
网络结构
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

实验结果





以上就是OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架的详细内容,更多请关注其它相关文章!
# 自动驾驶
# 广告推广必须是网站吗
# 南通网站优化方案公司
# 沈阳网站建设优化公司
# 哈尔滨seo推广经验
# 刘连康评价seo
# seo排名有哪些方法
# 小鹏
# 这一
# 新潮流
# 如何用
# 站上
# 提出了
# 将其
# 腾讯
# 十大
# 榜单
# git
# 3d
# seo快速排名首推网站
# 网站推广名词解释汇总
# 营销日历和推广日历
# 甘肃抖音seo方法
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
单片机面包板怎么插
苹果16最近玩法有哪些
夸克学习都有什么课程
j*a怎么存放数组中
营收和gmv区别_营收和gmv有什么区别
debian和ubuntu的区别是什么
固态硬盘如何测试好坏
单片机怎么控制闪烁技术
如何正确使用固态硬盘
硬件如何执行命令
vue怎么连接typescript
165开头的是什么电话号码
苹果怎么没出5g手机
进口超级维特拉三门版power是什么意思
typescript文件怎么打开
win10系统如何打开cmd命令
8800日元等于多少人民币
如何查看电脑的固态硬盘
固态硬盘质量如何
bugly是什么
typescript是什么软件
cos150度等于多少
dos命令 如何将变量 作为路径的一部分
solidworks打开IGS文件作图教程
一天多少分钟
vfp 命令窗口如何实现换行
跑分是什么意思
手机如何ip绑定域名解析
市盈率中的19a是什么意思
如何查看硬盘是固态硬盘
命令行如何打开文件
win10如何打开dos命令窗口大小
春运抢票到哪里抢票啊
导航power在汽车上是什么意思
位置控制单片机怎么用的
苹果16送哪些配件
苹果16关闭哪些功能好
平仓是什么意思?
typescript怎么拼接
为什么要出折叠屏手机
j*a数组怎么存满
typescript哪个最好
课程伴侣登不上怎么办
通配符的用法
typescript怎么用
python和typescript学哪个
ka是什么意思
锤子手机怎么不出5g
春运高速高铁抢票攻略
电动车power灯亮是什么意思


2024-05-06
浏览次数:次
返回列表