新闻中心
BAT方法:AAAI 2025首个多模态目标追踪通用双向适配器
目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来弥补这一缺陷,以实现在复杂环境下的全天候目标跟踪。这种多模态图像的应用可以提供更全面的信息,增强目标检测和跟踪的准确性和鲁棒性。多模态目标跟踪的发展对于实现更高水平的计算机视觉应用具有重要意义。
然而,现有的多模态跟踪任务也面临两个主要问题:
- 由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;
- 因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关性并不固定。
在RGB序列上进行预训练,然后完全微调到多模态场景的许多多模态跟踪工作存在时间和效率问题,同时性能有限。
除了完全微调方法之外,还受到自然语言处理(NLP)领域参数高效微调方法的启发。最近的一些方法在多模态跟踪中引入了参数高效prompt微调。这些方法通过冻结骨干网络参数,并添加一组额外可学习的参数来实现。
通常,这些方法主要以一种模态(通常是RGB)作为主要模态,而另一种模态则作为辅助模态。然而,这种方法忽视了多模态数据之间的动态关联性,因此在复杂场景中无法充分利用多模态信息的互补效果,从而限制了跟踪性能。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图 1:复杂场景下不同的主导模态。
为了解决上述问题,天津大学的研究人员提出了一种名为双向适配器用于多模态跟踪(BAT)的解决方案。与传统方法不同的是,BAT方法不依赖于固定的主导模态和辅助模态,而是通过动态提取有效信息的过程中,在辅助模态向主导模态的变化中获得更好的性能。这种方法的创新之处在于它能够适应不同的数据特征和任务需求,从而提高基础模型在下游任务中的表示能力。通过使用BAT方法,研究人员希望能够提供一种更加灵活和高效的多模态跟踪解决方案,为相关领域的研究和应用带来更好的效果。
BAT 由两个特定于模态分支的共享参数的基础模型编码器和一个通用的双向适配器组成。在训练过程中,BAT 并没有对基础模型进行全面微调,而是采用了逐步训练的方法。每个特定的模态分支都是通过使用固定参数的基础模型进行初始化的,只训练新增的双向适配器。每个模态分支从其他模态中学习提示信息,并与当前模态的特征信息相结合,以增强表征能力。两个特定模态的分支通过通用双向适配器进行交互,动态地相互融合主导和辅助信息,以适应多模态非固定关联的范式。这种设计使得BAT能够在不改变原内容意思的情况下微调内容,提高模型的表征能力和适应性。
通用双向适配器采用轻量级沙漏结构,可以嵌入到基础模型的每一层transformer编码器中,避免引入大量可学习参数。通过仅增加少量的训练参数(0.32M),与全微调方法和基于提示学习的方法相比,通用双向适配器具有更低的训练成本,并获得更好的跟踪性能。
论文《bi-directional adapter for multi-modal tracking》:

论文链接:https://arxiv.org/abs/2312.10611
代码链接:https://github.com/SparkTempest/BAT
刺鸟创客
一款专业高效稳定的AI内容创作平台
110
查看详情
主要贡献
- 我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化,以自适应的方式有效融合多模态信息。
- 据我们所知,我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效,能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数,我们的模型可以鲁棒应对开放场景下的多模态跟踪。
- 我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 跟踪相关数据集上的优势。
核心方法
如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提示多模态数据。
方法没有对基础模型进行完全的微调,仅通过学习轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。

图 2:BAT 的总体架构。
首先将每种模态的
模板帧(第一帧中目标物体的初始框
)和
搜索帧(后续追踪图像)转换为
,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。


双向 adapter 与双流编码器层并行设置,可以学习从一种模态到另一种模态的特征提示。为此,将两个分支的输出特征相加并输入到预测头 H 中,得到最终的跟踪结果框 B。

双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。
通过这种简单的结构,双向 adapter 可以有效地在
模态之间进行特征提示,实现多模态跟踪。
由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 不同,我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的,确保了开放世界中良好的跟踪性能。
实验效果
如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示,在 LasHeR 数据集的不同场景属性下,与最先进方法的性能比较也证明了所提出方法的优越性。
这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标,并自适应地从动态变化的主导 - 辅助模态中提取有效信息,达到了最先进的性能。

表 1 RGBT234 和 LasHeR 数据集上的整体性能。

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。
实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示,与固定主导模态的相关方法相比,我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标,当 RGB 和 TIR 在后续场景中都能提供有效的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征,捕获更准确的目标响应位置,并消除 RGB 模态的干扰。

图 4 跟踪结果的可视化。
我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示,在 VisEvent 测试集上与其他方法相比,我们的方法在不同复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的有效性和泛化性。

图 5 VisEvent 数据集下追踪结果。

图 6 attention 权重可视化。
我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比,我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息,同时随着网络深度的增加保持主导模态的有效性,从而提高了整体跟踪性能。
实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动态跟踪。
以上就是BAT方法:AAAI 2025首个多模态目标追踪通用双向适配器的详细内容,更多请关注其它相关文章!
# 训练
# 多模
# 模态
# 首个
# 双流
# 所示
# 如图
# 提出了
# 有效地
# 开源
# AI
# 广东英文网站推广怎么做
# 宁波seo网站管理公司
# 自学成才seo
# 妃子笑荔枝营销推广
# 网站设计优化技巧和方法
# 沧州pc网站建设
# 兰州做网站建设的公司
# seo渠道收费低
# 南宁推广网站案例
# seo 防刷
# 景中
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
固态硬盘如何迁移系统
typescript哪个最好
如何看固态硬盘型号
开机如何进入命令行模式
如何自己加装固态硬盘
如何拍屏幕不出条纹详细方法
j*a怎么清除数组
access中如何使用常用宏命令
5G手机导航怎么旋转
如何以管理员身份打开命令提示符
固态硬盘损坏如何修复
哪些框架支持typescript
热水器没热水显示power是什么意思
linux如何合并分区命令
夸克缺什么登录不了
8寸照片尺寸多少厘米
intel固态硬盘如何安装
苹果手机16新款颜色有哪些
春运抢票用不用取票码
折叠屏手机哪个牌子性价比高
企业征信不好如何恢复 企业征信不好怎么恢复步骤
广东春运几点抢票
cron表达式在线工具有哪些
如何查询固态硬盘序列
学typescript需要什么基础么
如果公司ttm市盈率为负数是什么意思
启辰星power标志是什么意思
为什么都用typescript
内在市盈率是什么意思
命令行ftp如何创建目录
soup是什么意思
typescript是什么时候出来的
万能表上的power是什么意思
typescript学会要多久
51单片机怎么用flash
苹果16改进了哪些
台达变频器power灯是什么意思
typescript要用什么工具
ai文件在线打开工具有哪些
如何安装固态硬盘win10
typescript为什么现在才火
固态硬盘如何判断大小
闪光灯power闪烁是什么意思
折叠屏手机哪款最好
春运抢票最好抢什么票啊
win10如何开启命令行
春运车站抢票和网上抢票
element ui是什么
电脑命令如何删除账号
夸克转存中是什么意思


2024-01-24
浏览次数:次
返回列表