新闻中心

TPAMI 2025 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

2024-09-09
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

tpami 2024 | 计算机视觉中基于图神经网络和图transformers的方法和最新进展

AIxiv专栏 是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏 接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇综述工作已被《IEEE 模式分析与机器智能汇刊》(IEEE TPAMI)接收,作者来自三个团队:香港大学俞益洲教授与博士生陈超奇、周洪宇,香港中文大学(深圳)韩晓光教授与博士生吴毓双、许牧天,上海科技大学杨思蓓教授与硕士生戴启元。近年来,由于在图表示学习(graph representation learning)和非网格数据(non-grid data)上的性能优势,基于图神经网络(Graph Neural Networks,GNN)的方法被广泛应用于不同问题并且显著推动了相关领域的进步,包括但不限于数据挖掘(例如,社交网络分析、推荐系统开发)、计算机视觉(例如,目标检测、点云处理)和自然语言处理(例如,关系提取、序列学习)。考虑到图神经网络已经取得了丰硕的成果,一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展,以及从现有论文中总结经验和产生新的想法。可惜的是,我们发现由于图神经网络在计算机视觉中应用非常广泛,现有的综述文章往往在全面性或者时效性上存在不足,因此无法很好的帮助科研人员入门和熟悉相关领域的经典方法和最新进展。同时,如何合理地组织和呈现相关的方法和应用是一个不小的挑战。

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

论文标题:
  1. A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

论文地址:

  • https://arxiv.org/abs/2209.13232(预印版)
  • https://ieeexplore.ieee.org/document/10638815(IEEE 版)

简介:

尽管基于卷积神经网络(CNN)的方法在处理图像等规则网格上定义的输入数据方面表现出色,研究人员逐渐意识到具有不规则拓扑的视觉信息对于表示学习至关重要,但尚未得到彻底研究。与具有内在连接和节点概念的自然图数据(如社交网络)相比,从规则网格数据构建图缺乏统一的原则且严重依赖于特定的领域知识。另一方面,某些视觉数据格式(例如点云和网格)并非在笛卡尔网格上定义的,并且涉及复杂的关系信息。因此,规则和不规则的视觉数据格式都将受益于拓扑结构和关系的探索,特别是对于具有挑战性的任务,例如理解复杂场景、从有限的经验中学习以及跨领域进行知识传递。

计算机视觉中的图神经网络:

在计算机视觉领域,目前许多与 GNN 相关的研究都有以下两个目标之一:

  1. GNN 和 CNN 主干的混合
  2. 用于表示学习的纯 GNN 架构

本综述的结构:

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

本综述以任务为导向对计算机视觉中基于图神经网络(包括图 Transformers)的方法和最新进展进行了全面且详细的调研。具体来说,我们根据输入数据的模态将图神经网络在计算机视觉中的应用大致划分为五类:

  • 自然图像(二维)
  • 视频
  • 视觉 + 语言
  • 三维数据(例如,点云)
  • 医学影像

结论:

本综述系统性地总结了基于图神经网络的计算机视觉方法的统一数学表达,阐明了我们组织这些文章的逻辑关系,突出了该领域的关键挑战,展示了图神经网络在应对这些挑战的独特优势,并讨论了它的局限和未来发展路线。

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

                               图神经网络发展史GNN 最初以循环 GNN 的形式发展,用于从有向无环图中提取节点表示。随着研究的发展,GNN 逐渐扩展到更多类型的图结构,如循环图和无向图。受到深度学习中 CNN 的启发,研究人员开发了将卷积概念推广到图域的方法,主要包括基于频域的方法和基于空域的方法。频域方法依赖于图的拉普拉斯谱来定义图卷积,而空域方法则通过聚合节点邻居的信息来实现图卷积。这些方法为处理复杂的图结构和不规则拓扑提供了有效的工具,极大地推动了 GNN 在多个领域,尤其是计算机视觉中的应用和发展。

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

具体来说,我们详尽地调查了如下这些任务:
  1. 基于二维自然图像的视觉任务,包括图像分类(多标签、少量镜头、零镜头、迁移学习)、物体检测、语义分割和场景图生成。
  2. 基于视频的视觉任务,包括视频动作识别、时序动作定位、多目标跟踪、人体运动预测和轨迹预测。
  3. 视觉 + 语言方向的任务,包括视觉问答、视觉定位、图像字幕、图像-文本匹配和视觉-语言导航。
  4. 基于三维数据的视觉任务,包括三维表示学习(点云、网格)、三维理解(点云分割、三维物体检测、三维视觉定位)和三维生成(点云完成、三维数据去噪、三维重建)。
  5. 基于医学影像的任务,包括脑活动调查、疾病诊断(脑部疾病、胸部疾病)、解剖分割(脑表面、血管等)。

总结来说,尽管在感知领域取得了突破性的进展,如何赋予深度学习模型推理能力仍然是现代计算机视觉系统面临的巨大挑战。在这方面,图神经网络和图 Transformers 在处理“关系”任务方面表现出了显著的灵活性和优越性。为此,我们从面向任务的角度首次对计算机视觉中的图神经网络和图 Transformers 进行了全面的综述。各种经典和最新的算法根据输入数据的模态(如图像、视频和点云)分为五类。通过系统地整理每个任务的方法,我们希望本综述能够为未来的更多进展提供启示。通过讨论关键的创新、局限性和潜在的研究方向,我们希望读者能够获得新的见解,并朝着类似人类的视觉理解迈进一步。

以上就是TPAMI 2025 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展的详细内容,更多请关注其它相关文章!


# 图神经网络  # 云和  # 推动了  # 之争  # 句话  # 五大  # 笛卡尔  # 华纳  # 南极  # 神技  # 最新进展  # 社交网络  # 产业  # 中山营销宣传推广  # 恩平百度关键词排名  # 南京专业网站建设过程  # 营销推广经理考核内容  # 高端餐饮推广营销方案设计  # 内容营销如何精准推广呢  # seo优化原创的音乐  # 政府网站集约化建设  # 凌海网站seo优化推广  # 欧阳淳 走过seo的 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: typescript属性只读如何修改  如何进入 dos 命令行  typescript与es6学哪个  哪个品牌有折叠屏手机卖  春运抢票如何抢连坐的票  typescript全局配置放哪里  .asm如何在命令行运行  电瓶车充电器power是什么意思  怎么在typescript定义集合  多少毫安的充电宝可以带上飞机  苹果16有哪些亮点功能  对应市盈率是30X是什么意思  typescript怎么写call方法  春运车站抢票和网上抢票  平板键盘nfc功能是什么意思  ospf中交换机命令如何设置  春运抢票多久能知道成功  手机的nfc是什么功能是什么意思  1tb等于多少mb  苹果16配置参数有哪些  苹果手机16有哪些功能  固态硬盘如何打开软件  征信不好如何恢复信誉度 ‌征信不好恢复信誉度的方法  税负是什么意思  j*a数组怎么放字符  光刻机的分类及特点  双十一的哪一天最优惠呢  j*a怎么用数组缓存  命令行如何运行c  如何用固态硬盘做缓存  得物怎样不扣手续费 如何通过得物不支付手续费  linux命令行如何使用中文输入法  j*a map数组怎么取值  爱奇艺vip会员可以同时几个人用?  如何显示固态硬盘  python和typescript学哪个  轩逸e-power挡位b是什么意思  折叠屏手机为什么这么小  type-c输入接口是什么  命令行如何打开文件  如何修改cad命令  calm是什么意思  windows 如何连接ftp命令行  如何使用net命令  市盈率中1stdv是什么意思  j*a怎么把数组输出  怎么看手机是不是双模5g手机  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  固态硬盘如何测试  固态硬盘如何4k对其 

搜索