新闻中心

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2025

2024-03-16
浏览次数:
返回列表

虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。

为了达到这个目的,在传统的图像识别任务中,人们在带有不同类别标签的大量图像样本上训练算法模型,让模型获得对这些图像的识别能力。而在零样本学习(ZSL)任务中,人们希望模型能够举一反三,识别在训练阶段没有见过图像样本的类别。

生成式零样本学习(GZSL)被认为是零样本学习的一种有效方法。在GZSL中,首要步骤是训练一个生成器,用以合成未见类别的视觉特征。这个生成过程是通过利用属性标签等语义描述作为条件来驱动的。一旦生成了这些虚拟的视觉特征,就可以像训练传统分类器一样,开始训练一个能够辨识出未见类别的分类模型。

生成器的培训对于生成式零样本学习算法至关重要。在理想情况下,生成器根据语义描述生成的未见类别的视觉特征样本,应该与该类别的真实样本的视觉特征具有相同的分布。这意味着生成器需要能够准确地捕捉到视觉特征之间的关系和规律,以便生成出具有高度一致性和可信度的样本。通过训练生成器,使其能够有效地学习到不同类别之间的视觉特征差异,并

在现有的生成式零样本学习方法中,生成器在被训练和使用时,都是以高斯噪声和类别整体的语义描述为条件的,这限制了生成器只能针对整个类别进行优化,而不是描述每个样本实例,所以难以准确反映真实样本视觉特征的分布,导致模型的泛化性能较差。另外,已见类与未见类所共享的数据集视觉信息,即域知识,也没有在生成器的训练过程中被充分利用,限制了知识从已见类到未见类的迁移。

为了解决这些问题,华中科技大学研究生与阿里巴巴旗下银泰商业集团的技术专家提出了一种名为视觉增强的动态语义原型方法(VADS)。该方法将已见类的视觉特征更充分地引入到语义条件中,从而让推动生成器能够学习准确的语义-视觉映射。这项研究论文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已经被计算机视觉领域顶级国际学术会议CVPR 2025所接收。

具体而言,上述研究呈现了三个创新点:

在零样本学习中,使用视觉特征来增强生成器,以便生成可靠的视觉特征,这是一种创新性的方法。

研究还引入了VDKL和VOSU两个组件,在这些组件的帮助下,数据集的视觉先验被有效获取,并且通过动态更新图像的视觉特征,预定义的类别语义描述得到了更新。这一方法有效地利用了视觉特征。

试验结果表明,本研究采用视觉特征来增强生成器的效果十分显著。这种即插即用的方法不仅具有强大的通用性,而且在提高生成器性能方面表现出色。

研究细节

VADS 由两个模块组成:(1)视觉感知域知识学习模块(VDKL)学习视觉特征的局部偏差和全局先验,即域视觉知识,这些知识取代了纯高斯噪声,提供了更丰富的先验噪声信息;(2)面向视觉的语义更新模块(VOSU)学习如何根据样本的视觉表示更新其语义原型,更新的后语义原型中也包含了域视觉知识。

最终,研究团队将两个模块的输出连接为一个动态语义原型向量,作为生成器的条件。大量实验表明,VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能,并可以与其他生成式零样本学习方法结合,获得精度的普遍提升。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在视觉感知域知识学习模块(VDKL)中,研究团队设计了一个视觉编码器(VE)和一个域知识学习网络(DKL)。其中,VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE,VE 可以增强视觉特征的类别可分性。

在训练 ZSL 分类器时,生成器生成的未见类视觉特征也被输入 VE,得到的隐特征与生成的视觉特征连接,作为最终的视觉特征样本。VE 的另一个输出,即隐编码,经过 DKL 变换后形成局部偏差 b,与可学习的全局先验 p,以及随机高斯噪声一起,组合成域相关的视觉先验噪声,代替其他生成式零样本学习中常用的纯高斯噪声,作为生成器生成条件的一部分。

在面向视觉的语义更新模块(VOSU)中,研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段,VSP 以图像视觉特征为输入,生成一个能够捕获目标图像视觉模式的预测语义向量,同时,SUM 以类别语义原型为输入,对其进行更新,得到更新后的语义原型,然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整,使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。

在试验部分,上述研究使用了学术界常用的三个 ZSL 数据集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),对传统零样本学习和广义零样本学习的主要指标,与近期有代表性的其他方法进行了全面对比。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

在传统零样本学习的 Acc 指标方面,该研究的方法与已有方法相比,取得了明显的精度提升,在三个数据集上分别领先 8.4%,10.3% 和 8.4%。在广义零样本学习场景,上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。

VADS 方法还可以与其他生成式零样本学习方法结合。例如,与 CLSWGAN,TF-VAEGAN 和 FREE 这三种方法结合后,在三个数据集上的 Acc 和 H 指标均有明显提升,三个数据集的平均提升幅度为 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

通过对生成器生成的视觉特征进行可视化可以看出,原本混淆在一起的部分类别的特征,例如下图 (b) 中显示的已见类「Yellow breasted Chat」和未见类「Yellowthroat」两类特征,在使用 VADS 方法后,在图(c)中能够被明显地分离为两个类簇,从而避免了分类器训练时的混淆。

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

可延展到智能安防和大模型领域

机器之心了解到,上述研究研究团队关注的零样本学习旨在使模型能够识别在训练阶段没有图像样本的新类别,在智能安防领域具有潜在的价值。

第一,处理安防场景中新出现的风险,由于安防场景下,会不断出现新的威胁类型或不寻常的行为模式,它们可能在之前的训练数据中未曾出现。零样本学习使安防系统能快速识别和响应新风险类型,从而提高安全性。

第二,减少对样本数据的依赖:获取足够的标注数据来训练有效的安防系统是昂贵和耗时的,零样本学习减少了系统对大量图像样本的依赖,从而节约了研发成本。

第三,提升动态环境下的稳定性:零样本学习使用语义描述实现对未见类模式的识别,与完全依赖图像特征的传统方法相比,对于视觉环境的变化天然具有更强的稳定性。

该技术作为解决图像分类问题的底层技术,还可以在依赖视觉分类技术的场景落地,例如人、货、车、物的属性识别,行为识别等。尤其在需要快速增加新的待识别类别,来不及收集训练样本,或者难以收集大量样本的场景(如风险识别),零样本学习技术相对于传统方法具有较大优势。

该研究技术对于当前大模型的发展有无借鉴之处?

研究者认为,生成式零样本学习的核心思想是对齐语义空间和视觉特征空间,这与当前多模态大模型中的视觉语言模型(如 CLIP)的研究目标是一致的。

它们最大的不同点是,生成式零样本学习是在预先定义好的有限类别的数据集上训练和使用,而视觉语言大模型则是通过对大数据的学习获得具有通用性的语义和视觉表征能力,不局限在有限的类别,作为基础模型,具有更宽广的应用范围。

如果技术的应用场景是特定领域,可以选择将大模型针对此领域进行适配微调,在此过程中,与本文相同或相似研究方向的工作,理论上可以带来一些有益的启发。

作者介绍

侯文金,华中科技大学硕士研究生,感兴趣的研究方向包括计算机视觉,生成建模,少样本学习等,他在阿里巴巴 - 银泰商业实习期间完成了本论文工作。

王炎,阿里巴巴 - 银泰商业技术总监,深象智能团队算法负责人。

冯雪涛,阿里巴巴 - 银泰商业资深算法专家,主要关注视觉和多模态算法在线下零售等行业的应用落地。

以上就是提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2025的详细内容,更多请关注其它相关文章!


# 训练  # type  # 未见  # 安防  # 阿里巴巴  # ai  # 还可以  # 淮北市网站seo优化  # 许昌建设局网站  # 白城seo培训是什么  # 河池热门seo渠道推广  # 已有  # 银泰  # 进阶  # 高斯  # 省电  # 已见  # 盐城企业网站建设费用  # 宜兴朗云seo  # 网站建设与管理自考  # 常熟响应式网站建设  # 崂山外贸推广网络营销  # 绵阳网站建设思路 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 360手机壁纸怎么改  爱玛电动车power模式是什么意思  typescript中如何引入本地js  debian和ubuntu命令一样吗  如何安装固态硬盘win10  dos命令 如何将变量 作为路径的一部分  春运抢票极速版怎么抢票  苹果16哪些型号好用  油烟机上的power是什么意思  linux如何安装yum命令  手机换电池要多少钱  春运抢票最好抢什么票啊  8800日元等于多少人民币  固态硬盘如何接主机  夸克网盘是什么都有吗  选哪个折叠屏手机好用  苹果16系统有哪些改变  如何退出数据库命令行  如何使用ping命令  固态硬盘如何消除缓存  typescript多久能学会  计数器上power是什么意思  为什么都做折叠屏手机呢  路由器上面的power红灯是什么意思  如何由js快速切换typescript  怎么用typescript 写js  破太岁是什么意思  哪些库是typescript  春运抢票哪个平台好抢  如何激活固态硬盘  苹果16最近玩法有哪些  单片机面包板怎么插  如何选择启用固态硬盘  typescript有什么框架  怎么下载360桌面壁纸  为什么要用typescript6  华为交换机如何复制命令行  营收和gmv区别_营收和gmv有什么区别  typescript怎么判断单选按钮  python如何命令行换行  linux如何使用db2命令  春运车票啥时候可以抢票  闪光灯power闪烁是什么意思  typescript能开发什么  rxjs和typescript什么意思  固态硬盘如何拆除  开机如何进入命令行模式  vi命令如何使用方法  如何安装m.2固态硬盘  5G手机导航怎么旋转 

搜索