新闻中心
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
近期,扩散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图像的惊人能力。通常,这些模型在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和精确的模型训练。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 图像的对比。[1]
在这些扩散模型中,经常会出现模式重复和严重的人工伪影(artifacts)问题。例如图1最左侧所示。超出训练分辨率时,这些问题尤其突出。
来自香港中文大学商汤科技联合实验室等机构的研究人员在一篇论文中深入研究了扩散模型中常用的UNet结构的卷积层,并从频域分析的角度提出了FouriScale,如图2所示。

图 2 FouriScale 的流程(橙色线)示意图,目的是保证跨分辨率的一致性。
通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层,能够在实现不同分辨率下的结构和尺度一致性。配合「填充然后裁剪」策略,该方法能够灵活生成符合不同尺寸和长宽比的图像。此外,借助FouriScale作为指导,该方法在生成任意尺寸的高分辨率图像时,能够保证完整的图像结构和卓越的图像质量。FouriScale 无需任何离线预测计算,具有良好的兼容性和可扩展性。
定量和定性实验结果表明,FouriScale 在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。

- 论文地址:https://arxiv.org/abs/2403.12963
- 开源代码:https://github.com/LeonH
LJ/FouriScale - 论文标题:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
方法介绍
1、空洞卷积保证跨分辨率下的结构一致性
扩散模型的去噪网络通常是在特定分辨率的图像或潜在空间上训练的,这个网络通常采用 U-Net 结构。作者的目标是在推理阶段使用去噪网络的参数生成分辨率更高的图像,而无需重新训练。为了避免推理分辨率下的结构失真,作者尝试在默认分辨率和高分辨率之间建立结构一致性。对于 U-Net 中的卷积层,结构一致性可表述为:

其中 k 是原本的卷积核,k' 是为更大分辨率定制的新卷积核。根据空间下采样的频域表示,如下:

可以将公式(3)写为:

这个公式表明了理想卷积核 k' 的傅里叶频谱应该是由 s×s 个卷积核 k 的傅里叶频谱拼接而成的。换句话说,k' 的傅里叶频谱应该有周期性重复,这个重复模式是 k 的傅里叶频谱。
广泛使用的空洞卷积正好满足这个要求。空洞卷积的频域周期性可以通过下式表示:

当利用预训练扩散模型(训练分辨率为(h,w))生成 (H,W) 的高分辨率图像时,空洞卷积的参数使用原始卷积核,扩张因子为 (H/h, W/w),是理想的卷积核 k'。
2、低通滤波保证跨分辨率下的尺度一致性
然而,只利用空洞卷积无法完美地解决问题,如图 3 左上角所示,只使用空洞卷积仍然在细节上存在模式重复的现象。作者认为这是因为空间下采样的频率混叠现象改变了频域分量,导致了不同分辨率下频域分布的差异。为了保证跨分辨率下的尺度一致性,他们引入了低通滤波来过滤掉高频分量,以去除空间下采样后的频率混叠问题。从图 3 右侧对比曲线可以看到,在使用低通滤波后,高低分辨率下的频率分布更加接近,从而保证了尺度一致。从图 3 左下角图看到,在使用低通滤波后,细节的模式重复现象有明显地改善。

图 3 (a) 是否采用低通滤波的视觉对比。(b)不采用低通滤波的傅立叶相对对数幅值曲线。(c) 采用低通滤波的傅立叶相对对数幅值曲线。
3、适应于任意尺寸的图像生成
以上的方式只能适应于生成分辨率与默认推理分辨率的长宽比一致时,为了使 FouriScale 适应于任意尺寸的图像生成,作者采用了一种「填充然后裁剪」的方式,方法 1 中展示了结合了该策略的 FouriScale 的伪代码.

4、fouriscale 引导
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
由于 FouriScale 中的频域操作,不可避免的使生成的图像出现了细节缺失与不期望的伪影问题。为了解决这一问题,如图 4,作者提出了将 FouriScale 作为引导的方式。具体来说,在原本的条件生成估计以及无条件生成估计的基础上,他们引入一个额外的条件生成估计。这个额外的条件生成估计的生成过程同样采用空洞卷积,但是使用更加温和的低通滤波,从而保证细节不丢失。同时他们将利用 FouriScale 输出的条件生成估计中的注意力分数替换掉这一额外的条件生成估计中的注意力分数,由于注意力分数包含着生成图像中的结构信息,这一操作将 FouriScale 中正确的图像结构信息引入,同时保证了图像质量。

图 4 (a) FouriScale 引导示意图。(b)不采用 FouriScale 作为引导的生成图像,有明显的伪影和细节错误。(c) 采用 FouriScale 作为引导的生成图像。
实验
1. 定量试验结果
作者遵循 [1] 的方法,测试了三个文生图模型(包括 SD 1.5,SD 2.1 和 SDXL 1.0),生成四种更高分辨率的图像。测试的分辨率是它们各自训练分辨率的 4 倍、6.25 倍、8 倍和 16 倍像素数量。在 Laion-5B 上随机采样 30000/10000 个图文对测试的结果如表 1 所示:

表 1 不同的无需训练方法的定量结果对比
他们的方法在各个预训练模型,不同分辨率下都获得了最优的结果。
2. 定性试验结果
如图 5 所示,他们的方法在各个预训练模型,不同分辨率下都能够保证图像生成质量与一致的结构。

图 5 不同的无需训练方法的生成图像对比
结论
本文提出了 FouriScale 用于增强预训练扩散模型生成高分辨率图像的能力。FouriScale 从频域分析出来,通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性,解决了重复模式和结构失真等关键挑战。采用「填充然后裁剪」策略并利用 FouriScale 作为指导,增强了文本到图像生成的灵活性和生成质量,同时适应了不同的长宽比生成。定量和定性的实验对比表明,FouriScale 能够在不同预训练模型,不同分辨率下都能够保证更高的图像生成质量。
以上就是无需训练,这个新方法实现了生成图像尺寸、分辨率自由的详细内容,更多请关注其它相关文章!
# 训练
# midjourney
# 实现了
# 所示
# 傅立叶
# 这一
# 如图
# 提出了
# 省电
# ai
# 天元区微营销推广软件
# 爆优品网站推广有用吗
# 公司网站推广选火21星
# 重庆建设库网站
# 广东使用seo优化大全
# 网站优化意义
# 大名网站建设培训学校
# 合肥有哪些网站推广店面
# 阿里巴巴网站建设美丽
# 广安行业网站建设方案
# 他们的
# 进阶
# 更高
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
md5解密是什么意思
硬件如何执行命令
华为5g手机怎么选择
苹果16都有哪些亮点
开机如何运行dos命令提示符
统计学中power值是什么意思
楔子是什么意思
春运抢票要用抢票软件吗
unix时间戳转换公式
记录仪power灯亮是什么意思
typescript变量是什么
openwrt有哪些功能
什么软件能下载夸克视频
电瓶车的power是什么意思
选哪个折叠屏手机好
一秒是多少毫秒
苹果16讲解有哪些功能
折叠屏手机为什么没火
命令控制台如何执行sql文件
8800日元等于多少人民币
如何选购ssd固态硬盘
animal是什么意思
比亚迪秦nfc功能是什么意思
如何将系统移到固态硬盘
春运大巴上抢票怎么抢票
夸克高考为什么不靠谱
远程桌面如何发送命令
负市盈率是什么意思
typescript怎么用
固态硬盘如何查看盘符
如何安装tree命令
如何利用固态硬盘
新的固态硬盘如何分区
typescript适合什么用
51单片机贴片怎么*
哪个品牌有折叠屏手机卖
power在坐标轴中是什么意思
春运车站抢票和网上抢票
点焊机接触器上power是什么意思
汽车排量是什么意思
typescript文件怎么打开
交管12123协议头是什么
笔记本电脑多少钱
固态硬盘损坏如何修复
夸克绑定设备是什么意思
苹果16有哪些款式的
单片机怎么计算0xf0
尼桑越野车中控前power是什么意思
ai文件在线打开工具有哪些
j*a怎么读取char数组


2024-04-08
浏览次数:次
返回列表
LJ/FouriScale