新闻中心

NeurIPS 2025 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频

2024-11-24
浏览次数:
返回列表
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇论文的工作已被 NeurlPS(Conference on Neural Information Processing Systems)2025 会议接收为 Oral Presentation (64/15671=0.4%) 。本文主要作者来自同济大学苗夺谦,张奇团队,其余作者来自俄亥俄州州立大学、悉尼科技大学、中科院自动化所、北京安定医院。其中,第一作者龚子璇就读于同济大学计算机学院,研究方向涉及 fMRI 解码和多模态学习。

从大脑信号还原视觉刺激一直是神经科学和计算机科学研究人员们津津乐道的话题。然而,基于非侵入式大脑活动 fMRI(功能性磁共振成像)到视频的重建研究仍然有限,因为解码连续视觉刺激的时空感知是一项艰巨的挑战。为此,本文提出了一种名为 NeuroClips 的创新框架,用于从 fMRI 数据中解码高保真和流畅的视频。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
  • 论文题目:NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
  • 论文链接:https://arxiv.org/abs/2410.19452
  • 项目主页:https://github.com/gongzix/NeuroClips

从 fMRI 重建视频具有哪些挑战?

1.fMRI 的低时间分辨率。功能性磁共振成像 fMRI 相比于常用的 EEG 脑电信号而言,具有极高的空间分辨率,可以对全脑进行细致的扫描。但是由于全脑扫描更加耗时,fMRI 拥有较低的时间分辨率,通常 2s 才能完成一次采样,帧率只有 0.5。然而,需要重建视频的时间分辨率是极高的,通常达到 30~60 的帧率。因此 fMRI 的低时间分辨率(0.5fps)和真实视频采样的高时间分辨率(30fps)之间存在严重冲突。

2. 重建视频的低级视觉感知缺乏控制。以往的研究对于视频重建,已经实现了较为精准的语义重建。例如,当采集被试看见一个男人的 fMRI 信号并用于重建,可以获得一段男人的视频。然而,视频更难的点在于物体形状变化,人物动作以及场景的变化。因此过往的研究缺乏对重建视频的低级视觉感知的控制。

为了解决上述挑战,我们主张利用关键帧图像作为过渡视频重建的锚点,与大脑的认知机制相吻合。此外,fMRI 到视频重建考虑低级感知特征,从大脑活动解码低级感知流,如运动和动态场景,以补充关键帧,从而增强高保真帧的重建,生成平滑的视频。我们提出了一种新颖的 fMRI-to-video 重建框架 NeuroClips,引入了两个可训练的组件 —— 感知重建器(Perception Reconstructor)和语义重建器(Semantics Reconstructor),分别用于重建低级感知流和语义关键帧。而在推理过程中,采用一个预先训练好的 T2V 扩散模型,注入关键帧和低级感知流,以实现高保真度、平滑度和一致性的视频重建。该模型不仅在各项指标上实现了 SOTA 性能,还通过使用多 fMRI 融合,开创了长达 6 秒、8 帧率视频重建的探索。

研究方法

NeuroClips 的整体框架如下图所示:
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                  图 1:NeuroClips 的整体框架。红色的线代表推理过程。

NeuroClips 包括三个关键组件:感知重建器(PR)从感知层面生成模糊但连续的粗略视频,同时确保其连续帧之间的一致性;语义重建器(SR)从语义层面重建高质量的关键帧图像;推理过程是 fMRI 到视频的重建过程,它使用 T2V 扩散模型,并结合 PR 和 SR 的重建结果,以高保真度、平滑度和一致性重建最终的保真视频。

1、感知重建器(Perception Reconstructor,PR)

将视频按两秒间隔分割成多个片段(即 fMRI 的时间分辨率)。通过在 Stable Diffusion 的 VAE 解码器中添加时间注意力层,获得对齐的 fMRI 模糊嵌入,这些嵌入可以用于生成模糊视频,其缺乏语义内容,但能感知场景的通用动作信息,在位置、形状、场景等感知指标上表现出最先进的水平。

2、语义重建器(Semantics Reconstructor , SR)

语义重构器(SR)的核心目标是重建高质量的关键帧图像,以解决视觉刺激和 fMRI 信号之间的帧率不匹配的问题,从而提高最终视频的保真度。现有愈发成熟的 fMRI 到图像重建研究促进了我们的目标,包括将 fMRI 进行低维处理、关键帧图像与 fMRI 的对齐、重建嵌入生成以及文本模态的重建增强。受到对比学习的启发,我们在NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频之间进行对比学习,通过额外的文本模态来增强重建嵌入NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频。对比损失作为这一过程的训练损失NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频。我们设置混合系数NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频来平衡多个损失。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
其中,NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频是关键帧图像和 fMRI 对齐采用的结合了 MixCo 和对比损失的双向损失,NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频是重建时与 DALLE・2 相同的扩散先验损失。

3、推理过程(Inference Process)

我们结合模糊的粗略视频(PR 输出)、高质量的关键帧图像(模糊视频第一帧嵌入NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频和 fMRI 嵌入输入到 SR 中的 SDXL unCLIP 生成)和额外的文本模态分别作为NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频Guidance 来重建具有高保真度、平滑度和一致性的最终视频。我们采用 text-to-video(T2V)的扩散模型来帮助重建视频,而由于嵌入的语义仅来自文本模态。我们还需要通过增强来自视频和图像模态的语义来创建 “综合语义” 嵌入,以帮助实现 T2V 扩散模型的可控生成。

4、多 fMRI 融合(Multi-fMRI Fusion)

如何从 fMRI 中重建更长的视频呢?在推理过程中,我们考虑来自两个相邻的 fMRI 样本的两个重建关键帧的语义相似性,如果语义相似,我们就用前一个 fMRI 重建视频的尾帧替换后一个 fMRI 的关键帧,该帧将作为后一个 fMRI 的第一帧来生成视频。如图 2 所示,通过这一策略,我们首次实现了长达 6 秒的连续视频重建。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                   图 2:多 fMRI 融合的可视化。

实验结果

本文使用开源的 fMRI-video 数据集(cc2017 数据集)进行了 fMRI-to-video 的重建实验,通过基于帧的和基于视频的指标进行了定量评估,并进行了全面分析。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
从 fMRI 重建视频的 Demos

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

neurips 2024 oral | 还原所见!揭秘从脑信号重建高保真流畅视频

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
                                      表 1:NeuroClips 重建性能与其他方法的定量比较。

结果如上表所示,NeuroClips 在 7 个指标中的 5 个上显著优于先前的方法,SSIM 性能大幅提升,表明其补充了像素级控制的不足。语义层面的指标也总体上优于先前的方法,证明了 NeuroClips 更好的语义对齐范式。在评估视频平滑度的 ST 级指标上,由于我们引入的模糊的粗略视频( Guidance),NeuroClips 远超 MinD-Video,重建视频更加流畅。

神经科学解释性

此外,为了探究神经层面的可解释性,本文在脑平面上可视化了体素级别的权重以观察整个大脑的关注度。可以观察到,任何任务视觉皮层都占据着重要的位置,以及 SR 和 PR 的不同权重。
NeurIPS 2024 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频
结论

本文创新性地提出了 NeuroClips,这是一种用于 fMRI-to-video 重建的新颖框架。通过感知重建和语义重建两条路径实现了体素级和语义级的 fMRI 视觉学习。我们可以在不进行额外训练的情况下将它们配置到最新的视频扩散模型中,以生成更高质量、更高帧率和更长的视频。NeuroClips 能够在语义级精度和像素级匹配程度上恢复视频,从而在该领域建立了新的最佳水平,我们还可视化了 NeuroClips 的神经科学可解释性。

以上就是NeurIPS 2025 Oral | 还原所见!揭秘从脑信号重建高保真流畅视频的详细内容,更多请关注其它相关文章!


# git  # 工程  # 华纳  # 模态  # 保时捷  # 同济大学  # 提出了  # 所见  # type  # stable diffusion  # 邮箱  # ai  # 网站关键词优化葳芯hfqjwl  # 郑州网站建设策划方案  # 福州正规seo哪家好  # 坊子区seo优化公司  # 廉江网站建设设计报价  # 乡镇网站建设内容规划  # 焦作整站营销推广优化  # 出售seo客户电话号码  # 网站建设团队名字口号  # 模型网站建设  # 这一  # 实现了  # 高质量  # 所示 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 什么是unix时间戳  市盈率292是什么意思  电脑显示器上power是什么意思  固态硬盘如何外接  苹果16哪些会降价的  怎么用typescript 写js  双十一哪一天买比较便宜?  j*a数组怎么放字符  市盈率估值1stdv是什么意思  夸克学习都有什么课程  typescript怎么拼接  bc是什么意思  固态硬盘电脑如何设置  1s等于多少ms  grep命令的是如何实现  市盈率高是什么意思  单片机log怎么看  如何用命令查看数据库日志文件  16苹果有哪些机型  固态硬盘4k如何看  夸克加载什么要会员  反向春运抢票方式  光刻机的作用及工作原理  vue怎么连接typescript  linux如何切换到命令行模式  摄像机的power chg是什么意思中文  如何查询固态硬盘序列  市盈率动亏损是什么意思  如何通过命令系统还原  linux环境中如何使用ping命令  春运抢票如何快速抢到票  为什么ai老是说链接面板中缺少某些文件  干股是什么意思  1tb等于多少mb  element ui的好处  adb 命令如何后台运行  如何看固态硬盘信息  如何在命令行写j*a程序  r中如何逐行执行命令  固态硬盘如何启动  typescript怎么解析vue TypeScript在vue中的使用最新解读  固态硬盘如何消除缓存  春运车票啥时候可以抢票  8k是多少钱  苹果16系统多了哪些  win10锁屏壁纸怎么换360锁屏壁纸吗  为什么进行域名解析  j*a map数组怎么取值  如何学习typescript  bored是什么意思 

搜索