新闻中心
-
05-06LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯两天前,图灵奖得主YannLeCun转载了「自己登上月球去探索」的长篇漫画,引起了网友的热议。在《StoryDiffusion:ConsistentSelf-A...
-
05-06ICLR 2025 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量作者|PengfeiZheng单位|USTC,HKBUTMLRGroup近年来,生成AI的迅猛发展为文本到图像生成、视频生成等令人瞩目的领域注入了强大的动力。这...
-
05-02参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?多模态AI系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型(如GPT-4V)的研究取得...
-
04-26颜水成挂帅,昆仑万维2050全球研究院联合NUS、NTU发布Vitron,奠定通用视觉多模态大模型终极形态近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。这是一款重...
-
04-25颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑近日,颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项目主页&Demo:https://vitron-llm.github....
-
04-24CVPR 2025 | 面向真实感场景生成的激光雷达扩散模型原标题:TowardsRealisticSceneGenerationwithLiDARDiffusionModels论文链接:https://hancyran...

