新闻中心
-
05-02参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?多模态AI系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型(如GPT-4V)的研究取得...
-
05-01在12个视频理解任务中,Mamba先打败了Transformer本站发布学术、技术内容的专栏。近年来,本站AIxiv专栏接收报道超过2000篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的...
-
04-302025年开源人工智能的重要性到2024年,对开源人工智能的需求将继续增长。开源人工智能使开发人员能够够访问和构建彼此的工作成果,从而实现该领域的合作、透明度和创新。这加速了人工智能技术的发...
-
04-26CVPR 2025 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetAIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
04-25颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑近日,颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项目主页&Demo:https://vitron-llm.github....
-
04-24CVPR 2025 | 面向真实感场景生成的激光雷达扩散模型原标题:TowardsRealisticSceneGenerationwithLiDARDiffusionModels论文链接:https://hancyran...

