新闻中心
-
02-01将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B大型视觉语言模型(LVLM)可以通过扩展模型来提高性能。然而,扩大参数规模会增加训练和推理成本,因为每个token的计算都会激活所有模型参数。来自北京大学、中山...
-
02-01赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了在去年4月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究者们联合发布了LLaVA(LargeLanguageandVisionAssistant)。尽...
-
01-30快手、北大多模态大模型:图像即外语,媲美DALLE-3的突破动态视觉分词统一图文表示,快手与北大合作提出基座模型LaVIT刷榜多模态理解与生成任务。当前的大型语言模型如GPT、LLaMA等在自然语言处理领域取得了显著进展...
-
01-30图像化语言:快手、北大多模态大模型与DALLE-3不相上下当前的大型语言模型如GPT、LLaMA等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。然而,我们是否可以将这种强大的理解和生成能力扩展到多模态...
-
01-29最新推出的适合中文LMM体质的基准CMMMU:包含超过30个细分学科和12K个专家级题目随着多模态大模型(LMM)的不断进步,对于评估LMM性能的需求也在增长。尤其在中文环境下,评估LMM的高级知识和推理能力变得更加重要。在这个背景下,为了评估基本...
-
01-29开源在线的年轻人首选多模态大模型:轻松运行1080Ti一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到2B,消费级显卡可训练,GTX1080ti8G的老显卡轻松运行。想将一份文档图片转换成...

