新闻中心

开源在线的年轻人首选多模态大模型:轻松运行1080Ti

2024-01-29
浏览次数:
返回列表

一款名为vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

无论中英文,图片中的大段文字都能分分钟提取出来:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

对一张图做对象检测,还是能给出具体坐标的那种:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

魔方网站开发包WDK企业完整版 wdk2.02 魔方网站开发包WDK企业完整版 wdk2.02

魔方网站开发包WDK(Website Development Kit)2.0 是适应互联网网站建设的发展的需求,在网站开发技术日渐成熟和普及的前提下,为广大建站团队,互联网创业者,网站建设专业学习者及广大建站爱好者提供的一套实用、易用且能掌握了解网站建设、推广、运营的普及型开发包。网站建设者可以轻松、迅速且高效的构建拥有自己的行业门户、企业展示和个人主页的网站。当前绝大多数的建站系统都采用模块化建

魔方网站开发包WDK企业完整版 wdk2.02 0 查看详情 魔方网站开发包WDK企业完整版 wdk2.02

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

项目链接:
[1]https://arxiv.org/abs/2401.12503

[3]https://varytoy.github.io/

以上就是开源在线的年轻人首选多模态大模型:轻松运行1080Ti的详细内容,更多请关注其它相关文章!


# 数据  # 第一个  # 了解网站建设  # 网站建设的发展  # 网站建设者  # 网站建设专业  # 开源  # 模型  # 北屯seo  # 常州抖音营销推广加盟店  # 企业网站优化的步骤  # 淮安seo优化多少时间  # 网站页面优化多少钱  # 武汉网站推广威欣hfqjwl下拉  # 保定网站建设大型  # 盐城网站建设价多少  # qq营销与推广  # 天津别墅营销推广方案  # 省电  # 文档  # 开发包  # 多模 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何使用命令行界面  固态硬盘如何4k对其  固态硬盘如何判断大小  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  固态硬盘如何测试好坏  如何把u盘改成固态硬盘  负市盈率是什么意思  typescript适合什么用  市盈率为负数是什么意思  市盈率20a21e是什么意思  固态硬盘如何显示  如何用adb命令停用系统软件  公司的tm市盈率为负是什么意思  折叠屏有哪些手机  5r是多少钱  360n6锁屏壁纸怎么设置  early什么意思  对象数组怎么用j*a  市盈率估值1stdv是什么意思  typescript的语法格式是什么  今天是农历多少号  typescript是什么时候出来的  苹果16日发售哪些机型  power在坐标轴中是什么意思  苹果16关闭哪些功能好  命令行如何运行j*a  面包车收音机power是什么意思  市盈率底下 18A 19E 是什么意思  硬盘和固态硬盘如何区分  react怎么使用 typescript  如何查看win10版本命令行  怎么在typescript定义集合  vi命令如何使用方法  J*a数组静态怎么打  typescript接口怎么选  xdm是什么意思  开机如何进入命令行模式  openwrt有哪些功能  debian和ubuntu命令一样吗  如何管理员打开cmd命令行窗口  电焊机power灯亮是什么意思  ftp$如何执行宏命令  ping命令如何看问题  混合固态硬盘如何分区  学typescript有什么用  台达plc只有power灯亮是什么意思  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  汽车上power是什么意思  5G类似微信的聊天软件有哪些  bugly是什么 

搜索