新闻中心
年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布
字节跳动研究团队的视频理解大模型tarsier迎来了重大升级,推出了第二代模型tarsier2及其技术报告。此前发布的tarsier-7b/34b已成为最强大的开源视频描述模型,仅次于闭源模型gemini-1.5-pro和gpt-4o。那么,tarsier2又有哪些突破呢?
让我们先看看Tarsier2对经典*片段的理解:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

《燕子,没有你我怎么活》
《曹操盖饭》
Tarsier2不仅精准捕捉人物动作(例如小岳岳追车、下跪,曹操的挥舞动作),还巧妙结合字幕信息,深入分析人物动机、心理,理解人物关系和剧情发展。
Tarsier2 视频描述效果合集
Tarsier2在视频描述任务上的表现同样出色,无论是真人还是动画、横屏还是竖屏、多场景还是多镜头,都能精准捕捉核心视觉元素和动态事件,并用简洁的语言进行描述,且很少出现幻觉。其性能已可与GPT-4o媲美。

Tarsier2的“火眼金睛”是如何炼成的?
Tarsier2是一个7B参数的轻量级模型,支持动态分辨率,能够理解长达数十分钟的视频,尤其擅长分析几十秒的短视频片段。其强大的视频理解能力源于精细的预训练和后训练阶段:
预训练阶段:
Tarsier2在4000万个互联网视频-文本数据上进行预训练。团队通过海量收集互联网视频-文本数据,并设计了一套严谨的数据筛选流程(分镜、过滤、合并),确保训练数据的质量。特别值得一提的是,Tarsier2筛选了大量的*剧解说视频,帮助模型理解更深层次的情节信息。
后训练阶段:
Zyro AI Background Remover
Zyro推出的AI图片背景移除工具
145
查看详情
后训练分为SFT和DPO两个阶段:
- SFT (监督微调): 在人工标注的视频描述数据上进行训练,并引入针对每个子事件的具体定位信息,强化模型对时序信息和视觉特征的关注。
SFT数据样例
- DPO (数据增强): 在自动化构造的正负样本上进行DPO训练,正样本来自模型对原始视频的预测,负样本来自模型对经过随机扰动的视频的预测。这种方法提高了描述的准确性和完整性,减少了幻觉。
性能测试:
Tarsier2在19个视频理解公开基准上进行了测试,与10多个最先进的开源模型(Qwe
n2-VL、InternVL2.5、LLaVA-Video等)和闭源模型(Gemini-1.5, GPT-4o)进行了比较。结果显示,Tarsier2在视频描述、短/长视频问答等通用视频理解任务上表现出色。
视频描述质量人工评估结果
Tarsier2在广泛的视频理解任务上树立了新的标杆
Tarsier2还在机器人和智能驾驶等下游任务中展现了强大的泛化能力。
机器人场景
智能驾驶场景
未来展望:
Tarsier2在生成准确详细的视频描述方面超越了现有模型,并在广泛的视频理解任务中树立了新的标杆。 它在多模态融合领域迈出了坚实的一步,未来有望在人工智能发展中发挥更大的作用。

论文地址:https://www.php.cn/link/e3c87529e817b9f8468c02ee8c81ed89 项目仓库:https://www.php.cn/link/b8d889c4e9b34bc7dc7a93a2a9a91070 HuggingFace:https://www.php.cn/link/bdee0997d3fb6be8515a432051fe4e5c
以上就是年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布的详细内容,更多请关注其它相关文章!
# tarsier2
# 产业
# 美图
# 网易
# 互联网
# 开源
# qwen
# gemini
# 智能驾驶
# qq
# git
# 浦城网络seo公司
# 广安网站设计推广
# 天津营销推广要素有哪些
# 绵阳网站关键优化软件
# 谷歌可以做seo吗
# 山东网络营销推广seo
# 太谷专业网站推广
# 外链代码优化seo
# 中国石化泉州网站优化
# 重庆专业企业建设网站
# 之选
# 正式发布
# 进行了
# 哪家
# 年末
# 你该
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
语音聊天软件哪个好 语音聊天软件2025排行榜
360n5锁屏壁纸怎么设置
51单片机怎么用flash
typescript怎么写react
市盈率市净率是什么意思
市盈率3.2是什么意思
sausage是什么意思
爱奇艺vip会员可以同时几个人用?
固态硬盘坏了如何换硬盘
夸克*免费吗
typescript的语法格式是什么
typescript干什么的
vb中的datediff函数怎么用 VB中的DateDiff函数:详尽指南
苹果16有哪些系统
j*a怎么把数组输出
华为5g手机怎么用4g网络
calm是什么意思
typescript怎么添加css样式
固态硬盘2m如何修复
如何在命令行执行一个jar
python和typescript学哪个
远程桌面如何发送命令
linux环境中如何使用ping命令
iPhone无法打开YouTube原因分析与解决方案
怎么确定手机是5g
typescript解决了什么
如何选购ssd固态硬盘
360n7lite怎么设置动态壁纸
ospf中交换机命令如何设置
面包车收音机power是什么意思
typescript中文怎么读
m*en repository的作用是什么
春运抢票需要什么软件抢
angluar如何命令删除dist
在遥控器中power是什么意思
征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程
如何进入cmd命令行
汽车收音机power是什么意思
typescript如何定义变量
j*a数组对象怎么取
5r是多少钱
如何使用程序编译 执行的命令
美食音乐每日推荐怎么写
j*a如何运行curl命令行
市盈率亏损是什么意思
跑分是什么意思
电动车仪表盘上的power是什么意思
折叠手机内屏为什么会坏
折叠屏有哪些手机
折叠手机屏易坏吗为什么


2025-01-25
浏览次数:次
返回列表