新闻中心

年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

2025-01-25
浏览次数:
返回列表

字节跳动研究团队的视频理解大模型tarsier迎来了重大升级,推出了第二代模型tarsier2及其技术报告。此前发布的tarsier-7b/34b已成为最强大的开源视频描述模型,仅次于闭源模型gemini-1.5-pro和gpt-4o。那么,tarsier2又有哪些突破呢?

让我们先看看Tarsier2对经典*片段的理解:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

图片《燕子,没有你我怎么活》

图片《曹操盖饭》

Tarsier2不仅精准捕捉人物动作(例如小岳岳追车、下跪,曹操的挥舞动作),还巧妙结合字幕信息,深入分析人物动机、心理,理解人物关系和剧情发展。

图片Tarsier2 视频描述效果合集

Tarsier2在视频描述任务上的表现同样出色,无论是真人还是动画、横屏还是竖屏、多场景还是多镜头,都能精准捕捉核心视觉元素和动态事件,并用简洁的语言进行描述,且很少出现幻觉。其性能已可与GPT-4o媲美。

图片

Tarsier2的“火眼金睛”是如何炼成的?

Tarsier2是一个7B参数的轻量级模型,支持动态分辨率,能够理解长达数十分钟的视频,尤其擅长分析几十秒的短视频片段。其强大的视频理解能力源于精细的预训练和后训练阶段:

预训练阶段:

Tarsier2在4000万个互联网视频-文本数据上进行预训练。团队通过海量收集互联网视频-文本数据,并设计了一套严谨的数据筛选流程(分镜、过滤、合并),确保训练数据的质量。特别值得一提的是,Tarsier2筛选了大量的*剧解说视频,帮助模型理解更深层次的情节信息。

后训练阶段:

Zyro AI Background Remover Zyro AI Background Remover

Zyro推出的AI图片背景移除工具

Zyro AI Background Remover 145 查看详情 Zyro AI Background Remover

后训练分为SFT和DPO两个阶段:

  • SFT (监督微调): 在人工标注的视频描述数据上进行训练,并引入针对每个子事件的具体定位信息,强化模型对时序信息和视觉特征的关注。

图片SFT数据样例

  • DPO (数据增强): 在自动化构造的正负样本上进行DPO训练,正样本来自模型对原始视频的预测,负样本来自模型对经过随机扰动的视频的预测。这种方法提高了描述的准确性和完整性,减少了幻觉。

性能测试:

Tarsier2在19个视频理解公开基准上进行了测试,与10多个最先进的开源模型(Qwen2-VL、InternVL2.5、LLaVA-Video等)和闭源模型(Gemini-1.5, GPT-4o)进行了比较。结果显示,Tarsier2在视频描述、短/长视频问答等通用视频理解任务上表现出色。

图片视频描述质量人工评估结果

图片Tarsier2在广泛的视频理解任务上树立了新的标杆

Tarsier2还在机器人和智能驾驶等下游任务中展现了强大的泛化能力。

图片机器人场景

图片智能驾驶场景

未来展望:

Tarsier2在生成准确详细的视频描述方面超越了现有模型,并在广泛的视频理解任务中树立了新的标杆。 它在多模态融合领域迈出了坚实的一步,未来有望在人工智能发展中发挥更大的作用。

图片

论文地址:https://www.php.cn/link/e3c87529e817b9f8468c02ee8c81ed89 项目仓库:https://www.php.cn/link/b8d889c4e9b34bc7dc7a93a2a9a91070 HuggingFace:https://www.php.cn/link/bdee0997d3fb6be8515a432051fe4e5c

以上就是年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布的详细内容,更多请关注其它相关文章!


# tarsier2  # 产业  # 美图  # 网易  # 互联网  # 开源  # qwen  # gemini  # 智能驾驶  # qq  # git  # 浦城网络seo公司  # 广安网站设计推广  # 天津营销推广要素有哪些  # 绵阳网站关键优化软件  # 谷歌可以做seo吗  # 山东网络营销推广seo  # 太谷专业网站推广  # 外链代码优化seo  # 中国石化泉州网站优化  # 重庆专业企业建设网站  # 之选  # 正式发布  # 进行了  # 哪家  # 年末  # 你该 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 语音聊天软件哪个好 语音聊天软件2025排行榜  360n5锁屏壁纸怎么设置  51单片机怎么用flash  typescript怎么写react  市盈率市净率是什么意思  市盈率3.2是什么意思  sausage是什么意思  爱奇艺vip会员可以同时几个人用?  固态硬盘坏了如何换硬盘  夸克*免费吗  typescript的语法格式是什么  typescript干什么的  vb中的datediff函数怎么用 ​VB中的DateDiff函数:详尽指南  苹果16有哪些系统  j*a怎么把数组输出  华为5g手机怎么用4g网络  calm是什么意思  typescript怎么添加css样式  固态硬盘2m如何修复  如何在命令行执行一个jar  python和typescript学哪个  远程桌面如何发送命令  linux环境中如何使用ping命令  iPhone无法打开YouTube原因分析与解决方案  怎么确定手机是5g  typescript解决了什么  如何选购ssd固态硬盘  360n7lite怎么设置动态壁纸  ospf中交换机命令如何设置  面包车收音机power是什么意思  typescript中文怎么读  m*en repository的作用是什么  春运抢票需要什么软件抢  angluar如何命令删除dist  在遥控器中power是什么意思  征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程  如何进入cmd命令行  汽车收音机power是什么意思  typescript如何定义变量  j*a数组对象怎么取  5r是多少钱  如何使用程序编译 执行的命令  美食音乐每日推荐怎么写  j*a如何运行curl命令行  市盈率亏损是什么意思  跑分是什么意思  电动车仪表盘上的power是什么意思  折叠手机内屏为什么会坏  折叠屏有哪些手机  折叠手机屏易坏吗为什么 

搜索