新闻中心

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

2024-09-11
浏览次数:
返回列表
ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文第一作者为 Chuanyang Jin (金川杨),本科毕业于纽约大学,即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作,他是最年轻的杰出论文奖获得者之一。本文的指导老师为 Tianmin Shu (舒天民),JHU 助理教授,Social Cognitive AI Lab 的主任。博士师从 UCLA 朱松纯教授,在 MIT 完成博后,致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统,从而推进以人为中心的 AI。本文另外两位指导老师 Joshua B. Tenenbaum、Antonio Torralba 为 MIT 著名教授,google scholar 引用量均在 10 万以上。

心智能力(Theory of Mind,ToM),即理解人们思维的能力,是开发具有类人社会智能的 AI 模型的重要基础。

近日,来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2025 会议中,这篇论文获得杰出论文奖。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

  • 论文标题:MMToM-QA: Multimodal Theory of Mind Question Answering
  • 论文地址: https://arxiv.org/abs/2401.08743
  • 网站: https://chuanyangjin.com/mmtom-qa
  • 代码: https://github.com/chuanyangjin/MMToM-QA

MMToM-QA
第一个多模态的 ToM benchmark

先前所有心智能力的测试基准都是单一模态的。MMToM-QA 是第一个多模态的心智能力测试基准。其中每个问题包含三部分:一个人的活动视频,环境和人类动作的文字描述与一个 ToM 问题。ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
此前,大部分的心智能力测试基准都使用较简单的模版,文字或视频的长度很短。MMToM-QA 要求在更长的上下文下,更复杂多样的环境下系统性衡量模型的心智能力。既考察 belief(人们所认为的),也考察 goal(人们的目标)。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

为了生成这些视频,该团队使用 VirtualHome-Social 模拟器来中生成一系列人物动作,并渲染合成视频。接下来,使用一个模型来跟踪记录在视频的每个时刻中 agent 所有可能的目标和想法,据此生成问题,并使用 GPT-4 生成改进问题的描述。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

Meta、MIT、CMU、JHU 的众多团队已使用 MMToM-QA 来研发与人合作的大模型、机器人等。

大模型集体翻车
GPT-4V 存在致命缺陷

在 MMToM-QA 上的实验结果显示,当人们可以使用不同模态的信息时,他们理解他人的能力会有所提升。在这种多模态条件下,在每个问题上大多数参与者都达成了一致意见,这验证了基准设计的有效性。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

相比之下,多模态模型和 LLM 的表现远不如人类。它们在所有问题类型上表现得像随机猜测一样。唯一的例外是 GPT-4V,当人们的信念与现实一致时它表现良好,但当涉及到人们持有错误信念或更新信念时,GPT-4V 会系统性犯错,并且在判断目标时表现较差。

以下是 GPT-4V 的一个失败案例。从视频和文本中可以看出,柜子里没有蛋糕,但女人却朝柜子走去,准备打开它。因此,正确答案应该是 「女人认为柜子里有一个蛋糕。」然而,GPT-4V 错误地使用了真实世界的状态来推断女人的想法,这表明 GPT-4V 无法区分信念和真实世界状态。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

BIP-ALM
小模型 + 逆向规划超过 GPT-4V

那么,我们该如何缩小 AI 模型和人类表现之间的差距?

该团队提出了一种新方法:BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models)。该方法首先从视频和文字中提取出相同的符号表示,接着对这些表示进行对齐和融合,再使用逆向结合语言模型来推断各种心理状态的概率。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
以下是融合符号表示的方法。模型将从视频中提取特定时刻的场景关系图,识别人物与物体之间的关系,例如他们正在经过哪些物体或他们正朝哪些物品前进。由于摄像头视角的限制和遮挡,文本提供了这些可能无法直接从视频中观察的这些信息。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

贝叶斯逆向规划(Bayesian inverse planning)可以根据观察到的 agent 的行为来推断其心理状态与潜在的信念和目标。先前的研究表明,贝叶斯逆向规划可以在简单情景下成功。然而,当状态空间变得很大时,计算每个可能信念和目标的概率变得非常复杂,导致计算瓶颈。下图中蓝色标出的部分就是一个计算瓶颈。为了加速这一过程,该团队使用了语言模型来估计每个时刻的心理状态的概率。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

先前的大模型和各种方法无论是在文本、视频、还是多模态版本的 MMToM-QA 上都表现较差,而 BIP-ALM 则展现了较好的结果。论文作者认为 BIP-ALM 得益于:(1) 使用适用于不同模态信息的符号表示,(2) 模仿人类心智推理的逆向规划方法具有很强的鲁棒性和可解释性,(3) 语言模型具有很好的灵活性和可扩展性

后续工作
走向多智能体的多模态心智模型

该团队提出了后续研究 MuMA-ToM: Multi-modal Multi-Agent Theory of Mind,将 MMToM-QA 的测试基准和方法拓展到了多个智能体的领域。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

  • 论文标题:MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
  • 论文地址: https://arxiv.org/abs/2408.12574
  • 网站: https://scai.cs.jhu.edu/projects/MuMA-ToM
  • 代码: https://github.com/SCAI-JHU/MuMA-ToM

MuMA-ToM 关注多智能体的互动,考察它们的信念、社会目标、和对他人目标的信念,发现大型多模态模型 GPT-4o、Gemini-1.5 Pro 等依然表现糟糕。针对这些发现,研究团队进一步提出了改进的方法 LIMP (Language model-based Inverse Multi-agent Planning)。相比之前的方法,LIMP 使用自然语言而不是符号表示来提高通用性,并且能够利用任何预训练的大型语言模型,而 BIP-ALM 则要求开放权重的大型语言模型。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

以上就是ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力的详细内容,更多请关注其它相关文章!


# muma-tom  # 先前  # 第一个  # 提出了  # 全面提升  # 首个  # 多模  # type  # gemini  # 模拟器  # git  # acl 2024  # mmtom-qa  # 工程  # follow  # 企业为何要建设网站  # 网络营销推广方计划  # 温江区定制版网站优化  # 孝感网站建设与优化策划  # 大连网站建设需要什么  # 江西互联网视频营销推广  # 行业网站建设与推广方案  # 胶南小语种网站建设  # 珠海营销推广策略公司  # 天津疫情关键词排名推广  # 可直接  # 新能源  # 日韩  # 互动 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 折叠屏手机为什么这么小  一分钟等于多少秒  typescript怎么用  电动车充电器上的power是什么意思  xdm是什么意思  怎么关360壁纸广告  苹果16有哪些改善  j*a数组元素怎么用  typescript多久能学会  j*a数组怎么放字符  typescript怎么加号  显示器power接口是什么意思  春运抢票最快几天能成功  考勤机power红灯是什么意思  如何清理固态硬盘  苹果16有哪些黑科技  主板如何禁用固态硬盘  折叠手机屏易坏吗为什么  linux下如何重定位命令  4800日元等于多少人民币  db2命令中如何去到指定的副本  debian10和ubuntu20哪个好用  自己如何安装固态硬盘  市盈率20a21e是什么意思  65寸电视长宽多少厘米  征信信用不好如何恢复 征信信用不好如何恢复指南  2026年将会大爆发的15个新科技  空调power灯一直闪是什么意思  网络光刻机是干什么用的  选哪个折叠屏手机好  12306放票时间规律(2025)  市盈率为负值是什么意思  科技型企业成长"十步法"  苹果16有哪些不同  vue项目如何用typescript  单片机蜂鸣器响了怎么停  vb中的datediff函数怎么用 ​VB中的DateDiff函数:详尽指南  typescript如何生成uuid  mysql的datediff函数怎么用  推特是什么软件国内可以使用吗  命令不执行如何处理  净水器上的power是什么意思  如何把u盘改成固态硬盘  喇叭上POWER4欧是什么意思  typescript是什么类型的语言  typescript有哪些版本  夸克加载什么要会员  电脑5G怎么上传手机  如何拍屏幕不出条纹详细方法  power在录音笔上是什么意思 

搜索