新闻中心
探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平
aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
当前,大语言模型(LLM)的创造力(Leap-of-Thought),与逻辑思维能力(Chain-of-Thought)同样重要,却鲜有深入探讨。这制约了LLM创造力发展,主要原因在于缺乏合适的自动化评估方法。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图 1
以往的LLM创造力评估多采用选择、排序等方法,这些方法虽然适用于逻辑思维能力评估,却难以有效衡量创造力。例如,要求根据图片和文字补充一句话,使其富有创造力和幽默感。如果提供选项“A. 可以帮忙扶一下我吗?”和“B. 可以帮我解开手铐吗?”,LLM可能无需创造力便选择B,因为B更独特。
图 2
LLM创造力评估应侧重于“生成创新内容的能力”,而非“判断创新内容的能力”。目前,人类评估和LLM-as-a-judge两种方法较为常用。人类评估准确率高,但成本高且不可持续;LLM-as-a-judge方法(通过zero-shot或fine-tuning LLM进行评分)尚处于初级阶段,稳定性不足。
为此,来自中大、哈佛、鹏城和新加坡管理大学的研究者提出了一种新的评估范式——LoTbench。该方法通过研究LLM生成高质量创新内容所需的“代价”(即LLM生成内容与人类水平创新内容的差距)来评估创造力,并已发表在IEEE TPAMI期刊上。
- 论文
题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models - 论文链接:https://www.php.cn/link/a64bcca2a087451831e31b6d339940b9
- 项目主页:https://www.php.cn/link/4c21c9d351543562af3562a7add8685f
任务场景及内容
LoTbench基于CVPR'24的“梗王”大模型研究(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation),其核心任务是根据图片和文字补充一句话,使其富有创造力和幽默感(类似于日本“大喜利”游戏)。此类任务具有以下特点:
- 高度依赖创造力;
- 适合多模态LLM的输入输出格式;
- 拥有大量高质量人类标注数据。
LoTbench通过计算LLM生成高质量创新内容所需的轮数来衡量创造力。轮数越少,创造力越高;轮数无限则创造力为零。
图 3
图 4
LoTbench的具体流程如图4所示,包括:
- 选择高质量人类创新内容(HHCR)数据;
- LLM多轮生成响应,判断是否与HHCR“异曲同工”(DAESO);
- LLM提出疑问,系统根据HHCR返回答案;
- 更新交互信息,循环步骤1。
创造力分数Sc的计算考虑了HHCR样本数量和重复实验次数。
Zyro AI Background Remover
Zyro推出的AI图片背景移除工具
145
查看详情
异曲同工之妙(DAESO)的判断
由于创造力任务的多样性,需要判断两个响应是否“异曲同工”。这需要满足两个条件:
- 相同的核心创新解释;
- 相同的功能相似性。
功能相似性与语义相似性有所不同。
图 5
图 6
通过对HHCR进行详细解释标注,并利用LLM构建因果链条,可以实现对DAESO的判断。基于GPT-4,准确率可达80%-90%。
测评结果
LoTbench对主流LLM的测评结果显示,当前LLM的创造力仍有提升空间,但具备超越人类的潜力。
图 7
图 8 更多细节请参考原文。
以上就是探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平的详细内容,更多请关注其它相关文章!
# git
# seo九度件
# 绵阳品牌网站建设优化
# 武汉短视频seo公司
# 谷歌对网站推广有何帮助
# 科大
# 你该
# 句话
# 网易
# 系列产品
# 使其
# 所需
# 异曲同工
# 开源
# 高质量
# qwen
# deepseek
# 邮箱
# ai
# 工程
# 太原网站推广步骤
# 南宁seo优化价格
# 捕鱼推广网站有哪些
# 重庆seo公司便宜
# 高新区外贸网站推广平台
# 鄂州seo推广优势分析
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
爱奇艺会员qq登录可以几个人用?
固态硬盘4k如何看
虚拟机如何用命令清除垃圾
type-c接口接地是什么意思
固态硬盘坏了如何换硬盘
怎么看手机是不是双模5g手机
固态硬盘如何备份
为什么夸克书架书单没了
为什么程序员热爱typescript
路由器power灯一直亮是什么意思
typescript与es6学哪个
put linux命令如何书写
1tb等于多少mb
12306放票时间规律(2025)
如何激活固态硬盘
抖音GMV是什么_抖音GMV是什么意思
如何操作fixup命令
typescript入门要多久
安装固态硬盘如何设置
怎么在typescript写原型链
命令行如何运行j*a
如何提高import命令的性能
单片机引脚怎么改成上拉
如何体验苹果16系统
网络光刻机是干什么用的
三星固态硬盘如何保修
干股是什么意思
华为的nfc功能是什么意思
电脑命令如何删除账号
如何在命令行执行存储过程
市盈率估值1stdv是什么意思
如何拍屏幕不出条纹详细方法
汽车中控导航机power线是什么意思
typescript怎么写游戏
一年多少周
怎么在typescript定义集合
typescript能干什么
三星固态硬盘如何安装
ai文件在线打开工具有哪些
固态硬盘如何检查
显卡上面TYPE-C是什么接口
市盈率市净率是什么意思
单片机怎么控制内功率
怎么确定手机是5g
夸克转存中是什么意思
5g手机怎么没视频通话功能
春运抢票如何抢连坐的票
如何更新固态硬盘固件
如何退出数据库命令行
征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程


2025-02-28
浏览次数:次
返回列表
题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models