新闻中心

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

2025-02-28
浏览次数:
返回列表

aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当前,大语言模型(LLM)的创造力(Leap-of-Thought),与逻辑思维能力(Chain-of-Thought)同样重要,却鲜有深入探讨。这制约了LLM创造力发展,主要原因在于缺乏合适的自动化评估方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片 图 1

以往的LLM创造力评估多采用选择、排序等方法,这些方法虽然适用于逻辑思维能力评估,却难以有效衡量创造力。例如,要求根据图片和文字补充一句话,使其富有创造力和幽默感。如果提供选项“A. 可以帮忙扶一下我吗?”和“B. 可以帮我解开手铐吗?”,LLM可能无需创造力便选择B,因为B更独特。图片 图 2

LLM创造力评估应侧重于“生成创新内容的能力”,而非“判断创新内容的能力”。目前,人类评估和LLM-as-a-judge两种方法较为常用。人类评估准确率高,但成本高且不可持续;LLM-as-a-judge方法(通过zero-shot或fine-tuning LLM进行评分)尚处于初级阶段,稳定性不足。

为此,来自中大、哈佛、鹏城和新加坡管理大学的研究者提出了一种新的评估范式——LoTbench。该方法通过研究LLM生成高质量创新内容所需的“代价”(即LLM生成内容与人类水平创新内容的差距)来评估创造力,并已发表在IEEE TPAMI期刊上。图片

  • 论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
  • 论文链接:https://www.php.cn/link/a64bcca2a087451831e31b6d339940b9
  • 项目主页:https://www.php.cn/link/4c21c9d351543562af3562a7add8685f

任务场景及内容

LoTbench基于CVPR'24的“梗王”大模型研究(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation),其核心任务是根据图片和文字补充一句话,使其富有创造力和幽默感(类似于日本“大喜利”游戏)。此类任务具有以下特点:

  1. 高度依赖创造力;
  2. 适合多模态LLM的输入输出格式;
  3. 拥有大量高质量人类标注数据。

LoTbench通过计算LLM生成高质量创新内容所需的轮数来衡量创造力。轮数越少,创造力越高;轮数无限则创造力为零。图片 图 3 图片 图 4

LoTbench的具体流程如图4所示,包括:

  1. 选择高质量人类创新内容(HHCR)数据;
  2. LLM多轮生成响应,判断是否与HHCR“异曲同工”(DAESO);
  3. LLM提出疑问,系统根据HHCR返回答案;
  4. 更新交互信息,循环步骤1。

创造力分数Sc的计算考虑了HHCR样本数量和重复实验次数。图片

Zyro AI Background Remover Zyro AI Background Remover

Zyro推出的AI图片背景移除工具

Zyro AI Background Remover 145 查看详情 Zyro AI Background Remover

异曲同工之妙(DAESO)的判断

由于创造力任务的多样性,需要判断两个响应是否“异曲同工”。这需要满足两个条件:

  1. 相同的核心创新解释;
  2. 相同的功能相似性。

功能相似性与语义相似性有所不同。图片 图 5 图片 图 6

通过对HHCR进行详细解释标注,并利用LLM构建因果链条,可以实现对DAESO的判断。基于GPT-4,准确率可达80%-90%。

测评结果

LoTbench对主流LLM的测评结果显示,当前LLM的创造力仍有提升空间,但具备超越人类的潜力。图片 图 7 图片 图 8 更多细节请参考原文。

以上就是探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平的详细内容,更多请关注其它相关文章!


# git  # seo九度件  # 绵阳品牌网站建设优化  # 武汉短视频seo公司  # 谷歌对网站推广有何帮助  # 科大  # 你该  # 句话  # 网易  # 系列产品  # 使其  # 所需  # 异曲同工  # 开源  # 高质量  # qwen  # deepseek  # 邮箱  # ai  # 工程  # 太原网站推广步骤  # 南宁seo优化价格  # 捕鱼推广网站有哪些  # 重庆seo公司便宜  # 高新区外贸网站推广平台  # 鄂州seo推广优势分析 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 爱奇艺会员qq登录可以几个人用?  固态硬盘4k如何看  虚拟机如何用命令清除垃圾  type-c接口接地是什么意思  固态硬盘坏了如何换硬盘  怎么看手机是不是双模5g手机  固态硬盘如何备份  为什么夸克书架书单没了  为什么程序员热爱typescript  路由器power灯一直亮是什么意思  typescript与es6学哪个  put linux命令如何书写  1tb等于多少mb  12306放票时间规律(2025)  如何激活固态硬盘  抖音GMV是什么_抖音GMV是什么意思  如何操作fixup命令  typescript入门要多久  安装固态硬盘如何设置  怎么在typescript写原型链  命令行如何运行j*a  如何提高import命令的性能  单片机引脚怎么改成上拉  如何体验苹果16系统  网络光刻机是干什么用的  三星固态硬盘如何保修  干股是什么意思  华为的nfc功能是什么意思  电脑命令如何删除账号  如何在命令行执行存储过程  市盈率估值1stdv是什么意思  如何拍屏幕不出条纹详细方法  汽车中控导航机power线是什么意思  typescript怎么写游戏  一年多少周  怎么在typescript定义集合  typescript能干什么  三星固态硬盘如何安装  ai文件在线打开工具有哪些  固态硬盘如何检查  显卡上面TYPE-C是什么接口  市盈率市净率是什么意思  单片机怎么控制内功率  怎么确定手机是5g  夸克转存中是什么意思  5g手机怎么没视频通话功能  春运抢票如何抢连坐的票  如何更新固态硬盘固件  如何退出数据库命令行  征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程 

搜索