新闻中心
AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
最新研究揭示大语言模型推理能力的局限性:enigmaeval 基准测试结果
Scale AI、Center for AI Safety 和 MIT 的研究人员联合发布了新的多模态推理基准测试 ENIGMAEVAL,再次挑战了大语言模型的推理能力。该基准包含 1184 个难题,涵盖解谜寻宝竞赛中的各种类型,测试模型的逻辑推理、创造性思维和跨学科知识运用能力。难题分为普通难度 (Normal) 和困难难度 (Hard) 两类,分别包含 949 道和 235 道题目。 难题以原始 PDF 图片和结构化文本-图像两种格式提供,以评估模型的端到端能力和独立推理能力。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

测试结果显示,即使是像 OpenAI 的 o1 这样的顶尖模型,在普通难度谜题上的准确率也仅为 7.0% 左右,在困难难度谜题上的准确率则为 0%。这与经验丰富的人类解谜者的表现形成鲜明对比。 研究发现,模型在处理原始 PDF 格式的谜题时,性能会显著下降,这表明一些前沿模型的 OCR 和文档解析能力仍然存在限制。


ENIGMAEVAL 基准与此前发布的“人类的最后考试”(HLE)基准一起,为评估大语言模型提供了更全面的视角,并突显了当前模型在复杂推理任务上的不足。 研究人员指出,AI 距离真正理解世界还有很长的路要走。 值得注意的是,DeepSeek R1 未参与本次测试,其表现值得关注。


ENIGMAEVAL 基准的谜题来源及难度分布如下表所示:
Glarity
Glarity是一款免费开源的AI浏览器扩展,提供YouTube视频总结、网页摘要、写作工具等功能,支持免费的镜像翻译,电子邮件写作辅助,AI问答等功能。
131
查看详情

普通难度谜题示例:


困难难度谜题示例:


实验结果表明,所有测试的顶尖 LLM 在 ENIGMAEVAL 上的表现都不理想,尤其是在困难难度谜题上完全失败。 这进一步强调了当前大语言模型在复杂推理方面的挑战。

以上就是AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零的详细内容,更多请关注其它相关文章!
# 是在
# 做seo营销推广
# seo优化方案示范
# 清吧营销推广文案
# seo关键词视频
# 湖南营销推广快剪
# 抚顺网站优化哪家正规
# 推广网站晌云速捷好口碑
# 网站建设描述
# 抖音小店的营销推广模式
# 关键词全网优化推广营销
# 都不
# 参编
# 工程
# 我国
# 的是
# 正式发布
# 下载使用
# 首个
# 等功能
# 开源
# deepseek
# gemini
# ai
# scale ai
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
怎么下载360桌面壁纸
春运什么时候开始抢票
如何辨别固态硬盘坏块
苹果16更新了哪些版本
什么是域名解析地址
折叠屏手机为什么有黑点
单片机串口接收怎么实现
固态硬盘如何拆除
破太岁是什么意思
市盈率市净率是什么意思
如何安装台式机固态硬盘
多少毫安的充电宝可以带上飞机
固态硬盘如何安装win10系统安装
市盈率ttm是什么意思
typescript学会要多久
华为使用nfc功能是什么意思
系统如何装在固态硬盘
单片机面包板怎么插
j*a数组怎么取元素
自由服务器如何做动态ip域名解析
春运抢票何时开始抢票的
夸克前缀后缀什么意思啊
苹果16如何预购
本科一批和本科二批是什么意思
如何安装大华固态硬盘
电脑如何查看固态硬盘
电脑type-c接口是什么意思
如何提高固态硬盘性能
怎么在爱奇艺中投屏到电视最新方法
typescript掌握哪些可以做项目
所有删除的聊天记录都可以恢复吗?
wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享
typescript什么意思
为什么夸克书架书单没了
如何选购ssd固态硬盘
360手机壁纸怎么改
制冰机power1灯亮是什么意思
春运抢票哪个平台好一点
命令不执行如何处理
如何修改cad命令
苹果手机16新款颜色有哪些
空调主板单片机怎么拆开
单片机学习视频怎么调色
哪些框架支持typescript
win7怎么做幻灯片
建伍遥控器power是什么意思
内在市盈率是什么意思
虚拟机服务器如何关机命令
光刻机的作用及工作原理
python 如何执行linux命令


2025-02-17
浏览次数:次
返回列表