AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零_陕西然坤悦科技有限公司

400-5689-0921
客服咨询
- 在线咨询

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

2025-02-17

浏览次数：次

最新研究揭示大语言模型推理能力的局限性：enigmaeval 基准测试结果

Scale AI、Center for AI Safety 和 MIT 的研究人员联合发布了新的多模态推理基准测试 ENIGMAEVAL，再次挑战了大语言模型的推理能力。该基准包含 1184 个难题，涵盖解谜寻宝竞赛中的各种类型，测试模型的逻辑推理、创造性思维和跨学科知识运用能力。难题分为普通难度 (Normal) 和困难难度 (Hard) 两类，分别包含 949 道和 235 道题目。难题以原始 PDF 图片和结构化文本-图像两种格式提供，以评估模型的端到端能力和独立推理能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

测试结果显示，即使是像 OpenAI 的 o1 这样的顶尖模型，在普通难度谜题上的准确率也仅为 7.0% 左右，在困难难度谜题上的准确率则为 0%。这与经验丰富的人类解谜者的表现形成鲜明对比。研究发现，模型在处理原始 PDF 格式的谜题时，性能会显著下降，这表明一些前沿模型的 OCR 和文档解析能力仍然存在限制。

ENIGMAEVAL 基准与此前发布的“人类的最后考试”（HLE）基准一起，为评估大语言模型提供了更全面的视角，并突显了当前模型在复杂推理任务上的不足。研究人员指出，AI 距离真正理解世界还有很长的路要走。值得注意的是，DeepSeek R1 未参与本次测试，其表现值得关注。

ENIGMAEVAL 基准的谜题来源及难度分布如下表所示：

Glarity

Glarity

Glarity是一款免费开源的AI浏览器扩展，提供YouTube视频总结、网页摘要、写作工具等功能，支持免费的镜像翻译，电子邮件写作辅助，AI问答等功能。

Glarity

131 查看详情 Glarity

Glarity

普通难度谜题示例：

困难难度谜题示例：

实验结果表明，所有测试的顶尖 LLM 在 ENIGMAEVAL 上的表现都不理想，尤其是在困难难度谜题上完全失败。这进一步强调了当前大语言模型在复杂推理方面的挑战。

以上就是AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零的详细内容，更多请关注其它相关文章！

# 是在 # 做seo营销推广 # seo优化方案示范 # 清吧营销推广文案 # seo关键词视频 # 湖南营销推广快剪 # 抚顺网站优化哪家正规 # 推广网站晌云速捷好口碑 # 网站建设描述 # 抖音小店的营销推广模式 # 关键词全网优化推广营销 # 都不 # 参编 # 工程 # 我国 # 的是 # 正式发布 # 下载使用 # 首个 # 等功能 # 开源 # deepseek # gemini # ai # scale ai

相关栏目：【行业资讯67740 】【技术百科0 】【网络运营39195 】

相关推荐：怎么下载360桌面壁纸春运什么时候开始抢票如何辨别固态硬盘坏块苹果16更新了哪些版本什么是域名解析地址折叠屏手机为什么有黑点单片机串口接收怎么实现固态硬盘如何拆除破太岁是什么意思市盈率市净率是什么意思如何安装台式机固态硬盘多少毫安的充电宝可以带上飞机固态硬盘如何安装win10系统安装市盈率ttm是什么意思 typescript学会要多久华为使用nfc功能是什么意思系统如何装在固态硬盘单片机面包板怎么插 j*a数组怎么取元素自由服务器如何做动态ip域名解析春运抢票何时开始抢票的夸克前缀后缀什么意思啊苹果16如何预购本科一批和本科二批是什么意思如何安装大华固态硬盘电脑如何查看固态硬盘电脑type-c接口是什么意思如何提高固态硬盘性能怎么在爱奇艺中投屏到电视最新方法 typescript掌握哪些可以做项目所有删除的聊天记录都可以恢复吗？ wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享 typescript什么意思为什么夸克书架书单没了如何选购ssd固态硬盘 360手机壁纸怎么改制冰机power1灯亮是什么意思春运抢票哪个平台好一点命令不执行如何处理如何修改cad命令苹果手机16新款颜色有哪些空调主板单片机怎么拆开单片机学习视频怎么调色哪些框架支持typescript win7怎么做幻灯片建伍遥控器power是什么意思内在市盈率是什么意思虚拟机服务器如何关机命令光刻机的作用及工作原理 python 如何执行linux命令

上一篇：曝尚界首款车型年底发布华为参与打造 15万左右起售

下一篇：机构：下半年NAND Flash市场供需改善，价格有望回升

: 电话

: 客服

: 地图

: 搜索