首页 > 教育综合知识 > 教育综合知识 > 苹果刚刚证明:DeepSeek、o3、Claude等“推理”模型根本没有推理能力

苹果刚刚证明:DeepSeek、o3、Claude等“推理”模型根本没有推理能力

发布时间:2025-06-08 15:24:09来源: 15510183920

最新研究《思考的幻觉:通过问题复杂性视角理解推理模型的优势与局限》中,苹果对“大型语言模型已经具备真正的逻辑思维能力——即真正的“推理能力”——这一普遍存在的假设提出了质疑。苹果公司的研究人员看到的并非认知领域的突破,而是一种幻觉:这些模型仅仅创造了思考的印象,而实际上并没有稳定、可理解的思维过程

  这篇研究批评的核心点是:当前最前沿的推理模型,在面对真正复杂的问题时,其推理能力会“断崖式”崩溃,并且暴露出一种反直觉的“思考退化”现象,甚至连“照着算法抄作业”都做不好

  现有评测方法的“陷阱”:为何需要新的实验场?

  目前,评估AI推理能力主要依赖于数学(如MATH、AIME)和编程等基准测试。然而,研究人员指出,这种方法存在两大弊端:

  数据污染(Data Contamination):这些基准测试的题目和答案很可能已经大量存在于模型的训练数据中。模型可能只是“记住”了答案,而非真正“推理”出答案。论文中的数据显示,模型在更新的AIME25数据集上的表现反而不如更早的AIME24,这与人类表现恰恰相反,强烈暗示了数据污染对评测结果的干扰

  缺乏对“思考过程”的洞察:最终答案的正确与否,无法告诉我们模型是如何思考的,其思维链是高效、严谨还是充满了冗余和错误

  为了摆脱这些“陷阱”,苹果的研究团队转向了一个更“纯净”的实验场——可控的解谜环境

  精巧的实验设计:在“谜题”中量化AI的思考能力

  研究团队选取了四个经典的、逻辑结构稳定但复杂度可控的谜题:

  汉诺塔(Tower of Hanoi):测试递归和规划能力

  跳棋(Checker Jumping):测试序列规划

  过河问题(River Crossing):测试约束满足和规划能力

  积木世界(Blocks World):测试规划和状态管理

  通过改变谜题的参数(如汉诺塔的盘子数量、过河问题的人数),研究人员可以精确地控制问题的组合复杂度,同时利用模拟器验证模型生成的每一步操作是否合规,从而深入剖析其完整的“思考轨迹”

  如图示意:研究人员不仅评估最终答案,还提取并分析模型在标签内的中间步骤,以洞察其思维过程

  核心发现

  通过对一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其对应的非思考版本)的详尽测试,研究得到了几个颠覆性的发现:

  发现一:性能的三种“境界”——“思考”并非总是更优

  当比较“思考”模型(LRM)和其标准LLM版本时,研究人员发现了三个截然不同的性能区间:

  低复杂度区:对于简单问题,标准模型反而更准确、更高效。LRM的“思考”显得多余和累赘

  中等复杂度区:随着问题变难,LRM生成长思维链的优势开始显现,其性能超越标准模型

  高复杂度区:当问题复杂度超过某个临界点,两种模型双双“崩溃”,准确率降至零。这表明,“思考”机制只是延缓了失败的到来,并未解决根本性的能力瓶颈

  如图5所示:在低、中、高三种复杂度下,思考模型与非思考模型的性能对比,清晰地展示了三个不同区间的表现

教育综合知识更多>>

消息称苹果公司正扩大平台“游戏”战略,以掩盖 AI 能力不足 美国以外首次,日本 iPhone 用户 6 月 24 日起可将身份证件添加至苹果钱包 苹果刚刚证明:DeepSeek、o3、Claude等“推理”模型根本没有推理能力 苹果 WWDC25 终极前瞻:打不过 AI,我还打不过「UI」吗?! 荣耀400新机首销,荣耀主题App独家上线肖战定制主题《耀见未来》 肖战代言!荣耀400系列部分版本已售空:供不应求 Newyu适用于vivo手机钢化膜促销价13.4元 诺基亚105移动版2G手机限时优惠 红米K80 Pro 5G手机16GB+1TB冠军版深灰色2148元 红米 Turbo 4 Pro 5G手机 12GB+256GB 白色 到手价722元 小米汽车进入盈利倒计时,YU7定价反映品牌升维战略 是小米CEO也没用!雷军:我买YU7要自己掏钱 小米YU7入门版续航就有835km!全车40+处风阻优化 多跑59公里 《GT赛车》之父山内一典谈与小米合作:被小米不懈努力感动 衷心敬佩 1532 台(防火墙)大单:华为 1 亿、H3C 1.1 亿、迪普 1.3 亿 OPPO Find X9系列已在路上:双尺寸 全系回归直屏 三星三折叠屏手机通过中国国家认证 最高支持25W充电 1200 美元:三星发售 32 英寸 Color E-Paper 彩色数字标牌 华硕天选 Air 2025 高性能轻薄本首发开售:到手 7099 元起 联想SR588企业级服务器 灵活配置含税9100元 联想4T服务盒包盘 持久耐用 专业保障含税包邮 手机云台推荐!影石 Insta360 Flow2Pro 何以成为假期出游拍摄神器? 老人捡到手机 家属要求给1600元才肯还 官方:属于道德范畴 海外用户抱怨索尼 Xperia 1 VII 手机随机砍单 索尼ZV - E10L微单相机天猫优惠低至3631元 红米G Pro 27U 27英寸4K电竞显示器优惠价2294元 能扛能打还聪明的千元AI手机!魅族Note 16 Pro评测:这才是国民机该有的样子 2025Q1全球高端手机销量TOP 20:华为8款小米1款上榜 小米YU7已抵达成都 现场人山人海 雷军:欢迎大家到店品鉴 魔护卫小米手机壳限时特惠