
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

苹果研究人员对现有的前沿“大型推理模型”——如OpenAIo3-mini、DeepSeek-R1、Anthropic的Claude3.7SonnetThinking和谷歌GeminiThinking——进行了系统评估。研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的token数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。
这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由ParshinShojaee等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。研究团队提出,模型表现可分为三个阶段:
- 低复杂度任务:传统大模型(注:如Claude-3.7无思维版本)表现更佳;中等复杂度任务:具备思维机制的大型推理模型(LRMs)更占优势;高复杂度任务:两类模型均陷入完全失效状态。