{
  "title": "递归推理：AI 的下一个 Scaling Law，不是更大，而是更深",
  "url": "https://miaok.ong/posts/2026-05-02-recursive-reasoning-scaling-law/",
  "date": "2026-05-02T09:00:00+08:00",
  "lastmod": "2026-05-02T09:00:00+08:00",
  "type": "posts",
  "kind": "page",
  "language": "zh",
  "description": "当预训练的边际收益递减，AI 的下一个数量级突破将来自推理时的自我迭代，而非参数量的暴力堆砌。",
  "keywords": null,
  "tags": ["AI","递归推理","Scaling Law","Test-Time Compute","深度学习"],
  "categories": ["技术洞察"],
  "author": "paramiao",
  "image": "https://miaok.ong/images/2026-05-02-recursive-reasoning-cover.jpg",
  "content": "\u003cblockquote\u003e\n\u003cp\u003e\u003cstrong\u003e核心判断\u003c/strong\u003e：当预训练的边际收益递减，AI 的下一个数量级突破将来自\u0026quot;推理时的自我迭代\u0026quot;，而非\u0026quot;参数量的暴力堆砌\u0026quot;。\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003chr\u003e\n\u003ch2 id=\"一最大的突破不是来自更大的模型\"\u003e\n  一、最大的突破，不是来自更大的模型\n  \u003ca class=\"heading-link\" href=\"#%e4%b8%80%e6%9c%80%e5%a4%a7%e7%9a%84%e7%aa%81%e7%a0%b4%e4%b8%8d%e6%98%af%e6%9d%a5%e8%87%aa%e6%9b%b4%e5%a4%a7%e7%9a%84%e6%a8%a1%e5%9e%8b\"\u003e\n    \u003ci class=\"fa-solid fa-link\" aria-hidden=\"true\" title=\"链接到标题\"\u003e\u003c/i\u003e\n    \u003cspan class=\"sr-only\"\u003e链接到标题\u003c/span\u003e\n  \u003c/a\u003e\n\u003c/h2\u003e\n\u003cp\u003eYC Podcast 上，投资人 Peter Steinberger 说了一句让全场安静的话：\u003c/p\u003e\n\u003cblockquote\u003e\n\u003cp\u003e\u0026ldquo;The real breakthrough isn\u0026rsquo;t making models bigger, it\u0026rsquo;s making them think longer at test time.\u0026rdquo;\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003cp\u003e翻译过来就是：\u003cstrong\u003e真正改变游戏规则的，不是把模型造得更大，而是让模型在推理时想得更久、更深。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e这句话的冲击力在于，它直接挑战了过去三年 AI 行业最根深蒂固的信仰——Scaling Law。我们习惯了这样的叙事：只要堆更多参数、喂更多数据、烧更多 GPU，模型就会自然变聪明。GPT-3 到 GPT-4 的跃迁似乎证明了这一点。\u003c/p\u003e\n\u003cp\u003e但 2025 年的信号越来越清晰：\u003cstrong\u003e预训练的边际收益正在递减\u003c/strong\u003e。同样的算力投入，带来的能力提升曲线正在变平。当行业还在争论\u0026quot;下一个万亿参数模型什么时候来\u0026quot;时，一条新的曲线已经悄然上升——\u003cstrong\u003e测试时计算扩展（Test-Time Compute Scaling）\u003c/strong\u003e，或者说，\u003cstrong\u003e递归推理\u003c/strong\u003e。\u003c/p\u003e\n\u003cp\u003e如果堆参数不是答案，那什么是？\u003c/p\u003e\n\u003cp\u003e答案是：\u003cstrong\u003e让模型在推理时调用自身，像人类一样反复思考。\u003c/strong\u003e\u003c/p\u003e\n\u003chr\u003e\n\u003ch2 id=\"二递归推理不是-cot-的改良而是范式跃迁\"\u003e\n  二、递归推理：不是 CoT 的改良，而是范式跃迁\n  \u003ca class=\"heading-link\" href=\"#%e4%ba%8c%e9%80%92%e5%bd%92%e6%8e%a8%e7%90%86%e4%b8%8d%e6%98%af-cot-%e7%9a%84%e6%94%b9%e8%89%af%e8%80%8c%e6%98%af%e8%8c%83%e5%bc%8f%e8%b7%83%e8%bf%81\"\u003e\n    \u003ci class=\"fa-solid fa-link\" aria-hidden=\"true\" title=\"链接到标题\"\u003e\u003c/i\u003e\n    \u003cspan class=\"sr-only\"\u003e链接到标题\u003c/span\u003e\n  \u003c/a\u003e\n\u003c/h2\u003e\n\u003cp\u003e要理解递归推理，得先看清它不是什么。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e思维链（Chain of Thought, CoT）\u003c/strong\u003e 是第一步突破。它让模型把推理过程\u0026quot;说出来\u0026quot;，像解数学题时写下步骤一样。但 CoT 有个根本限制：它是\u003cstrong\u003e线性的、单次的、不可回头的\u003c/strong\u003e。模型从左写到右，一旦某个中间步骤出错，整个推理就可能崩塌。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e递归推理\u003c/strong\u003e 走的完全是另一条路。\u003c/p\u003e\n\u003cp\u003e2025 年 2 月，一篇题为 \u003cem\u003eScaling up test-time compute with latent reasoning: A recurrent depth approach\u003c/em\u003e 的论文（arXiv:2502.05171）提出了一个关键洞察：\u003cstrong\u003e真正高效的推理，发生在模型的隐藏状态空间里，而不是 token 空间里。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e这是什么意思？\u003c/p\u003e\n\u003cp\u003e想象两个画家。第一个画家（CoT）必须一笔一笔地在画布上画，每一笔都必须是可见的、可读的。画错了只能继续往下画，或者用更多笔触去掩盖。第二个画家（latent reasoning）则在脑海中先构建完整的画面——调整构图、修改光影、尝试不同配色——所有这些\u0026quot;思考\u0026quot;都发生在不可见的思维空间里。只有当画面在脑海中成熟后，才落笔到画布上。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003elatent reasoning 就是 AI 的\u0026quot;脑海中构图\u0026quot;。\u003c/strong\u003e 模型在隐藏状态空间中反复迭代、自我修正、并行探索多条推理路径，最终只把最优结果输出为可读的 token。这不是 CoT 的升级版，这是\u003cstrong\u003e从\u0026quot;说话式思考\u0026quot;到\u0026quot;静默式思考\u0026quot;的范式跃迁\u003c/strong\u003e。\u003c/p\u003e\n\u003chr\u003e\n\u003ch2 id=\"三硬核验证arc-agi-2-上的破纪录突破\"\u003e\n  三、硬核验证：ARC-AGI-2 上的破纪录突破\n  \u003ca class=\"heading-link\" href=\"#%e4%b8%89%e7%a1%ac%e6%a0%b8%e9%aa%8c%e8%af%81arc-agi-2-%e4%b8%8a%e7%9a%84%e7%a0%b4%e7%ba%aa%e5%bd%95%e7%aa%81%e7%a0%b4\"\u003e\n    \u003ci class=\"fa-solid fa-link\" aria-hidden=\"true\" title=\"链接到标题\"\u003e\u003c/i\u003e\n    \u003cspan class=\"sr-only\"\u003e链接到标题\u003c/span\u003e\n  \u003c/a\u003e\n\u003c/h2\u003e\n\u003cp\u003e概念再漂亮，也需要硬碰硬的验证。2025 年，递归推理在 AI 领域最严苛的基准测试之一——\u003cstrong\u003eARC-AGI-2\u003c/strong\u003e——上取得了突破性进展。\u003c/p\u003e\n\u003cp\u003eARC-AGI-2 由 Keras 作者 François Chollet 发起，被认为是测试 AI 抽象推理能力的\u0026quot;黄金标准\u0026quot;。它不考知识储备，不考模式记忆，而是考\u003cstrong\u003e从极少示例中领悟抽象规则并灵活应用\u003c/strong\u003e的能力——这正是人类智能的核心，也是传统大模型的软肋。\u003c/p\u003e\n\u003cp\u003ePoetiq AI 团队开发的求解器（poetiq-ai/poetiq-arc-agi-solver）在该基准上取得了破纪录的成绩。他们的方法不是训练一个更大的模型去\u0026quot;记住\u0026quot;更多模式，而是\u003cstrong\u003e在测试时动态搜索最优推理路径\u003c/strong\u003e——让模型面对每个具体问题时，递归地尝试不同策略、评估中间结果、回溯并重新探索。\u003c/p\u003e\n\u003cp\u003e与此同时，DeepSeek 团队在 2025 年 4 月发表的论文 \u003cem\u003eInference-Time Scaling for Generalist Reward Modeling\u003c/em\u003e（arXiv:2504.02495）从另一个角度验证了这一趋势。他们证明，即使是通用的奖励模型，也能通过在测试时动态分配更多计算资源来显著提升性能。这意味着\u003cstrong\u003e递归推理不是某个特定任务的技巧，而是可以泛化的能力扩展范式\u003c/strong\u003e。\u003c/p\u003e\n\u003cp\u003e两条独立线索，指向同一个结论：\u003cstrong\u003e测试时计算扩展已经在最严苛的基准上证明了其价值。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e这里有一个值得细品的对比：ARC-AGI-2 的 leaderboard 上，一些\u003cstrong\u003e极小规模的专用模型通过计算延展（compute scaling）——即在测试时投入更多推理轮次和搜索深度——击败了参数规模大上千倍的通用大模型\u003c/strong\u003e。这不是\u0026quot;大力出奇迹\u0026quot;，而是\u0026quot;巧算胜蛮力\u0026quot;。它揭示了一个反直觉的事实：在需要抽象推理的任务上，\u003cstrong\u003e推理时的计算投入可能比模型本身的参数量更具决定性\u003c/strong\u003e。\u003c/p\u003e\n\u003chr\u003e\n\u003ch2 id=\"四从数据中心到边缘设备递归推理的扩散路径\"\u003e\n  四、从数据中心到边缘设备：递归推理的扩散路径\n  \u003ca class=\"heading-link\" href=\"#%e5%9b%9b%e4%bb%8e%e6%95%b0%e6%8d%ae%e4%b8%ad%e5%bf%83%e5%88%b0%e8%be%b9%e7%bc%98%e8%ae%be%e5%a4%87%e9%80%92%e5%bd%92%e6%8e%a8%e7%90%86%e7%9a%84%e6%89%a9%e6%95%a3%e8%b7%af%e5%be%84\"\u003e\n    \u003ci class=\"fa-solid fa-link\" aria-hidden=\"true\" title=\"链接到标题\"\u003e\u003c/i\u003e\n    \u003cspan class=\"sr-only\"\u003e链接到标题\u003c/span\u003e\n  \u003c/a\u003e\n\u003c/h2\u003e\n\u003cp\u003e一个技术趋势是否真正成立，要看它能否从实验室扩散到真实场景。递归推理正在展现令人惊讶的扩散速度。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e边缘设备上的递归微网络\u003c/strong\u003e（stockeh/mlx-trm）是一个标志性项目。它基于 Apple 的 MLX 框架，在 Apple Silicon 上实现了 Transformer 的递归深度展开。这意味着你的 MacBook、iPad 甚至 iPhone，理论上都能运行\u0026quot;深思熟虑\u0026quot;的 AI——不是通过云端的大模型，而是通过本地设备的测试时计算扩展。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003eAgent 场景\u003c/strong\u003e 是另一个先行落地场。DeepRecall 引擎（kothapavan1998/deeprecall）专门为 AI Agent 设计了\u0026quot;深度回忆\u0026quot;机制：当 Agent 面对复杂任务时，它可以递归地调用自身进行子问题分解、反思中间结果、动态调整策略。这不再是\u0026quot;输入-输出\u0026quot;的单次交互，而是\u003cstrong\u003e一个能够自我对话、自我修正的思考循环\u003c/strong\u003e。\u003c/p\u003e\n\u003cp\u003e更有趣的是 \u003cstrong\u003eSakana AI 的生存模拟器\u003c/strong\u003e。在这个项目中，递归进化的 AI Agents 在复杂环境中展现出真正的涌现行为——它们不是按照预设规则行动，而是通过测试时的模拟和试错，自主学会复杂策略。Two Minute Papers 在介绍这个项目时说了一句很到位的话：这些 Agents \u0026ldquo;不是被编程去解决问题，而是被赋予能力去自己发现解决方案\u0026rdquo;。\u003c/p\u003e\n\u003chr\u003e\n\u003ch2 id=\"五当-ai-学会睡眠时思考\"\u003e\n  五、当 AI 学会\u0026quot;睡眠时思考\u0026quot;\n  \u003ca class=\"heading-link\" href=\"#%e4%ba%94%e5%bd%93-ai-%e5%ad%a6%e4%bc%9a%e7%9d%a1%e7%9c%a0%e6%97%b6%e6%80%9d%e8%80%83\"\u003e\n    \u003ci class=\"fa-solid fa-link\" aria-hidden=\"true\" title=\"链接到标题\"\u003e\u003c/i\u003e\n    \u003cspan class=\"sr-only\"\u003e链接到标题\u003c/span\u003e\n  \u003c/a\u003e\n\u003c/h2\u003e\n\u003cp\u003e递归推理的边界还在快速外推。\u003c/p\u003e\n\u003cp\u003e2025 年 4 月，一篇题为 \u003cem\u003eSleep-Time Compute: Beyond Inference Scaling at Test-Time\u003c/em\u003e（arXiv:2504.13171）的论文提出了一个激进的概念：\u003cstrong\u003e睡眠时计算\u003c/strong\u003e。其核心思想是：让模型在\u0026quot;空闲\u0026quot;期间预先计算可能的推理路径并缓存结果，从而在实际推理时实现即时响应。\u003c/p\u003e\n\u003cp\u003e这听起来像科幻，但逻辑很清晰。人类在睡觉时会巩固记忆、整理思绪；AI 为什么不能在\u0026quot;空闲\u0026quot;时做类似的\u0026quot;预思考\u0026quot;？\u003cstrong\u003e当训练与推理的边界开始消融，我们可能需要重新定义\u0026quot;思考\u0026quot;本身\u003c/strong\u003e——它不再是一次性的计算过程，而是一个持续的、分层的、预计算与实时推理交织的动态系统。\u003c/p\u003e\n\u003cp\u003e这对强化学习后训练范式也有深远影响。如果奖励模型本身可以通过测试时计算扩展来提升判断精度，那么 RLHF（人类反馈强化学习）的整个流程都可能被重塑——\u003cstrong\u003e不是训练一个\u0026quot;更懂人类偏好\u0026quot;的静态模型，而是让模型在每次判断时都投入更多计算资源去\u0026quot;理解\u0026quot;上下文\u003c/strong\u003e。\u003c/p\u003e\n\u003chr\u003e\n\u003ch2 id=\"六结语scaling-law-没有死只是换了赛道\"\u003e\n  六、结语：Scaling Law 没有死，只是换了赛道\n  \u003ca class=\"heading-link\" href=\"#%e5%85%ad%e7%bb%93%e8%af%adscaling-law-%e6%b2%a1%e6%9c%89%e6%ad%bb%e5%8f%aa%e6%98%af%e6%8d%a2%e4%ba%86%e8%b5%9b%e9%81%93\"\u003e\n    \u003ci class=\"fa-solid fa-link\" aria-hidden=\"true\" title=\"链接到标题\"\u003e\u003c/i\u003e\n    \u003cspan class=\"sr-only\"\u003e链接到标题\u003c/span\u003e\n  \u003c/a\u003e\n\u003c/h2\u003e\n\u003cp\u003e回到开头的问题：递归推理正在取代参数规模成为新的 Scaling Law 吗？\u003c/p\u003e\n\u003cp\u003e我的判断是：\u003cstrong\u003e不是取代，而是接力。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e预训练 Scaling Law 没有死——它完成了自己的历史使命，把 AI 从\u0026quot;不可用\u0026quot;推到了\u0026quot;可用\u0026quot;。但下一程的接力棒，已经交到了测试时计算扩展手中。\u003c/p\u003e\n\u003cp\u003e三个信号已经清晰：\u003c/p\u003e\n\u003col\u003e\n\u003cli\u003e\u003cstrong\u003e竞赛突破\u003c/strong\u003e：ARC-AGI-2 上的破纪录成绩证明，递归推理能解决传统方法束手无策的问题\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e工业验证\u003c/strong\u003e：DeepSeek 的奖励模型扩展证明，这不是个案，而是可泛化的范式\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e边缘落地\u003c/strong\u003e：从 MLX 微网络到 DeepRecall Agent，递归推理正在走出数据中心，进入真实产品\u003c/li\u003e\n\u003c/ol\u003e\n\u003cp\u003e当然，递归推理并非万能钥匙。它带来收益的同时，也伴随着真实的工程约束：\u003cstrong\u003e首字延迟（TTFT, Time-To-First-Token）会显著增加\u003c/strong\u003e——模型需要先在隐藏状态空间里完成多轮迭代，才能输出第一个 token；\u003cstrong\u003e推理成本的算力消耗也会上升\u003c/strong\u003e——每一次递归展开都是实打实的计算开销。因此，递归推理的适用范围存在天然边界：在数学证明、代码调试、逻辑谜题等\u003cstrong\u003e结构化推理任务\u003c/strong\u003e上收益最高，因为多轮迭代能有效纠正中间错误；而在开放域创意写作、闲聊对话等\u003cstrong\u003e生成类任务\u003c/strong\u003e上，收益相对有限——用户通常不愿为了一点质量提升等待更久。\u003c/p\u003e\n\u003cp\u003e最后，我想留给你一个问题——不是答案，而是一个开放的追问：\u003c/p\u003e\n\u003cblockquote\u003e\n\u003cp\u003e当 AI 可以无限递归地思考，当\u0026quot;思考\u0026quot;不再受限于单次前向传播的时间边界，\u003cstrong\u003e\u0026ldquo;思考\u0026quot;本身的定义，是否需要重写？\u003c/strong\u003e\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003cp\u003e人类的思考受限于生物学上的时间、能量和注意力。AI 的思考，可能正在突破这些限制。这不是关于 AI 会不会超越人类的问题——这是关于\u003cstrong\u003e当\u0026quot;思考\u0026quot;成为一种可以任意扩展的计算资源时，智能的本质是什么\u003c/strong\u003e的问题。\u003c/p\u003e\n\u003cp\u003e而这个问题，或许比任何技术突破都更值得深思。\u003c/p\u003e\n\u003chr\u003e\n\u003cp\u003e\u003cstrong\u003e参考来源\u003c/strong\u003e\u003c/p\u003e\n\u003cul\u003e\n\u003cli\u003eSteinberger, P. (2025). YC Podcast 访谈. 核心引用: \u0026ldquo;The real breakthrough isn\u0026rsquo;t making models bigger, it\u0026rsquo;s making them think longer at test time.\u0026rdquo;\u003c/li\u003e\n\u003cli\u003elatent reasoning: A recurrent depth approach. arXiv:2502.05171. \u003ca href=\"https://arxiv.org/abs/2502.05171\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://arxiv.org/abs/2502.05171\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003eDeepSeek: Inference-Time Scaling for Generalist Reward Modeling. arXiv:2504.02495. \u003ca href=\"https://arxiv.org/abs/2504.02495\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://arxiv.org/abs/2504.02495\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003eSleep-Time Compute: Beyond Inference Scaling at Test-Time. arXiv:2504.13171. \u003ca href=\"https://arxiv.org/abs/2504.13171\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://arxiv.org/abs/2504.13171\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003ePoetiq AI. poetiq-arc-agi-solver. \u003ca href=\"https://github.com/poetiq-ai/poetiq-arc-agi-solver\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://github.com/poetiq-ai/poetiq-arc-agi-solver\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003estockeh. mlx-trm. \u003ca href=\"https://github.com/stockeh/mlx-trm\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://github.com/stockeh/mlx-trm\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003ekothapavan1998. deeprecall. \u003ca href=\"https://github.com/kothapavan1998/deeprecall\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://github.com/kothapavan1998/deeprecall\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003eTwo Minute Papers. Sakana AI\u0026rsquo;s Survival Simulator Is Brilliant. \u003ca href=\"https://www.youtube.com/watch?v=QzZ4VwDHAT4\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://www.youtube.com/watch?v=QzZ4VwDHAT4\u003c/a\u003e\u003c/li\u003e\n\u003cli\u003eChollet, F. ARC-AGI-2. \u003ca href=\"https://github.com/arcprize/ARC-AGI-2\"  class=\"external-link\" target=\"_blank\" rel=\"noopener\"\u003ehttps://github.com/arcprize/ARC-AGI-2\u003c/a\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003chr\u003e\n\u003cp\u003e\u003cem\u003e本文完成于 2026-05-02 | Content OS Phase 4 成稿 | 任务单号: TOPIC-B-20260502\u003c/em\u003e\u003c/p\u003e\n",
  "wordCount": 301,
  "readingTime": 2,
  "tableOfContents": "\u003cnav id=\"TableOfContents\"\u003e\n  \u003cul\u003e\n    \u003cli\u003e\u003ca href=\"#一最大的突破不是来自更大的模型\"\u003e一、最大的突破，不是来自更大的模型\u003c/a\u003e\u003c/li\u003e\n    \u003cli\u003e\u003ca href=\"#二递归推理不是-cot-的改良而是范式跃迁\"\u003e二、递归推理：不是 CoT 的改良，而是范式跃迁\u003c/a\u003e\u003c/li\u003e\n    \u003cli\u003e\u003ca href=\"#三硬核验证arc-agi-2-上的破纪录突破\"\u003e三、硬核验证：ARC-AGI-2 上的破纪录突破\u003c/a\u003e\u003c/li\u003e\n    \u003cli\u003e\u003ca href=\"#四从数据中心到边缘设备递归推理的扩散路径\"\u003e四、从数据中心到边缘设备：递归推理的扩散路径\u003c/a\u003e\u003c/li\u003e\n    \u003cli\u003e\u003ca href=\"#五当-ai-学会睡眠时思考\"\u003e五、当 AI 学会\u0026quot;睡眠时思考\u0026quot;\u003c/a\u003e\u003c/li\u003e\n    \u003cli\u003e\u003ca href=\"#六结语scaling-law-没有死只是换了赛道\"\u003e六、结语：Scaling Law 没有死，只是换了赛道\u003c/a\u003e\u003c/li\u003e\n  \u003c/ul\u003e\n\u003c/nav\u003e",
  "isDraft": false
}