
文 | 一江春水· 思聪网(特约深度观察)
作为前通义千问(Qwen)的掌舵人,林俊旸在过去两年的大模型混战中,参与并主导了中国最顶尖开源模型的演进。在最近的分享中,他抛出了一个足以重塑行业共识的论断:AI 正在从“推理式思维(Reasoning Thinking)”全面转向“智能体思维(Agentic Thinking)”。
这不只是术语的更迭,而是 AI 生产力逻辑的底层重构。
1. 推理时代的遗产:o1 与 R1 留下的“确定性”
过去两年,OpenAI 的 o1 和 DeepSeek 的 R1 确立了思维(Thinking)作为“一等公民”的地位。林俊旸指出,这一阶段最大的教训是:强化学习(RL)需要确定性的反馈信号。
为什么数学、代码、逻辑成了 RL 的宠儿?因为它们的奖励信号(Reward)是稳定的。这让 RL 能够优化“正确性”而非“似是而非”。这种转变将大模型的竞争点从“卷预训练规模”,硬生生地推向了“卷后训练(Post-training)的系统工程”。
2. Qwen3 的实战复盘:融合还是分裂?
在 Qwen3 的研发周期中,林俊旸及其团队曾试图挑战一个技术巅峰:融合“思维(Thinking)”与“指令(Instruct)”模式。
理想状态下,模型应该像人一样:简单的活儿“秒回”,复杂的活儿“长考”。Qwen3 为此引入了“混合思维模式”和四阶段后训练流水线。但林俊旸坦言,“融合”在实践中面临巨大的数据冲突:
指令模式被奖励的是:简洁、干练、低延迟。
思维模式被奖励的是:多花 Token、反复推演、探索备选路径。
如果处理不好,模型会变得“左右互搏”:思考时臃肿,执行时啰嗦。这就是为什么后来 Qwen3 依然推出了独立的分支。林俊旸认为,真正的突破点不在于物理上的合并,而在于**“平滑的推理光谱”**——模型能根据任务难度,自适应地选择算力投入。
3. 范式转移:从“模型”到“智能体”
“生成更长的推理路径,并不代表模型更聪明。”林俊旸犀利地指出,如果模型对所有事都长篇大论,那是资源分配的无力。
**智能体思维(Agentic Thinking)**是林俊旸看好的下一站。它与推理思维的区别在于:
推理思维: 是书生式的,目标是解开那道数学题,产出完美的中间过程。
智能体思维: 是实干家式的,目标是在不确定的环境中通过行动(Action)取得进展。
智能体思维要求模型解决:什么时候该停下思考去动手?观察到报错后如何修正计划?如何在一连串工具调用中保持连贯性?
4. 基础设施的降维打击:马具工程(Harness Engineering)
当目标转向智能体,现有的 RL 基础设施(Infra)就显得苍白无力。
林俊旸提出了一个核心概念——“马具(Harness)”。在智能体 RL 中,环境(浏览器、代码沙盒、API)不再是静态的验证器,而是训练系统的核心部分。
这种“训练-推理”的高度耦合对系统吞吐量提出了变态的要求。如果环境反馈慢,整个 GPU 流水线就会陷入饥饿。林俊旸认为,环境质量(稳定性、抗作弊性)将取代数据量,成为新的“研究一等公民”。
5. 结语:更具“可用性”的思维
林俊旸预测,智能体思维将取代那种孤岛式的“自言自语”。一个真正先进的系统,在面对难题时,应当有权去搜索、模拟、执行和修正。
未来的竞争优势将来自于:
马具工程(Harness Engineering): 如何构建稳定且规模化的评估与训练环境。
闭环能力: 闭合“模型决策”与“物理后果”之间环路的能力。
从训练模型到训练系统。 只有让 AI 从“想得深”跨越到“做得稳”,这场革命才算真正下半场开局。
林俊旸 原文的翻译:
从“推理式”思维到“智能体”思维
(From "Reasoning" Thinking to "Agentic" Thinking)
过去两年重塑了我们评估模型的方式以及对它们的预期。OpenAI 的 o1 表明,“思维”(thinking)可以作为一种核心能力(first-class capability),是可以被训练并直接展现给用户的。DeepSeek-R1 则证明了推理导向的后训练(post-training)可以在实验室之外被复现并规模化。OpenAI 将 o1 描述为通过强化学习(RL)训练出的“先思考后回答”的模型;DeepSeek 则将 R1 定位为能与 o1 竞争的开源推理模型。
那个阶段意义重大。但 2025 年上半年主要关注的是推理式思维(Reasoning Thinking):如何让模型消耗更多的推理时算力(inference-time compute),如何用更强的奖励信号训练它们,以及如何展示或控制这种额外的推理过程。现在的核心问题是,下一步是什么?我认为答案是智能体思维(Agentic Thinking):为了“行动”而思考,在与环境交互的过程中思考,并根据来自现实世界的反馈持续更新计划。
1. o1 和 R1 的兴起究竟教会了我们什么
第一波推理模型热潮告诉我们:如果我们想在语言模型中规模化强化学习,我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑及其他可验证领域成为核心,因为这些场景下的奖励信号比通用的偏好监督(preference supervision)强得多。它们让强化学习能够优化“正确性”而非“似是而非的合理度”。此时,基础设施变得至关重要。
一旦模型被训练成能够进行长路径推理,强化学习就不再是监督微调(SFT)的一个轻量级插件,而变成了一个系统工程问题。你需要大规模的采样(rollouts)、高吞吐的验证、稳定的策略更新和高效的采样。推理模型的出现,既是模型层面的进步,也是基础设施层面的突破。OpenAI 将 o1 描述为由 RL 训练的推理产品线,随后 DeepSeek R1 通过展示基于推理的 RL 对算法和基建的巨大需求,进一步巩固了这一方向。第一个重大转变已经发生:从扩展预训练(Scaling Pretraining)转向扩展推理的后训练(Scaling Post-training)。
2. 真正的难题从未只是“融合思维与指令”
在 2025 年初,Qwen 团队的许多成员心中曾有一个宏伟的构想:理想的系统应该统一“思维(Thinking)”和“指令(Instruct)”模式。它应支持可调的推理强度(类似于低/中/高档位),甚至能根据提示词和上下文自动推断所需的推理量,从而决定是立即回答、多想一会,还是为解决真正的难题投入大量算力。
从理念上讲,这是正确的方向。Qwen3 是最明确的公开尝试之一,它引入了“混合思维模式”,在同一系列中支持思维与非思维行为,强调可控的思维预算,并描述了一个四阶段后训练流水线,明确包括在长思维链(Long-CoT)冷启动和推理 RL 后的“思维模式融合”。
但“融合”说起来容易,做起来难。难点在于数据。当人们谈论融合思维与指令时,往往首先想到模型侧的兼容性:一个模型权重是否支持两种模式?一个聊天模板能否自由切换?服务栈能否提供正确的开关?更深层的矛盾在于:这两种模式的数据分布和行为目标本质上是不同的。
在试图平衡模型融合与提升后训练数据质量/多样性时,我们并非事事顺遂。在此过程中,我们密切关注用户如何实际使用思维和指令模式。强指令模型通常因其直接、简洁、遵循格式、低延迟而获得奖励,适用于重写、打标、模板化支持、结构化提取等高频企业任务。而强思维模型则因在难题上消耗更多 Token、保持连贯的中级结构、探索替代路径以及保留足够的内部计算以显著提升最终正确性而获得奖励。
这两种行为特征是互相排斥的。如果融合数据未经过精细筛选,结果通常是两头不到位:思维行为变得嘈杂、臃肿或不够果断;而指令行为则变得不够干练、可靠性降低,且比商业用户实际需求的成本更高。
在实践中,“分离”依然具有吸引力。2025 年晚些时候,在 Qwen3 最初的混合框架之后,2507 系列发布了独立的指令版和思维版更新(包括 30B 和 235B 变体)。在商业部署中,大量客户仍需要高吞吐、低成本、强可控的指令行为用于批量操作。对于这些场景,融合并没有明显的益处。分离产品线让团队能更干净地解决每种模式的数据和训练难题。
其他实验室选择了相反的路径。Anthropic 公开主张集成化的模型哲学:Claude 3.7 Sonnet 被定位为混合推理模型,用户可选普通响应或扩展思维,API 用户可设置思维预算。Anthropic 明确表示,他们认为推理应该是一种集成能力,而非独立的模型。GLM-4.5 也将其定位为统一推理、代码和智能体能力的混合推理模型。DeepSeek 后来在 V3.1 中通过“Think & Non-Think”混合推理也走向了类似方向。
关键问题在于融合是否是“有机的”。如果思维和指令只是被硬生生塞进一个权重里,表现得像两个尴尬缝合的人格,那么产品体验依然是不自然的。真正成功的融合需要一个平滑的推理光谱。模型应能表达多个等级的努力程度,并理想地实现自适应选择。GPT 式的努力程度控制(Effort Control)指向了这个方向:这是一种对计算资源的策略(Policy over Compute),而非一个简单的二进制开关。
3. 为何 Anthropic 的方向是一剂有用的矫正药
Anthropic 围绕 Claude 3.7 和 Claude 4 的公开定调相对克制。他们强调集成推理、用户可控的思维预算、现实任务、代码质量,以及随后在扩展思维期间使用工具的能力。Claude 3.7 是具有可控预算的混合推理模型;Claude 4 则进一步允许推理与工具使用交替进行。同时,Anthropic 将代码、长耗时任务和智能体工作流作为核心目标。
生成更长的推理路径并不等同于更智能。在许多情况下,过度显性的推理反而信号出资源分配的无力。如果模型对所有事情都用同样冗长的方式思考,它可能在优先级排序、压缩信息或采取行动方面失败了。Anthropic 的轨迹暗示了一种更严谨的视角:思维应当由目标任务定义。 如果目标是代码,思维应有助于代码库导航、计划、分解、错误恢复和工具编排。如果目标是智能体工作流,思维应提升长周期执行的质量,而非产出令人印象深刻的中间文本。
这种对目标效用的强调指向了更大的趋势:我们正从训练模型的时代转向训练智能体的时代。 我们在 Qwen3 的博客中明确写道:“我们正从一个专注于训练模型的时代,过渡到一个以训练智能体为中心的时代”,并将未来的 RL 进步与长周期推理的环境反馈挂钩。智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略并在长周期内持续运行的系统。它由与世界的闭环交互定义。
4. “智能体思维”的真正含义
智能体思维是另一种优化目标。推理式思维通常由最终答案前的内部推演质量来衡量:模型能否解开定理、写出证明、产出正确代码或通过跑分。而智能体思维关注模型能否在与环境交互的同时持续取得进展。
核心问题从“模型能思考多长时间?”转向了**“模型能否以支持有效行动的方式思考?”** 智能体思维必须处理纯推理模型可以回避的几个难题:
决定何时停止思考并采取行动
选择调用哪个工具以及调用顺序
处理来自环境的嘈杂或不完整的观察
失败后修正计划
在多轮对话和多次工具调用中保持连贯性
智能体思维是模型通过行动进行推理。
5. 为何智能体强化学习的基础设施更难构建
一旦目标从解决跑分问题转向解决交互任务,强化学习栈就会发生变化。用于传统推理 RL 的基础设施已捉襟见肘。在推理 RL 中,你可以将采样视为相对封闭的路径,配备干净的评估器。但在智能体 RL 中,策略(Policy)被嵌入在一个更大的**马具(Harness)**中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙盒、API 层、存储系统和编排框架。环境不再是一个静态的验证器,它是训练系统的一部分。
这产生了一个新的系统需求:训练与推理必须更彻底地解耦。 否则,采样吞吐量会崩塌。设想一个代码智能体必须针对实时测试平台执行生成的代码:推理侧在等待执行反馈时会停顿,训练侧会因为缺乏完成的路径而处于饥饿状态,整个流水线的 GPU 利用率将远低于传统推理 RL。加上工具延迟、局部观测和状态环境,这些低效会被放大。结果就是,在达到目标能力水平之前,实验进程早已变得极其缓慢和痛苦。
环境本身也成了核心的研究产出。 在 SFT 时代,我们迷恋数据多样性。在智能体时代,我们应迷恋环境质量:稳定性、现实感、覆盖面、难度、状态多样性、反馈丰富度、抗作弊性以及采样生成的规模化能力。环境构建已开始成为一个真正的创业赛道,而非副作用项目。如果智能体被训练去在类生产环境下运行,那么环境就是核心能力栈的一部分。
6. 下一个前沿:更具可用性的思维
我的预测是,智能体思维将成为思维的主导形式。 它最终可能会取代大部分旧有的静态“自言自语”式推理思维——即那些试图通过输出越来越多的文字来弥补缺乏交互的、超长的、孤立的内部路径。即使在极难的数学或编程任务中,一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修正。目标是稳健且高效地解决问题。
训练此类系统最大的挑战是奖励作弊(Reward Hacking)。一旦模型获得实质性的工具访问权,奖励作弊就变得危险得多。拥有搜索权的模型可能会学会在 RL 期间直接查答案;代码智能体可能会利用代码库中的未来信息、误用日志或寻找逃避任务的捷径。带有隐藏漏洞的环境会让策略看起来像超人,实则是在教它作弊。这就是智能体时代比推理时代更微妙的地方。更好的工具让模型更有用,但也扩大了产生伪优化(Spurious Optimization)的攻击面。我们应当预期,下一个严肃的研究瓶颈将来自环境设计、评估器稳健性、反作弊协议以及策略与世界之间更严谨的接口。尽管如此,方向是明确的:拥有工具赋能的思维比孤立思考更有用,且更有机会提升真实的生产力。
智能体思维也意味着**“马具工程(Harness Engineering)”**。核心智能将越来越多地源于多个智能体如何组织:负责计划和调度工作的编排者,扮演领域专家的专业智能体,以及执行更窄任务并帮助控制上下文、避免污染、保持不同推理层级分离的子智能体。未来是从训练模型转向训练智能体,从训练智能体转向训练系统。
结语
推理波峰的第一阶段确立了一个重要事实:当反馈信号可靠且基础设施能够支撑时,语言模型之上的 RL 可以产生质感更强的认知能力。
更深层的转变是从推理式思维转向智能体思维:从单纯想得更久,转向为了行动而思考。 训练的核心目标已经改变。它现在是“模型+环境”的系统,具体来说,就是智能体及其周边的马具(Harness)。这改变了研究重点:模型架构和训练数据依然重要,但环境设计、采样基础设施、评估器稳健性以及多智能体协同接口也变得同等重要。它改变了“好思维”的定义:在现实约束下支撑行动的最有效路径,而非最长或最显眼的路径。
这也改变了竞争优势的来源。在推理时代,优势来自更好的 RL 算法、更强的反馈信号和更具规模的训练流水线。而在智能体时代,优势将来自更好的环境、更紧密的训练-服务集成、更强的马具工程,以及闭合“模型决策”与“决策后果”之间环路的能力。
