
2.2 Loop的标准结构:Observe-Think-Act-Evaluate-Replan-Repeat
Loop Engineering的标准结构借鉴了多个经典控制论框架,形成了六阶段循环机制。理解这一结构是设计可靠Loop的前提。
理论根源:从OODA循环到ReAct框架
Loop结构的历史渊源可追溯至John Boyd在1986年提出的OODA循环(Observe-Orient-Decide-Act),这是军事战略中的经典控制论框架[Pickle, 2026]。OODA循环的核心洞察在于:更快的循环带来竞争优势——不一定要每步都最优,但循环速度本身即战略优势。
2022年,Yao等人在ICLR发表的ReAct框架将OODA操作化为LLM Agent执行模式:Thought(思维)→ Action(行动)→ Observation(观察)。这是奠基性的Agent循环论文,首次证明了交错推理与行动的有效性[Yao et al., 2022]。
MindStudio在《What Is the ReAct Loop》中指出:"ReAct代表Reasoning + Acting。基本思想简单:Agent交替在两种模式间切换——推理(思考下一步做什么)和行动(在世界中采取行动)。然后观察结果,再次推理,再次行动,持续直到任务完成"[MindStudio, 2026]。
Loop Engineering在ReAct基础上扩展为六阶段标准结构,增加了Evaluate和Replan两个关键阶段。
六阶段标准结构解析
阶段1:Goal(目标定义)
Goal阶段定义Loop的终止条件和成功标准。这是Loop设计的第一步,也是最关键的设计决策。
根据Mer.vin团队的实践总结,Goal必须是"可验证的结束状态"——不是"让事情变好",而是"所有测试通过"、"零个P1级Issue"、"bundle size小于200KB"[Mer.vin, 2026]。
模糊目标产生模糊Loop。Agent需要能够验证的条件来判断是否达成目标。Claude Code的`/goal`命令是这一思想的清晰实现:前置定义完成条件,Agent迭代直到条件满足或预算耗尽。
阶段2:Observe(观察当前状态)
Observe阶段收集环境信息,理解当前状态。这是Loop的感知环节,为后续决策提供依据。
观察内容可能包括:
外部环境:文件系统状态、API返回、数据库查询结果 执行历史:已完成的步骤、产生的输出、遇到的错误 约束检查:资源预算、时间限制、边界条件是否触发
Microsoft Design将Observe类比于传感器的数据收集:"为了做出明智决策,系统必须理解其当前状态。传感器持续收集环境输入,为系统控制器提供关键信息以实现实时适应"[Fick & Peterschmidt, 2025]。
阶段3:Think(分析局面,制定计划)
Think阶段是Loop的推理环节,Agent基于观察结果分析当前局面,制定下一步行动计划。
MindStudio指出:"这是Agent的内部推理步骤。在做任何事情之前,Agent思考当前情境:我知道什么?我需要什么?我接下来应该做什么?"[MindStudio, 2026]。
这不是填充内容——它具有结构性重要性。显式生成Thought迫使模型推理上下文而非模式匹配到快速答案。这类似于思维链提示的工作方式,但嵌入在循环内部。
阶段4:Act(执行行动)
Act阶段是Loop的执行环节,Agent调用工具或执行操作,改变环境状态。
行动类型包括:
信息检索:搜索Web、查询数据库、读取文件 内容生成:编写代码、撰写文档、创建配置 系统操作:调用API、执行命令、提交更改 Agent协作:传递任务给子Agent、请求协助
行动是受限且显式的。Agent不猜测工具返回结果——它直接调用并等待观察。
阶段5:Evaluate(评估结果)
Evaluate阶段是Loop的质量控制环节,评估Act阶段产生的结果是否满足质量标准和目标条件。
这是Loop区别于Workflow的关键阶段。Workflow在步骤完成后直接进入下一步骤,Loop则必须评估结果质量,判断是否需要调整。
评估方式包括:
确定性验证:运行测试套件、执行linter、检查类型系统 目标条件检查:对比Goal定义的终止条件 评估器Agent审查:独立评估器Agent对输出进行评分 人工审查:对高风险输出进行人工审批
Mer.vin强调:"没有验证,Loop要么永久运行要么过早停止。Claude Code的/goal命令的监督架构生成独立会话来审计主Agent是否真正达成了它声称的目标"[Mer.vin, 2026]。
阶段6:Replan(根据反馈调整计划)
Replan阶段是Loop的自我纠错环节,根据Evaluate阶段的反馈决定下一步行动。
可能的决策包括:
继续执行:如果评估通过且目标未达成,继续下一行动 调整策略:如果评估失败但路径可行,修改执行方案 回退重来:如果评估失败且策略错误,重新规划整体方案 终止循环:如果目标达成或预算耗尽,停止循环
Replan是Loop适应性的核心来源。Workflow遇到失败只能停止或回退到异常分支,Loop则能够基于反馈重新规划,尝试不同路径。
阶段7:Repeat(循环直到目标达成或超时)
Repeat阶段将Loop带回Observe,开始新一轮循环。循环持续直到:
Goal定义的终止条件满足 资源预算耗尽(Token限制、时间限制、迭代次数限制) 外部干预(人工停止、系统终止)
这种循环机制使Agent能够在不确定环境中持续尝试、自我纠错,最终达成目标或确认无法达成。
Loop vs Workflow:执行模式对比
MindStudio通过内容重用案例对比了两种执行模式的差异:
Workflow模式:你定义步骤:拉取转录稿→发送给Claude→获得草稿→放入日程表。Workflow每次发布都触发,执行相同步骤。它一致、快速,确实节省时间。但Workflow不能思考。如果这个月你表现最好的帖子是轮播图而非文本,Workflow不知道。如果视频主题更适合线程格式,Workflow不会做出判断[MindStudio, 2026]。
Loop模式:你给Claude Code一个目标:"将本周视频转化为LinkedIn、Twitter和Newsletter的内容"。模型推理做什么、行动、观察结果、迭代直到目标达成。它拉取转录稿、阅读品牌风格文件、评估哪些片段最适合各平台、决定轮播图适合视觉叙事角度、撰写X线程因为有反向钩子在那里表现良好、两者都通过风格指南检查、重写不符合的部分、保存一切供你审查。你没有写这些步骤——模型基于目标确定了它们[MindStudio, 2026]。
结构性差异:在Workflow中,你决定执行路径。在Loop中,模型决定。
