展会资讯
【Loop Engineering研究报告】03-Loop的标准架构-六阶段循环机制
2026-07-03 15:06
【Loop Engineering研究报告】03-Loop的标准架构-六阶段循环机制

2.2 Loop的标准结构:Observe-Think-Act-Evaluate-Replan-Repeat

Loop Engineering的标准结构借鉴了多个经典控制论框架,形成了六阶段循环机制。理解这一结构是设计可靠Loop的前提。

理论根源:从OODA循环到ReAct框架

Loop结构的历史渊源可追溯至John Boyd在1986年提出的OODA循环(Observe-Orient-Decide-Act),这是军事战略中的经典控制论框架[Pickle, 2026]。OODA循环的核心洞察在于:更快的循环带来竞争优势——不一定要每步都最优,但循环速度本身即战略优势

2022年,Yao等人在ICLR发表的ReAct框架将OODA操作化为LLM Agent执行模式:Thought(思维)→ Action(行动)→ Observation(观察)。这是奠基性的Agent循环论文,首次证明了交错推理与行动的有效性[Yao et al., 2022]。

MindStudio在《What Is the ReAct Loop》中指出:"ReAct代表Reasoning + Acting。基本思想简单:Agent交替在两种模式间切换——推理(思考下一步做什么)和行动(在世界中采取行动)。然后观察结果,再次推理,再次行动,持续直到任务完成"[MindStudio, 2026]。

Loop Engineering在ReAct基础上扩展为六阶段标准结构,增加了Evaluate和Replan两个关键阶段。

六阶段标准结构解析

阶段1:Goal(目标定义)

Goal阶段定义Loop的终止条件和成功标准。这是Loop设计的第一步,也是最关键的设计决策。

根据Mer.vin团队的实践总结,Goal必须是"可验证的结束状态"——不是"让事情变好",而是"所有测试通过"、"零个P1级Issue"、"bundle size小于200KB"[Mer.vin, 2026]。

模糊目标产生模糊Loop。Agent需要能够验证的条件来判断是否达成目标。Claude Code的`/goal`命令是这一思想的清晰实现:前置定义完成条件,Agent迭代直到条件满足或预算耗尽。

阶段2:Observe(观察当前状态)

Observe阶段收集环境信息,理解当前状态。这是Loop的感知环节,为后续决策提供依据。

观察内容可能包括:

  • 外部环境:文件系统状态、API返回、数据库查询结果
  • 执行历史:已完成的步骤、产生的输出、遇到的错误
  • 约束检查:资源预算、时间限制、边界条件是否触发

Microsoft Design将Observe类比于传感器的数据收集:"为了做出明智决策,系统必须理解其当前状态。传感器持续收集环境输入,为系统控制器提供关键信息以实现实时适应"[Fick & Peterschmidt, 2025]。

阶段3:Think(分析局面,制定计划)

Think阶段是Loop的推理环节,Agent基于观察结果分析当前局面,制定下一步行动计划。

MindStudio指出:"这是Agent的内部推理步骤。在做任何事情之前,Agent思考当前情境:我知道什么?我需要什么?我接下来应该做什么?"[MindStudio, 2026]。

这不是填充内容——它具有结构性重要性。显式生成Thought迫使模型推理上下文而非模式匹配到快速答案。这类似于思维链提示的工作方式,但嵌入在循环内部。

阶段4:Act(执行行动)

Act阶段是Loop的执行环节,Agent调用工具或执行操作,改变环境状态。

行动类型包括:

  • 信息检索:搜索Web、查询数据库、读取文件
  • 内容生成:编写代码、撰写文档、创建配置
  • 系统操作:调用API、执行命令、提交更改
  • Agent协作:传递任务给子Agent、请求协助

行动是受限且显式的。Agent不猜测工具返回结果——它直接调用并等待观察。

阶段5:Evaluate(评估结果)

Evaluate阶段是Loop的质量控制环节,评估Act阶段产生的结果是否满足质量标准和目标条件。

这是Loop区别于Workflow的关键阶段。Workflow在步骤完成后直接进入下一步骤,Loop则必须评估结果质量,判断是否需要调整。

评估方式包括:

  • 确定性验证:运行测试套件、执行linter、检查类型系统
  • 目标条件检查:对比Goal定义的终止条件
  • 评估器Agent审查:独立评估器Agent对输出进行评分
  • 人工审查:对高风险输出进行人工审批

Mer.vin强调:"没有验证,Loop要么永久运行要么过早停止。Claude Code的/goal命令的监督架构生成独立会话来审计主Agent是否真正达成了它声称的目标"[Mer.vin, 2026]。

阶段6:Replan(根据反馈调整计划)

Replan阶段是Loop的自我纠错环节,根据Evaluate阶段的反馈决定下一步行动。

可能的决策包括:

  • 继续执行:如果评估通过且目标未达成,继续下一行动
  • 调整策略:如果评估失败但路径可行,修改执行方案
  • 回退重来:如果评估失败且策略错误,重新规划整体方案
  • 终止循环:如果目标达成或预算耗尽,停止循环

Replan是Loop适应性的核心来源。Workflow遇到失败只能停止或回退到异常分支,Loop则能够基于反馈重新规划,尝试不同路径。

阶段7:Repeat(循环直到目标达成或超时)

Repeat阶段将Loop带回Observe,开始新一轮循环。循环持续直到:

  • Goal定义的终止条件满足
  • 资源预算耗尽(Token限制、时间限制、迭代次数限制)
  • 外部干预(人工停止、系统终止)

这种循环机制使Agent能够在不确定环境中持续尝试、自我纠错,最终达成目标或确认无法达成。

Loop vs Workflow:执行模式对比

MindStudio通过内容重用案例对比了两种执行模式的差异:

Workflow模式:你定义步骤:拉取转录稿→发送给Claude→获得草稿→放入日程表。Workflow每次发布都触发,执行相同步骤。它一致、快速,确实节省时间。但Workflow不能思考。如果这个月你表现最好的帖子是轮播图而非文本,Workflow不知道。如果视频主题更适合线程格式,Workflow不会做出判断[MindStudio, 2026]。

Loop模式:你给Claude Code一个目标:"将本周视频转化为LinkedIn、Twitter和Newsletter的内容"。模型推理做什么、行动、观察结果、迭代直到目标达成。它拉取转录稿、阅读品牌风格文件、评估哪些片段最适合各平台、决定轮播图适合视觉叙事角度、撰写X线程因为有反向钩子在那里表现良好、两者都通过风格指南检查、重写不符合的部分、保存一切供你审查。你没有写这些步骤——模型基于目标确定了它们[MindStudio, 2026]。

结构性差异:在Workflow中,你决定执行路径。在Loop中,模型决定。

发表评论
0评