最近 X 上钉墙频次最高的一条 agent 推文,不是某个新模型发布,也不是哪个 benchmark 破纪录。

它很朴素,但越琢磨越觉得有味道:

“Here’s your monthly reminder that you shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.”
@steipete

说这话的是 Peter Steinberger,OpenClaw 创始人,也是这波 Agent 工具链里最活跃的 builder 之一。一个月一次,定时钉墙。

他这句话最近之所以有火出圈的势头,不是因为他嗓门大,而是因为时间点踩得很准:差不多同一周,Anthropic 的 Claude Code 负责人 Boris Cherny 也在 Acquired Unplugged 舞台上说了几乎一样的原话——

“A year ago I was writing code with autocomplete. Then I was running five or ten Claudes in parallel, and my ‘coding’ was prompting each one. Now? I don’t prompt Claude anymore. I have loops that are running.

Boris 不是键盘侠,他是 Claude Code 的亲爹,连他本人都已经把工作流从"prompt 一下"切到"loop 在跑",这件事本身就很有信息量。

于是这个 6 月,builder 圈子里悄悄出现了一个新共识:prompt 的红利期快结束了,下一道分水岭是 loop engineering

为什么 prompt 不再够用

很多人对"loop"这个词有第一反应:不就是把同一个 prompt 多发几次吗?

不是。

一个真正的 loop,至少由三件事组成:

  1. 状态:把"我做到哪了"持久化下来,不丢上下文。
  2. 校验:让另一个 agent 或一段硬逻辑,判断"这一步算不算真完成"。
  3. 反馈回路:把校验结果喂回去,触发下一步动作、停机、回滚或升级给人。

Boris 自己在 How Boris Uses Claude Code 里也写得很直白:

For very long-running tasks, I will either prompt Claude to verify its work with a background agent when it’s done, use an agent-Stop hook to do that more deterministically, or use the ralph-wiggum plugin.

三个做法,机制其实是一样的:让 agent 自己校验自己,再决定要不要继续。

这就是 loop 跟 prompt 的根本区别。

Prompt 是单次触发。Loop 是带反馈的反复触发。

当你只丢一句 prompt 进去,模型只能基于眼前这一坨上下文给一个答案。它不知道自己刚才的答案对不对,不知道你之前问过什么,也不知道你之后会不会改主意。

而当 loop 跑起来之后,模型会"看见"自己之前几轮的输出、“看见"测试结果、“看见"用户反馈,然后用这些"看见"去修正下一轮的动作。

这件事之所以重要,是因为大部分真实任务根本不是单轮能搞定的。一个看起来简单的"修个 bug”,背后可能要重读代码、写复现、跑测试、看 diff、改命名、再跑一遍——七步起步。

如果每一步都要你亲手写一句 prompt 引导,那你就不是 agent 的指挥家,而是 agent 的项目经理。

更现实地说:单轮 prompt 适合 demo,loop 适合真正交付。

Loop 已经在被一个个工具化

这件事最有意思的地方在于,6 月初 steipete 那条推文能瞬间被点出 13.7k 赞,并不是因为观点多新鲜,而是因为它把很多人已经在做、但没有命名的事情,给了一个名字。

你随便扫一眼这两周 GitHub 趋势和 Follow Builders 动态,就能拼出 loop engineering 的全貌:

  • steipete/CodeLooper 自己的示范仓库,README 上来就一句 “It’s all about the loop, baby.”
  • steipete/agent-scripts(3.1k stars)里已经出现 codex-review loop 这种技能:上传 diff 或者贴一个 PR 链接,review-fix-rerun 这套循环直接在浏览器里跑,号称 “no Codex CLI install, no API key”。
  • anthropics/claude-code 官方插件市场里直接上架了 ralph-wiggum 插件:跑一次 /ralph-loop "你的需求" --max-iterations N --completion-promise TEXT,Claude 自己写代码、自己跑测试、Stop hook 拦截退出、把同一个 prompt 重新喂回去,直到满足 --completion-promise 文本才停。强烈建议加 --max-iterations,否则它会一直循环到你手动 stop。
  • Addy Osmani(Google Chrome team,前端大佬)6 月 8 号刚在 Substack 上发了一篇《Loop Engineering》,开篇就说 “Loop engineering sits one floor above the harness engineering”——把 loop 抬到和 harness 同级的位置。
  • Oscar Gallego Ruiz 在 Medium 上几乎同一天发了《Stop Prompting Your Agent. Start Writing Loops.》,把"prompt 时代"和"loop 时代"切得很干脆。

你看,这不是一个人的奇思妙想,是一圈 builder 同时得出同一个结论。

而且注意,这些不是论文,不是 PPT,是一坨一坨已经能跑的代码。

反方声音:prompt 真的没救了吗?

当然有反方。

最有意思的反方是 r/PromptEngineering 上那篇被顶到 60k 浏览的《After 1000 hours of prompt engineering, I found the 6 patterns that actually matter》,作者是一个 tech lead,整理了所谓 KERNEL 六原则:

  • Keep it simple(够简单)
  • Easy to verify(容易验证)
  • Reproducible(可复现)
  • Narrow scope(范围窄)
  • Explicit constraints(约束明确)
  • Logical structure(结构清晰)

他贴出的数据也很漂亮:first-try 成功率 72% → 94%,token 用量 -58%,准确率 +340%。

按理说,这种 prompt engineering 高手的现身说法,应该和 steipete 的"别再 prompt 了"对着干。

但你仔细看,KERNEL 六原则的每一条,本质上都在解决"agent 怎么知道这一轮算不算做完”。

KERNEL 原则 在 loop 里等价于什么
Easy to verify 校验器:单元测试、typecheck、diff 检查
Reproducible 状态文件:每次跑都能从同一个起点重放
Narrow scope loop 拆任务:一个 loop 只盯一件事
Explicit constraints 停止条件:--max-iterations / --completion-promise

你发现没有?

KERNEL 不是一个反方,它在用 prompt 工程的语言,悄悄描述 loop 该有的部件。

这恰恰是我觉得 steipete 那种提法真正厉害的地方:他不是在说"prompt 无用",他是在说"prompt 应该被吸收进 loop 里,作为 loop 的一层子结构"。

你把 prompt 写好、让 prompt 容易校验、让 prompt 的效果可以复现——恭喜,你刚刚手工搭了一个 loop。

steipete 做的事情,无非是把这件事自动化、版本化、可执行化。

Loop 真正的难点,从来不是技术

聊到这里,大多数 builder 都会点头说"对,有道理"。

然后他们会卡在同一件事上:没东西可循环。

一个真实的工作流,loop 要循环的"动作"应该是清楚的:

  • 改一段代码 → 跑测试 → 看 diff → 改命名 → 再跑测试。
  • 调研一个项目 → 抓 README → 抓依赖图 → 抓 changelog → 写报告。
  • 处理一组 ticket → 读 issue → 写 patch → 跑 CI → 留评论。

但如果你自己手头的工作是"想一个点子 → 写一篇文章 → 改两遍 → 发出去",这个 loop 就很难自动化,因为"想一个点子"这一步没有明确的校验器。

所以 loop engineering 的真正门槛,不是"我会写 YAML 配置"或者"我会用 ralph-wiggum 插件",而是:

  1. 你能不能把自己的工作拆成一组可被外部校验的步骤?
  2. 每一步有没有清晰的通过/失败信号?
  3. 失败时,下一步该回退、重试、还是升级给人?

Boris Cherny 在 13 条 setup 帖里反复强调一件事:他自己也用"Plan mode"先和 Claude 反复磨一份"可以接受的 plan",再让 loop 真正开始执行。

也就是说,loop 不是上来就开跑的。loop 的前 30% 时间,是在和 loop 共生的人,把"什么是可被校验的成功"想清楚。

这也是为什么我觉得,这事比"模型又强了多少"更值得长期关注。

模型再强,碰到一个"我也不知道我想要什么"的任务,也只能给你吐一坨漂亮但没用的答案。Loop 强不强,归根结底取决于主人有没有把"想要什么"翻译成"可以验收"的能力。

Loop engineering 是不是 prompt engineering 升级版?

我比较倾向于:是,但也不全是。

它是升级版,因为:

  • 它把单轮 prompt 嵌进了带状态、带校验、带停止条件的更大结构。
  • 它把"写一句好 prompt"的功夫,变成了"设计一个可复跑流程"的功夫。
  • 它继承了 prompt 工程的全部遗产——约束、上下文、示例——但把它们从"艺术"变成了"工程"。

它也不全是,因为:

  • Loop 的瓶颈是流程设计,不是措辞。
  • Loop 写好之后,可以交给任何一个能接入 loop 入口的 agent 模型。
  • Loop 的价值会随着时间复利,今天跑一遍的 stop condition,明天能直接给下一个项目用。

这意味着另一件很多人没意识到的事:你今天花时间设计的一个 loop,明天会变成团队的资产。

而你今天花时间打磨的一句漂亮 prompt,明天模型一升级,可能就贬值了。

这就是为什么我更愿意把 loop 看成一种"组织记忆",而不是一种"技术技巧"。

给普通人的判断

如果今天你只是一个用 ChatGPT 写写邮件、改改文案的普通用户,loop engineering 跟你暂时还没关系。

但如果你是以下任何一种人,建议你开始认真想这件事:

  • 写代码,而且 bug 经常要追几轮才能修干净
  • 跑研究,要查的资料多到一打开电脑就烦躁
  • 做内容生产,要从素材到成稿反复打磨
  • 维护一个流程,每周要重复做相似的事

这些场景里,prompt 会越来越像"一次性胶水",而 loop 会越来越像"可复用的工作台"。

一个最直接的入门动作:下次你交给 agent 一件多步任务时,先问自己一句"这一步做完之后,我怎么知道它真的做完了?" 如果你答不上来,那你缺的不是更好的 prompt,而是一个能跑起来的 loop。

最后一句

prompt engineering 不会消失。它会从"台前主角"慢慢退到"loop 内部的一个组件"。

这件事接下来会怎么演化,我现在的判断很简单:

未来 6 个月,coding agent 的差距,不在 prompt 写得多漂亮,而在 loop 设计得多扎实。

如果你今天还在花时间研究怎么写"那一句神级 prompt",我建议你分出一点时间,想想"那个可以反复跑、可以自己校验、可以停下来回头看的 loop"。

这一切换,可能比下一次模型升级更值钱。

参考链接

  1. Peter Steinberger on X, “Stop prompting. Design loops.":https://x.com/steipete/status/2063697162748260627
  2. How Boris Uses Claude Code, Boris Cherny’s long-running workflow:https://howborisusesclaudecode.com/
  3. Acquired Unplugged, Boris Cherny “I have loops that are running”:https://www.acquired.fm/
  4. GitHub, steipete/CodeLooper:https://github.com/steipete/CodeLooper
  5. GitHub, steipete/agent-scripts (codex-review loop skill):https://github.com/steipete/agent-scripts
  6. GitHub, anthropics/claude-code ralph-wiggum plugin:https://github.com/anthropics/claude-code/tree/main/plugins/ralph-wiggum
  7. Addy Osmani on Substack, “Loop Engineering”:https://addyo.substack.com/p/loop-engineering
  8. Oscar Gallego Ruiz on Medium, “Stop Prompting Your Agent. Start Writing Loops.":https://medium.com/@garbarok/stop-prompting-your-agent-start-writing-loops-73608223f075
  9. r/PromptEngineering, “After 1000 hours of prompt engineering, I found the 6 patterns that actually matter”:https://www.reddit.com/r/PromptEngineering/comments/1nvehmh/after_1000_hours_of_prompt_engineering_i_found_the_6/