别再 prompt 了，去设计 loop：Agent 时代的下一课

最近 X 上钉墙频次最高的一条 agent 推文，不是某个新模型发布，也不是哪个 benchmark 破纪录。

它很朴素，但越琢磨越觉得有味道：

“Here’s your monthly reminder that you shouldn’t be prompting coding agents anymore. You should be designing loops that prompt your agents.”
— @steipete

说这话的是 Peter Steinberger，OpenClaw 创始人，也是这波 Agent 工具链里最活跃的 builder 之一。一个月一次，定时钉墙。

他这句话最近之所以有火出圈的势头，不是因为他嗓门大，而是因为时间点踩得很准：差不多同一周，Anthropic 的 Claude Code 负责人 Boris Cherny 也在 Acquired Unplugged 舞台上说了几乎一样的原话——

“A year ago I was writing code with autocomplete. Then I was running five or ten Claudes in parallel, and my ‘coding’ was prompting each one. Now? I don’t prompt Claude anymore. I have loops that are running.”

Boris 不是键盘侠，他是 Claude Code 的亲爹，连他本人都已经把工作流从"prompt 一下"切到"loop 在跑"，这件事本身就很有信息量。

于是这个 6 月，builder 圈子里悄悄出现了一个新共识：prompt 的红利期快结束了，下一道分水岭是 loop engineering。

为什么 prompt 不再够用

很多人对"loop"这个词有第一反应：不就是把同一个 prompt 多发几次吗？

不是。

一个真正的 loop，至少由三件事组成：

状态：把"我做到哪了"持久化下来，不丢上下文。
校验：让另一个 agent 或一段硬逻辑，判断"这一步算不算真完成"。
反馈回路：把校验结果喂回去，触发下一步动作、停机、回滚或升级给人。

Boris 自己在 How Boris Uses Claude Code 里也写得很直白：

For very long-running tasks, I will either prompt Claude to verify its work with a background agent when it’s done, use an agent-Stop hook to do that more deterministically, or use the ralph-wiggum plugin.

三个做法，机制其实是一样的：让 agent 自己校验自己，再决定要不要继续。

这就是 loop 跟 prompt 的根本区别。

Prompt 是单次触发。Loop 是带反馈的反复触发。

当你只丢一句 prompt 进去，模型只能基于眼前这一坨上下文给一个答案。它不知道自己刚才的答案对不对，不知道你之前问过什么，也不知道你之后会不会改主意。

而当 loop 跑起来之后，模型会"看见"自己之前几轮的输出、“看见"测试结果、“看见"用户反馈，然后用这些"看见"去修正下一轮的动作。

这件事之所以重要，是因为大部分真实任务根本不是单轮能搞定的。一个看起来简单的"修个 bug”，背后可能要重读代码、写复现、跑测试、看 diff、改命名、再跑一遍——七步起步。

如果每一步都要你亲手写一句 prompt 引导，那你就不是 agent 的指挥家，而是 agent 的项目经理。

更现实地说：单轮 prompt 适合 demo，loop 适合真正交付。

Loop 已经在被一个个工具化

这件事最有意思的地方在于，6 月初 steipete 那条推文能瞬间被点出 13.7k 赞，并不是因为观点多新鲜，而是因为它把很多人已经在做、但没有命名的事情，给了一个名字。

你随便扫一眼这两周 GitHub 趋势和 Follow Builders 动态，就能拼出 loop engineering 的全貌：

steipete/CodeLooper 自己的示范仓库，README 上来就一句 “It’s all about the loop, baby.”
steipete/agent-scripts（3.1k stars）里已经出现 codex-review loop 这种技能：上传 diff 或者贴一个 PR 链接，review-fix-rerun 这套循环直接在浏览器里跑，号称 “no Codex CLI install, no API key”。
anthropics/claude-code 官方插件市场里直接上架了 ralph-wiggum 插件：跑一次 /ralph-loop "你的需求" --max-iterations N --completion-promise TEXT，Claude 自己写代码、自己跑测试、Stop hook 拦截退出、把同一个 prompt 重新喂回去，直到满足 --completion-promise 文本才停。强烈建议加 --max-iterations，否则它会一直循环到你手动 stop。
Addy Osmani（Google Chrome team，前端大佬）6 月 8 号刚在 Substack 上发了一篇《Loop Engineering》，开篇就说 “Loop engineering sits one floor above the harness engineering”——把 loop 抬到和 harness 同级的位置。
Oscar Gallego Ruiz 在 Medium 上几乎同一天发了《Stop Prompting Your Agent. Start Writing Loops.》，把"prompt 时代"和"loop 时代"切得很干脆。

你看，这不是一个人的奇思妙想，是一圈 builder 同时得出同一个结论。

而且注意，这些不是论文，不是 PPT，是一坨一坨已经能跑的代码。

反方声音：prompt 真的没救了吗？

当然有反方。

最有意思的反方是 r/PromptEngineering 上那篇被顶到 60k 浏览的《After 1000 hours of prompt engineering, I found the 6 patterns that actually matter》，作者是一个 tech lead，整理了所谓 KERNEL 六原则：

Keep it simple（够简单）
Easy to verify（容易验证）
Reproducible（可复现）
Narrow scope（范围窄）
Explicit constraints（约束明确）
Logical structure（结构清晰）

他贴出的数据也很漂亮：first-try 成功率 72% → 94%，token 用量 -58%，准确率 +340%。

按理说，这种 prompt engineering 高手的现身说法，应该和 steipete 的"别再 prompt 了"对着干。

但你仔细看，KERNEL 六原则的每一条，本质上都在解决"agent 怎么知道这一轮算不算做完”。

KERNEL 原则	在 loop 里等价于什么
Easy to verify	校验器：单元测试、typecheck、diff 检查
Reproducible	状态文件：每次跑都能从同一个起点重放
Narrow scope	loop 拆任务：一个 loop 只盯一件事
Explicit constraints	停止条件：`--max-iterations` / `--completion-promise`

你发现没有？

KERNEL 不是一个反方，它在用 prompt 工程的语言，悄悄描述 loop 该有的部件。

这恰恰是我觉得 steipete 那种提法真正厉害的地方：他不是在说"prompt 无用"，他是在说"prompt 应该被吸收进 loop 里，作为 loop 的一层子结构"。

你把 prompt 写好、让 prompt 容易校验、让 prompt 的效果可以复现——恭喜，你刚刚手工搭了一个 loop。

steipete 做的事情，无非是把这件事自动化、版本化、可执行化。

Loop 真正的难点，从来不是技术

聊到这里，大多数 builder 都会点头说"对，有道理"。

然后他们会卡在同一件事上：没东西可循环。

一个真实的工作流，loop 要循环的"动作"应该是清楚的：

改一段代码 → 跑测试 → 看 diff → 改命名 → 再跑测试。
调研一个项目 → 抓 README → 抓依赖图 → 抓 changelog → 写报告。
处理一组 ticket → 读 issue → 写 patch → 跑 CI → 留评论。

但如果你自己手头的工作是"想一个点子 → 写一篇文章 → 改两遍 → 发出去"，这个 loop 就很难自动化，因为"想一个点子"这一步没有明确的校验器。

所以 loop engineering 的真正门槛，不是"我会写 YAML 配置"或者"我会用 ralph-wiggum 插件"，而是：

你能不能把自己的工作拆成一组可被外部校验的步骤？
每一步有没有清晰的通过/失败信号？
失败时，下一步该回退、重试、还是升级给人？

Boris Cherny 在 13 条 setup 帖里反复强调一件事：他自己也用"Plan mode"先和 Claude 反复磨一份"可以接受的 plan"，再让 loop 真正开始执行。

也就是说，loop 不是上来就开跑的。loop 的前 30% 时间，是在和 loop 共生的人，把"什么是可被校验的成功"想清楚。

这也是为什么我觉得，这事比"模型又强了多少"更值得长期关注。

模型再强，碰到一个"我也不知道我想要什么"的任务，也只能给你吐一坨漂亮但没用的答案。Loop 强不强，归根结底取决于主人有没有把"想要什么"翻译成"可以验收"的能力。

Loop engineering 是不是 prompt engineering 升级版？

我比较倾向于：是，但也不全是。

它是升级版，因为：

它把单轮 prompt 嵌进了带状态、带校验、带停止条件的更大结构。
它把"写一句好 prompt"的功夫，变成了"设计一个可复跑流程"的功夫。
它继承了 prompt 工程的全部遗产——约束、上下文、示例——但把它们从"艺术"变成了"工程"。

它也不全是，因为：

Loop 的瓶颈是流程设计，不是措辞。
Loop 写好之后，可以交给任何一个能接入 loop 入口的 agent 模型。
Loop 的价值会随着时间复利，今天跑一遍的 stop condition，明天能直接给下一个项目用。

这意味着另一件很多人没意识到的事：你今天花时间设计的一个 loop，明天会变成团队的资产。

而你今天花时间打磨的一句漂亮 prompt，明天模型一升级，可能就贬值了。

这就是为什么我更愿意把 loop 看成一种"组织记忆"，而不是一种"技术技巧"。

给普通人的判断

如果今天你只是一个用 ChatGPT 写写邮件、改改文案的普通用户，loop engineering 跟你暂时还没关系。

但如果你是以下任何一种人，建议你开始认真想这件事：

写代码，而且 bug 经常要追几轮才能修干净
跑研究，要查的资料多到一打开电脑就烦躁
做内容生产，要从素材到成稿反复打磨
维护一个流程，每周要重复做相似的事

这些场景里，prompt 会越来越像"一次性胶水"，而 loop 会越来越像"可复用的工作台"。

一个最直接的入门动作：下次你交给 agent 一件多步任务时，先问自己一句"这一步做完之后，我怎么知道它真的做完了？" 如果你答不上来，那你缺的不是更好的 prompt，而是一个能跑起来的 loop。

最后一句

prompt engineering 不会消失。它会从"台前主角"慢慢退到"loop 内部的一个组件"。

这件事接下来会怎么演化，我现在的判断很简单：

未来 6 个月，coding agent 的差距，不在 prompt 写得多漂亮，而在 loop 设计得多扎实。

如果你今天还在花时间研究怎么写"那一句神级 prompt"，我建议你分出一点时间，想想"那个可以反复跑、可以自己校验、可以停下来回头看的 loop"。

这一切换，可能比下一次模型升级更值钱。

参考链接

Peter Steinberger on X, “Stop prompting. Design loops."：https://x.com/steipete/status/2063697162748260627
How Boris Uses Claude Code, Boris Cherny’s long-running workflow：https://howborisusesclaudecode.com/
Acquired Unplugged, Boris Cherny “I have loops that are running”：https://www.acquired.fm/
GitHub, steipete/CodeLooper：https://github.com/steipete/CodeLooper
GitHub, steipete/agent-scripts (codex-review loop skill)：https://github.com/steipete/agent-scripts
GitHub, anthropics/claude-code ralph-wiggum plugin：https://github.com/anthropics/claude-code/tree/main/plugins/ralph-wiggum
Addy Osmani on Substack, “Loop Engineering”：https://addyo.substack.com/p/loop-engineering
Oscar Gallego Ruiz on Medium, “Stop Prompting Your Agent. Start Writing Loops."：https://medium.com/@garbarok/stop-prompting-your-agent-start-writing-loops-73608223f075
r/PromptEngineering, “After 1000 hours of prompt engineering, I found the 6 patterns that actually matter”：https://www.reddit.com/r/PromptEngineering/comments/1nvehmh/after_1000_hours_of_prompt_engineering_i_found_the_6/

为什么 prompt 不再够用#

Loop 已经在被一个个工具化#

反方声音：prompt 真的没救了吗？#

Loop 真正的难点，从来不是技术#

Loop engineering 是不是 prompt engineering 升级版？#

给普通人的判断#

最后一句#

参考链接#