Anthropic 一夜三动作：造 agent 的同时，已经在管 agent

2026 年 6 月 4 日那天，Anthropic 在同一天做了三件事。

第一件，开源了一个叫 defending-code-reference-harness 的漏洞发现框架。Hacker News 当日 242 分、82 条评论。仓库在 GitHub，定位很清楚：让 Claude 在受控环境下对参考代码做差分安全审计，把"模型找漏洞"从一句话描述变成可复现的工程流水线。¹

第二件，发布了一篇研究文章《When AI Builds Itself: Our progress toward recursive self-improvement》。HN 当日 313 分、414 条评论。² 文章说的是他们怎么在受控环境里让 Claude 改自己的代码、跑自己的评测、再拿改好的版本去做更难的题，也就是"递归自我改进"的工程化版本。

第三件，悄悄放了一篇工程博文《How we contain Claude across products》。³ 写的是"12 个月前我们会一口回绝的事，今天是常态"，给 Claude 配足够深的内部权限，让它能直接操作内部的工程服务、数据库、部署流水线，然后配套一整套"如何不让它失控"的设计。Anthropic 数据团队的 Cat Wu 顺手在 X 上发了一条配套消息：他们已经把 95% 的业务分析查询交给 Claude 自动化处理。⁴

三件事在同一个 24 小时内落地。

这其实是个非常清晰的信号。Anthropic 不再是一家"做大模型"的公司了，它正在变成一家"既做大模型、又给大模型划线"的公司。

414 条评论里大家在吵什么

递归自我改进那篇文章的讨论质量很高。414 条评论里我大致翻了一下，几乎所有反对意见都集中在同一个点上：评估标准谁来定。

支持派的标准话术是：“如果 AI 能在受控环境里改自己、跑评测、拿新版本去解更难的题，那它至少说明我们已经有了一个’递归改进的脚手架’，这是 AGI 路径上绕不开的工程问题，Anthropic 在做正确的事。”

反对派的核心质疑也压在这条线上：“你说递归改进了，那’什么算改好’是谁定的？是人写的 reward function，还是模型自己跑 benchmark？如果还是人写 benchmark，那它就只是一台很贵的 A/B 测试机；如果让模型自己评自己，那’评估偏差’就会跟着模型一起递归。”

这个争议不是 Anthropic 独有的，它是当下整个 agent 行业的硬约束。我去年看到的所有"模型自我改进"论文，几乎全部死在"self-play 失稳"或者"reward hacking"上。Anthropic 能把这篇文章发出来，且 HN 评论密度这么高，恰恰说明他们的工程证据压住了"是不是 PR"的质疑。

但工程证据 ≠ 安全保证。314 分的内容、414 条评论的讨论里，没人能拍胸脯说"这玩意儿 6 个月后不会跑歪"。

“How we contain Claude” 这篇文章才是关键

很多人盯着"递归自我改进"看，反而漏了第三篇。

《How we contain Claude across products》的开头一句话，翻译成中文就是："12 个月前，我们会一口回绝’给 Claude 足够权限去关停一个内部服务’这种想法。今天这件事是常态。"

这句话的分量比"95% 自动化"重得多。

“95% 自动化"是结果，业务部门用 Claude 干活、活儿干完了、人效提了。

“12 个月前会回绝、今天是常态"是路线承认。Anthropic 在用一篇文章告诉外界：他们已经把"给 Claude 内部权限"作为长期路线接受了，且已经在用工程化手段去管控它。博文里讲的是具体的容器设计、最小权限策略、审计链路、回滚路径，这些是"管 agent"的真功夫。

如果你只看递归自我改进那篇文章，你会觉得 Anthropic 在冲上限；如果你只看 contain 这篇，你会觉得他们在划底线。两篇放一起读，你会发现这是双线作战：

一条线：让 Claude 更能自己改自己、自己管自己（造 agent）
另一条：让 Claude 在做这些事的时候不会把别的服务搞挂、把权限外泄（管 agent）

这两条线从来不是分开的。一个真正能"自我改进"的模型，必须有相应的"自我约束"工程，否则"自我改进"五分钟就能把公司数据库删干净。Anthropic 同一周内放出三件事，本质上是在说：我们这两条线一起做，且都在工程化。

跟 OpenAI 的对照：另一家在裸奔

把这件事放回 2026 年的 agent 大盘里看，Anthropic 的"双线作战"和 OpenAI 的"单线冲刺"形成了一个非常鲜明的对比。

6 月 4 日同一天，OpenAI 的 Codex 负责人 @thsottiaux 发了那条 8735 likes 的长推。⁵ 24 小时内 Codex 出了 3 次事故，他公开认错、重置所有付费计划额度、还顺手暗示"未来几周会有大动作”。

Codex 现在的真实状态是：用户扩张速度远超产品稳定性。AI 自动跑电子表格、自动改代码、自动开会，这事儿在用户那头是真的，但每次"自动"背后，OpenAI 都没把"它出错时怎么收场"这条线给补齐。

Anthropic 这次发的三件事里，至少两件（contain 博文 + vulnerability 框架）是在补"出错时怎么收场"这条线。Anthropic 的步子看上去比 OpenAI 慢半拍，但它走的是"先有护栏、再放开手脚"的路径。OpenAI 是反过来的：先把手脚放开、护栏是边跑边补。

短期看，Codex 的用户扩张会比 Claude 猛。长期看，Anthropic 的路线在大客户那边会越来越吃香，你看 Uber 给 AI 设了 $1500/月硬上限⁶，越来越多企业开始问的不是"AI 能做什么”，而是"AI 出错时我兜不兜得住"。

独立开发者应该跟哪条线

这是我想留给读者的最后一点判断。

如果你现在做的是 Claude Code / Codex / Cursor 之类的"agent 上层应用"，不要只盯着"Anthropic 模型又强了多少"这件事。看两件具体的事：

第一，Harness 周边正在变成新基建。昨天科技雷达里 GitHub 月榜同框了三个项目，codegraph、Understand-Anything、mattpocock/skills，它们都在打"让 agent 记住你、复用你上下文"这件事。⁷ 加上 Anthropic 自己开源的 defending-code-reference-harness，Harness 这一层在 2026 上半年会跑出事实标准。

第二，“管 agent"是接下来 6 个月最稳的创业方向。Anthropic 自己在 contain 那篇文章里说的"容器设计、最小权限、审计链路、回滚路径”，这四件事目前没有一家创业公司做成产品级方案。如果你想做 agent 时代的工具栈，不要做又一个大模型，去做"给 agent 装围栏"和"给 agent 记审计日志"。

两条线索汇成一句话：Anthropic 这次三件事不是 PR 节奏，是路线信号。读懂这条路线的人，会比读懂 GPT-5.5 又多几个参数的人，少走半年弯路。

参考链接

Anthropic’s open-source framework for AI-powered vulnerability discovery (HN #2, 242 分) · defending-code-reference-harness 仓库
When AI Builds Itself: Our progress toward recursive self-improvement (HN #6, 313 分/414 评论) · 研究文章
How we contain Claude across products
Cat Wu: Anthropic 数据团队 95% 业务分析查询自动化
@thsottiaux: Codex 24h 事故公开认错 + 重置额度（来自 Follow Builders 原始记录：8735 likes / 449 RT / 849 回复）
Uber 给 AI 设 $1500/月硬上限（背景：HN 504 分/393 评论，企业 AI 成本反思）
科技雷达 2026-06-05：GitHub 月榜三件套 · Understand-Anything · mattpocock/skills

414 条评论里大家在吵什么#

“How we contain Claude” 这篇文章才是关键#

跟 OpenAI 的对照：另一家在裸奔#

独立开发者应该跟哪条线#

参考链接#

414 条评论里大家在吵什么

“How we contain Claude” 这篇文章才是关键

跟 OpenAI 的对照：另一家在裸奔

独立开发者应该跟哪条线

参考链接