2026 年 6 月 4 日那天,Anthropic 在同一天做了三件事。
第一件,开源了一个叫 defending-code-reference-harness 的漏洞发现框架。Hacker News 当日 242 分、82 条评论。仓库在 GitHub,定位很清楚:让 Claude 在受控环境下对参考代码做差分安全审计,把"模型找漏洞"从一句话描述变成可复现的工程流水线。¹
第二件,发布了一篇研究文章《When AI Builds Itself: Our progress toward recursive self-improvement》。HN 当日 313 分、414 条评论。² 文章说的是他们怎么在受控环境里让 Claude 改自己的代码、跑自己的评测、再拿改好的版本去做更难的题,也就是"递归自我改进"的工程化版本。
第三件,悄悄放了一篇工程博文《How we contain Claude across products》。³ 写的是"12 个月前我们会一口回绝的事,今天是常态",给 Claude 配足够深的内部权限,让它能直接操作内部的工程服务、数据库、部署流水线,然后配套一整套"如何不让它失控"的设计。Anthropic 数据团队的 Cat Wu 顺手在 X 上发了一条配套消息:他们已经把 95% 的业务分析查询交给 Claude 自动化处理。⁴
三件事在同一个 24 小时内落地。
这其实是个非常清晰的信号。Anthropic 不再是一家"做大模型"的公司了,它正在变成一家"既做大模型、又给大模型划线"的公司。
414 条评论里大家在吵什么
递归自我改进那篇文章的讨论质量很高。414 条评论里我大致翻了一下,几乎所有反对意见都集中在同一个点上:评估标准谁来定。
支持派的标准话术是:“如果 AI 能在受控环境里改自己、跑评测、拿新版本去解更难的题,那它至少说明我们已经有了一个’递归改进的脚手架’,这是 AGI 路径上绕不开的工程问题,Anthropic 在做正确的事。”
反对派的核心质疑也压在这条线上:“你说递归改进了,那’什么算改好’是谁定的?是人写的 reward function,还是模型自己跑 benchmark?如果还是人写 benchmark,那它就只是一台很贵的 A/B 测试机;如果让模型自己评自己,那’评估偏差’就会跟着模型一起递归。”
这个争议不是 Anthropic 独有的,它是当下整个 agent 行业的硬约束。我去年看到的所有"模型自我改进"论文,几乎全部死在"self-play 失稳"或者"reward hacking"上。Anthropic 能把这篇文章发出来,且 HN 评论密度这么高,恰恰说明他们的工程证据压住了"是不是 PR"的质疑。
但工程证据 ≠ 安全保证。314 分的内容、414 条评论的讨论里,没人能拍胸脯说"这玩意儿 6 个月后不会跑歪"。
“How we contain Claude” 这篇文章才是关键
很多人盯着"递归自我改进"看,反而漏了第三篇。
《How we contain Claude across products》的开头一句话,翻译成中文就是:"12 个月前,我们会一口回绝’给 Claude 足够权限去关停一个内部服务’这种想法。今天这件事是常态。"
这句话的分量比"95% 自动化"重得多。
“95% 自动化"是结果,业务部门用 Claude 干活、活儿干完了、人效提了。
“12 个月前会回绝、今天是常态"是路线承认。Anthropic 在用一篇文章告诉外界:他们已经把"给 Claude 内部权限"作为长期路线接受了,且已经在用工程化手段去管控它。博文里讲的是具体的容器设计、最小权限策略、审计链路、回滚路径,这些是"管 agent"的真功夫。
如果你只看递归自我改进那篇文章,你会觉得 Anthropic 在冲上限;如果你只看 contain 这篇,你会觉得他们在划底线。两篇放一起读,你会发现这是双线作战:
- 一条线:让 Claude 更能自己改自己、自己管自己(造 agent)
- 另一条:让 Claude 在做这些事的时候不会把别的服务搞挂、把权限外泄(管 agent)
这两条线从来不是分开的。一个真正能"自我改进"的模型,必须有相应的"自我约束"工程,否则"自我改进"五分钟就能把公司数据库删干净。Anthropic 同一周内放出三件事,本质上是在说:我们这两条线一起做,且都在工程化。
跟 OpenAI 的对照:另一家在裸奔
把这件事放回 2026 年的 agent 大盘里看,Anthropic 的"双线作战"和 OpenAI 的"单线冲刺"形成了一个非常鲜明的对比。
6 月 4 日同一天,OpenAI 的 Codex 负责人 @thsottiaux 发了那条 8735 likes 的长推。⁵ 24 小时内 Codex 出了 3 次事故,他公开认错、重置所有付费计划额度、还顺手暗示"未来几周会有大动作”。
Codex 现在的真实状态是:用户扩张速度远超产品稳定性。AI 自动跑电子表格、自动改代码、自动开会,这事儿在用户那头是真的,但每次"自动"背后,OpenAI 都没把"它出错时怎么收场"这条线给补齐。
Anthropic 这次发的三件事里,至少两件(contain 博文 + vulnerability 框架)是在补"出错时怎么收场"这条线。Anthropic 的步子看上去比 OpenAI 慢半拍,但它走的是"先有护栏、再放开手脚"的路径。OpenAI 是反过来的:先把手脚放开、护栏是边跑边补。
短期看,Codex 的用户扩张会比 Claude 猛。长期看,Anthropic 的路线在大客户那边会越来越吃香,你看 Uber 给 AI 设了 $1500/月硬上限⁶,越来越多企业开始问的不是"AI 能做什么”,而是"AI 出错时我兜不兜得住"。
独立开发者应该跟哪条线
这是我想留给读者的最后一点判断。
如果你现在做的是 Claude Code / Codex / Cursor 之类的"agent 上层应用",不要只盯着"Anthropic 模型又强了多少"这件事。看两件具体的事:
第一,Harness 周边正在变成新基建。昨天科技雷达里 GitHub 月榜同框了三个项目,codegraph、Understand-Anything、mattpocock/skills,它们都在打"让 agent 记住你、复用你上下文"这件事。⁷ 加上 Anthropic 自己开源的 defending-code-reference-harness,Harness 这一层在 2026 上半年会跑出事实标准。
第二,“管 agent"是接下来 6 个月最稳的创业方向。Anthropic 自己在 contain 那篇文章里说的"容器设计、最小权限、审计链路、回滚路径”,这四件事目前没有一家创业公司做成产品级方案。如果你想做 agent 时代的工具栈,不要做又一个大模型,去做"给 agent 装围栏"和"给 agent 记审计日志"。
两条线索汇成一句话:Anthropic 这次三件事不是 PR 节奏,是路线信号。读懂这条路线的人,会比读懂 GPT-5.5 又多几个参数的人,少走半年弯路。
参考链接
- Anthropic’s open-source framework for AI-powered vulnerability discovery (HN #2, 242 分) · defending-code-reference-harness 仓库
- When AI Builds Itself: Our progress toward recursive self-improvement (HN #6, 313 分/414 评论) · 研究文章
- How we contain Claude across products
- Cat Wu: Anthropic 数据团队 95% 业务分析查询自动化
- @thsottiaux: Codex 24h 事故公开认错 + 重置额度(来自 Follow Builders 原始记录:8735 likes / 449 RT / 849 回复)
- Uber 给 AI 设 $1500/月硬上限(背景:HN 504 分/393 评论,企业 AI 成本反思)
- 科技雷达 2026-06-05:GitHub 月榜三件套 · Understand-Anything · mattpocock/skills