最近几天我盯着 GitHub Trending 看,越看越觉得一件事不对劲。
按大家聊天的口径,2026 年的 AI 主战场应该是"哪个模型更强"。但热榜上反复霸屏的,偏偏是一些听起来一点不性感的东西:
- 日榜第一是 chopratejas/headroom,说在 token 进入 LLM 之前先压掉 60% 到 95%
- 月榜第一是 colbymchenry/codegraph,给 Claude Code、Codex、Hermes Agent 预索引代码知识图谱,主要目的是"少烧 token"
- 月榜第五是 rohitg00/agentmemory,专门做 AI 编码代理的持久化记忆层
- Product Hunt 月榜第十三还有个 Tokenwise,号称是"LLM 代理账单哪里多花了"的可视化工具
- HN 上今天还有一条热门,叫 “How we index images for RAG”,94 分,14 条评论
codegraph 单月涨了 3.7 万 star。一个月涨这么多,开发者的钱和注意力是真的往这个方向砸了。
我盯着这些项目看了一阵,越来越觉得:AI Agent 跑不起来的真正原因,可能有 90% 都出在"中间层"上。
模型当然重要。但中间层才是决定你日常体验的那一段。
先说一个很多人会忽略的对比
我们装修房子的时候,最影响居住体验的,往往不是墙面颜色、家具品牌这种看得见的东西,而是水电、防水、隔音、排水。这些东西不性感,藏在墙里、地板下,但一出问题就全是大事。
AI Agent 这两年的"水电工程",就是中间层:
- 上下文怎么装、怎么压、怎么召回
- 工具调用怎么拼、怎么超时、怎么兜底
- 记忆怎么存、怎么分片、怎么过期
- 成本怎么算、怎么归因、怎么报警
- 多模型路由怎么切、怎么降级、怎么兜底
这些事,跟"模型又考了几分"比起来,太不显眼了。但你用过 Claude Code、Codex、Cursor、Cursor Composer、Manus、Devin 就会知道:真正决定你这一轮活儿能不能干完的,是中间件,不是模型。
模型卷到今天,开始"卷"不出新东西了
2025 年大家最关心的事是:哪个模型更聪明、哪个模型更长、哪个模型更便宜、哪个模型不幻觉。这条线还在卷,但边际收益越来越小。
今天 Hacker News 第二条是微软的 MAI-Code-1-Flash,401 分,178 条评论。Vercel 的 Rauch 顺手发了一条推:
MiniMax M3 在 Next.js agent 评测里升到开源第一,紧追 Opus 和 GPT-5,但便宜 10 倍,AI Gateway 上还便宜 20 倍。
这说明什么?说明"模型聪明"这个维度的竞争,已经慢慢变成"成本 / 速度 / 是否便宜到能铺开"的竞争。再往后,开源小模型 + 极致工程压缩,会把"用得起"的标准一路往下打。
于是"哪个模型最强"这个问题,对很多真实业务来说,已经变得不那么重要了。
真正卡住业务的,是另外两件事:
- 上下文窗口塞不塞得下你那一摊事。
- Agent 跑起来之后,你的钱包和 token 烧得起不烧得起。
这两件事都不靠模型解决,靠中间件。
三个正在被解决的"中间层"问题
我们顺着今天这几个 GitHub 新星,把"Agent 为什么不好用"这件事拆开看。
1. token 太贵:headroom 干的是 token 压缩的"水表"角色
headroom 的 README 写得很直白:在 token 进入 LLM 之前先压缩 60% 到 95%。它有三种形态,库、Proxy、MCP 都能用。
这件事背后的真相是:Agent 跑一轮任务,token 消耗往往不是线性增长,是指数级膨胀。 一段代码、一份文档、一个 issue 评论、一个 API 返回,都会被反复塞进上下文。再加上"我让你看一下我整个仓库"这种高频操作,几千行代码乘以几轮对话,账单就直接爆掉。
headroom 做的事,相当于在 token 进 LLM 之前先装了一个"水表":哪些上下文是必须保留的,哪些可以先做摘要、哪些是噪声直接砍掉。砍完不影响结果,但账单立刻变好看。
这事儿意义大不大?对个人开发者来说,也许只是"每月少花几十块"。但对一家把 Agent 跑在生产环境里的公司来说,这就是能不能规模化的问题。
把这件事做好了,Agent 才真的有可能从"我自己玩玩"走到"我们部门都用"。
2. 上下文太乱:codegraph 干的是"代码版的搜索引擎"
codegraph 这个项目月涨 3.7 万 star,是这个月整个 GitHub 涨得最猛的项目之一。
它做的事情,简单说就是:把整个代码仓库预索引成一个可被 Agent 查询的知识图谱。
为什么要做这个?因为 LLM 的"上下文窗口"再大,也是有上限的。你把整个 monorepo 都塞给模型,它也记不住。传统的 RAG 方案是临时切片、临时检索,但效率和质量都一般。
codegraph 的思路是:与其每次让 Agent 现查,不如提前把代码之间的关系、模块边界、调用链、关键定义都索引好,Agent 一问就立刻给到最相关的那一小段。
这相当于从"现做现卖的小贩"模式,转到"中央厨房预制菜"模式。Agent 的"思考"会更聚焦,token 会更省,速度会更快,而且答案会更稳。
这件事更深一层的意义是:当代码知识图谱成为 Agent 的基础设施,“哪个 Agent 最好用"这个问题,就开始和"哪个底层模型最强"脱钩了。 不管是 Claude、GPT、Gemini 还是开源小模型,只要上面套一层足够聪明的代码图谱,都能跑得很像样。
这其实是在重新定义"Agent 的护城河”。
3. 记忆太短:agentmemory 干的是 Agent 的"长期记忆"
LLM 本身没有"昨天的对话"这种概念,每次启动都像失忆。Cursor 早期、Claude Code 早期,各种 coding agent 都被吐槽"昨天改过的东西它今天又改一遍"。
短期记忆靠上下文,长期记忆得靠外挂。
agentmemory 想解决的就是这个问题:把 Agent 跨会话、跨项目的经验沉淀下来,下次再用时能调出来。
这听起来不稀奇,LangChain 早就有 memory 抽象。但关键是:真正能在生产里稳定跑下来的记忆系统,比想象中难得多。
- 哪些记忆值得长期留?哪些只是噪声?
- 记忆怎么分片,怎么检索?
- 跨项目、跨人的记忆怎么隔离?
- 记忆本身过期了怎么办?
这些问题,跟"模型又考了多少分"完全是两件事。但它们决定了一个 Agent 能不能真的像一个"老员工"一样,陪你干半年一年的活。
为什么这件事值得所有非技术读者也关心
有人可能会说,这些都是开发者的事,跟我没关系。
我觉得不是。
因为 AI Agent 的"水电工程"做得越好,意味着以后你用的 AI 工具,会越来越"不烧钱 + 越来越聪明 + 越来越有记忆"。这背后是中间件在帮你把成本压下来。
更直接一点说:
- 以后你用的 AI 客服、AI 销售、AI 律师助理、AI 会议助理、AI 投资助理,越来越多会跑在"中间件优化过的 Agent 框架"上,而不是直接裸调一个超大模型。
- 当 Tokenwise 这类账单可视化工具普及,AI 工具的计费会从"包月黑盒"变成"按模块透明计费"。你终于知道"我那 99 块到底花在哪了"。
- 当 agentmemory 这类长期记忆系统成熟,AI 工具就不再是"一次性聊天",而是"陪我半年的搭档"。它会记得你讨厌什么、偏好什么、做过什么。
说白了,中间层决定了 AI 工具能不能从"玩具"变成"水电气"。 而水电气这种东西,一旦铺好,普通人就不再需要理解它,但会受益于它。
给非技术读者的一句话总结
如果有人问你"2026 年 AI 最值得关注的趋势是什么",你不需要背一堆模型名字。
你只需要记住一句:
“模型越来越不重要,Agent 越来越关键;Agent 越来越关键,中间层越来越值钱。”
GitHub 上这几个爆火的项目,本质上都是在干同一件事——把 Agent 的"水电工程"做扎实,让模型能跑得起来、跑得便宜、跑得长久。
这也是为什么 dev 圈的钱和注意力,这一个月都集中到了这些"听起来一点都不性感"的项目上。
性感的东西是模型,不性感的东西是水表。但真正决定你能不能住得舒服的,是水表。
参考链接
- chopratejas/headroom — token 压缩库 / Proxy / MCP
- colbymchenry/codegraph — 预索引代码知识图谱
- rohitg00/agentmemory — AI 编码代理的持久化记忆层
- Product Hunt · Tokenwise — LLM 代理账单可视化
- Hacker News · How we index images for RAG
- Hacker News · MAI-Code-1-Flash(Microsoft 开源小模型)
- Hacker News · Anthropic 扩大 Project Glasswing
- Vercel CEO 关于 MiniMax M3 的评测推文