这两天看 Agent 相关的新东西,我有一个很强的感觉:个人 Agent 终于不再只是一个聪明聊天框,它开始长骨架了。
以前大家讨论 AI 助手,最容易问一句:模型多聪明?
现在这个问题还重要,但没那么够用了。一个真正能长期帮你干活的个人 Agent,光会回答问题没用。它至少得做到三件事:会规矩、记得住、连得上工具。
对应到今天社区里正在冒出来的三个关键词,就是:Skills、Memory、MCP。
为了方便追原始材料,先把这篇文章用到的关键链接列出来:
- GitHub,addyosmani/agent-skills:https://github.com/addyosmani/agent-skills
- GitHub,forrestchang/andrej-karpathy-skills:https://github.com/forrestchang/andrej-karpathy-skills
- GitHub,mattpocock/skills:https://github.com/mattpocock/skills
- GitHub,thedotmack/claude-mem:https://github.com/thedotmack/claude-mem
- GitHub,NousResearch/hermes-agent:https://github.com/NousResearch/hermes-agent
- Anthropic,Claude Managed Agents memory:https://claude.com/blog/claude-managed-agents-memory
- Product Hunt,Monid 2.0:https://www.producthunt.com/posts/monid-2-0
- Product Hunt,Kilo Code v7 for VS Code:https://www.producthunt.com/posts/kilo-code-v7-for-vs-code
- Product Hunt,Superset 2.0:https://www.producthunt.com/posts/superset-2-0
只靠大模型,个人 Agent 很容易变成“聪明但不靠谱的新人”
我越来越不喜欢把 Agent 简单说成“更聪明的 AI 助手”。这个说法太轻了。
一个真实的助手,难的不是某一次回答得漂亮,而是长期稳定地做事。它要知道你的偏好,理解你的工作方式,记得上次踩过的坑,还要能安全地调用工具。否则它每次醒来都是新人,每次都要重新培训。
这就是现在很多 AI 工具的尴尬之处。
你可以让它写一段代码、总结一篇文章、整理一次会议纪要。它表现不错。可一旦你把它放进长期工作流里,问题马上出来:
- 它不知道你以前怎么做决策
- 它不记得项目里的约定
- 它不知道哪些工具能碰,哪些工具不能碰
- 它没法把一次成功经验沉淀成下次可复用的方法
- 它看起来很努力,但你还是得一直盯着
这不叫助理,这叫实习生。
而且还是每天失忆的实习生。挺可怕的。
Skills:先让 Agent 学会“规矩”
Skills 这波热起来,我觉得一点都不意外。
GitHub 上最近一堆 skills 项目涨得很猛,比如 addyosmani/agent-skills、forrestchang/andrej-karpathy-skills、mattpocock/skills。这些项目表面看是各种提示词、CLAUDE.md、工作流文档,本质上是在做一件事:把“怎么把活干好”写成可复用的操作规程。
这很关键。
因为大模型本身懂很多通用知识,但它不知道你的局部规则。比如:
- 这个项目提交代码前要跑哪些测试
- 双语博客文件该怎么命名
- 前端组件应该遵守什么设计约定
- 写文章时要不要放原文链接
- 遇到构建失败应该先查哪几个地方
这些不是“智商”问题,是“规矩”问题。
一个没有 Skills 的 Agent,就像一个很聪明但没看过团队手册的新同事。你让它干活,它当然能干,但很容易干出一种“看起来对,其实不合规”的结果。
Skills 的价值在于,它把人的经验变成了 Agent 可以读取和执行的工作手册。
这也是为什么我觉得 skills 会成为个人 Agent 的第一层基础设施。不是锦上添花,而是地基。没有它,Agent 每次都在即兴发挥。即兴发挥偶尔惊艳,长期使用会让人心累。
Memory:再让 Agent 记得“你是谁”和“发生过什么”
第二层是 Memory。
如果说 Skills 解决的是“做事规矩”,Memory 解决的就是“长期关系”。
thedotmack/claude-mem 这类项目火起来,以及 Anthropic 推 Claude Managed Agents memory,都说明同一个问题:大家已经受够了每次都从零开始解释。
一个个人 Agent 如果没有记忆,就很难真正个人化。
它可以根据你当前输入临时装出很懂你的样子,但只要换个会话,它又忘了:
- 你喜欢什么写作风格
- 你的项目目录在哪里
- 某个仓库有什么特殊约定
- 上次哪个方案翻车了
- 你讨厌哪些废话和格式
- 哪些事情可以直接做,哪些必须先问
这类信息单次看都不大,但长期累积起来,就是一个助手的手感。
我判断 Memory 会从“聊天记录摘要”慢慢变成更结构化的东西。它不应该只是把历史对话塞进上下文,而应该区分几类信息:
| 记忆类型 | 例子 | 价值 |
|---|---|---|
| 用户偏好 | 喜欢直接、清楚、有效的表达 | 少废话,少跑偏 |
| 项目约定 | 博客使用 .zh.md / .en.md 双语文件名 |
避免重复犯错 |
| 工具经验 | 某个构建 warning 可以忽略,某个错误必须处理 | 提高执行稳定性 |
| 工作关系 | 哪些动作可以自主做,哪些需要确认 | 降低打扰,也降低风险 |
Memory 最难的地方,不是存,而是筛。
什么都记,最后会变成垃圾堆。什么都不记,又永远像临时工。好的 Memory 应该像一个靠谱助理的小本子,只记那些下次真的能减少沟通成本的东西。
MCP:最后让 Agent 真正“接上世界”
第三层是 MCP。
MCP 可以理解为一种让 Agent 连接外部工具和数据源的协议。文件、数据库、浏览器、GitHub、Slack、日历、内部系统,都可以通过类似 MCP 的方式暴露给 Agent。
这件事重要在哪里?
因为没有工具连接,Agent 再聪明也只能停留在“建议层”。它能告诉你怎么做,但不能帮你真的做完。
能不能读文件?能不能查仓库?能不能开 issue?能不能调用日历?能不能跑测试?能不能发消息?这些问题决定了 Agent 到底是聊天对象,还是工作系统。
今天你会看到很多相关信号。比如 Product Hunt 上的 Monid 2.0 把自己定位成 agent tools 的 OpenRouter,Kilo Code v7 在强调并行 Agent、diff reviewer、多模型对比,Superset 2.0 则直接讲远程跑大量 coding agents。
这些产品方向不同,但共同点很明显:Agent 正在从“一个模型调用”变成“一个工具调度系统”。
我更喜欢这个方向,因为它没那么玄。
真正有用的 Agent 不应该只会聊天,它应该能在明确权限下接触真实环境,然后完成一个可验收的动作。
当然,这也带来风险。工具越多,权限越大,越不能乱来。所以 MCP 这层不只是“连得上”,还要“管得住”。哪些工具能读,哪些能写,哪些动作必须二次确认,哪些操作要留下审计记录,这些都会变成个人 Agent 的基础配置。
三层合起来,Agent 才像一个能长期工作的系统
把 Skills、Memory、MCP 放在一起看,逻辑就清楚了。
| 层次 | 解决什么问题 | 没有它会怎样 |
|---|---|---|
| Skills | 怎么做事 | Agent 每次即兴发挥 |
| Memory | 记住长期上下文 | Agent 每次从零认识你 |
| MCP | 连接工具和数据 | Agent 只能建议,不能执行 |
这三层组合起来,个人 Agent 才从“聪明聊天框”变成“可持续工作的系统”。
我觉得这也是 NousResearch/hermes-agent 这类项目有意思的地方。它不只是让 Agent 回答问题,而是在强调成长、记忆、技能和工具使用。这个方向比单纯堆模型参数更接近真实需求。
说白了,未来个人 Agent 的竞争,可能不只是模型谁更强,而是谁更懂得组织这三层:
- Skills 决定它有没有做事章法
- Memory 决定它能不能越用越顺手
- MCP 决定它能不能进入真实工作流
这三件事缺一层,都会别扭。
只有 Skills 没有 Memory,它像一本会说话的操作手册,但不认识你。
只有 Memory 没有 Skills,它很懂你,但干活容易野路子。
只有 MCP 没有前两者,它能动很多工具,但越能动越危险。
这波变化对普通用户意味着什么
对普通用户来说,这件事短期内可能不会表现成一个新按钮,而是体现在使用体验上。
你会慢慢发现,好的 AI 助手不再只是回答更快、语气更自然,而是会出现几个变化:
- 它知道你常用哪些工具
- 它记得你的偏好和项目约定
- 它能把任务拆成可执行步骤
- 它会在关键动作前确认权限
- 它做错一次后,下次真的能避开
- 它能把成功经验沉淀成一个新的技能
这才是“个人助手”的味道。
不是每次都让你重新介绍自己,也不是每次都给你一堆看似正确的建议,而是越来越像一个熟悉你工作方式的人。
这里面我最看重的是“越用越顺手”。如果一个 AI 工具用了三个月,和第一天几乎没区别,那它本质上还是一次性工具。真正的个人 Agent 应该有积累感。
企业也会遇到同一个问题,只是更麻烦
企业场景会更复杂。
个人 Agent 只要服务一个人,边界相对简单。企业 Agent 要处理团队知识、权限系统、审计合规、数据隔离、工具调用、失败回滚。每一项都很麻烦。
但底层逻辑一样。
企业也需要 Skills,把最佳实践写成可执行流程。企业也需要 Memory,让 Agent 记住项目上下文和组织偏好。企业也需要 MCP 或类似协议,把 Agent 接到真实系统里。
区别只在于,企业会更早被安全和权限问题卡住。
所以我不太相信那种“给公司装一群 Agent,效率立刻翻倍”的故事。太轻飘了。真正靠谱的落地,应该先问这几个问题:
- 哪些任务已经有清楚 SOP?
- 哪些知识可以安全暴露给 Agent?
- 哪些工具允许 Agent 只读?
- 哪些动作允许 Agent 写入?
- 哪些结果需要人类验收?
- Agent 犯错后怎么追溯?
这些问题听起来没那么性感,但它们决定了 Agent 能不能从 demo 走到生产环境。
别再只问模型聪不聪明了
我不是说模型能力不重要。模型当然重要。
但接下来一段时间,我会更关注模型之外的东西:技能库、记忆层、工具协议、权限控制、可审计执行。
因为这才是个人 Agent 从玩具走向生产力的关键。
一个没有基础设施的 Agent,就像一个很聪明的人坐在空房间里。它会说很多,但能做的不多。
一个有 Skills、Memory、MCP 的 Agent,才更像一个能长期协作的助手:知道规矩,记得上下文,能接工具,还能在该停下来的地方停下来。
这也是我觉得今天这个趋势值得写的原因。
AI 助手终于开始从“嘴很会说”走向“手上有活”。下一步拼的不是谁更像人聊天,而是谁能更稳定地接住真实工作。
我喜欢这个方向。它没那么炫,但扎实。扎实的东西,才有机会留下来。
参考链接
- GitHub,addyosmani/agent-skills:https://github.com/addyosmani/agent-skills
- GitHub,forrestchang/andrej-karpathy-skills:https://github.com/forrestchang/andrej-karpathy-skills
- GitHub,mattpocock/skills:https://github.com/mattpocock/skills
- GitHub,thedotmack/claude-mem:https://github.com/thedotmack/claude-mem
- GitHub,NousResearch/hermes-agent:https://github.com/NousResearch/hermes-agent
- Anthropic,Claude Managed Agents memory:https://claude.com/blog/claude-managed-agents-memory
- Product Hunt,Monid 2.0:https://www.producthunt.com/posts/monid-2-0
- Product Hunt,Kilo Code v7 for VS Code:https://www.producthunt.com/posts/kilo-code-v7-for-vs-code
- Product Hunt,Superset 2.0:https://www.producthunt.com/posts/superset-2-0