这两天看 Agent 相关的新东西,我有一个很强的感觉:个人 Agent 终于不再只是一个聪明聊天框,它开始长骨架了。

以前大家讨论 AI 助手,最容易问一句:模型多聪明?

现在这个问题还重要,但没那么够用了。一个真正能长期帮你干活的个人 Agent,光会回答问题没用。它至少得做到三件事:会规矩、记得住、连得上工具。

对应到今天社区里正在冒出来的三个关键词,就是:Skills、Memory、MCP

为了方便追原始材料,先把这篇文章用到的关键链接列出来:

只靠大模型,个人 Agent 很容易变成“聪明但不靠谱的新人”

我越来越不喜欢把 Agent 简单说成“更聪明的 AI 助手”。这个说法太轻了。

一个真实的助手,难的不是某一次回答得漂亮,而是长期稳定地做事。它要知道你的偏好,理解你的工作方式,记得上次踩过的坑,还要能安全地调用工具。否则它每次醒来都是新人,每次都要重新培训。

这就是现在很多 AI 工具的尴尬之处。

你可以让它写一段代码、总结一篇文章、整理一次会议纪要。它表现不错。可一旦你把它放进长期工作流里,问题马上出来:

  • 它不知道你以前怎么做决策
  • 它不记得项目里的约定
  • 它不知道哪些工具能碰,哪些工具不能碰
  • 它没法把一次成功经验沉淀成下次可复用的方法
  • 它看起来很努力,但你还是得一直盯着

这不叫助理,这叫实习生。

而且还是每天失忆的实习生。挺可怕的。

Skills:先让 Agent 学会“规矩”

Skills 这波热起来,我觉得一点都不意外。

GitHub 上最近一堆 skills 项目涨得很猛,比如 addyosmani/agent-skillsforrestchang/andrej-karpathy-skillsmattpocock/skills。这些项目表面看是各种提示词、CLAUDE.md、工作流文档,本质上是在做一件事:把“怎么把活干好”写成可复用的操作规程。

这很关键。

因为大模型本身懂很多通用知识,但它不知道你的局部规则。比如:

  • 这个项目提交代码前要跑哪些测试
  • 双语博客文件该怎么命名
  • 前端组件应该遵守什么设计约定
  • 写文章时要不要放原文链接
  • 遇到构建失败应该先查哪几个地方

这些不是“智商”问题,是“规矩”问题。

一个没有 Skills 的 Agent,就像一个很聪明但没看过团队手册的新同事。你让它干活,它当然能干,但很容易干出一种“看起来对,其实不合规”的结果。

Skills 的价值在于,它把人的经验变成了 Agent 可以读取和执行的工作手册。

这也是为什么我觉得 skills 会成为个人 Agent 的第一层基础设施。不是锦上添花,而是地基。没有它,Agent 每次都在即兴发挥。即兴发挥偶尔惊艳,长期使用会让人心累。

Memory:再让 Agent 记得“你是谁”和“发生过什么”

第二层是 Memory。

如果说 Skills 解决的是“做事规矩”,Memory 解决的就是“长期关系”。

thedotmack/claude-mem 这类项目火起来,以及 Anthropic 推 Claude Managed Agents memory,都说明同一个问题:大家已经受够了每次都从零开始解释。

一个个人 Agent 如果没有记忆,就很难真正个人化。

它可以根据你当前输入临时装出很懂你的样子,但只要换个会话,它又忘了:

  • 你喜欢什么写作风格
  • 你的项目目录在哪里
  • 某个仓库有什么特殊约定
  • 上次哪个方案翻车了
  • 你讨厌哪些废话和格式
  • 哪些事情可以直接做,哪些必须先问

这类信息单次看都不大,但长期累积起来,就是一个助手的手感。

我判断 Memory 会从“聊天记录摘要”慢慢变成更结构化的东西。它不应该只是把历史对话塞进上下文,而应该区分几类信息:

记忆类型 例子 价值
用户偏好 喜欢直接、清楚、有效的表达 少废话,少跑偏
项目约定 博客使用 .zh.md / .en.md 双语文件名 避免重复犯错
工具经验 某个构建 warning 可以忽略,某个错误必须处理 提高执行稳定性
工作关系 哪些动作可以自主做,哪些需要确认 降低打扰,也降低风险

Memory 最难的地方,不是存,而是筛。

什么都记,最后会变成垃圾堆。什么都不记,又永远像临时工。好的 Memory 应该像一个靠谱助理的小本子,只记那些下次真的能减少沟通成本的东西。

MCP:最后让 Agent 真正“接上世界”

第三层是 MCP。

MCP 可以理解为一种让 Agent 连接外部工具和数据源的协议。文件、数据库、浏览器、GitHub、Slack、日历、内部系统,都可以通过类似 MCP 的方式暴露给 Agent。

这件事重要在哪里?

因为没有工具连接,Agent 再聪明也只能停留在“建议层”。它能告诉你怎么做,但不能帮你真的做完。

能不能读文件?能不能查仓库?能不能开 issue?能不能调用日历?能不能跑测试?能不能发消息?这些问题决定了 Agent 到底是聊天对象,还是工作系统。

今天你会看到很多相关信号。比如 Product Hunt 上的 Monid 2.0 把自己定位成 agent tools 的 OpenRouter,Kilo Code v7 在强调并行 Agent、diff reviewer、多模型对比,Superset 2.0 则直接讲远程跑大量 coding agents。

这些产品方向不同,但共同点很明显:Agent 正在从“一个模型调用”变成“一个工具调度系统”。

我更喜欢这个方向,因为它没那么玄。

真正有用的 Agent 不应该只会聊天,它应该能在明确权限下接触真实环境,然后完成一个可验收的动作。

当然,这也带来风险。工具越多,权限越大,越不能乱来。所以 MCP 这层不只是“连得上”,还要“管得住”。哪些工具能读,哪些能写,哪些动作必须二次确认,哪些操作要留下审计记录,这些都会变成个人 Agent 的基础配置。

三层合起来,Agent 才像一个能长期工作的系统

把 Skills、Memory、MCP 放在一起看,逻辑就清楚了。

层次 解决什么问题 没有它会怎样
Skills 怎么做事 Agent 每次即兴发挥
Memory 记住长期上下文 Agent 每次从零认识你
MCP 连接工具和数据 Agent 只能建议,不能执行

这三层组合起来,个人 Agent 才从“聪明聊天框”变成“可持续工作的系统”。

我觉得这也是 NousResearch/hermes-agent 这类项目有意思的地方。它不只是让 Agent 回答问题,而是在强调成长、记忆、技能和工具使用。这个方向比单纯堆模型参数更接近真实需求。

说白了,未来个人 Agent 的竞争,可能不只是模型谁更强,而是谁更懂得组织这三层:

  1. Skills 决定它有没有做事章法
  2. Memory 决定它能不能越用越顺手
  3. MCP 决定它能不能进入真实工作流

这三件事缺一层,都会别扭。

只有 Skills 没有 Memory,它像一本会说话的操作手册,但不认识你。

只有 Memory 没有 Skills,它很懂你,但干活容易野路子。

只有 MCP 没有前两者,它能动很多工具,但越能动越危险。

这波变化对普通用户意味着什么

对普通用户来说,这件事短期内可能不会表现成一个新按钮,而是体现在使用体验上。

你会慢慢发现,好的 AI 助手不再只是回答更快、语气更自然,而是会出现几个变化:

  • 它知道你常用哪些工具
  • 它记得你的偏好和项目约定
  • 它能把任务拆成可执行步骤
  • 它会在关键动作前确认权限
  • 它做错一次后,下次真的能避开
  • 它能把成功经验沉淀成一个新的技能

这才是“个人助手”的味道。

不是每次都让你重新介绍自己,也不是每次都给你一堆看似正确的建议,而是越来越像一个熟悉你工作方式的人。

这里面我最看重的是“越用越顺手”。如果一个 AI 工具用了三个月,和第一天几乎没区别,那它本质上还是一次性工具。真正的个人 Agent 应该有积累感。

企业也会遇到同一个问题,只是更麻烦

企业场景会更复杂。

个人 Agent 只要服务一个人,边界相对简单。企业 Agent 要处理团队知识、权限系统、审计合规、数据隔离、工具调用、失败回滚。每一项都很麻烦。

但底层逻辑一样。

企业也需要 Skills,把最佳实践写成可执行流程。企业也需要 Memory,让 Agent 记住项目上下文和组织偏好。企业也需要 MCP 或类似协议,把 Agent 接到真实系统里。

区别只在于,企业会更早被安全和权限问题卡住。

所以我不太相信那种“给公司装一群 Agent,效率立刻翻倍”的故事。太轻飘了。真正靠谱的落地,应该先问这几个问题:

  • 哪些任务已经有清楚 SOP?
  • 哪些知识可以安全暴露给 Agent?
  • 哪些工具允许 Agent 只读?
  • 哪些动作允许 Agent 写入?
  • 哪些结果需要人类验收?
  • Agent 犯错后怎么追溯?

这些问题听起来没那么性感,但它们决定了 Agent 能不能从 demo 走到生产环境。

别再只问模型聪不聪明了

我不是说模型能力不重要。模型当然重要。

但接下来一段时间,我会更关注模型之外的东西:技能库、记忆层、工具协议、权限控制、可审计执行。

因为这才是个人 Agent 从玩具走向生产力的关键。

一个没有基础设施的 Agent,就像一个很聪明的人坐在空房间里。它会说很多,但能做的不多。

一个有 Skills、Memory、MCP 的 Agent,才更像一个能长期协作的助手:知道规矩,记得上下文,能接工具,还能在该停下来的地方停下来。

这也是我觉得今天这个趋势值得写的原因。

AI 助手终于开始从“嘴很会说”走向“手上有活”。下一步拼的不是谁更像人聊天,而是谁能更稳定地接住真实工作。

我喜欢这个方向。它没那么炫,但扎实。扎实的东西,才有机会留下来。

参考链接