这两年大家聊 AI,最常见的画面是什么?

一个人坐在输入框前,认真写提示词,像在给神灯精灵下指令。

这个画面当然没错,它甚至塑造了过去一波 AI 产品的使用习惯。但我最近越来越觉得,这个入口正在松动。不是提示词突然没用了,而是它开始退到后台,语音、截图、录屏、随手丢文档,正在慢慢变成更自然的前台入口。

我会有这个判断,不是因为某一家厂商喊了句口号,而是今天几条信号刚好能拼成一张完整的图。

一边是 Sam Altman 明说,语音模型会改变人们和 AI 的交互方式。另一边,Product Hunt 日榜第二的 Velo 2.0 在做的事情也很直接:把你的语音和屏幕,立刻变成可分享的视频。再往技术层看,HN 上有人在讨论面向 multimodal agents 的 GLM-5V-Turbo,Builder 圈里的 GBrain 也在补多模态 embeddings、照片 OCR 和 EXIF 提取。

这些东西放在一起看,我的感觉很明确:

下一代 AI 交互,不会以“更会写提示词的人”作为分水岭,而会以“更自然地把意图交出去的人”作为分水岭。

提示词不会消失,但它不再适合当大众入口

我一直不太喜欢一种说法,叫“提示词工程就是未来的人机接口”。

这话对一部分深度用户成立,对大多数普通人其实不成立。

原因很简单。写好提示词这件事,本质上还是一种结构化表达能力。你得知道自己要什么,得会拆要求,得知道该补什么上下文,还得有耐心反复改。

这件事对工程师、研究员、内容创作者,确实不算太难。可你让一个普通用户这么干,他大概率只会觉得累。

很多人不是没有需求,而是不想先学一套和机器说话的礼仪。

这也是为什么我觉得,提示词从一开始就更像一种“过渡接口”。它很强,但不够顺手。它像命令行。厉害的人会爱上它,普通人则更想点按钮、开口说话,或者直接把东西丢进去。

所以真正会扩大 AI 使用人群的,往往不是更复杂的提示词技巧,而是更低摩擦的输入方式。

为什么语音会先吃掉一部分提示词

语音最大的优势,不是“酷”,而是省。

省什么?省组织语言的成本,省打字的成本,也省“我要先想清楚再说”的成本。

很多需求其实不是用户不会表达,而是用户懒得把表达压缩成一行行可复制的文字。你让他打字,他可能懒。你让他直接说,他就会讲得很顺。

这点在很多场景里都特别明显:

  • 想快速记录一个想法
  • 想让 AI 帮你整理会议要点
  • 想描述一个页面哪里不对
  • 想复盘某个操作为什么出错
  • 想把脑子里的模糊感觉先倒出来

这些时刻,语音比文本更接近人的自然状态。

文本输入要求你先整理,再表达。语音输入允许你一边想,一边说。

别小看这个差别。很多产品的用户增长,不是靠能力上升一个台阶,而是靠动作成本下降半个台阶。

Sam Altman 公开说语音模型会改变人机交互方式,我觉得这话不夸张。因为它改变的不是模型指标,而是“人愿不愿意多用一次”。

而大量产品的生死,最后就卡在这个“一次”。

Velo 2.0 这类产品,真正踩中的不是视频,是表达入口

今天 Product Hunt 上我最在意的,不是“它能把语音和屏幕变成视频”这句功能描述本身,而是它背后那个更大的变化。

Velo 2.0 把一个原本需要剪辑、录制、整理、导出的过程,压成了更顺手的动作。你说、你演示、你录屏,系统帮你把它包装成可以传播的内容。

这听起来像创作者工具升级,但我觉得它其实在改写更基础的东西:

越来越多的 AI 产品,不再要求你先把想法翻译成 prompt,而是允许你直接用行为本身来当输入。

你开口讲。

你动鼠标。

你切页面。

你圈重点。

你把原始素材扔进去。

这些动作,以前只是“操作过程”。现在它们正在变成“可理解的输入”。

这很重要。因为普通人最擅长的,从来不是写规范化提示词,而是直接做动作。

如果一个系统能听懂动作、画面和语气,那它对大众就友好太多了。

多模态不是加功能,而是在换主入口

很多人看多模态更新,习惯把它理解成“模型又多会了一项技能”。

我觉得这有点看轻了它。

多模态真正有意思的地方,不只是模型能看图、听音频、读 OCR,而是它开始允许用户用更随手的方式发出意图。

今天报告里提到的 GLM-5V-Turbo,方向就很明确,是朝 multimodal agents 去的。GBrain 也在补照片 OCR、EXIF 提取和多模态 embeddings。这说明行业在准备的,不是单点炫技,而是让系统能吃下更杂乱、更接近现实世界的输入。

现实世界的输入,本来就不整齐。

它可能是一张截图。

可能是一段语音吐槽。

可能是一段屏幕录制。

可能是几张产品照片。

也可能是一个你都懒得命名的 PDF。

真正能把 AI 推向更大范围使用的,不是谁把提示词模板写得更花,而是谁能把这些杂乱输入稳稳接住。

接下来普通人会怎么跟 AI 说话

如果让我直接押一个判断,我会说:

接下来普通人和 AI 说话,会越来越像在和一个“看得到现场、听得懂上下文、记得住任务”的助手协作,而不是像今天这样,对着输入框写作文。

更具体一点,我觉得会有几个很明显的变化。

第一,先说,再整理

以前很多人会先在脑子里把需求整理好,才敢往输入框里打。

以后更常见的动作会是:先把想法说出去,让 AI 帮你整理。

也就是说,AI 先接毛坯,再帮你修成结构化请求。

第二,先给现场,再给命令

以前你会说:“帮我分析这个页面为什么转化低。”

以后你更可能直接丢过去一段录屏、一张热区截图、一段语音说明:“你看这里,用户大概就是在这一步走掉的。”

这比写 prompt 更接近真实沟通。

第三,输入会越来越混杂

文字、语音、图片、文档、网页、屏幕状态,会混在一起。

用户不会在意这算不算“标准输入”,他只在意:我把这些东西都给你之后,你能不能把事办了。

第四,提示词能力会从显性技能变成隐性基础设施

这是我觉得最有意思的一点。

提示词不会消失。它只是会慢慢藏到系统后面。

以后真正厉害的产品,不是要求用户会写 prompt,而是它自己替用户补 prompt、补结构、补上下文、补调用路径。

说白了,提示词工程不会没落,它只是会产品化、后台化、自动化。

普通用户不再需要研究“这句该怎么写”,因为系统会在背后替他做这层翻译。

这件事为什么值得现在就写

因为趋势刚露头的时候,判断最值钱。

等所有人都开始喊“语音是未来”,这事反而没那么有意思了。现在这个阶段更好玩,因为你能同时看到希望和别扭。

希望在于,输入门槛确实在降低。

别扭在于,很多产品还只是“加了语音按钮”,并没有真的重做交互逻辑。它们看起来更自然,骨子里还是希望你像写 prompt 一样,把需求说得清清楚楚。

这就有点假。

真要吃掉提示词,不是多一个麦克风图标就行,而是整个系统都得接受一种更混乱、更口语、更不完整的输入现实。

它得会追问,会总结,会纠偏,会从截图和语气里补上下文。否则所谓语音交互,只是把打字改成念稿子,没本质区别。

最后一句

如果你今天还在认真研究提示词,这事当然没问题。对重度用户来说,它依然有用,而且短期内不会消失。

但如果你问我,未来三年普通人最常用的 AI 入口会是什么,我不会把票投给“更长、更复杂、更讲究格式的 prompt”。

我更愿意押注另一种画面:

你开口说一句话,顺手截一张图,录一小段屏幕,把几个原始材料扔进去,然后 AI 真把你的意思接住。

那一刻,提示词就还在,但它已经退居二线了。

这事,我挺看好。

参考链接

  1. Sam Altman 相关观点收录于 2026-05-06 科技雷达日报 Follow Builders:https://x.com/sama/status/2051318922805436896
  2. Product Hunt:Velo 2.0,“Instantly turn your voice and screen into shareable videos”: https://www.producthunt.com/posts/velo-2-0
  3. arXiv:GLM-5V-Turbo, “Toward a Native Foundation Model for Multimodal Agents”: https://arxiv.org/abs/2604.26752