语音正在吃掉提示词：普通人接下来怎么跟 AI 说话

这两年大家聊 AI，最常见的画面是什么？

一个人坐在输入框前，认真写提示词，像在给神灯精灵下指令。

这个画面当然没错，它甚至塑造了过去一波 AI 产品的使用习惯。但我最近越来越觉得，这个入口正在松动。不是提示词突然没用了，而是它开始退到后台，语音、截图、录屏、随手丢文档，正在慢慢变成更自然的前台入口。

我会有这个判断，不是因为某一家厂商喊了句口号，而是今天几条信号刚好能拼成一张完整的图。

一边是 Sam Altman 明说，语音模型会改变人们和 AI 的交互方式。另一边，Product Hunt 日榜第二的 Velo 2.0 在做的事情也很直接：把你的语音和屏幕，立刻变成可分享的视频。再往技术层看，HN 上有人在讨论面向 multimodal agents 的 GLM-5V-Turbo，Builder 圈里的 GBrain 也在补多模态 embeddings、照片 OCR 和 EXIF 提取。

这些东西放在一起看，我的感觉很明确：

下一代 AI 交互，不会以“更会写提示词的人”作为分水岭，而会以“更自然地把意图交出去的人”作为分水岭。

提示词不会消失，但它不再适合当大众入口

我一直不太喜欢一种说法，叫“提示词工程就是未来的人机接口”。

这话对一部分深度用户成立，对大多数普通人其实不成立。

原因很简单。写好提示词这件事，本质上还是一种结构化表达能力。你得知道自己要什么，得会拆要求，得知道该补什么上下文，还得有耐心反复改。

这件事对工程师、研究员、内容创作者，确实不算太难。可你让一个普通用户这么干，他大概率只会觉得累。

很多人不是没有需求，而是不想先学一套和机器说话的礼仪。

这也是为什么我觉得，提示词从一开始就更像一种“过渡接口”。它很强，但不够顺手。它像命令行。厉害的人会爱上它，普通人则更想点按钮、开口说话，或者直接把东西丢进去。

所以真正会扩大 AI 使用人群的，往往不是更复杂的提示词技巧，而是更低摩擦的输入方式。

为什么语音会先吃掉一部分提示词

语音最大的优势，不是“酷”，而是省。

省什么？省组织语言的成本，省打字的成本，也省“我要先想清楚再说”的成本。

很多需求其实不是用户不会表达，而是用户懒得把表达压缩成一行行可复制的文字。你让他打字，他可能懒。你让他直接说，他就会讲得很顺。

这点在很多场景里都特别明显：

想快速记录一个想法
想让 AI 帮你整理会议要点
想描述一个页面哪里不对
想复盘某个操作为什么出错
想把脑子里的模糊感觉先倒出来

这些时刻，语音比文本更接近人的自然状态。

文本输入要求你先整理，再表达。语音输入允许你一边想，一边说。

别小看这个差别。很多产品的用户增长，不是靠能力上升一个台阶，而是靠动作成本下降半个台阶。

Sam Altman 公开说语音模型会改变人机交互方式，我觉得这话不夸张。因为它改变的不是模型指标，而是“人愿不愿意多用一次”。

而大量产品的生死，最后就卡在这个“一次”。

Velo 2.0 这类产品，真正踩中的不是视频，是表达入口

今天 Product Hunt 上我最在意的，不是“它能把语音和屏幕变成视频”这句功能描述本身，而是它背后那个更大的变化。

Velo 2.0 把一个原本需要剪辑、录制、整理、导出的过程，压成了更顺手的动作。你说、你演示、你录屏，系统帮你把它包装成可以传播的内容。

这听起来像创作者工具升级，但我觉得它其实在改写更基础的东西：

越来越多的 AI 产品，不再要求你先把想法翻译成 prompt，而是允许你直接用行为本身来当输入。

你开口讲。

你动鼠标。

你切页面。

你圈重点。

你把原始素材扔进去。

这些动作，以前只是“操作过程”。现在它们正在变成“可理解的输入”。

这很重要。因为普通人最擅长的，从来不是写规范化提示词，而是直接做动作。

如果一个系统能听懂动作、画面和语气，那它对大众就友好太多了。

多模态不是加功能，而是在换主入口

很多人看多模态更新，习惯把它理解成“模型又多会了一项技能”。

我觉得这有点看轻了它。

多模态真正有意思的地方，不只是模型能看图、听音频、读 OCR，而是它开始允许用户用更随手的方式发出意图。

今天报告里提到的 GLM-5V-Turbo，方向就很明确，是朝 multimodal agents 去的。GBrain 也在补照片 OCR、EXIF 提取和多模态 embeddings。这说明行业在准备的，不是单点炫技，而是让系统能吃下更杂乱、更接近现实世界的输入。

现实世界的输入，本来就不整齐。

它可能是一张截图。

可能是一段语音吐槽。

可能是一段屏幕录制。

可能是几张产品照片。

也可能是一个你都懒得命名的 PDF。

真正能把 AI 推向更大范围使用的，不是谁把提示词模板写得更花，而是谁能把这些杂乱输入稳稳接住。

接下来普通人会怎么跟 AI 说话

如果让我直接押一个判断，我会说：

接下来普通人和 AI 说话，会越来越像在和一个“看得到现场、听得懂上下文、记得住任务”的助手协作，而不是像今天这样，对着输入框写作文。

更具体一点，我觉得会有几个很明显的变化。

第一，先说，再整理

以前很多人会先在脑子里把需求整理好，才敢往输入框里打。

以后更常见的动作会是：先把想法说出去，让 AI 帮你整理。

也就是说，AI 先接毛坯，再帮你修成结构化请求。

第二，先给现场，再给命令

以前你会说：“帮我分析这个页面为什么转化低。”

以后你更可能直接丢过去一段录屏、一张热区截图、一段语音说明：“你看这里，用户大概就是在这一步走掉的。”

这比写 prompt 更接近真实沟通。

第三，输入会越来越混杂

文字、语音、图片、文档、网页、屏幕状态，会混在一起。

用户不会在意这算不算“标准输入”，他只在意：我把这些东西都给你之后，你能不能把事办了。

第四，提示词能力会从显性技能变成隐性基础设施

这是我觉得最有意思的一点。

提示词不会消失。它只是会慢慢藏到系统后面。

以后真正厉害的产品，不是要求用户会写 prompt，而是它自己替用户补 prompt、补结构、补上下文、补调用路径。

说白了，提示词工程不会没落，它只是会产品化、后台化、自动化。

普通用户不再需要研究“这句该怎么写”，因为系统会在背后替他做这层翻译。

这件事为什么值得现在就写

因为趋势刚露头的时候，判断最值钱。

等所有人都开始喊“语音是未来”，这事反而没那么有意思了。现在这个阶段更好玩，因为你能同时看到希望和别扭。

希望在于，输入门槛确实在降低。

别扭在于，很多产品还只是“加了语音按钮”，并没有真的重做交互逻辑。它们看起来更自然，骨子里还是希望你像写 prompt 一样，把需求说得清清楚楚。

这就有点假。

真要吃掉提示词，不是多一个麦克风图标就行，而是整个系统都得接受一种更混乱、更口语、更不完整的输入现实。

它得会追问，会总结，会纠偏，会从截图和语气里补上下文。否则所谓语音交互，只是把打字改成念稿子，没本质区别。

最后一句

如果你今天还在认真研究提示词，这事当然没问题。对重度用户来说，它依然有用，而且短期内不会消失。

但如果你问我，未来三年普通人最常用的 AI 入口会是什么，我不会把票投给“更长、更复杂、更讲究格式的 prompt”。

我更愿意押注另一种画面：

你开口说一句话，顺手截一张图，录一小段屏幕，把几个原始材料扔进去，然后 AI 真把你的意思接住。

那一刻，提示词就还在，但它已经退居二线了。

这事，我挺看好。

参考链接

Sam Altman 相关观点收录于 2026-05-06 科技雷达日报 Follow Builders：https://x.com/sama/status/2051318922805436896
Product Hunt：Velo 2.0，“Instantly turn your voice and screen into shareable videos”: https://www.producthunt.com/posts/velo-2-0
arXiv：GLM-5V-Turbo, “Toward a Native Foundation Model for Multimodal Agents”: https://arxiv.org/abs/2604.26752

提示词不会消失，但它不再适合当大众入口#

为什么语音会先吃掉一部分提示词#

Velo 2.0 这类产品，真正踩中的不是视频，是表达入口#

多模态不是加功能，而是在换主入口#

接下来普通人会怎么跟 AI 说话#

第一，先说，再整理#

第二，先给现场，再给命令#

第三，输入会越来越混杂#

第四，提示词能力会从显性技能变成隐性基础设施#

这件事为什么值得现在就写#

最后一句#

参考链接#