我越来越觉得,AI 视频工具最该卷的,不是“谁更会理解提示词”。

这句话听起来有点反直觉。毕竟过去两年,大家聊 AI 视频,几乎都绕不开 prompt:怎么写镜头语言,怎么描述风格,怎么控制人物一致性,怎么避免手指和字幕翻车。会写 prompt 的人,确实更容易出效果。

但问题也在这里。

如果一个工具想服务更多普通创作者,它就不能永远把门槛放在“你得先学会像导演、摄影师、剪辑师和模型调参师一样写提示词”上。普通人想要的东西更直接:我有一个想法、一段素材、一句口播、一个产品卖点,你能不能直接帮我做成能发的视频?

这两天几个信号放在一起看,我的判断很明确:AI 视频创作正在从“写好提示词”走向“搭好生产线”。

Prompt 曾经是入口,现在开始变成瓶颈

Prompt 很有用,这点不用否认。它让普通人第一次可以用自然语言调动画面、镜头、风格和节奏,这件事本身已经很厉害。

但 prompt 也有一个天然问题:它太依赖表达能力。

你要说清楚画面,要懂一点镜头,要知道模型吃什么描述,还要在结果不稳定的时候反复试。最后就会出现一个很尴尬的局面:工具名义上降低了创作门槛,但真正想稳定出片,用户又得重新学一套“和模型说话的黑话”。

这对重度玩家没问题。对普通创作者、运营同学、小商家、知识博主来说,就有点累了。

视频创作本来就够麻烦了:选题、脚本、素材、口播、配乐、字幕、封面、比例适配、平台分发,每一步都能消耗人。你再让用户先过一关 prompt 考试,这个产品就很难真的变成日常工具。

所以我更看好另一条路:让 prompt 藏到后台,让用户直接交付意图和素材。

Vivago 的信号:别让我提示,帮我持续产出

Product Hunt 日榜第二的 Vivago Video Agent,标语写得很直接:Skip the prompting. Produce consistently compelling videos。它当天拿到 304 票、33 条评论。

我喜欢这个表达,因为它击中了视频工具最现实的痛点。

很多创作者缺的不是“又一个会生成 5 秒炫酷片段的模型”,而是一个能把想法持续变成内容的系统。一次出片好看当然爽,但真正有用的是:今天能做,明天还能做;这条能复用,下条能换主题;横版能出,竖版也能出;发 B 站、视频号、小红书时不用从头再来。

这就不是单纯生成能力的问题,而是生产稳定性的问题。

AI 视频工具如果一直停在“给我一句 prompt,我给你一段视频”,它更像玩具。能让人惊艳,但很难成为工作流。只有当它能理解目标、拆分步骤、复用风格、接住素材、自动包装结果,它才开始像工具。

说白了,创作者不想每天跪在 prompt 面前抽卡。创作者想要的是一条能交付的流水线。

Velo 2.0 的信号:输入不再只是文字

Velo 2.0 在 Product Hunt 月榜里排到第三,620 票、93 条评论。它的卖点是把语音和屏幕快速变成可分享视频。

这条线和 Vivago 不完全一样,但方向很接近:它在降低“把想法变成视频”的摩擦。

以前你想做一个教程、一段产品演示、一条解释型视频,通常要经历一串动作:写脚本、录屏、录音、剪辑、加字幕、导出、压缩、发布。每一步都不难,但加起来就烦。很多内容不是没价值,而是死在“算了,太麻烦”。

Velo 这类工具有意思的地方,是它把人的自然行为变成输入:你说话,你演示,你录屏,系统帮你包装成内容。

这比“请写一段详细 prompt 生成视频”更接近普通人的真实表达方式。

普通人最擅长的不是描述一支广告片的镜头调度,而是打开屏幕说:“你看,这里就是重点。”如果 AI 能吃下这段语音、这段屏幕、这个动作轨迹,再帮你整理成视频,那它就绕开了大量 prompt 门槛。

这也是我一直强调的:下一代 AI 创作工具的关键,不是让用户更会写 prompt,而是让用户更少需要写 prompt。

开源项目也在往“生产线”走

这不只是 Product Hunt 上几个新产品的包装话术。GitHub Trending 里也有类似信号。

日榜第五的 Open-Generative-AI,15,104 stars,当日新增 703 stars。它把自己描述为开源 AI 图像与视频生成工作室,集成 200 多个模型,包括 Flux、Midjourney、Kling、Sora、Veo 等。

月榜里还有两个更典型的项目。

Pixelle-Video,17,764 stars,月增 13,649,描述是 AI 全自动短视频引擎。hyperframes,19,012 stars,月增 17,005,描述更狠:Write HTML. Render video. Built for agents.

这几个项目放在一起,指向同一个变化:AI 视频不再只是“模型生成片段”,而是在往可编程、可组合、可自动化的方向走。

尤其是 hyperframes 这种“写 HTML,渲染视频”的思路,我觉得很值得看。它把视频从一坨难改的时间线,变成更结构化的页面和组件。HTML 天生适合布局、样式、数据绑定和自动化。如果再配上 Agent,就有机会把文章、数据、脚本、截图、图表这些材料自动组装成视频。

这比单纯“生成一个漂亮镜头”更有长期价值。

因为真正的内容生产不是孤立片段,而是一套可复用流程。

真正的门槛,从生成变成编排

过去我们关心的是:AI 能不能生成视频?

现在这个问题已经不够用了。更该问的是:AI 能不能把视频生产过程编排起来?

一条视频不是只有画面。它至少包括:

  • 选题和角度
  • 脚本结构
  • 素材收集
  • 画面生成或录屏
  • 字幕和配音
  • 节奏和转场
  • 封面标题
  • 多平台比例适配
  • 发布后的复盘

单点生成能力只能解决其中一小块。工作流工具要解决的是整条链路。

这也是为什么我对“不会写 Prompt 也能做视频”这个问题比较谨慎。答案不是简单的“能”或者“不能”。

如果你只是想做一个非常精准、审美很重、镜头语言复杂的短片,prompt 能力、审美判断和后期能力仍然很重要。别幻想按一个按钮就能稳定出精品。那是卖课味太重。

但如果你的目标是做知识分享、产品演示、教程切片、营销短视频、播客剪辑、图文转视频,那门槛确实正在下降。因为这些场景更需要结构、节奏和复用,而不是每一帧都惊艳。

AI 最先吃掉的,不是导演级创作,而是大量“本来就该被流程化”的视频劳动。

对普通创作者意味着什么

我觉得接下来普通创作者可以少学一点“玄学 prompt”,多关注三件事。

第一,关注输入方式。一个工具如果只能靠文本 prompt 驱动,它大概率还停在早期形态。更值得看的,是能不能吃语音、屏幕、文档、网页、已有素材和品牌资产。

第二,关注复用能力。能不能固定风格?能不能复用模板?能不能批量生成同一系列?能不能一键改成不同平台比例?如果不能,第一次出片再惊艳,也很快会变成一次性烟花。

第三,关注可编辑性。视频生成完之后还能不能改?字幕、配音、画面、节奏、素材能不能拆开调?如果结果像一张烤死的饼,改一点就要重来,那它很难进入真正的生产。

换句话说,别只看 demo。demo 最会骗人。要看它能不能让你连续做 10 条内容之后还不想摔键盘。

我更看好的方向

我个人更看好“Agent + 模板 + 多模态输入 + 可编辑输出”的组合。

Agent 负责理解任务和拆步骤,模板负责保持风格和结构,多模态输入负责降低表达成本,可编辑输出负责接住后续修改。四个东西合起来,才像真正的视频生产系统。

未来的好工具,可能不会让你从空白 prompt 开始。它会问你几个更像人话的问题:

  • 你要发哪个平台?
  • 目标观众是谁?
  • 这条视频想让人做什么?
  • 你有没有现成素材?
  • 要沿用上次那个风格吗?

然后它在后台替你补脚本、补镜头、补字幕、补结构、补导出配置。

这听起来没有“输入一句话生成大片”那么刺激,但我反而觉得更靠谱。因为真正能改变日常创作的,通常不是最炫的能力,而是最省心的流程。

结尾:别迷信提示词,也别轻视工作流

AI 视频工具正在变得更像生产系统,而不只是生成按钮。

不会写 prompt 的人,确实会越来越容易做出视频。但更准确的说法是:会搭工作流的人,会比只会背 prompt 模板的人更占便宜。

这对普通创作者是好消息。因为你不需要把自己训练成模型巫师。你更需要想清楚自己的内容资产、栏目结构、表达方式和发布节奏。

工具会继续变强,prompt 会继续有用。但在视频这件事上,我更愿意押注:未来真正值钱的不是一句神奇提示词,而是一条能稳定出片、能复用、能迭代的创作流水线。

参考链接

  • Product Hunt,Vivago Video Agent:https://www.producthunt.com/posts/vivago-video-agent
  • Product Hunt,Velo 2.0:https://www.producthunt.com/posts/velo-2-0
  • GitHub,Open-Generative-AI:https://github.com/Anil-matcha/Open-Generative-AI
  • GitHub,Pixelle-Video:https://github.com/AIDC-AI/Pixelle-Video
  • GitHub,hyperframes:https://github.com/heygen-com/hyperframes