我最近越来越确定一件事:AI 视频这波回暖,不是因为模型突然学会了拍电影,而是因为输入方式变了。

以前大家围着 prompt 打转,像在跟模型斗法。你得会写镜头,懂点节奏,知道怎么避开崩脸、崩手、崩字幕。说实话,那套东西对重度玩家有吸引力,对普通创作者就有点累。你不是来参加提示词考试的,你是来把内容做出来的。

今天这份科技雷达里,几个信号放在一起看,我觉得很清楚:AI 视频工具正在从“让你更会描述”转向“让你更少描述”。这差别很大。

这轮热度,核心不是“生成”,是“接住输入”

如果只看表面,大家会以为这轮 AI 视频热,是因为模型又变强了。没错,模型确实在进步。但我更在意的是另一个变化:工具开始认真接住人的自然输入。

你说话,它帮你整理成视频。 你录屏,它帮你补字幕、补节奏、补包装。 你丢一段素材,它帮你拼成可发布的成片。

这比“给我一句高质量 prompt”更贴近真实创作。

因为普通创作者最常有的东西,不是精致的镜头语言,而是一段口播、一个演示、一个产品点、一个灵感草稿。工具如果还要求用户先学会“像导演一样说话”,门槛就还是高。

Product Hunt 和 GitHub 给出的信号,很一致

今天榜单里,几个名字挺能说明问题。

Gemini Omni:从任意输入创建内容,先从视频开始

它在 Product Hunt 日榜里排到前列,卖点很直接:from any input to content。

我喜欢这种方向,因为它不再假设用户会从 prompt 开始。用户可以从视频、语音、素材、灵感片段开始,系统再帮你往成品推进。这个逻辑比“先想一句神 prompt 再试试”成熟得多。

真正有用的工具,不是逼你重新学习表达方式,而是沿着你本来就有的输入习惯继续往下做。

Velo 2.0:语音和屏幕,本来就是最自然的输入

Velo 2.0 这类产品让我很有感觉。人最自然的表达方式,本来就不是写一段精确 prompt,而是直接说、直接演示、直接录屏。

你想讲一个功能,就直接说。 你想讲一个教程,就直接录。 你想讲一个产品,就边操作边说明。

这类输入,比“请描述一个 16:9、电影感、蓝光边缘、镜头推近的画面”真实太多了。

所以我一直觉得,AI 视频真正要卷的,不是 prompt 技巧,而是把语音、屏幕、素材、脚本这些输入自动编排成视频的能力。

Open-Generative-AI、Pixelle-Video、hyperframes:开源这边也在往流水线走

GitHub 上的几个项目也很说明问题。

Open-Generative-AI 更像一个开源内容工厂,把大量图像和视频模型塞进统一工作室。 Pixelle-Video 走的是全自动短视频引擎路线。 hyperframes 更直接,口号就是:Write HTML. Render video. Built for agents.

这几个项目的共同点很明显:视频不再只是“生成一段片段”,而是开始变成可编排、可复用、可自动化的生产系统。

尤其是 hyperframes 这种思路,我很认同。HTML 本身就是结构化的。它天然适合布局、数据绑定、模板化和批量复用。把视频变成结构化资产,比把它当一次性炫技结果更有长期价值。

为什么我说“输入”比“提示词”更重要

因为 prompt 本质上还是在要求用户做一次翻译。

你脑子里有想法,得先翻译成模型能吃的语言。翻译得好,结果就稳一点;翻译得差,结果就乱一点。

这对会折腾的人没问题,对大多数内容生产者就太费劲了。运营、知识博主、小商家、培训号、产品经理,他们要的不是“我会不会写 prompt”,而是“我能不能更快把内容发出去”。

所以我现在更看好这条路:

  • 输入尽量自然,能说就别写太多
  • 过程尽量自动,能编排就别手搓
  • 输出尽量可编辑,别把结果烤死
  • 模板尽量稳定,别每次从零开始

这四件事凑起来,才像真正能用的 AI 视频工具。

真正的竞争,开始从生成转到编排

过去我们会问:AI 能不能生成视频?

现在这个问题已经不够用了。更该问的是:AI 能不能把视频生产这条链路整个接住?

一条视频不只是画面。它至少包括:

  • 选题和角度
  • 脚本结构
  • 素材收集
  • 录屏或生成
  • 字幕和配音
  • 节奏和转场
  • 封面和标题
  • 多平台比例适配
  • 发布后的复盘

单点生成能力只能解决其中一小块。工作流工具要解决的是整条链路。

这也是我对“不会写 prompt 也能做视频”这件事更谨慎、更乐观的地方。谨慎,是因为别幻想按一下按钮就能稳定出精品,那种说法很像卖课。乐观,是因为普通创作者确实终于有机会绕开很多没必要的技术门槛了。

我更看好的方向

我个人更看好“Agent + 模板 + 多模态输入 + 可编辑输出”的组合。

Agent 负责理解任务和拆步骤,模板负责保持风格和结构,多模态输入负责降低表达成本,可编辑输出负责接住后续修改。

这套东西合起来,才像生产系统,不像玩具。

未来真正好用的视频工具,大概率不会先问你一长串 prompt。它会问得更像人:

  • 你要发哪个平台?
  • 目标观众是谁?
  • 这条视频想让人做什么?
  • 你有没有现成素材?
  • 要沿用上次那个风格吗?

然后它在后台替你补脚本、补字幕、补镜头、补结构、补导出配置。

这听起来没那么炫,但我觉得更靠谱。因为真正能改变日常创作的,往往不是最炸的能力,而是最省心的流程。

最后一句

这轮 AI 视频热度回来了,但我觉得重点已经变了。

以前看的是谁更会生成。 现在该看的是谁更会接住输入,谁更会把创作流程编排成一条顺手的流水线。

说白了,未来值钱的不是一句神奇提示词,而是一套能稳定出片、能复用、能迭代的创作系统。

我挺看好这个方向。它没那么花哨,但很能干。

参考链接

  • Product Hunt,Gemini Omni:https://www.producthunt.com/posts/gemini-omni
  • Product Hunt,Velo 2.0:https://www.producthunt.com/posts/velo-2-0
  • GitHub,Open-Generative-AI:https://github.com/Anil-matcha/Open-Generative-AI
  • GitHub,Pixelle-Video:https://github.com/AIDC-AI/Pixelle-Video
  • GitHub,hyperframes:https://github.com/heygen-com/hyperframes