示例内容

视频理解能力成熟:从「看画面」到「理解视频」

OpenAI 的视频理解模型和 Runway 的 Gen-3 之后,多个大模型具备了从视频中提取结构信息、做视频问答、甚至剪辑的能力。

发生了什么

2025 年下半年开始,视频理解能力从"一个玩具"变成"可用的工具"。

之前:模型能识别视频里的"有一只猫"。

现在:模型能识别"一只猫在做 X,然后 Y 发生了,接着……" —— 带时序和因果。

典型的使用方式

1. 长视频快进

把 2 小时的产品发布会喂给 AI,它会帮我抽 10 条关键信息,附时间戳。

2. 会议视频自动笔记

不需要专门的笔记人了。AI 会做:

  • 每个人的发言摘要
  • 决策点(明确记录谁说了"Yes/No")
  • 待办事项 + 责任人

3. 教育视频内容检索

“帮我找出这个课程里所有讲到’神经网络训练技巧’的时间段。”

还不够好的地方

第一,空间理解仍然弱。 视频里物体之间的相对位置、3D 结构,模型还经常搞错。

第二,长视频会"遗忘"开头。 一段 30 分钟的视频,AI 对后半段的理解明显比前半段好。

第三,语言是中文时,表现下降。 英文世界训练的数据更多,中文场景需要微调。

我的判断

视频理解在 2025 年跨过了"可用"这条线。

但它更像"一个聪明的实习生" —— 它能帮你做很多繁重的工作,但你仍然需要自己检查结果。

不建议把视频理解作为「完全自动」的流程来使用。

建议的使用方式:用它来做第一遍快筛,把它的结果当作"可能正确的答案列表",然后你自己做第二轮判断。