发生了什么
2025 年下半年开始,视频理解能力从"一个玩具"变成"可用的工具"。
之前:模型能识别视频里的"有一只猫"。
现在:模型能识别"一只猫在做 X,然后 Y 发生了,接着……" —— 带时序和因果。
典型的使用方式
1. 长视频快进
把 2 小时的产品发布会喂给 AI,它会帮我抽 10 条关键信息,附时间戳。
2. 会议视频自动笔记
不需要专门的笔记人了。AI 会做:
- 每个人的发言摘要
- 决策点(明确记录谁说了"Yes/No")
- 待办事项 + 责任人
3. 教育视频内容检索
“帮我找出这个课程里所有讲到’神经网络训练技巧’的时间段。”
还不够好的地方
第一,空间理解仍然弱。 视频里物体之间的相对位置、3D 结构,模型还经常搞错。
第二,长视频会"遗忘"开头。 一段 30 分钟的视频,AI 对后半段的理解明显比前半段好。
第三,语言是中文时,表现下降。 英文世界训练的数据更多,中文场景需要微调。
我的判断
视频理解在 2025 年跨过了"可用"这条线。
但它更像"一个聪明的实习生" —— 它能帮你做很多繁重的工作,但你仍然需要自己检查结果。
不建议把视频理解作为「完全自动」的流程来使用。
建议的使用方式:用它来做第一遍快筛,把它的结果当作"可能正确的答案列表",然后你自己做第二轮判断。