GPT-4 相对 3.5 的三个关键变化
- 多模态:第一次让普通用户用图像 + 文本和模型对话
- 推理质量:在标准化考试(律师、数学、编程)上显著优于前代
- 更长上下文:支持 32k token,能处理完整长文档
为什么这件事值得记下来
从 GPT-4 开始,「AI 能不能做某件事」从一个疑问句变成了一个可以量化评估的问题。大量团队开始认真思考:『我们手上的工作,有多少比例可以交给 AI』。
一个判断标准
我自己判断一个 AI 产品值不值得花时间的标准是:
它能不能让我每周至少节省 30 分钟,并且它做的事我敢直接用?
如果两个答案都是 Yes,它就值得嵌入你的流程。