我做了什么
上个月我把自己常用的 12 个 AI 任务做了一次成本重估。
简单说:同样 100 万 token,2024 年要 $30-50,2026 年只要 $1-3。
对我来说,这条变化比任何一个新模型发布都重要。它改变了一个根本问题:“什么事情值得用 AI”。
三个我的真实场景对比
场景 1:批量总结邮件
2024 年:我只让 AI 帮我摘要标了星标的邮件。成本敏感。
2026 年:我让 AI每天早上通读我所有 300 多封邮件,只把值得我回的 5-10 封做摘要。成本 ≈ $0.03。
我多做了什么? 加了一个「AI 帮我回信的 3 个草稿」步骤。
场景 2:代码审查
2024 年:只在提交 PR 前让 AI 扫一次。
2026 年:每次保存文件时,AI 在后台做增量审查。如果它连续 3 次没发现问题,我才自己人工看。
变化:从"一次审查"变成"连续审查"。
场景 3:知识库问答
2024 年:只对重要的技术文档做向量索引。
2026 年:我把所有文档都喂给了 RAG。反正 100 万 token 只要 $1,**就算是只搜一次,也回本。
关键决策:不再区分"值不值得索引"。
我的新原则
我总结了三条在低推理成本时代该遵循的原则:
- “先用 AI,再考虑是否人工介入” — 而不是反过来
- 宁可多做 10 次小调用,也不做 1 次长上下文大调用 — 响应时间和并发体验更重要
- 把 AI 当作"预处理器"而不是"最终答案生成器" — 你还是要自己判断
反例:我曾经犯的错
我曾经把大段代码一次性喂给最强模型,期望一次性解决。
这在 2024 年合理(强模型 + 省时间),但在 2026 年反而是最慢、最不稳定的策略:
- 一次 20 万 token 的上下文会让响应变慢 30 秒
- 模型在超长上下文里反而更容易"失忆"
- 出错后调试成本更高
推荐的新架构
把一个大任务拆成 10 个小调用,并行跑在弱但快的模型上,最后用强模型做一次汇总。
这是我当前最常用的模式。优点:
- 总时间从 30 秒 → 6 秒(因为并行)
- 任何一步失败都能单独重试
- 总花费其实更低(小模型便宜很多)
总结
推理成本下降不是"让以前做过的事情变便宜",而是让以前根本不会考虑的事情,现在值得做。
对我而言,它带来的最大变化不是省钱,而是工作方式从"挑选哪些值得做" → 变成"先做了再说"。
真正的价值不在成本本身,而在你敢不敢把之前人力做的事全部重新设计一遍。