当推理成本降到原来的 1/40:我如何重新设计我的 AI 工作流

我做了什么

上个月我把自己常用的 12 个 AI 任务做了一次成本重估。

简单说：同样 100 万 token，2024 年要 $30-50，2026 年只要 $1-3。

对我来说，这条变化比任何一个新模型发布都重要。它改变了一个根本问题：“什么事情值得用 AI”。

2024 年：我只让 AI 帮我摘要标了星标的邮件。成本敏感。

2026 年：我让 AI每天早上通读我所有 300 多封邮件，只把值得我回的 5-10 封做摘要。成本 ≈ $0.03。

我多做了什么？ 加了一个「AI 帮我回信的 3 个草稿」步骤。

2024 年：只在提交 PR 前让 AI 扫一次。

2026 年：每次保存文件时，AI 在后台做增量审查。如果它连续 3 次没发现问题，我才自己人工看。

变化：从"一次审查"变成"连续审查"。

2024 年：只对重要的技术文档做向量索引。

2026 年：我把所有文档都喂给了 RAG。反正 100 万 token 只要 $1，**就算是只搜一次，也回本。

关键决策：不再区分"值不值得索引"。

我总结了三条在低推理成本时代该遵循的原则：

我曾经把大段代码一次性喂给最强模型，期望一次性解决。

这在 2024 年合理（强模型 + 省时间），但在 2026 年反而是最慢、最不稳定的策略：

推理成本下降不是"让以前做过的事情变便宜"，而是让以前根本不会考虑的事情，现在值得做。

对我而言，它带来的最大变化不是省钱，而是工作方式从"挑选哪些值得做" → 变成"先做了再说"。

真正的价值不在成本本身，而在你敢不敢把之前人力做的事全部重新设计一遍。