发生了什么
2026 年 Q1,开源模型的代码能力有一个明显的"追上"。
最关键的几个指标是 HumanEval(代码理解)和 MBPP(写代码)。
几个有代表性的结果:
| 模型 | HumanEval Pass@1 |
|---|---|
| GPT-4(2023) | 88% |
| Claude Sonnet(2025) | 90% |
| DeepSeek-V3(2026) | 89% |
| 通义千问 Max(2026) | 87% |
数字不是"完全追上",但差距缩小到了可用级别。
为什么重要
这是第一次,你可以在花几百块租一台单机,本地跑一个"几乎和 GPT-4 一样强"的代码模型。
我的使用场景 3 个:
- 需要:本地代码审查** (本地部署,数据不出门
- 代码补全:Cursor-like IDE ,用的是本地模型
- :私有化部署:不把客户数据的场景
代价
“开源"不代表"免费商用完全免费
但:
- **训练数据来源和的合规性审查,
- 商业化授权需要商业使用,需要商业授权
- 中文
真正的差距是在语言能力仍然在**生态支持
一句话,而不是代码能力。
我的判断
未来 12 个月内,“代码能力"这个词对所有人都会有一次大洗牌。
谁能在**本地、隐私保护、低延迟、低价格这几个维度上占优,谁就是开发者的新宠。
“强模型 + 本地部署 + 中文场景 的组合会成为 2026 的重要趋势之一。