示例内容

开源模型的代码能力追上 GPT-4

DeepSeek-V3 和 通义千问-Max 等开源/半开源模型在 HumanEval 上接近或超越 GPT-4 的代码能力。

发生了什么

2026 年 Q1,开源模型的代码能力有一个明显的"追上"。

最关键的几个指标是 HumanEval(代码理解)和 MBPP(写代码)。

几个有代表性的结果:

模型HumanEval Pass@1
GPT-4(2023)88%
Claude Sonnet(2025)90%
DeepSeek-V3(2026)89%
通义千问 Max(2026)87%

数字不是"完全追上",但差距缩小到了可用级别

为什么重要

这是第一次,你可以在花几百块租一台单机,本地跑一个"几乎和 GPT-4 一样强"的代码模型。

我的使用场景 3 个:

  1. 需要:本地代码审查** (本地部署,数据不出门
  2. 代码补全:Cursor-like IDE ,用的是本地模型
  3. :私有化部署:不把客户数据的场景

代价

“开源"不代表"免费商用完全免费

但:

  • **训练数据来源和的合规性审查,
  • 商业化授权需要商业使用,需要商业授权
  • 中文

真正的差距是在语言能力仍然在**生态支持

一句话,而不是代码能力。

我的判断

未来 12 个月内,“代码能力"这个词对所有人都会有一次大洗牌。

谁能在**本地、隐私保护、低延迟、低价格这几个维度上占优,谁就是开发者的新宠。

“强模型 + 本地部署 + 中文场景 的组合会成为 2026 的重要趋势之一。