Deepseek-Coder-V2 —— 与 GPT 4o 同级别的开源编程大模型

12次阅读

共计 502 个字符,预计需要花费 2 分钟才能阅读完成。

发布了好几天 V2 上竟然没有讨论贴,来发一把,这是个好模型。

重点:

  1. 236B MoE,激活参数约 33B。
  2. 在各编码基准测试中与 GPT 4o 水平相当或更高(包括非常新的、难以污染的基准测试)。
  3. 官网 API 价格:1 元 / 百万输入 Tokens;2 元 / 百万输出 Tokens,非常廉价。
  4. 除了编码,其他逻辑能力也很强。
  5. 开放权重,允许商业用途

除了 236B 的完全体还有一个 Lite 版,16B 参数,大约激活 2B,支持代码补全等,挺适合个人电脑跑:https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

正文完
 0