首页 / 技术博客 / 2024开源大模型横向评测:谁是最强?
模型评测 2024-01-01

2024开源大模型横向评测:谁是最强?

Llama 3、Qwen2.5、DeepSeek V3、Mistral... 2024年开源大模型全面评测,帮你选择最适合的模型。

2024,开源大模型爆发之年

2024年是开源大模型真正崛起的一年。Meta 的 Llama 3、阿里的 Qwen2.5、DeepSeek V3 等模型在多项基准测试中逼近甚至超越 GPT-4。开源不再是"能用",而是"好用"

本文从实际使用角度出发,横向对比主流开源大模型,帮你找到最适合本地部署的选择。


参赛选手一览

模型 发布方 参数量 上下文长度 许可证
Llama 3.1 Meta 8B/70B/405B 128K Llama 3.1 License
Qwen2.5 阿里巴巴 0.5B-72B 128K Apache 2.0
DeepSeek V3 DeepSeek 671B (MoE) 128K DeepSeek License
Mistral Large Mistral AI 123B 128K Apache 2.0
Yi-1.5 零一万物 6B/9B/34B 200K Apache 2.0
GLM-4 智谱AI 9B 128K GLM License
Gemma 2 Google 2B/9B/27B 8K Gemma License

基准测试对比

综合能力 (MMLU)

MMLU 是最广泛使用的综合知识评测,涵盖 57 个学科:

模型 MMLU 得分 说明
DeepSeek V3 88.5 最强开源,超越 GPT-4 Turbo
Llama 3.1 405B 87.3 接近 GPT-4
Qwen2.5 72B 86.1 72B级别最强
Mistral Large 84.0 欧洲之光
Llama 3.1 70B 83.6 性价比优秀
Qwen2.5 32B 83.3 中等规模最强
GLM-4 9B 75.2 小模型中的佼佼者

代码能力 (HumanEval)

模型 HumanEval 说明
DeepSeek V3 82.6 代码能力顶级
Qwen2.5 72B 80.5 接近 DeepSeek
Llama 3.1 405B 78.0 代码能力扎实
Mistral Large 77.0 不错
Llama 3.1 70B 72.6 可用
Qwen2.5 32B 71.3 小模型中优秀

数学推理 (GSM8K)

模型 GSM8K 说明
DeepSeek V3 96.0 数学接近满分
Qwen2.5 72B 91.6 数学强
Llama 3.1 405B 90.0 很强
Qwen2.5 32B 86.4 性价比之选
Mistral Large 85.5 可靠
Llama 3.1 70B 83.7 够用

中文能力 (CMMLU/C-Eval)

中文场景是很多国内用户的核心需求:

模型 CMMLU C-Eval 中文总评
Qwen2.5 72B 90.2 89.5 ⭐⭐⭐⭐⭐
DeepSeek V3 87.1 86.5 ⭐⭐⭐⭐⭐
GLM-4 9B 82.4 81.5 ⭐⭐⭐⭐
Yi-1.5 34B 80.6 79.8 ⭐⭐⭐⭐
Llama 3.1 70B 72.5 71.8 ⭐⭐⭐
Mistral Large 70.3 69.5 ⭐⭐⭐

关键发现:在中文场景下,Qwen2.5 和 DeepSeek V3 是明确的赢家。


本地部署适用性评估

不是所有模型都适合本地部署,还要考虑资源需求:

小规模部署(单卡 24GB)

模型 量化方式 显存占用 推荐度
Qwen2.5 7B Q5 GGUF Q5_K_M 6GB ⭐⭐⭐⭐⭐
Llama 3.1 8B Q5 GGUF Q5_K_M 6GB ⭐⭐⭐⭐
GLM-4 9B Q5 GGUF Q5_K_M 7GB ⭐⭐⭐⭐
Qwen2.5 32B Q4 GGUF Q4_K_M 19GB ⭐⭐⭐⭐⭐

中等规模(单卡 48GB / 双卡 24GB)

模型 量化方式 显存占用 推荐度
Qwen2.5 72B Q4 GGUF Q4_K_M 40GB ⭐⭐⭐⭐⭐
Llama 3.1 70B Q4 GGUF Q4_K_M 38GB ⭐⭐⭐⭐
DeepSeek V3 (MoE) 专家选择性加载 32GB+ ⭐⭐⭐

推理框架推荐

# Ollama — 最简单
ollama run qwen2.5:72b-instruct-q4_0

# vLLM — 性能最强
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \
    --quantization gptq

# llama.cpp — 最灵活
./llama-server -m qwen2.5-72b-instruct-q4_k_m.gguf \
    -c 8192 --host 0.0.0.0 --port 8080

实际使用场景推荐

场景一:日常对话和问答

推荐:Qwen2.5 7B 或 Llama 3.1 8B - 资源要求低,响应快 - 中文场景选 Qwen2.5

场景二:代码开发助手

推荐:DeepSeek V3 或 Qwen2.5 72B - 代码理解能力强 - 支持长上下文,适合大文件分析

场景三:企业知识库问答

推荐:Qwen2.5 32B - 中文理解能力优秀 - 显存需求可接受 - 搭配 RAG 系统效果最佳

场景三:复杂推理和分析

推荐:DeepSeek V3 或 Llama 3.1 405B - 数学和逻辑推理能力最强 - 需要较大显存或多机部署


选型总结

你的需求 推荐模型 理由
中文为主 + 资源有限 Qwen2.5 7B/32B 中文最强,Apache开源
英文为主 + 全能 Llama 3.1 70B/405B 生态最好,社区最大
代码 + 推理 DeepSeek V3 代码和数学最强
欧洲合规 Mistral Large Apache 2.0,欧洲团队
极致轻量 Gemma 2 9B Google出品,2B/9B都很强
长上下文 Yi-1.5 34B 200K上下文窗口

选好模型后,下一步就是本地部署。参考我们的 Ollama部署指南 快速上手。

订阅更新

获取最新的AI本地化技术文章和教程