首页 / 技术博客 / 2024开源大模型横向评测：谁是最强？

模型评测 2024-01-01

2024开源大模型横向评测：谁是最强？

Llama 3、Qwen2.5、DeepSeek V3、Mistral... 2024年开源大模型全面评测，帮你选择最适合的模型。

2024，开源大模型爆发之年

2024年是开源大模型真正崛起的一年。Meta 的 Llama 3、阿里的 Qwen2.5、DeepSeek V3 等模型在多项基准测试中逼近甚至超越 GPT-4。开源不再是"能用"，而是"好用"。

本文从实际使用角度出发，横向对比主流开源大模型，帮你找到最适合本地部署的选择。

参赛选手一览

模型	发布方	参数量	上下文长度	许可证
Llama 3.1	Meta	8B/70B/405B	128K	Llama 3.1 License
Qwen2.5	阿里巴巴	0.5B-72B	128K	Apache 2.0
DeepSeek V3	DeepSeek	671B (MoE)	128K	DeepSeek License
Mistral Large	Mistral AI	123B	128K	Apache 2.0
Yi-1.5	零一万物	6B/9B/34B	200K	Apache 2.0
GLM-4	智谱AI	9B	128K	GLM License
Gemma 2	Google	2B/9B/27B	8K	Gemma License

基准测试对比

综合能力 (MMLU)

MMLU 是最广泛使用的综合知识评测，涵盖 57 个学科：

模型	MMLU 得分	说明
DeepSeek V3	88.5	最强开源，超越 GPT-4 Turbo
Llama 3.1 405B	87.3	接近 GPT-4
Qwen2.5 72B	86.1	72B级别最强
Mistral Large	84.0	欧洲之光
Llama 3.1 70B	83.6	性价比优秀
Qwen2.5 32B	83.3	中等规模最强
GLM-4 9B	75.2	小模型中的佼佼者

代码能力 (HumanEval)

模型	HumanEval	说明
DeepSeek V3	82.6	代码能力顶级
Qwen2.5 72B	80.5	接近 DeepSeek
Llama 3.1 405B	78.0	代码能力扎实
Mistral Large	77.0	不错
Llama 3.1 70B	72.6	可用
Qwen2.5 32B	71.3	小模型中优秀

数学推理 (GSM8K)

模型	GSM8K	说明
DeepSeek V3	96.0	数学接近满分
Qwen2.5 72B	91.6	数学强
Llama 3.1 405B	90.0	很强
Qwen2.5 32B	86.4	性价比之选
Mistral Large	85.5	可靠
Llama 3.1 70B	83.7	够用

中文能力 (CMMLU/C-Eval)

中文场景是很多国内用户的核心需求：

模型	CMMLU	C-Eval	中文总评
Qwen2.5 72B	90.2	89.5	⭐⭐⭐⭐⭐
DeepSeek V3	87.1	86.5	⭐⭐⭐⭐⭐
GLM-4 9B	82.4	81.5	⭐⭐⭐⭐
Yi-1.5 34B	80.6	79.8	⭐⭐⭐⭐
Llama 3.1 70B	72.5	71.8	⭐⭐⭐
Mistral Large	70.3	69.5	⭐⭐⭐

关键发现：在中文场景下，Qwen2.5 和 DeepSeek V3 是明确的赢家。

本地部署适用性评估

不是所有模型都适合本地部署，还要考虑资源需求：

小规模部署（单卡 24GB）

模型	量化方式	显存占用	推荐度
Qwen2.5 7B Q5	GGUF Q5_K_M	6GB	⭐⭐⭐⭐⭐
Llama 3.1 8B Q5	GGUF Q5_K_M	6GB	⭐⭐⭐⭐
GLM-4 9B Q5	GGUF Q5_K_M	7GB	⭐⭐⭐⭐
Qwen2.5 32B Q4	GGUF Q4_K_M	19GB	⭐⭐⭐⭐⭐

中等规模（单卡 48GB / 双卡 24GB）

模型	量化方式	显存占用	推荐度
Qwen2.5 72B Q4	GGUF Q4_K_M	40GB	⭐⭐⭐⭐⭐
Llama 3.1 70B Q4	GGUF Q4_K_M	38GB	⭐⭐⭐⭐
DeepSeek V3 (MoE)	专家选择性加载	32GB+	⭐⭐⭐

推理框架推荐

# Ollama — 最简单
ollama run qwen2.5:72b-instruct-q4_0

# vLLM — 性能最强
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \
    --quantization gptq

# llama.cpp — 最灵活
./llama-server -m qwen2.5-72b-instruct-q4_k_m.gguf \
    -c 8192 --host 0.0.0.0 --port 8080

实际使用场景推荐

场景一：日常对话和问答

推荐：Qwen2.5 7B 或 Llama 3.1 8B - 资源要求低，响应快 - 中文场景选 Qwen2.5

场景二：代码开发助手

推荐：DeepSeek V3 或 Qwen2.5 72B - 代码理解能力强 - 支持长上下文，适合大文件分析

场景三：企业知识库问答

推荐：Qwen2.5 32B - 中文理解能力优秀 - 显存需求可接受 - 搭配 RAG 系统效果最佳

场景三：复杂推理和分析

推荐：DeepSeek V3 或 Llama 3.1 405B - 数学和逻辑推理能力最强 - 需要较大显存或多机部署

选型总结

你的需求	推荐模型	理由
中文为主 + 资源有限	Qwen2.5 7B/32B	中文最强，Apache开源
英文为主 + 全能	Llama 3.1 70B/405B	生态最好，社区最大
代码 + 推理	DeepSeek V3	代码和数学最强
欧洲合规	Mistral Large	Apache 2.0，欧洲团队
极致轻量	Gemma 2 9B	Google出品，2B/9B都很强
长上下文	Yi-1.5 34B	200K上下文窗口

选好模型后，下一步就是本地部署。参考我们的 Ollama部署指南快速上手。

返回博客列表

想让AI真正落地到你的业务中？

51domino 提供企业级AI Agent本地化部署方案——从模型选型到生产上线，全程技术支持。

查看产品方案 → 免费咨询

订阅更新

获取最新的AI本地化技术文章和教程