首页 / 技术博客 / Ollama本地部署Llama 3完全指南

部署教程 2024-01-15

Ollama本地部署Llama 3完全指南

从零开始，手把手教你如何在本地部署Llama 3大模型，包含GPU加速配置、量化优化和常见问题排查。

为什么选择本地部署？

在AI大模型时代，数据隐私和成本控制成为企业最关心的两个问题。云端API虽然方便，但存在数据泄露风险，且长期使用成本高昂。本地部署让你完全掌控数据，一次投入永久使用。

Ollama 是目前最简单的大模型本地部署工具，一条命令就能跑起来。本文将带你从零开始，在本地部署 Meta 最新开源大模型 Llama 3。

环境准备

硬件要求

配置项	最低要求	推荐配置
GPU	NVIDIA RTX 3060 (8GB)	RTX 4090 (24GB)
内存	16GB	32GB+
硬盘	20GB可用空间	SSD 50GB+
系统	Ubuntu 20.04+ / Windows 10+	Ubuntu 22.04

安装 NVIDIA 驱动和 CUDA

首先确认 GPU 驱动已正确安装：

# 检查GPU状态
nvidia-smi

# 确认CUDA版本
nvcc --version

如果尚未安装，推荐使用以下方式：

# Ubuntu
sudo apt update
sudo apt install nvidia-driver-535 nvidia-utils-535

# 重启后验证
sudo reboot
nvidia-smi

安装 Ollama

Ollama 的安装非常简单，一行命令搞定：

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# macOS 也可以用 brew
brew install ollama

# Windows
# 去 ollama.com 下载安装包即可

安装完成后验证：

ollama --version

启动 Ollama 服务：

# Linux (systemd)
sudo systemctl start ollama
sudo systemctl enable ollama  # 开机自启

# macOS / 手动启动
ollama serve

下载并运行 Llama 3

选择合适的模型版本

Llama 3 提供多个参数规模，根据你的显存选择：

模型	参数量	显存需求	文件大小	适用场景
llama3:8b	8B	6-8GB	4.7GB	日常对话、简单任务
llama3:8b-instruct-q5_1	8B Q5量化	5-6GB	5.7GB	推荐！质量/性能平衡
llama3:70b	70B	40-48GB	40GB	专业级任务
llama3:70b-instruct-q4_0	70B Q4量化	20-24GB	20GB	高质量+可接受显存

一键运行

# 运行 8B 量化版本（推荐大多数用户）
ollama run llama3:8b-instruct-q5_1

# 如果显存充足（24GB+），运行70B量化版
ollama run llama3:70b-instruct-q4_0

首次运行会自动下载模型，之后再运行就是秒启动了。

测试对话

下载完成后直接进入对话界面：

>>> 你好，请介绍一下你自己。

你好！我是Llama 3，由Meta开发的大型语言模型。
我可以帮你回答问题、写代码、翻译文本等各种任务。
有什么我可以帮助你的吗？

GPU 加速配置

确认 GPU 加速已生效

# 查看 Ollama 日志
journalctl -u ollama -f

# 应该能看到类似输出：
# loading model /root/.ollama/models/... 
# using GPU (NVIDIA GeForce RTX 4090)

多 GPU 配置

如果你有多块 GPU，Ollama 会自动利用所有 GPU：

# 查看GPU使用情况
nvidia-smi

环境变量调优

# 设置GPU层数（全部卸载到GPU）
export OLLAMA_NUM_GPU=999

# 并发请求数
export OLLAMA_NUM_PARALLEL=4

# 模型加载超时
export OLLAMA_KEEP_ALIVE=5m

# 写入 /etc/environment 持久化
echo 'OLLAMA_NUM_GPU=999' | sudo tee -a /etc/environment

搭建 Web 界面：Open WebUI

命令行不够直观？搭配 Open WebUI 获得 ChatGPT 般的体验：

# Docker 一键部署
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

浏览器访问 http://localhost:3000，首次使用需要注册一个本地账号。进入后在设置中选择 Ollama 作为后端即可。

进阶：自定义模型

Ollama 支持通过 Modelfile 自定义模型行为：

# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM llama3:8b-instruct-q5_1

# 系统提示词
SYSTEM """
你是一个专业的AI助手，专注于AI本地化部署领域。
请用中文回答问题，回答要专业、详细、有条理。
"""

# 参数调整
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
EOF

# 创建自定义模型
ollama create my-assistant -f Modelfile

# 运行自定义模型
ollama run my-assistant

常见问题排查

1. 模型下载慢

# 使用代理
export https_proxy=http://your-proxy:port
export http_proxy=http://your-proxy:port

# 或手动下载后导入
# 从 https://ollama.com/library/llama3 下载 GGUF 文件
ollama create my-llama3 -f Modelfile

2. 显存不足 (OOM)

# 使用更小的量化版本
ollama run llama3:8b-instruct-q4_0

# 或限制GPU使用
CUDA_VISIBLE_DEVICES=0 ollama run llama3:8b

3. 响应速度慢

确认模型完全加载到GPU（检查 nvidia-smi 显存占用）
减小上下文长度：PARAMETER num_ctx 2048
使用量化版本减少计算量

4. 中文输出质量差

Llama 3 的中文能力相比英文稍弱，可以通过以下方式改善： - 使用 instruct 版本而非基础版 - 在系统提示中明确要求中文回答 - 搭配 Qwen2.5 等中文能力更强的模型交替使用

总结

本地部署 Llama 3 的核心步骤：

安装 Ollama — 一行命令
选择模型版本 — 根据显存选择量化级别
ollama run — 自动下载并运行
搭配 Open WebUI — 获得图形界面体验

本地部署的核心优势：数据不出境、零API费用、低延迟响应。对于企业来说，这正是AI落地的关键需求。

下一篇文章我们将介绍如何搭建 RAG 系统，让大模型真正理解你的企业知识库。

返回博客列表

想让AI真正落地到你的业务中？

51domino 提供企业级AI Agent本地化部署方案——从模型选型到生产上线，全程技术支持。

查看产品方案 → 免费咨询

订阅更新

获取最新的AI本地化技术文章和教程