DeepSeek 本地部署教程
环境准备
硬件要求
- CPU: 推荐 Intel i7 或 AMD Ryzen 7 及以上(若使用纯 CPU 推理)。
- GPU(可选): NVIDIA 显卡(如 RTX 3060/4090 等),显存 ≥8GB(GPU 加速需安装驱动)。
- 内存: ≥16GB RAM。
- 存储: 预留 50GB 以上硬盘空间(模型文件较大)。
安装 WSL2(Windows Subsystem for Linux)
Ollama 依赖 Linux 环境,需启用 WSL2:
# 以管理员身份打开 PowerShell,依次执行:
wsl --install
wsl --set-default-version 2
重启电脑,完成 Ubuntu 子系统的初始化设置(按提示创建用户名和密码)。
安装 NVIDIA 驱动(GPU 用户必选)
下载并安装最新版 NVIDIA 驱动。
安装 CUDA Toolkit for WSL2(选择 WSL-Ubuntu 版本)。
安装 Ollama
访问 Ollama 官网,下载 Windows 版安装包。
双击安装,完成后在 PowerShell 验证:
ollama --version
查看已安装模型:
ollama list
获取DeepSeek模型

通过 Ollama 直接拉取(若官方支持)
如果 DeepSeek 已入驻 Ollama 官方库,可直接下载:
ollama pull deepseek-7b # 替换为实际模型名称
手动导入自定义模型(推荐方法)
若 Ollama 未提供官方 DeepSeek 模型,需手动转换并加载:
下载 Hugging Face 格式的 DeepSeek 模型(如 deepseek-ai/deepseek-llm-7b-chat)。
将模型转换为 Ollama 支持的 GGUF 格式(需使用 llama.cpp 或 ctransformers 工具转换,具体步骤略)。
创建 Modelfile 文件(示例):
FROM ./deepseek-7b-chat.Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
构建自定义模型:
ollama create deepseek-7b -f Modelfile
ollama run deepseek-7b
安装 Chatbox 客户端

下载 Chatbox
访问 Chatbox 官网,下载 Windows 版安装包。
安装后启动,界面类似 ChatGPT。
配置 Ollama 连接
在 Chatbox 中进入 Settings → AI Service:
选择 Ollama 作为后端。
填写 API 地址:http://localhost:11434(Ollama 默认端口)。
选择已安装的模型(如 deepseek-7b)。
运行与测试
启动 Ollama 服务
powershell
ollama serve # 保持此窗口运行
使用 Chatbox 对话
在 Chatbox 输入框输入问题(如“用中文写一首关于春天的诗”),点击发送。
观察输出结果和响应速度。
GPU 加速验证(可选)
查看任务管理器 → 性能 → GPU,确认 Ollama 是否调用 GPU 计算。
性能优化
量化模型降低资源占用
使用量化后的 GGUF 模型(如 Q4_K_M 格式),显存占用可减少 50% 以上。
调整 Ollama 参数
修改 Modelfile 中的参数(如 num_gpu 控制 GPU 层数):
FROM deepseek-7b-chat.Q4_K_M.gguf
PARAMETER num_gpu 20 # 更多 GPU 层加速推理
多模型管理
ollama list # 查看模型列表
ollama rm # 删除模型
常见问题
Ollama 无法识别 GPU
确保已安装 WSL2 版 CUDA Toolkit,并在 Ubuntu 子系统中验证:
bash
nvidia-smi # 在 WSL2 终端内运行
Chatbox 连接超时
检查 Ollama 服务是否运行,防火墙是否放行端口 11434。
模型响应速度慢
使用量化模型(如 Q4_K_M),或升级硬件配置。
评论 (0)