DeepSeek 本地部署教程

环境准备

硬件要求

  • CPU: 推荐 Intel i7 或 AMD Ryzen 7 及以上(若使用纯 CPU 推理)。
  • GPU(可选): NVIDIA 显卡(如 RTX 3060/4090 等),显存 ≥8GB(GPU 加速需安装驱动)。
  • 内存: ≥16GB RAM。
  • 存储: 预留 50GB 以上硬盘空间(模型文件较大)。

安装 WSL2(Windows Subsystem for Linux)
Ollama 依赖 Linux 环境,需启用 WSL2:

# 以管理员身份打开 PowerShell,依次执行:
wsl --install
wsl --set-default-version 2

重启电脑,完成 Ubuntu 子系统的初始化设置(按提示创建用户名和密码)。
安装 NVIDIA 驱动(GPU 用户必选)
下载并安装最新版 NVIDIA 驱动。
安装 CUDA Toolkit for WSL2(选择 WSL-Ubuntu 版本)。
安装 Ollama
访问 Ollama 官网,下载 Windows 版安装包。
双击安装,完成后在 PowerShell 验证:

ollama --version

查看已安装模型:

ollama list

获取DeepSeek模型

通过 Ollama 直接拉取(若官方支持)
如果 DeepSeek 已入驻 Ollama 官方库,可直接下载:

ollama pull deepseek-7b  # 替换为实际模型名称

手动导入自定义模型(推荐方法)
若 Ollama 未提供官方 DeepSeek 模型,需手动转换并加载:
下载 Hugging Face 格式的 DeepSeek 模型(如 deepseek-ai/deepseek-llm-7b-chat)。
将模型转换为 Ollama 支持的 GGUF 格式(需使用 llama.cppctransformers 工具转换,具体步骤略)。
创建 Modelfile 文件(示例):

FROM ./deepseek-7b-chat.Q4_K_M.gguf
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

构建自定义模型:

ollama create deepseek-7b -f Modelfile
ollama run deepseek-7b

安装 Chatbox 客户端


下载 Chatbox
访问 Chatbox 官网,下载 Windows 版安装包。
安装后启动,界面类似 ChatGPT。
配置 Ollama 连接
在 Chatbox 中进入 SettingsAI Service
选择 Ollama 作为后端。
填写 API 地址:http://localhost:11434(Ollama 默认端口)。
选择已安装的模型(如 deepseek-7b)。

运行与测试

启动 Ollama 服务
powershell
ollama serve # 保持此窗口运行
使用 Chatbox 对话
在 Chatbox 输入框输入问题(如“用中文写一首关于春天的诗”),点击发送。
观察输出结果和响应速度。
GPU 加速验证(可选)
查看任务管理器 → 性能 → GPU,确认 Ollama 是否调用 GPU 计算。

性能优化

量化模型降低资源占用
使用量化后的 GGUF 模型(如 Q4_K_M 格式),显存占用可减少 50% 以上。
调整 Ollama 参数
修改 Modelfile 中的参数(如 num_gpu 控制 GPU 层数):

FROM deepseek-7b-chat.Q4_K_M.gguf
PARAMETER num_gpu 20 # 更多 GPU 层加速推理

多模型管理

ollama list # 查看模型列表
ollama rm # 删除模型

常见问题

Ollama 无法识别 GPU
确保已安装 WSL2 版 CUDA Toolkit,并在 Ubuntu 子系统中验证:
bash

nvidia-smi  # 在 WSL2 终端内运行

Chatbox 连接超时
检查 Ollama 服务是否运行,防火墙是否放行端口 11434
模型响应速度慢
使用量化模型(如 Q4_K_M),或升级硬件配置。

评论 (0)

发表评论