模型配置
OpenHuman Ollama 本地模型配置 — 离线运行更省钱
2026-05-25约 7 分钟阅读
Ollama 是目前最简单的方式在本地运行大语言模型。OpenHuman 原生支持 Ollama——配置后完全离线运行,零 API 费用,所有数据不离开电脑。
安装 Ollama
在 ollama.ai 下载对应平台的安装包:
- macOS:下载 .dmg 安装包
- Windows:下载 .exe 安装包(Ollama 已支持 Windows)
- Linux:curl -fsSL https://ollama.ai/install.sh | sh
下载模型
Ollama 安装完成后,在终端下载模型:
# 轻量模型(推荐 8GB 内存以上)
ollama pull qwen2.5:7b
# 中等模型(推荐 16GB 内存以上)
ollama pull llama3.1:8b
# 中文特化(推荐 8GB 内存以上)
ollama pull qwen2.5:7b-instruct在 OpenHuman 中配置 Ollama
编辑 config.toml:
[models]
fast = {
provider = "ollama",
model = "qwen2.5:7b-instruct",
base_url = "http://localhost:11434"
}
reasoning = {
provider = "ollama",
model = "qwen2.5:7b-instruct",
base_url = "http://localhost:11434"
}重启 OpenHuman 即可生效。如果 Ollama 和 OpenHuman 在同一台机器上,配置非常简单。
推荐模型方案
| 硬件 | 推荐模型 | 效果 |
|---|---|---|
| 8GB 内存 | Qwen 2.5 7B | 中文好,速度一般 |
| 16GB 内存 | Llama 3.1 8B | 英文好,中文一般 |
| 32GB+ 内存 | Qwen 2.5 14B / 32B | 全方面优秀 |
| 有 GPU | Qwen 2.5 14B / DeepSeek 蒸馏版 | 速度快,效果好 |
配置高级参数
[models]
fast = {
provider = "ollama",
model = "qwen2.5:7b-instruct",
base_url = "http://localhost:11434",
options = {
num_ctx = 4096, # 上下文长度
temperature = 0.7, # 创造性
top_p = 0.9
}
}优化性能
- 减少 num_ctx(上下文长度)可以降低内存使用
- 使用 q4_0 量化版本减少显存占用
- 关闭不需要的后台应用释放系统内存
- 考虑使用 Ollama 的并发限制选项
注意事项
- 本地模型效果受硬件限制较大,7B 模型不如 GPT-4o 全面
- Memory Tree 在没有云端模型的情况下依然工作
- TokenJuice 对本地模型同样有效
- 如果 Ollama 服务没启动,OpenHuman 会报连接错误