OpenHuman Ollama 本地模型配置 — 离线运行更省钱

Ollama 是目前最简单的方式在本地运行大语言模型。OpenHuman 原生支持 Ollama——配置后完全离线运行，零 API 费用，所有数据不离开电脑。

安装 Ollama

在 ollama.ai 下载对应平台的安装包：

macOS：下载 .dmg 安装包
Windows：下载 .exe 安装包（Ollama 已支持 Windows）
Linux：curl -fsSL https://ollama.ai/install.sh | sh

下载模型

Ollama 安装完成后，在终端下载模型：

# 轻量模型（推荐 8GB 内存以上）
ollama pull qwen2.5:7b

# 中等模型（推荐 16GB 内存以上）
ollama pull llama3.1:8b

# 中文特化（推荐 8GB 内存以上）
ollama pull qwen2.5:7b-instruct

在 OpenHuman 中配置 Ollama

编辑 config.toml：

[models]
fast = {
  provider = "ollama",
  model = "qwen2.5:7b-instruct",
  base_url = "http://localhost:11434"
}
reasoning = {
  provider = "ollama",
  model = "qwen2.5:7b-instruct",
  base_url = "http://localhost:11434"
}

重启 OpenHuman 即可生效。如果 Ollama 和 OpenHuman 在同一台机器上，配置非常简单。

硬件	推荐模型	效果
8GB 内存	Qwen 2.5 7B	中文好，速度一般
16GB 内存	Llama 3.1 8B	英文好，中文一般
32GB+ 内存	Qwen 2.5 14B / 32B	全方面优秀
有 GPU	Qwen 2.5 14B / DeepSeek 蒸馏版	速度快，效果好

配置高级参数

[models]
fast = {
  provider = "ollama",
  model = "qwen2.5:7b-instruct",
  base_url = "http://localhost:11434",
  options = {
    num_ctx = 4096,      # 上下文长度
    temperature = 0.7,   # 创造性
    top_p = 0.9
  }
}

优化性能

减少 num_ctx（上下文长度）可以降低内存使用
使用 q4_0 量化版本减少显存占用
关闭不需要的后台应用释放系统内存
考虑使用 Ollama 的并发限制选项

注意事项

本地模型效果受硬件限制较大，7B 模型不如 GPT-4o 全面
Memory Tree 在没有云端模型的情况下依然工作
TokenJuice 对本地模型同样有效
如果 Ollama 服务没启动，OpenHuman 会报连接错误

OpenHuman Ollama 本地模型配置 — 离线运行更省钱

安装 Ollama

下载模型

在 OpenHuman 中配置 Ollama

推荐模型方案

配置高级参数

优化性能

注意事项

相关阅读