OpenHuman 指南

模型配置

OpenHuman Ollama 本地模型配置 — 离线运行更省钱

2026-05-25约 7 分钟阅读

Ollama 是目前最简单的方式在本地运行大语言模型。OpenHuman 原生支持 Ollama——配置后完全离线运行,零 API 费用,所有数据不离开电脑。

安装 Ollama

在 ollama.ai 下载对应平台的安装包:

  • macOS:下载 .dmg 安装包
  • Windows:下载 .exe 安装包(Ollama 已支持 Windows)
  • Linux:curl -fsSL https://ollama.ai/install.sh | sh

下载模型

Ollama 安装完成后,在终端下载模型:

# 轻量模型(推荐 8GB 内存以上)
ollama pull qwen2.5:7b

# 中等模型(推荐 16GB 内存以上)
ollama pull llama3.1:8b

# 中文特化(推荐 8GB 内存以上)
ollama pull qwen2.5:7b-instruct

在 OpenHuman 中配置 Ollama

编辑 config.toml:

[models]
fast = {
  provider = "ollama",
  model = "qwen2.5:7b-instruct",
  base_url = "http://localhost:11434"
}
reasoning = {
  provider = "ollama",
  model = "qwen2.5:7b-instruct",
  base_url = "http://localhost:11434"
}

重启 OpenHuman 即可生效。如果 Ollama 和 OpenHuman 在同一台机器上,配置非常简单。

推荐模型方案

硬件推荐模型效果
8GB 内存Qwen 2.5 7B中文好,速度一般
16GB 内存Llama 3.1 8B英文好,中文一般
32GB+ 内存Qwen 2.5 14B / 32B全方面优秀
有 GPUQwen 2.5 14B / DeepSeek 蒸馏版速度快,效果好

配置高级参数

[models]
fast = {
  provider = "ollama",
  model = "qwen2.5:7b-instruct",
  base_url = "http://localhost:11434",
  options = {
    num_ctx = 4096,      # 上下文长度
    temperature = 0.7,   # 创造性
    top_p = 0.9
  }
}

优化性能

  • 减少 num_ctx(上下文长度)可以降低内存使用
  • 使用 q4_0 量化版本减少显存占用
  • 关闭不需要的后台应用释放系统内存
  • 考虑使用 Ollama 的并发限制选项

注意事项

  • 本地模型效果受硬件限制较大,7B 模型不如 GPT-4o 全面
  • Memory Tree 在没有云端模型的情况下依然工作
  • TokenJuice 对本地模型同样有效
  • 如果 Ollama 服务没启动,OpenHuman 会报连接错误

相关阅读