零 Tokens 消耗!Hermes Agent 官方 WebUI 落地:本地联动 Gemma 4 并无缝接入微信
如果你想打造一个完全运行在本地、不需要掏一分钱 API Key 账单、且能直接通过微信随时随地交互的 AI 自动化助理,这套全开源组合就是目前的终极解法:Hermes Agent + 官方 WebUI + Ollama + Gemma 4。
它的核心爽点非常直接:数据 100% 本地化、隐私完全自主可控、没有 Token 焦虑,并且具备真正的 Agent 执行力。
今天这篇指南就带大家从底层环境到微信端对接,把这套赛博助理彻底跑起来。
🛠️ 一、底层基石:部署本地大模型(Ollama + Gemma 4)
首先,我们需要为 Agent 准备好本地的“大脑”。
前往 Ollama 官方网站 下载并安装对应系统的最新版客户端。
安装完成后,打开终端,一键拉取 Google 最新的主力开源模型:
1
ollama run gemma4
(注:如果你的电脑显存极大,也可以根据需求选择 26B 或 31B 的更大参数版本。)
⚠️ 极客避坑:获取关键的局域网 IP
Hermes Agent 在后续对接时,无法直接通过 127.0.0.1 访问本地的 Ollama。我们需要获取真实的局域网内网 IP。
- Windows 用户: 在 CMD 中输入
ipconfig,找到你的 IPv4 地址(例如:192.168.1.228)。 - 你的边缘 API 真实端点即为:
http://192.168.1.228:11434/v1(牢记这个地址,后面配置要用)。
💻 二、环境准备:Windows 开启 WSL2
Hermes Agent 官方深度拥抱 Linux 生态。如果你是 Windows 用户,强烈建议搭配 Windows Terminal 并拉起 WSL2 子系统。
以管理员身份打开 PowerShell,执行以下两行命令:
1 | # 安装 WSL2 核心 |
重启电脑后,确保 wsl –version 输出显示为 WSL2。进入 Ubuntu 窗口,设置好你的 Linux 账户密码即可。
🚀 三、核心合体:部署 Hermes Agent + WebUI
大模型和 Linux 环境就绪后,我们开始部署 Agent 调度核心和官方刚推出的可视化面板。
1. 独立安装 Hermes Agent 核心
进入 Ubuntu 终端,一键运行官方托管脚本:
1 | curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash |
安装完成后,执行 hermes doctor 验证环境依赖是否全绿通过。
2. 克隆并编译 Hermes WebUI
🔹 Linux / WSL2 部署路径:
1 | git clone https://github.com/nesquena/hermes-webui.git hermes-webui |
🔹 Mac 系统一键部署路径:
1 | git clone https://github.com/nesquena/hermes-webui.git hermes-webui |
引导程序将:
检测 Hermes Agent,如果缺少,则尝试使用官方安装程序(
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash)。查找或创建包含 WebUI 依赖项的 Python 环境。
启动 Web 服务器并等待
/health。除非通过验证,否则请打开浏览器
--no-browser。将您直接导入 WebUI 中的首次运行引导向导。
直接在浏览器中访问
http://127.0.0.1:8787,即可切入精致的可视化极客管理后台。
🤖 四、全局配置:桥接本地 Gemma 4
保持后台运行,在终端中执行核心向导:
1 | hermes setup |
进入交互界面后,严格按照以下参数进行自定义对齐:
- Model Provider(模型供应商): 选择
OpenAI Compatible - Base URL(基准端点): 填入你第一步获取的局域网 Ollama 地址:
http://192.168.1.228:11434/v1 - Model Name(模型名称):
gemma4
💡 上下文优化提示: 如果在后续的高强度长文本任务中遇到
context window too small(上下文不足)报错,可在配置文件中找到model节点,将context_length手动强刷为8192。
📱 五、外设联动:一键将 Agent 接入微信
有了大脑和视觉面板,现在我们赋予它触角,让它常驻到你的私域微信里。
继续在终端中运行 hermes setup,下翻到消息路由菜单:
- 找到
messaging platforms(消息平台)选项。 - 移动光标选择
weixin / wechat。 - 保存退出后,终端或 WebUI 界面会瞬间弹出一个原厂级的登录二维码。
- 拿出手机微信扫码授权登录。
大功告成!现在,你的微信账户就已经成功挂载了本地的 Gemma 4 模型。你在外面随时给自己的微信发一个复杂任务,家里的电脑就会立刻调用本地算力开始帮你查资料、写脚本、跑自动化流。
六、常见问题(避坑指南)
1. 模型上下文不足报错
错误示例:
1 | context window too small |
解决:
- 换更大模型(如 7B+)
- 或手动设置 context_length
2. Ollama 无法被访问
检查:
- 是否用的是
127.0.0.1 - 是否改为局域网 IP
3. WebUI 无法打开
尝试:
1 | ./start.sh |
或者检查端口占用。
4. 微信掉线问题
这是微信协议限制,建议:
- 保持 Hermes 常驻运行
- 避免频繁重启
📝 总结
利用这套全开源方案,我们不仅把大模型的调用成本打到了绝对的 0 元,更重要的是解耦了对商业大厂云端接口的依赖。对于想要搞私域流量自动化客服、自动辅助脚本或者纯粹追求极客折腾体验的兄弟们来说,这套架构是目前绝对的性价比梯队首选。
你用这套方案跑出来的微信回复延迟大概是多少秒?有遇到微信频繁掉线的玄学问题吗?欢迎在评论区留下你的设备参数和调教方案!


