Ongrid — 开源运维 AI 平台,在聊天群里搞定告警排查与修复
项目简介
Ongrid 是一个开源的运维 AI 平台,用 Go 语言开发,能够通过聊天工具(Slack、Telegram、飞书、钉钉、企业微信等)直接理解运维问题、定位根因并修复故障。一句话概括:一个会看、会查、会修的运维 AI 助手。
项目地址:https://github.com/ongridio/ongrid
为什么要关注 Ongrid?
传统的运维工单流程通常是:告警触发 → 值班人员查看 → 登录服务器排查 → 定位问题 → 修复。这个链条中,真正有价值的是人的经验和判断力,但大量的时间花在了"查看-登录-排查"这些重复性环节上。
Ongrid 要解决的就是这个痛点:把你的聊天群变成一个"超级运维入口",直接在群里发一条消息,AI 就能自动完成从告警到修复的闭环。
核心功能
- 🤖 协调器 + 专家 Agent 架构 — 主协调器自动分派任务给 SRE / 网络 / 数据库等子 Agent,各司其职
- 🚨 告警自动调查 — 告警触发后自动启动根因分析 Worker,将分析结果直接写回聊天群
- 🔍 根因分析(RCA) — 遍历拓扑关系,关联指标/日志/追踪,精确定位到代码行
- 🔒 零入站端口 — Edge 节点全部主动出站连接,主机上不需要开任何端口(22/80/443 都不用)
- 💻 浏览器 SSH — 通过反向隧道在浏览器里执行 Shell,无需密钥和跳板机,全程审计
- 🐳 一条命令自部署 —
docker compose up即可拉起完整服务栈 - 📊 内置可观测性 — 自带 Prometheus + Loki + Tempo + Grafana,AI 自动写查询语句
- 🧠 自带模型 — 支持 Anthropic / OpenAI / GLM / DeepSeek / Gemini / Kimi 等,可热切换
- 💬 双向即时通讯 — 支持 Slack / Telegram / 飞书 / 钉钉 / 企业微信,按频道设置语言
- 🛠️ 只读主机工具 — Bash 沙箱 + 26+ 个检测工具,所有调用全程审计
架构设计
Ongrid 的架构设计很有特色,采用了 Hub-and-Spoke(中心辐射) 模式:
聊天平台 (Slack/Telegram/飞书...)
│
▼
┌─────────────┐
│ Ongrid │ ← 协调器 Agent + API 服务
│ Server │
└──────┬──────┘
│
┌─────┼─────┐
│ │ │
▼ ▼ ▼
Edge Edge Edge ← 部署在被管理主机上,主动出站连接
Host Host Host
Agent Workers (SRE / 网络 / 数据库 / K8s...)
│
▼
可观测性栈 (Prometheus / Loki / Tempo / Grafana)
知识库 (Qdrant 向量数据库)
模型层 (Anthropic / OpenAI / 国产模型...)
每个被管理的主机上只需要部署一个 Edge Agent(轻量级 Go 二进制),它主动出站连接 Ongrid Server,不需要打开任何入站端口。Server 端有协调器 Agent 根据问题类型分派给不同的专家子 Agent,调用对应工具来诊断问题。
快速安装
方式一:一键安装(推荐)
# 下载最新版 (Ubuntu 22.04+, Debian 12+, RHEL/Rocky 9)
wget https://github.com/ongridio/ongrid/releases/download/v0.7.169/ongrid-v0.7.169-linux-amd64.tar.xz
# 解压
tar -xf ongrid-v0.7.169-linux-amd64.tar.xz && cd ongrid-v0.7.169-linux-amd64
# 安装
sudo ./install.sh
方式二:源码运行
cp deploy/.env.example deploy/.env
make compose-up # 启动
# make compose-down # 停止
支持的集成
Ongrid 的开箱即用集成覆盖面很广:
可观测性: Prometheus · Grafana · Loki · Tempo · OpenTelemetry · Qdrant(向量数据库做知识库)
聊天平台: Slack · Telegram · 飞书 · 钉钉 · 企业微信 · Webhook
模型支持: Anthropic (Claude) · OpenAI · Gemini · DeepSeek · 智谱 GLM · Kimi
其中对国产模型和国内 IM 工具的全面支持,对于国内的运维团队来说非常友好。
适用场景
- 中小团队运维: 没有专职 SRE,Ongrid 充当 7×24 小时的初级运维
- 告警降噪: AI 自动做 RCA,只有真正需要人工介入的问题才推送
- 知识沉淀: 每次故障处理过程都被记录到知识库,越用越聪明
- 安全管控: 零入站端口 + 全程操作审计,满足合规要求
- 多云/混合云: 一套平台统一管理不同环境的运维
总结
Ongrid 是一个非常有潜力的开源项目。它把 AI Agent、可观测性、即时通讯和运维自动化巧妙融合在了一起,架构设计简洁但功能强大。用 Go 语言开发确保了性能和部署的便捷性,对国产生态的全面支持也让它更适合国内团队使用。
如果你正在寻找一个能让运维工作"减负"的 AI 工具,或者想了解 AI Agent 在运维领域的最新实践,Ongrid 值得你 Star 关注和尝试。






