Ongrid — 开源运维 AI 平台,在聊天群里搞定告警排查与修复

项目简介

Ongrid 是一个开源的运维 AI 平台,用 Go 语言开发,能够通过聊天工具(Slack、Telegram、飞书、钉钉、企业微信等)直接理解运维问题、定位根因并修复故障。一句话概括:一个会看、会查、会修的运维 AI 助手

项目地址:https://github.com/ongridio/ongrid

为什么要关注 Ongrid?

传统的运维工单流程通常是:告警触发 → 值班人员查看 → 登录服务器排查 → 定位问题 → 修复。这个链条中,真正有价值的是人的经验和判断力,但大量的时间花在了"查看-登录-排查"这些重复性环节上。

Ongrid 要解决的就是这个痛点:把你的聊天群变成一个"超级运维入口",直接在群里发一条消息,AI 就能自动完成从告警到修复的闭环。

核心功能

  • 🤖 协调器 + 专家 Agent 架构 — 主协调器自动分派任务给 SRE / 网络 / 数据库等子 Agent,各司其职
  • 🚨 告警自动调查 — 告警触发后自动启动根因分析 Worker,将分析结果直接写回聊天群
  • 🔍 根因分析(RCA) — 遍历拓扑关系,关联指标/日志/追踪,精确定位到代码行
  • 🔒 零入站端口 — Edge 节点全部主动出站连接,主机上不需要开任何端口(22/80/443 都不用)
  • 💻 浏览器 SSH — 通过反向隧道在浏览器里执行 Shell,无需密钥和跳板机,全程审计
  • 🐳 一条命令自部署docker compose up 即可拉起完整服务栈
  • 📊 内置可观测性 — 自带 Prometheus + Loki + Tempo + Grafana,AI 自动写查询语句
  • 🧠 自带模型 — 支持 Anthropic / OpenAI / GLM / DeepSeek / Gemini / Kimi 等,可热切换
  • 💬 双向即时通讯 — 支持 Slack / Telegram / 飞书 / 钉钉 / 企业微信,按频道设置语言
  • 🛠️ 只读主机工具 — Bash 沙箱 + 26+ 个检测工具,所有调用全程审计

架构设计

Ongrid 的架构设计很有特色,采用了 Hub-and-Spoke(中心辐射) 模式:

聊天平台 (Slack/Telegram/飞书...)
        │
        ▼
   ┌─────────────┐
   │   Ongrid    │  ← 协调器 Agent + API 服务
   │   Server    │
   └──────┬──────┘
          │
    ┌─────┼─────┐
    │     │     │
    ▼     ▼     ▼
  Edge  Edge  Edge  ← 部署在被管理主机上,主动出站连接
  Host  Host  Host

 Agent Workers (SRE / 网络 / 数据库 / K8s...)
    │
    ▼
  可观测性栈 (Prometheus / Loki / Tempo / Grafana)
  知识库 (Qdrant 向量数据库)
  模型层 (Anthropic / OpenAI / 国产模型...)

每个被管理的主机上只需要部署一个 Edge Agent(轻量级 Go 二进制),它主动出站连接 Ongrid Server,不需要打开任何入站端口。Server 端有协调器 Agent 根据问题类型分派给不同的专家子 Agent,调用对应工具来诊断问题。

快速安装

方式一:一键安装(推荐)

# 下载最新版 (Ubuntu 22.04+, Debian 12+, RHEL/Rocky 9)
wget https://github.com/ongridio/ongrid/releases/download/v0.7.169/ongrid-v0.7.169-linux-amd64.tar.xz

# 解压
tar -xf ongrid-v0.7.169-linux-amd64.tar.xz && cd ongrid-v0.7.169-linux-amd64

# 安装
sudo ./install.sh

方式二:源码运行

cp deploy/.env.example deploy/.env
make compose-up    # 启动
# make compose-down  # 停止

支持的集成

Ongrid 的开箱即用集成覆盖面很广:

可观测性: Prometheus · Grafana · Loki · Tempo · OpenTelemetry · Qdrant(向量数据库做知识库)

聊天平台: Slack · Telegram · 飞书 · 钉钉 · 企业微信 · Webhook

模型支持: Anthropic (Claude) · OpenAI · Gemini · DeepSeek · 智谱 GLM · Kimi

其中对国产模型和国内 IM 工具的全面支持,对于国内的运维团队来说非常友好。

适用场景

  • 中小团队运维: 没有专职 SRE,Ongrid 充当 7×24 小时的初级运维
  • 告警降噪: AI 自动做 RCA,只有真正需要人工介入的问题才推送
  • 知识沉淀: 每次故障处理过程都被记录到知识库,越用越聪明
  • 安全管控: 零入站端口 + 全程操作审计,满足合规要求
  • 多云/混合云: 一套平台统一管理不同环境的运维

总结

Ongrid 是一个非常有潜力的开源项目。它把 AI Agent、可观测性、即时通讯和运维自动化巧妙融合在了一起,架构设计简洁但功能强大。用 Go 语言开发确保了性能和部署的便捷性,对国产生态的全面支持也让它更适合国内团队使用。

如果你正在寻找一个能让运维工作"减负"的 AI 工具,或者想了解 AI Agent 在运维领域的最新实践,Ongrid 值得你 Star 关注和尝试。

发表回复

后才能评论