7款类似OnGrid的开源AIOps项目推荐:从K8s诊断到智能告警
前言
在云原生和DevOps时代,运维团队面临着越来越复杂的基础设施管理挑战。OnGrid 作为一款新兴的 AI 运维 Agent,以其"理解基础设施、定位根因、自动修复"的理念引起了广泛关注。那么,在开源社区中,还有哪些类似的项目值得关注?本文将为你介绍 7 款与 OnGrid 类似的优秀开源项目,涵盖 K8s 诊断、可观测性、AI 根因分析、ChatOps 等方向。
1. K8sGPT — AI 驱动的 Kubernetes SRE 助手
GitHub:k8sgpt-ai/k8sgpt | Stars:7.9k ⭐ | 语言:Go
K8sGPT 是一款专为 Kubernetes 设计的 AI 诊断工具,它将资深 SRE 的经验编码为分析器,结合大语言模型为集群问题提供自然语言解释。作为 CNCF 孵化项目,K8sGPT 在云原生生态中有着重要地位。
核心特性:
- 内置 SRE 专家级分析器,覆盖常见 K8s 故障场景
- 支持多种 LLM 后端:OpenAI、Azure、Gemini、Amazon Bedrock、本地模型等
- 支持 MCP(Model Context Protocol),可与 Claude Desktop 集成
- Operator 模式支持持续监控,与 Prometheus/Alertmanager 联动
k8sgpt analyze --explain一键获取 AI 驱动的故障解释
安装方式:brew install k8sgpt(Linux/Mac),或通过 Helm 部署 k8sgpt-operator 到集群中。
适用场景:需要 AI 辅助 K8s 故障诊断和自然语言解释的 DevOps/SRE 团队。
2. Coroot — 零插桩的 AI 可观测性平台
GitHub:coroot/coroot | Stars:7.7k ⭐ | 语言:Go + Vue
Coroot 是一款开源的可观测性与 APM 工具,最大亮点是零代码插桩——基于 eBPF 技术自动发现所有服务,无需修改任何代码即可获得完整的指标、日志、链路追踪和持续性能分析。
核心特性:
- eBPF 零插桩观测,自动发现服务,无监控盲区
- 预定义巡检规则,自动审计应用健康状态,可识别 80%+ 常见问题
- 100% 覆盖的服务拓扑图、SLO 追踪、分布式链路追踪
- 内置持续性能分析,CPU/内存问题定位到代码行
- 支持 AWS/GCP/Azure 成本监控和版本发布对比
安装方式:Docker 容器部署或 Kubernetes Helm Chart,提供在线 Demo(demo.coroot.org)。
适用场景:希望"开箱即用"获得全栈可观测性,不想手动埋点的团队。
3. Robusta — 智能告警增强与自愈引擎
GitHub:robusta-dev/robusta | Stars:3k ⭐ | 语言:Python
Robusta 专注于让 Prometheus 告警更智能。它能将告警自动分组、AI 增强分析、附加上下文信息(如 Pod 日志),并支持定义自动修复规则实现自愈。它集成了 20+ 通知渠道(Slack、Teams、Discord、PagerDuty、Jira 等)。
核心特性:
- 智能告警分组,减少通知轰炸,Slack 线程化展示
- AI 调查——可选的 AI 告警分析功能
- 告警增强——在告警中直接展示 Pod 日志和相关数据
- 自愈规则——定义自动修复动作,加速故障恢复
- 无需 PromQL 即可检测 OOMKill、Job 失败等 K8s 原生事件
安装方式:Helm Chart 部署到 K8s,可与 kube-prometheus-stack 无缝集成。
适用场景:已使用 Prometheus/Alertmanager,想让告警更智能、支持自动修复的团队。
4. HolmesGPT — CNCF 沙箱级 AI 事故调查员
GitHub:HolmesGPT/holmesgpt | Stars:2.6k ⭐ | 语言:Python
HolmesGPT 是一款开源 AI Agent,专门用于调查生产事故并定位根因。作为 CNCF 沙箱项目,它由 Robusta.Dev 发起、微软深度参与贡献。不同于只支持 K8s 的工具,HolmesGPT 可以工作在任何技术栈上——K8s、VM、云服务、数据库、SaaS。
核心特性:
- 智能体循环——自主查询多个可观测性数据源来定位根因
- Operator 模式——7×24 后台运行,在客户感知之前发现问题,通过 Slack 通知并可直接提交 PR
- 深度集成:Prometheus、Grafana、Datadog、K8s、AKS、ArgoCD、AWS、Azure 等 20+ 平台
- PB 级数据处理能力,服务端过滤,内存安全执行
- 双向告警集成:从 AlertManager/PagerDuty/Jira 获取告警,将分析结果写回
安装方式:Helm Chart 部署到 K8s,或独立 CLI 工具使用。
适用场景:需要 AI 自主调查跨平台生产事故的 SRE 团队,特别是混合环境(K8s + VM + 云服务)。
5. Botkube — Kubernetes ChatOps 监控机器人
GitHub:kubeshop/botkube | Stars:2.3k ⭐ | 语言:Go
Botkube 是一款面向 Kubernetes 的消息机器人,支持在 Slack、Discord、Mattermost 中直接监控和调试集群。你可以在聊天窗口中执行 kubectl、helm 等命令,实现真正的 ChatOps 体验。
核心特性:
- 多平台消息集成:Slack、Discord、Mattermost
- 在聊天中直接执行 kubectl、helm 等命令
- 智能告警整合与过滤
- 插件系统支持自定义自动化操作
- 实时 K8s 事件通知(Prometheus 告警、K8s 事件等)
安装方式:Helm Chart 或 Botkube CLI 安装器。
适用场景:希望在消息平台中直接管理和监控 K8s 集群的 DevOps 团队。
6. OpenObserve — 成本仅为 Datadog 1/140 的可观测性平台
GitHub:openobserve/openobserve | Stars:19.2k ⭐ | 语言:Rust + TypeScript + Vue
OpenObserve 是一款云原生可观测性平台,定位为 Datadog/Splunk/Elasticsearch 的开源替代。采用 Rust 构建,基于 Parquet 列式存储和 S3 原生架构,存储成本仅为传统方案的 1/140。单二进制部署,2 分钟即可运行。
核心特性:
- Parquet + S3 架构,存储成本降低 140 倍
- 单二进制部署,2 分钟启动运行
- OpenTelemetry 原生,无供应商锁定
- 统一平台:日志、指标、链路、RUM、仪表盘、告警、LLM 可观测性
- 支持 SQL + PromQL 查询,无需学习专有查询语言
安装方式:单二进制下载、Docker、Kubernetes Helm,支持从单节点扩展到 PB 级 HA 集群。
适用场景:寻找高性价比、可自托管的全栈可观测性方案,替代 Datadog/Splunk/Elasticsearch 的团队。
7. Parca — eBPF 持续性能分析器
GitHub:parca-dev/parca | Stars:4.9k ⭐ | 语言:Go + TypeScript
Parca 是一款持续性能分析工具,可以对 CPU 和内存使用进行代码行级别的分析。基于 eBPF 技术,无需修改代码或重新编译,即可自动发现目标并进行低开销的性能采样。据统计,基础设施通常有 20-30% 的资源浪费,Parca 能帮你精准定位这些瓶颈。
核心特性:
- eBPF 性能分析器——单一探针,自动发现 K8s/systemd 目标,极低开销
- 支持 C、C++、Rust、Go 等多种语言,零代码插桩
- 开放标准——生成和消费 pprof 格式的 Profile 数据
- 优化的存储与查询——基于标签搜索,跨基础设施聚合,任意维度对比
- 统计显著性分析,跨部署/版本/区域识别热点路径
安装方式:单二进制编译、Docker、Kubernetes 清单或 Helm Chart。
适用场景:希望通过代码行级性能分析降低基础设施成本、优化性能的团队。
对比总览
| 项目 | Stars | 核心方向 | AI 驱动 | 需要 K8s | ChatOps | 核心差异化 |
|---|---|---|---|---|---|---|
| K8sGPT | 7.9k | K8s 诊断 | ✅ | ✅ | ❌ | SRE 经验编码 + 多 LLM |
| Coroot | 7.7k | 全栈 APM + RCA | ✅ | ❌ | ❌ | eBPF 零插桩 |
| Robusta | 3k | 告警增强 | ✅(可选) | ✅ | ✅ | 智能分组 + 自愈规则 |
| HolmesGPT | 2.6k | AI 事故调查 | ✅ | ❌ | ✅ | CNCF 沙箱,跨平台 |
| Botkube | 2.3k | K8s ChatOps | ❌ | ✅ | ✅ | 聊天中执行 kubectl |
| OpenObserve | 19.2k | 可观测性平台 | ❌ | ❌ | ❌ | 成本 1/140,Rust 单二进制 |
| Parca | 4.9k | 持续性能分析 | ❌ | ❌ | ❌ | eBPF 分析,零插桩 |
如何选择?
- 如果你主要用 K8s,想要 AI 诊断:选 K8sGPT
- 如果你想要开箱即用的全栈可观测性:选 Coroot
- 如果你想让 Prometheus 告警更智能:选 Robusta
- 如果你需要跨平台 AI 事故调查:选 HolmesGPT
- 如果你想要在聊天中管理 K8s:选 Botkube
- 如果你想要高性价比的可观测性平台:选 OpenObserve
- 如果你需要代码级性能分析降本:选 Parca
这些项目各有侧重,也可以组合使用。例如 K8sGPT + Robusta 实现 K8s 诊断 + 智能告警,OpenObserve + Parca 实现低成本可观测性 + 性能分析。根据你的技术栈和需求,选择最适合的工具吧!







