Ceph v18 故障排查命令大全:从诊断到修复
Ceph v18 (Reef) 是目前广泛使用的 LTS 版本。在生产环境中,快速定位和解决故障是运维人员的核心技能。本文整理了 Ceph v18 的完整故障排查命令手册,涵盖集群、OSD、MON、MGR、PG、网络等各类故障场景。
一、快速诊断命令
1.1 集群健康状态
1.2 服务状态检查
1.3 故障定位流程
- 运行
ceph -s查看整体状态 - 根据 HEALTH 状态确定故障类型
- 使用
ceph health detail获取详细信息 - 针对具体组件使用专用命令排查
- 查看相关日志定位根本原因
二、OSD 故障排查
2.1 OSD 状态检查
2.2 OSD 宕机排查
步骤 1:确认 OSD 状态
步骤 2:查看 OSD 日志
步骤 3:检查磁盘健康
步骤 4:尝试恢复 OSD
2.3 OSD 使用率过高
2.4 OSD 启动失败
三、MON 故障排查
3.1 MON 状态检查
3.2 MON 宕机排查
步骤 1:确认 MON 状态
步骤 2:查看 MON 日志
步骤 3:恢复 MON
3.3 仲裁丢失
场景:多数 MON 宕机,无法形成仲裁
四、PG 故障排查
4.1 PG 状态检查
4.2 PG 状态说明
| 状态 | 说明 | 处理建议 |
|---|---|---|
active+clean |
正常 | 无需处理 |
degraded |
副本数不足 | 检查 OSD 状态 |
incomplete |
数据不完整 | 恢复 OSD |
peering |
正在协商 | 等待或检查网络 |
down |
PG 不可用 | 检查 OSD 和网络 |
stuck |
卡住 | 手动修复 |
4.3 PG 卡住修复
4.4 PG 分布不均
五、MGR 故障排查
5.1 MGR 状态检查
5.2 MGR 故障处理
5.3 Dashboard 故障
六、网络故障排查
6.1 网络连通性检查
6.2 网络性能检查
6.3 心跳超时
七、存储池故障排查
7.1 存储池状态
7.2 存储池空间不足
八、日志分析
8.1 查看日志
8.2 日志级别调整
九、常用修复命令
9.1 数据恢复
9.2 重新平衡
9.3 紧急处理
十、故障排查流程图
10.1 快速诊断流程
ceph -s→ 查看整体状态ceph health detail→ 获取详细警告- 根据组件选择专用命令
ceph orch logs→ 查看日志- 执行修复命令
ceph -w→ 监控恢复进度
10.2 故障分级
| 级别 | HEALTH 状态 | 响应时间 | 示例 |
|---|---|---|---|
| 紧急 | HEALTH_ERR | 立即 | 多 OSD 宕机、仲裁丢失 |
| 警告 | HEALTH_WARN | 1 小时内 | 单 OSD 宕机、PG degraded |
| 注意 | HEALTH_OK | 计划内 | 容量预警、性能优化 |
总结
本文整理了 Ceph v18 的完整故障排查命令:
- ✅ 快速诊断命令(ceph -s、health detail)
- ✅ OSD 故障排查(状态、日志、磁盘)
- ✅ MON 故障排查(仲裁、日志、恢复)
- ✅ PG 故障排查(状态、修复、分布)
- ✅ MGR 和 Dashboard 故障
- ✅ 网络和存储池故障
- ✅ 日志分析和修复命令
运维建议:
- 熟悉常用命令,快速定位问题
- 配置完善的监控告警
- 定期备份配置和 monmap
- 建立故障处理 SOP
- 在生产环境变更前充分测试
🔗 相关链接
建议收藏本文,故障排查时快速查阅!有问题欢迎留言讨论!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。






