Linux 教程(83):高级运维与故障排查

运维高级技能

掌握高级运维技能,成为 Linux 专家。

性能优化

CPU 优化

# 查看 CPU 使用
top -H -p PID
pidstat -u 1

# 调整进程优先级
nice -n 10 command
renice -n 5 -p PID

内存优化

# 查看内存使用
free -h
vmstat 1

# 清理缓存
sync && echo 3 > /proc/sys/vm/drop_caches

磁盘 IO 优化

# 查看 IO 等待
iostat -x 1
iotop

# 调整 IO 调度
echo deadline > /sys/block/sda/queue/scheduler

故障排查

系统启动问题

# 查看启动日志
journalctl -b
journalctl -b -1

# 进入单用户模式
# GRUB 编辑添加 init=/bin/bash

网络问题

# 检查网络配置
ip addr show
ip route show

# 测试连通性
ping -c 4 8.8.8.8
traceroute google.com

# 检查 DNS
nslookup google.com
dig google.com

服务问题

# 查看服务状态
systemctl status service
journalctl -u service

# 重启服务
systemctl restart service

备份恢复

tar 备份

# 创建备份
tar -czvf backup.tar.gz /home

# 恢复备份
tar -xzvf backup.tar.gz -C /

rsync 同步

# 本地同步
rsync -av source/ dest/

# 远程同步
rsync -av source/ user@host:/dest/

监控告警

# 安装监控工具
apt install nagios
apt install zabbix-agent

# 配置告警
# /etc/nagios/nagios.cfg

自动化运维

# 使用 Ansible
ansible all -m ping
ansible-playbook playbook.yml

# 使用 Puppet
puppet agent -t

# 使用 Chef
chef-client

容器化

# Docker 基础
docker run -it ubuntu bash
docker ps
docker images

# Kubernetes 基础
kubectl get pods
kubectl get services

最佳实践

  • 定期更新系统
  • 监控关键指标
  • 建立备份策略
  • 文档化配置
  • 自动化重复任务

运维之路,永无止境!

发表回复

后才能评论