zabbix 已添加监控 清单
所有主机 基础监控
主机运行时间
查看方式: 最新数据 –> General –> System uptimeCPU 占用率
查看方式: 最新数据 –> CPU –> CPU idle time
计算方法:
CPU 占用率 = 100% - %idle
CPU监控的相关指标还有如下:
CPU user time
CPU system time
CPU steal time
CPU softirq time
CPU nice time
CPU iowait time
CPU interrupt time
- cpu 负载情况
1分钟 5分钟 15分钟 平均每核cpu负载情况 (注:小于5正常)
查看方式: 最新数据 –> CPU –>
Processor load (1 min average per core)
Processor load (5 min average per core)
Processor load (15 min average per core)
- cpu 单核占用率
查看方式: 最新数据 –> CPU Core –> CPU Core XX idle time
计算方法:
CPU 占用率 = 100% - %idle
- 内存占用相关参数
查看方式: 最新数据 –> Memory –>
总内存: Total memory
可用内存: Available memory
注:Available memory=free+buffers+cached
swap相关
查看方式: 最新数据 –> Memory –>
总swap大小:Total swap space
剩余swap占比:Free swap space in %
剩余swap大小:Free swap space系统磁盘容量相关
查看方式: 最新数据 –> Filesystems –>
总磁盘大小:Total disk space on /
已经使用磁盘大小:Used disk space on /
剩余磁盘大小:Free disk space on /
系统磁盘剩余容量占用率:Free disk space on / (percentage)
系统磁盘剩余inodes占用率:Free inodes on / (percentage)
注:每个磁盘有个inodes数,就是可创建文件数量的限制
可以使用df -i查看
系统盘软raid监控
查看方式: 最新数据 –> Filesystems –> fsv_系统盘软raid监控磁盘健康状态
查看方式: 最新数据 –> iostat –> sdX 磁盘健康状态
zabbix自动: smartctl -H /dev/sdX 检查磁盘状态磁盘读写速率
查看方式: 最新数据 –> iostat
磁盘每秒读MB:sdz rMB/s
磁盘每秒写MB:sdz wMB/s磁盘每秒 IO 数
查看方式: 最新数据 –> iostat –> tps磁盘使用率
查看方式: 最新数据 –> iostat –> %util
注: 磁盘io还可监控如下,单模板中默认停止,如想监控请 启用。
svctm
w/s
wrqm/s
rrqm/s
avgrq-sz
avgqu-sz
await
r/s
- 网卡流量监控
查看方式: 最新数据 –> Network interfaces –>
出网卡流量:Outgoing network traffic on ethX
进网卡流量:Incoming network traffic on ethX
所有网卡(除boundX)总出网卡流量:Outgoing network traffic on all
所有网卡(除boundX)总进网卡流量:Incoming network traffic on all
CORE 文件个数
查看方式: 最新数据 –> OS –> core 文件数量时间同步状态
开启:模板 Template OS Linux –> 触发器 –> “时间误差 大于60秒告警,当前是 {ITEM.VALUE}” 后
和zabbix server 时间误差大于60秒 的会自动报警
- 自动发现主机正在运行服务的tcp侦听端口,然后自动监控所有相关服务状态
查看方式: 最新数据 –> Tcp listen –> 端口XXX 正在运行
各个网元检查
ss 相关
查看方式: 最新数据 –> ss –>
ss状态:fsv_ss
ss在线人数:fsv_ss current_online_sessions
ss ha状态:fsv_ss ha status
ss直播人数:fsv_ss live_online_sessions
ss运行时间:fsv_ss uptime
ss直播乱序数量:ss 直播 乱序 监控
ss直播断流数量:ss 直播 断流 监控
fsv_ss 的 数据盘检查
注: 如下监控,已经添加但默认被停止,如果需要请启用
vod_online_sessions
tvod_online_sessions
pull_online_sessions
tstv_online_sessions
current_pem_load
current_hem_load
current_hls_load
sync同步监控
- 监控lsyncd
- 监控rsync
cmm主备监控
查看方式: 最新数据 –> cmm –>
##rss 连接数监控
(1)ESTAB 连接数
(2)LAST-ACK 连接数
##aaa 相关
查看方式: 最新数据 –> aaa –>
aaa ping
aaa的haproxy监控
aaa的keepalived
##epg 主机
查看方式: 最新数据 –> epg –>
- epg 运行状态 监控
比如:每分钟
curl -v “http://10.23.255.3:6600/epg/index.html“
判断状态码是否为200
- epg 在线用户数监控
##交换机监控
交换机运行时间:System uptime
交换机名字:Host name
交换机硬件信息
交换机各接口的 进流量和出流量
mysql监控
- mysql主从监控
- mysql同步超时监控
- 其他mysql查询性能监控
MySQL version
MySQL uptime
MySQL update operations per second
MySQL status
MySQL slow queries
MySQL select operations per second
MySQL rollback operations per second
MySQL queries per second
MySQL insert operations per second
MySQL delete operations per second
MySQL commit operations per second
MySQL bytes sent per second
MySQL bytes received per second
MySQL begin operations per second
mysql 当前连接数
网元状态监控:
- aaa 状态那里 添加 aaa.ping[6600]
- cms 状态那里 添加 cms.ping[6600]
- epg 状态那里 添加 epg.ping[6601]
- nginx 状态那里 添加 nginx.ping[81]
- oss 状态那里 添加 oss.ping[81]
ss core 监控
tcp状态监控:
tcp 所有状态6060端口监控
tcp 所有状态6600端口监控
tcp closed状态 监控
tcp established状态 监控
tcp fin-wait-1状态 监控
tcp fin-wait-2状态 监控
tcp last-ack状态 监控
tcp syn-recv状态 监控
tcp syn-send状态 监控
tcp time-wait状态 监控