背景
客户需求,根据当前时间获取到的接口返回值中的关键字段的数值进行判断,当超过阈值时推送可恢复告警,推送一次即可,待数据正常时推送告警恢复,工作日8点到18点执行。【代码还在整理中】
问题分析
- 告警通知:客户UMP平台设置监控策略,我要做的就是把告警信息推送到客户的UMP平台,后续由UMP平台短信通知给客户。
- 推送告警:通过SocketClientUdp连接,Handler.sendMessage形式推送syslog信息。
- syslog格式,根据客户提供模板,因为客户要根据syslog里的字段来制定短信通知策略。
处理逻辑
开头说的可恢复告警,是指当超过阈值时推送告警,等阈值正常还要推送告警恢复。
本次未要求对接口做告警策略,即如第三方接口调用有问题时我们不做处理。 1
Level 1 | Level 2 | Level 3 | Level 4 | Level 5 | Level 6 | Level 7 | Level 8 |
接口中是否有数据 | 无 | 打印日志:接口无数据。 | |||||
有 | 返回值是否有告警? | 无,此时的key值是多少? | 值为0,打印日志:接口数据正常, | ||||
值为1,打印日志 :接口数据无告警,库中告警数据恢复,Handler.sendMessage("告警恢复"),同时清理表数据。 | |||||||
有,此时的key值是多少? | 值为0,打印日志:接口数据有告警,Handler.sendMessage("推送告警"),写入数据库。 | ||||||
值为1 | 库里是否有本次接口中告警数据 | 无 | 将不包含的部分筛选出一个list里,打印日志,Handler.sendMessage("推送告警"),写入数据库。 | ||||
有 | 打印日志:此条数据重复。 | ||||||
本次接口告警中是否有库中数据 | 无 | 打印日志:推送告警恢复,Handler.sendMessage("告警恢复"),将此条数据从数据库中删除。 | |||||
有 | 打印日志:有未恢复告警。 | ||||||
数据库是否有告警 | 无 | key=0 | |||||
有 | 取数data,并key=1。 |
-
对接口做策略调整时的处理逻辑。
(1)接口返回是否正常。
(2)接口返回值中的数据长度是否正常。 ↩︎
当前接口!=null | ||||
Level 1 | Level 2 | Level 3 | Level 4 | Level 5 |
是,不为null。 | 当前ERROR_DATA的值是否>0 | 是 | ERROR_DATA=0,打印日志:目前接口正常,可推送告警回复。Handler.sendMessage("推送告警恢复syslog--接口数据") | |
否 | 打印日志:本次接口正常,接下来对接口数据长度进行判断。 | |||
否,为null。 | 当前ERROR_DATA的值是否为默认值=0 | 是 | ERROR_DATA++,打印日志:接口有问题,推送告警。Handler.sendMessage("推送告警syslog--接口数据") | |
否 | 不做处理,打印日志:接口仍有问题,告警未恢复。 | |||
当前接口长度是否为100 | 是,当前MISS_DATA的值是否为默认值=0 | 是 | MISS_DATA++,打印日志:接口少于100条数据,需推送告警信息。Handler.sendMessage("推送告警syslog-接口数据长度") | |
否 | 打印日志:接口悢仍少于100条,告警未恢复。 | |||
否,当前MISS_DATA的值是否>0 | 是 | MISS_DATA=0,打印日志:接口数据长度正常,可推送告警回复,Handler.sendMessage("推送告警恢复syslog-接口数据长度") | ||
否 | 打印日志:接口正常且数据长度完整,无需推送告警。 |