监控告警功能
XL-LightHouse面向商业版用户提供功能完善、性能强大、业内领先的通用型监控告警实现方案。
支持功能点如下:
- 支持任意统计周期的数据指标的数值监控;
- 支持灵活设置监控维度(可以使用维度值匹配或正则表达式的匹配形式);
- 支持分级告警;
- 支持多告警条件配置(根据需要设置一个或多个告警条件,并可选择匹配其中任意一个或匹配所有告警条件的触发形式);
- 支持延迟触发;
- 支持静默告警周期设置;
- 支持选择连续数据点并支持多种数值匹配方式;
- 支持告警模板设置,支持按日期和时段推送告警消息;
- 支持告警消息查看;
- 支持配置外部告警Http接口通道,支持异常熔断(后续将扩展支持腾讯云、阿里云等告警通道);
- 支持灵活启用和停用告警策略;
- 支持基于用户选择和基于部门选择告警用户等多种设置方式;
- 支持设置告警策略唯一标识字段,可以灵活实现外部扩展;
外部告警通道配置
告警通道配置由系统管理员操作。 点击"系统设置" -> "告警设置"菜单项。
需要指定外部告警通道的Http接口地址,在测试阶段,可以随意指定当前服务器可以访问到的url地址,并启用告警。告警消息触发后,可以在 "消息通知"菜单项查看。
告警策略配置
1、策略名称
为统计指标设置告警,需要绑定告警策略。策略名称用于区分不同的告警策略,该字段会显示在告警消息中。
2、唯一标识
唯一标识字段默认显示在告警消息中,业务方可以基于此字段根据实际需要进行自定义功能扩展。
3、分级告警
分级告警目前支持四级告警消息:P0-紧急、P1-严重、P2-警告、P3-信息,不同分级可以指定不同的阈值,并且可以根据需要启用或停用不同的分级策略。
4、静默告警周期
静默告警周期是设置告警策略的每个纬度值告警逻辑在固定周期内只触发一次。告警周期的选择项依据统计指标的时间周期不同而略有不同。 比如对于指标:每分钟_各省份_pv指标监控策略,如果设置"每5分钟告警一次",每个监控维度在5分钟只会触发一次告警。
5、匹配维度
对于包含维度的统计指标,需要进行维度配置,可以使用维度值或正则表达式的匹配形式,多个纬度值之间使用换行分割,默认值为:.*,即匹配所有维度。 比如对于"每分钟_各省份_pv指标监控" ,可以设置维度值如下:
河北省
山东省
湖南省
或者根据您统计项的维度值设置任意正则表达式,表达式匹配范围之外的维度不会触发告警策略。
.*
6、延迟触发
延迟触发使用场景一般分为两种:
- 某个指标统计周期内统计消息的到达或统计计算完成需要一定的延迟,为了防止在告警触发时"统计指标计算尚没有完成",这时可以设置告警计算延迟。
- 告警策略默认按照接收到消息事件后,即计算上一个周期的数值是否满足告警策略,如果满足即触发告警。而对于小时、天等较长周期的指标,为了避免在凌晨某个时段触发告警,可以根据需要设置一定的延迟。
已触发的告警消息可以在"消息通知"菜单项查看。
告警触发的条件
- 1、系统管理员已配置Http告警通道并已打开全局告警设置开关。
- 2、统计项配置告警策略并打开相应策略的开关。
- 3、当前指标的数值满足告警条件设置。
- 4、没有在告警静默期或告警延迟周期。
此外,告警策略配置完成后,由于系统缓存的原因,可能需要5~10分钟左右才会生效。