本文转录自:北大博士后严川在云智慧AIOps社区举办的Meetup上进行的《AIOps指标相关算法体系》分享。
直播回放:戳此查看在线回放
PPT下载:戳此下载资料
传统运维:
特点:处理速度慢,人力需求大;在海量监控数据下,传统运维效率低下。
智能运维
特点:处理速度快、人力需求小;在海量监控数据下,智能运维效率高。
智能运维:运维场景+智能技术,其围绕着指标/日志/追踪/告警四要素及其转化的AI使能。
在运维领域中,指标异常检测是其他智能运维场景建设的基础,异常检测的结果将为后续的告警压缩、故障定位、故障自愈等场景提供重要输入。
业务指标
基础监控指标
运营指标
海量监控指标
企业的设备数、系统数众多,运维系统需要对海量指标进行监控,以保证企业服务的稳定运行。
KPI 的多样性
有监督异常检测算法对海量监控指标的成本高,当前只能从无监督视角进行检测,这对异常检测的准确性带来了更大的挑战。
某气象相关数据
异常类型多
异常类型包括“点异常”、“上下文异常”、“群体异常”、“缺失值”等
某银行系统业务数据
异常标准不一致
不同指标、资源配置、运维人员,对同一模式,可能会有不同的判断标准、不同的ground truth。算法需要适配不同的敏感度需求。
节假日活动管理
节假日和运营活动时,监控指标常会生成与常态不一致的模式,增加异常检测难度 。
单一算法难以适配多种数据类型
数据异常vs业务异常vs调参
简单统计类
时序分解类
解决单一算法无法适配多种数据类型问题
常见的数据类型
周期性数据在所有数据中占比不高(25%), 但通常具有较高价值
检测数据:
1 是否具有周期
2 具有多少周期
3 每个周期成分如何
对于简化时序异常检测问题至关重要
内存使用率数据
交易量数据
运维领域:
是其他智能运维场景建设的基础(容量规划、异常检测、告警压缩、故障定位、故障自愈等场景)
运营和网络安全: 关注增长和需求
基础监控指标
运营指标
单一算法难以适配多种数据类型
数据质量对预测结果的影响
统计类:
时序分解类:
不同种类算法适用的数据类型不同 ,是否需要集成学习?
磁盘占用率
系统CPU使用率
某运营商运用实例
cpu使用率预测
AIOps Developer Meetup是由AIOps社区推出的,面向广大开发者的系列线上直播及线下分享活动,我们将汇聚AIOps社区专家团的力量给你提供优质的技术内容,无论是技术解读、开源治理、行业解决方案,相信广大developers总能在这里找到你想要的内容。
AIOps社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播AIOps技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题、推动AIOps技术在企业中落地、建设健康共赢的AIOps开发者生态。
|