中国信息通信研究院、中国通信标准化协会主办的“2022 首届xops产业生态峰会”在北京召开,此次大会颁布了xops优秀案例评选结果以及中国devops现状调查报告、中国aiops现状调查报告等权威报告,对xops体系新风向进行专业解读,助力产业把握前沿研究进展。
linkedsee灵犀,凭借在银行、证券、保险等行业客户的口碑及落地实践积累,获得智能运维示范引领案例奖项的获得者,参与此次大会,与众多数字化先行者共同探讨最佳实践与未来发展趋势。
获奖案例为日志领域的智能运维场景在证券行业的落地实践
项目背景:
日志作为运维人员最关注的一类数据,在故障排查中占有非常重要的地位。
某头部证券客户对日志异常检测进行充分解读和分析后,发现其it系统面临如下挑战:
1)归类设置告警困难
数据中心每天都会产生数以千万计的系统日志信息,且系统日志格式多样,归类设置告警面临极大的困难,即便投入巨大的人力物力也很难全面覆盖。
2)nlp方法不适用
当下流行的nlp(自然语言处理)方法并不适用该客户,需要结合运维领域知识从日志中提炼日志模板来做异常检测。
3)错误日志数量多
当线上发生异常时,打印的大量错误日志难以阅读,故障排查费时费力。
4)日志变化频繁
日志会随着设备厂商和设备型号的变化而变化,业务系统的升级迭代也会让日志产生变化,如何对日志模板进行增量式学习,是对算法性能提出的巨大挑战。
面对上述问题,灵犀为客户提供了一种日志异常检测 告警降噪机制,准确、高效地解析日志,且可以自动、准确地检测各种型号设备或应用的多语义的单条日志和异常日志序列,从日志结构中找到未知故障,快速定位问题,完善当前监控体系,重点解决故障感知不及时、维护工作量巨大、误报率高、海量告警淹没关键问题等现状。
产品关键价值:
- 填补监控盲区
- 无需关键字配置
- 自动识别日志模式
- 检测历史新增、时段新增、时段突增等多种日志 异常模式
- 降噪率可达90%以上,准确关联高相关性告警,大幅提升运维排障效率
1详细建设方案
1.1实现方法
1)日志异常检测
该应用运用机器学习方法,首先通过识别重要日志中的常量,对日志做实时聚类形成日志模式,并与正常时段日志模式对比,出现异常时发出告警来辅助运维人员快速定位异常。
2)告警降噪
日志异常检测输出告警后,通过对告警发生的时间、内容、来源等因素进行 相似度学习和聚类,将有多个相关告警聚合为一个故障,并给出推荐的topn故障根因,辅助运维人员进行快速排障
1.2算法逻辑
算法逻辑
1)日志异常检测算法的核心处理步骤:
- 数据采集和处理
从日志源中采集日志后,提取日志文本中的时间戳、日志等级、日志内容等字段,最后将非结构化的日志消息转化为结构化事件(日志模板)的映射,保留日志关键信息,从而更高效地处理和理解日志内容,解析后的数据可以应用复杂的机器学习模型。
- 日志模式提取
日志解析后日志序列可以转换为日志模板序列(下标序列),可以进一步基于时间窗口等方法提取诸如日志模板计数向量等数据特征,即对一定数量的日志做聚类
- 模式异常检测
基于提取的日志模式时序趋势,根据同环比、基线偏离度、波动性、时间窗口等特征判断其是否异常,并将异常模式发出告警,有效解决模式新增、时段数量新增、数量异常突增等多种故障情况
2)告警降噪聚类
通过规则、知识加学习算法的方法过滤告警数据中的冗余告警并将相互关联的告警数据聚合形成故障
- 样本特征提取:通过时间维度特征、告警文本特征、拓扑关系特征等判断两个告警是否属于同一故障。
- 距离度量:通过欧式距离、文本描述相似度、拓扑距离、加权平均等方法计算各个告警样本特征之间的距离
- 聚类:给定样本之间的距离度量之后,用聚类算法得到聚类结果
1.某证券客户的应用效果
海量数据接入:目前该客户已接入多达49种日志,每日分析日志量10t左右。
实时解析:对海量日志的实时解析,从接入到解析完毕归档的时间延迟不超过1分钟,异常检测具备很强的实时性
告警收敛:针对日志异常检测输出的告警,降噪聚类效果达到90%,日均输出降噪后的告警数100条左右,聚合后的故障数30个左右
捕捉异常:该应用在使用期间发现多起原有监控系统未报出的问题,很好的捕捉到如新增错误日志、日志数量突增、指标异常、无数据等多种异常情况,对提升运维监控质量有很好的促进作用
提高效率:该应用有效解决了基于人工规则检测单条异常存在的人工开销打、召回率低、不通用、计算效率低等缺点,帮助客户提高运维效率的同时节省了大量的人力成本。
2示范意义
在金融行业中,灵犀日志异常检测的测试成绩长期处于第一名位置,最差成绩第二名,众多金融行业客户选择了灵犀作为智能运维的合作厂商,在金融行业智能运维领域中有着很好的示范性。