国泰君安证券股份有限公司(以下简称“国泰君安”)是中国证券行业长期、持续、全面领先的综合金融服务商,始终以客户为中心,为个人和机构客户提供各类金融服务,确立了全方位的行业领先地位,2011到2018年,国泰君安的营业收入连续八年名列行业前三。
作为“业务保障”、“风险管理”、“客户体验”等多重企业级目标最核心的支撑部门之一,国泰君安的信息技术部门在过去数年的探索中,以科技支持和引领业务为中心,一方面积极创新,围绕分布式架构、大数据、人工智能等业界先进技术的实践总是处于行业前列;另外一方面又高效务实,立足于每一项创新实践都可以兑现切实的业务保障或效率提升的价值。
本次国泰君安和灵犀的联合实践,即是在上述主旨下,面向it运维面临的全新挑战,尝试通过构建创新型的一体化智能运维服务,率先为整个证券行业探索破局之道。
纵观这几年的it运维发展,我们可以明显的看到所有企业的科技部门都在面临内外两重环境的新型考验:从外部环境来看,互联网型、数字化型新业务的高速发展已经成为全国性的趋势,业务保障和用户体验的重要程度不断提高,运维保障面临前所未有的期望和压力;而从组织内部来看,为了迎接新业态,虚拟化、云、容器、微服务、研发运维一体化等新技术的启用也是层出不穷。这些新架构和存量系统交织混合,让运维的管理难度也不断增大。
在更高的要求和更大难度的矛盾情势下,过去it运维构建的“监管控”为主的传统管理体系,越发呈现出其不足之处。无论我们构建多么完善的监控系统和多么严谨的内部工单流程,仍然会时刻面临风险的考验。一方面传统的基于“人的知识”的系统,总是存有知识的未知和疏忽之处;另外一方面随着其建设的持续投入,带来海量的孤立数据碎片,为人的处理能力带来巨大挑战。
正是为了解决这一行业共性的难题,国泰君安运维团队在2018年就提出了创新型的解决思路:以一体化智能运维体系的建设,来全面增强原有的传统治理体系。
建设的目标:基于海量数据的采集与治理(数据化)、ai算法的深度应用(智能化)和端到端的自动化,打造平台化的智能运维目标,实现全景监控与自动化、智能分析与决策、故障自愈与无人值守。期望通过平台化智能运维实现运维知识和经验积累,帮助运维人员实现角色的转变:从最初的人工运维到部分自动化 数据分析,实现数据驱动的it运维,最终走向高度数据化、高度ai下的完全自动化 运维专家模式。
而这一理念也和灵犀不谋而合。作为国内最早创办的专注于智能运维领域的企业,也是国内唯一一家连续4年获得gartner推荐的aiops sample vendor,灵犀高度认同只有基于大数据和ai的智能运维才是传统运维瓶颈的破局之道。并且论及aiops,不能脱离实际应用场景空谈实验室层面的技术创新。因此灵犀的智能运维理念中,三大锚点“大数据”“算法”“场景”缺一不可,厂商需要通过综合的能力建设为不同现状的客户提供完整的赋能能力。
正是在这样的前提下,灵犀有幸被纳入国泰君安的一体化智能运维的体系之中,双方基于一个长远的创新愿景,但又务实高效的从“故障溯源”这个当前运维最关心的场景点切入,通过双方的紧密合作,在现有的监控体系之上,通过“日志异常检测”“告警降噪聚合”“多重故障溯源”等多个aiops功能点,构建了一套被事实证明能够在生产环境落地,能够覆盖多个主流业务系统的增强保障体系。
针对“故障溯源”这个经典场景,国泰君安和灵犀共同梳理出现有监控体系在发现问题-定位问题这一最耗时时段的几个共性问题:
1)传统日志监控
现状:通过对关键字监控现象已知的故障,获取到最新的故障信息,从而及时对故障进行处理。
痛点:无法监控现象未知(如第一次发生)的故障。
2)传统指标监控
现状:需要监控的指标数量多,根据经验,人工手动设置固定阈值。
痛点:误报率高,随着业务发展,阈值需要手工维护,工作量巨大。
3)现有告警降噪聚类
现状:随着监控的不断完善,每天的告警数量远超了人的当日处理能力,需要将同一次故障引起的告警聚合到一起,避免过多噪声干扰。目前的合并方法只能基于简单粗暴的规则,效果不佳。
痛点:当前告警噪声过多,处理不过来导致人力浪费和告警遗漏。
4)现有故障根因排查
现状:因为现有数据的分散性和碎片性,以及运维组织的多层次多人,当故障发生后,只能先专人分段排查,然后再通过集中会诊,专家把关的方法来推导出哪些信息同属一个故障,以及故障可能的根因。并且在推导根因的过程中,因为涉及查看大量的监控,日志等数据,耗时耗力,排查效率很低。
而针对上述具体痛点,国泰君安和linkedsee灵犀通过如下几个对症下药的功能点进行一一解决,具体应对方式如下:
1)日志监控-日志异常检测
凯发k8手机网页的解决方案:用linkedaiops日志异常检测的算法,从日志结构中找到未知对故障,可以从日志异常中获取到日志模式的状态是突增或突降、该模式的日志数量变化趋势图、环比变化比例、以及日志模式的具体内容。
2)指标监控-指标异常检测
凯发k8手机网页的解决方案:用linkedaiops异常检测点动态基线替代重要告警的故障阈值,可以通过监控看板中的指标,提供分钟、小时、日、月粒度的实时监控,可在指标详情页面查看指标趋势图以及异常点信息。
3)告警降噪聚类-告警智能聚类
凯发k8手机网页的解决方案:用linkedaiops根据时间、告警内容、告警主机等特征的相似性和关联性,将由同一次故障引起的告警实时聚合起来,大幅减少告警通知次数。
4)故障根因排查-多重故障溯源
凯发k8手机网页的解决方案:用linkedaiops将一次故障的关联指标,关联日志,关联告警,关联工单等所有相关的线索实现快速的线上呈现,并且通过数据关联分析的方法,通过直观的钻取和趋势统计,排名推荐等方法,帮助客户快速定位根因。
通过双方联合投入的前期严谨的离线测试,小流量在线测试,大流量在线测试,事实证明当前aiops的功能点确实可以在生产环境中帮助解决上述痛点,健壮了当前的运维体系,提高了故障处理的全程效率。
国泰君安在实际使用linkedaiops过程中,发现了多起原有监控系统未报出来的问题,告警降噪聚类效果达到近90%。
现在国泰君安已将linkedaiops的日志异常检测功能应用到了集中交易、君弘等10大核心系统、将linkedaiops的告警降噪功能对接了全量实时告警。linkedaiops作为国泰君安运维团队在智能运维一体化蓝图中智能分析与决策落地的关键一步,会持续和客户一起,不断加深对于场景的理解,优化算法效果,提高当期功能的准确率和易用性。与此同时也会持续在国泰君安提供的广袤平台之上,尝试探索出更多的应用场景,给智能运维带来更丰富的生命力,给客户贡献更大的价值。
linkedsee灵犀是中国市场定位智能运维最早,投入时间最久的厂商,所有初始创始成员均来自百度运维体系,全程参与也见证了百度十年的运维发展经历,深切了解到运维系统从1.0迈向4.0过程中需要的合理路径。灵犀当前的核心团队覆盖了百度,阿里,头条以及ibm,思科等名知名企业的精英,期待能够帮助中国市场的客户,切实高效的拥有bat级别的it运营水平。
此次和国泰君安的合作,也是灵犀三步走智能运维方案的战略构思的最好实践。灵犀也会和客户一起尝试推进更深入的创新及应用:例如linkedaiops在全系统的落地覆盖、基于告警完善后的故障根因自动定位、配套集成chatops工具逐步实现故障处理的全程自动化,帮助客户加速智能运维一体化蓝图的建设,实现故障自愈与无人值守的终局目标。