开源实践联盟通信 2021年 03月25日

AIOps“入坑”之前必须了解的知识

通过本文介绍的五个基本步骤,企业有望充分发挥AIOps的强大威能,由此构建起更易于运营、且使用感受更为友好的自主运行网络体系。

AIOps凭借着强有力的表现在行业中引起广泛的关注与支持,已经有充分理由证明,AIOps也许将为我们开启一扇新的大门,在AI的支持下高效发现并处理基础设施运营领域的种种常见问题。

AIOps(人工智能与运营)是指在IT运营当中引入AI算法,借此解决网络当中不断增长的数据与复杂性难题,同时缓解IT预算紧张带来的长期压力。AIOps解决方案与谷歌地图或者Uber的出行价格预测模型采用相同的机器学习与高级分析技术,能够帮助IT部门在用户感受甚至意识到故障之前,就抢先完成预测与基础设施修复。

在这样的AI自主修复网络当中,用户将享受到稳定的性能体验,企业不再需要为了“维稳”而投入大量宝贵IT资源。AIOps在保障无线网络运行速度与可靠性方面的表现尤其突出。时至今日,Wi-Fi已经与供水、供电与照明等基础保障系统一道,成为我们日常生活中必不可少的一部分。而在这个高度移动性、应用程序驱动型时代下,企业也开始以无线网络为基础设计并构建面向消费者及内部员工的服务组合。因此,无线网络连接必须比以往任何时候都更加可预测、可量化且易于管理。

换言之,企业需要对流经无线网络的PB级数据建立起更好的可见性,并根据由此获得的洞见实时、主动甚至自动调整其基础设施,避免故障及性能优化问题影响到用户体验。企业如何利用AIOps作为这种新型自主运行网络的实施基础?我们不妨从以下五项优先事务出发。

第一,选择真正的AI解决方案。与自动驾驶汽车及医疗诊断系统中的AI系统一样,IT运营领域的真正AI方案必须能够随时间推移而不断分析更多数据,借此提升自身智能水平并持续增强其自动监控并修复网络问题的能力。

目前市面上不少AI解决方案,在本质上只是一种花哨的数据收集或数字运算产品。它们虽然能够高效收集并分析统计数据,但实际使用的底层AI技术与自动驾驶汽车等并不相同。因此,企业需要认真考量选定的AIOps平台,保证其中包含以下要素:1、数据管道:支持从多种数据源处获取数据;2、AI原语:向数据当中添加特定领域专业知识的能力;3、数据科学算法库:在工具箱中提供深度学习选项;4、易于上手的用户界面:只有可供业务员工快速使用的解决方案,才是实现数据科学大众化的可行载体;5、对CIO们来说,了解不同平台之间的差异并制定出将AIOps纳入网络自动运行策略将非常重要。

第二,数据协调。高质量的AI模型离不开清洁的集成化数据。AI系统需要分析数据并从中学习种种特征,而如果遍布企业内部的WLAN、WAN、路由器、防火墙等要素之间无法实现数据共享与关联,我们将永远得不到准确可靠的模型方案。因此,企业必须消除整个IT堆栈内的一切数据孤岛,将多种不同系统整合成统一的数据共享整体。

第三,建立正确的技能储备。AIOps对于IT人员代表着一波重大变革,从配置框命令行界面、到用于从数据中获取洞见的API编程模型,都在挑战内部员工的以往工作习惯。在传统上,大多数网络管理员的主要培训内容都集中在配置硬件方面。但对AIOps来说,这还远远不够。员工们需要掌握更广泛的技能,从各类设备中获取数据,并将其转化为通用且可互操作的格式以供AI系统使用。

CIO及其他企业高管当然需要了解其中的区别,并在招聘、任用与再培训等方面做出相应调整。总而言之,没有强大的开发技能作为基础,AIOps永远发挥不出应有的作用。

第四,了解AIOps与分布式软件云架构之间的密切联系。

人们所熟悉的第一代云托管端点技术,在本质上是由采用嵌入式软件架构的本地控制器所组成。虽然这种结构能够让无线网络的部署与管理变得更为轻松,但未来的自主运行网络更需要分布式云软件架构的支持,由此保证我们可以随时添加新的AI模型。

从这个角度看,希望采用AIOps的企业需要推广分布式微服务架构,允许在网络的各个层面应用新的算法,借此实现跨部门可见性并快速实现维修与新功能。

第五,拥抱云计算。虽然企业在销售、人力资源、财务及其他业务领域已经开始积极引入云要素,但网络层面的云升级速度一直比较迟缓。CIO们必须意识到,云是AIOps的最佳搭档。云计算能够提供极具可扩展性的基础设施,用于从无线网络数据当中提取并推理出可行洞见。

通过这五个基本步骤,企业有望充分发挥AIOps的强大威能,由此构建起更易于运营、且使用感受更为友好的自主运行网络体系。

《数字化转型方略》杂志 《数字化转型方略》杂志