开源实践联盟通信 2021年 10月25日

解锁自动化运维的「正确姿势」

文/郝伟静
1987年,就已在我国最早开通移动电话业务的广东移动,目前已建成全球规模最大、结构最为复杂的全业务移动通信网络,但在5G网络高速建设时期,网络运营同样也面临复杂化、难度大、成本高等挑战,广东移动亟需向数智化运维模式转型。

去年,短视频《后浪》作为网络话题火爆网络,视频中,演员何冰激情演讲,以“后浪”称呼新一代青年人,他们散发的光芒,是时代前方的希望。不过,正所谓“长江后浪推前浪,浮事新人换旧人”,“后浪”也在不断冲击和取代“前浪”。因此“后浪”也就具备了多一层含义:想要不被超越,就得躬身入局。

在数字化转型的这波浪潮中,“前浪”企业要想不被“拍死在沙滩上”,就要积极投身探索与实践,广东移动也是其中一员。

1987年,就已在我国最早开通移动电话业务的广东移动,是我国信息通信行业中规模最大的省级公司。这家已建成全球规模最大、结构最为复杂的全业务移动通信网络,但在5G网络高速建设时期,网络运营同样也面临复杂化、难度大、成本高等挑战,广东移动亟需向数智化运维模式转型。

广东移动云资源池运维主管冯旭瀚分享了他们的自动化运维经验。作为万事开头难的第一步,企业首先要有明确规划,评估运维效果,当然除了显而易见的技术问题,在整个项目实施过程中要特别留意那些隐藏在“冰山之下”的潜在或者未知风险,如人员个人能力、流程等。他认为一个在自动化领域专业的服务团队非常重要。

谈实践、挑战和经验

记者:任何软件的开发与使用一定少不了IT运维,少不了安全稳定的运行环境,广东移动推动自动化运维工作的初衷是什么?是在什么样的背景下启动这样一项工作的呢?

冯旭瀚:从整个的技术选型上来说,广东移动运维自动化开始得比较早,有十年左右的时间了,从最早的脚本为主逐步进行工具化,通过平台化实现整个自动化。广东移动整个公司数字化转型的技术核心能力,就是自动化能力,这需要高度标准化,通过这种脚本的快速执行大规模操作,保证系统更安全。运维自动化、智能化转型以及降本增效的业务目标是企业无法绕开的话题。

最近几年,云环境下的业务需求特点是变化迅速,包括产品线增加以及整个云资源池运维对象的扩大,给我们整个运维工作都带来了很大挑战,通过自动化工作实施提高我们的自动化成熟度,这就是我们实行自动化运维、向智能运维发展的初衷。

记者:对于自动化运维项目此前有何预期,是否达到了预期?现在取得了哪些效果?

冯旭瀚:预期肯定是希望不断提升我们自动化的能力,无论是广度、深度,还是优先度,最终是希望可以早日实现智能运维,也就是现在所说的AIOps。

从每一年阶段性的发展来讲,降本增效也是我们一直想要达到的预期,通过自动化提升了工作效率、提升了工作质量、减少了人工犯错的成本、释放了劳动力,我们逐步推进实现了部分预期,甚至可以说有部分超出了我们的预期。

举个例子,日常中我们可以通过自动化平台进行自动化的补丁管理,提升补丁分发、安装、部署的效率,同时红帽的插件工具能够提供比较友好的人机交互界面,方便我们统计分析历史数据,整理运维报表,我们都可以实现自动化、可视化,减轻这种高度重复类的工作,从而大大节省人力,提高效率。

记者:你们选择了什么技术来实施自动化运维,选择的原因是什么?

冯旭瀚:在当时选择自动化运维工具时候,我们考虑到会有很多因素,包括整个技术以及产品的优缺点,可扩展性、可维护性、兼容性、稳定性等要求。种种考虑之后,我们注意到了红帽有一个Ansible开源工具,它的整个技术架构在业界是被广泛高度认可的。本身Ansible是比较轻量级,对整个操作系统和设备属于非入侵式,正好我们已有的技术可以实现快速兼容,我们就通过引入红帽平台作为自动化运维工作的有效补充。

记者:自动化运维这个项目在进行过程中是否遇到了什么挑战?有什么值得分享的经验或者教训?

冯旭瀚:我很高兴可以和大家分享一下我们在实现自动化运维过程中的一些经验和亮点。

企业的自动化转型做得怎么样?有什么短板需要补?接下来怎么继续做?大家刚开始或多或少都会缺少明确规划,也不知道如何评估运维效果,所以第一点我建议大家开始的时候可以结合业界的经验或专家的建议,制定好规划,再一步步实现自动化运维目标。

第二个点,技术问题我们可以看得见的“冰山之上”的问题,但整个项目实施过程中,一些其他问题隐藏在“冰山之下”,有潜在或者未知风险,却比较容易被忽略。例如,“藏”在技术环境下,“藏”在团队中,还可能存在于人员能力、流程、实际自动化操作中。因此大家需要找到一个在自动化领域比较专业的服务团队,比如像红帽服务团队这种比较专业的团队,我们也和他们一起合作去做自动化运维的事情。

谈自动化运维和智能运维

记者:您怎么看待DevOps?

冯旭瀚:DevOps是一个运维开发一体化的理念,除了所说的DevOps工具,还包括开发测试、交付、部署、运维的流程,更多也是代表一个企业文化、组织架构。

广东移动一直高度关注DevOps,也进行了一些实践。譬如,2019年10月,广东移动获得了由当时中国信息通信研究院颁发的研发运维一体化DevOps标准的能力模型证书,我们达到了三级,在国内是属于领先水平。

记者:您怎么看待自动化运维和智能运维之间的关系?

冯旭瀚:我认为自动化运维和智能运维之间的关系,是相辅相成,缺一不可的。自动化运维的下一步阶段,更加偏向于智能运维,结合人工智能技术或者是智能算法分析得出决策,再通过一些自动化方式来执行这个策略。

记者:DevOps与自动化运维之间是否有关联?

冯旭瀚:对整个团队来说,带来的改变最大在于运维效率的提升,还有降低人力,运维最终境界,智能运维的设想从运维角度来说实现无人值守的目标,通过这个平台就可以实现故障自愈、故障预测的发现。

记者:在运维工作方面,您有哪些计划目标?

冯旭瀚:运维工作下一步计划是往智能运维方向去进行研究和发展建设,在这个过程中还会继续针对现在的运维自动化工具或者这个平台去继续打磨它,让它变得更加完善,把整个自动化运维水平再把它继续提升,为下一步智能运维能力去打造这种更加坚实的基础,这是我们下一个阶段的目标。

《数字化转型方略》杂志 《数字化转型方略》杂志