开源实践联盟通信 2021年 05月10日

自动化运维,开源大有可为

文/邹大斌
运维在走向自动化、智能化是大势所趋,一些运维水平比较高企业现在甚至已经有一些比较好的自动化体系,包括有了成熟的管理流程和一些对应的工具。不过,大多数企业还在摸索阶段,特别是一些传统企业。

近年来,随着科技技术的不断进步,IT广泛地渗透到我们的生产和生活中,“IT即业务”也成为越来越多行业的一个共同特征,IT的重要性不言而喻。与此同时,IT技术演进的速度越来越快,系统的复杂性与日俱增,而运维的预算并没有相应增加,有的甚至只减不增。在这一背景下,自动化、智能化成为IT运维的必然之选,如何实现自动化、智能化成为IT运维人员和CIO必须思考的问题,而开源运维平台以其广泛的适应性、灵活性以及技术先进性备受青睐。

更复杂的IT环境,更少的预算

对今天的IT运维人员而言,要保证系统的可靠运行面临着挑战越来越大。一方面,业务更新和变化越来越频繁,业务对IT的灵活度、可扩展性、交付效率等要求越来越高,另一方面,新的技术不断涌现,新技术在加速创新的同时也对业务的连续性、安全性、稳定性也构成了挑战。面对这些挑战,传统的依靠个人经验、靠人工或者依靠脚本打天下的日子越来越难以为继。

“运维人员要做的事情变多了、变复杂了,业务对我们要求又变高了,同时预算又变少了,如何应对这个问题,的确值得好好去规划。”红帽资深解决方案架构师严兴华告诉至顶网记者。

严兴华是一位资深的咨询顾问,曾在惠普、IBM、埃森哲等多个公司工作,参与众多数字化转型项目的规划,对这个行业的变化深有感触,对IT运维目前的困境感同身受。

他告诉记者,对运维人员而言,最为核心的是要确保企业业务的连续性,而今天要做到这一点变得越来越困难。因为企业业务越来越复杂,为了支撑业务,数据中心变得越来越庞大,数据量越来越多。同时,需求发生的变化频率越来越快,而且业务要求对变化的响应要快。比如,前些年“互联网+”很流行,“互联网+”的核心是把业务互联网化,背后的一个潜台词就是“敏捷”,IT要能敏捷地支持业务的快速变化。

另一方面,这些年IT基础架构也在发生重大变化,在虚拟化、云计算之后,紧接着又迎来了容器化。在普遍容器化的时代,运维模式和传统的物理机时代、虚拟化时代甚至云计算时代都有很大不同。

“今天要监控的对象、要采集的数据和处理手段都发生了变化,要管理的对象变得更多,数据量变得更大。同时,多种IT环境(传统的物理机、虚拟化环境、云计算、容器)并存,使得IT环境非常复杂。”严兴华说。

还有,大量涌现的新场景迫使运维技术和手段必须更新,这些场景包括大数据以及各种人工智能等各种数据分析。在运维面临的种种压力和挑战面临,自动化几乎是必然的选择。

“只有自动化才可以帮助企业解决业务连续性、稳定性问题,才可以应对新技术给运维带来的挑战。”严兴华说。

实际上,今天运维也的确正在走向自动化、智能化,一些运维水平比较高企业现在甚至已经有一些比较好的自动化体系,包括有了成熟的管理流程和一些对应的工具。不过,大多数企业还在摸索阶段,特别是一些传统企业,并没有成熟的运维流程和可靠好用的运维工具。

选开源还是闭源?

作为企业CIO或者IT运维负责人,面对运维当前的困境如何破?严兴华提出了三个建议。首先,要对运维目前整体水平有一定了解,给自己的企业明确一个标杆。其次,对于本企业的运维水平有正确的认知,特别是与同行的对比,本企业处于什么水平。第三,需要选择合适的运维平台和工具。

“其中尤其要注意的是要有全局观点和整体规划,一个常犯的错误就是满足于一个个小的解决方案,比如写一个脚本解决一个问题。” 严兴华提醒说。

合适的工具和平台是确保自动化运维成功的关键。目前,有两大技术方向,即开源和闭源,如何选择也是不少企业面临的一个困惑。作为一个运维行业多年工作经验,并且在开源(红帽)、闭源(IBM、惠普等)都有过工作经历的资深从业者,严兴华的观点是,到底该选开源还是闭源并没有绝对的答案,合适的才是最好的,但企业在决定之前一定要对这两类平台的优缺点有全面的认识。

一般而言,闭源产品和方案具有如下特点:第一,功能比较多,比较全面,但模块关系比较复杂,架构比较重;第二,如果企业已经部署了一些工具,一般不太好与它们进行整合,大概率要放弃原来的工具。

“闭源产品往往功能很全,几乎是面面俱到。到落地时候如果客户有新的个性化需求或一些功能需要扩展,或者是业务发生变化的时候需要对软件进行调整,会比较困难。”严兴华表示。

另外,闭源产品更新迭代周期非常长,基本上就是小版本也要半年,大版本可能2-3年,稳定性是不错,但是这些年技术更新得非常快,很容易出现运维平台从上线的第一天就落后,这也正是很多闭源软件厂商逐渐被市场淘汰的原因之一。

第三,部署周期比较长,价格也比较贵。当然它也有它的好处,就是针对一些大型企业,它的大而全能全面匹配这些企业的需求。

而开源在这些方面的表现完全不同。今天的开源工具几乎都采用了最流行的技术,广泛采用分布式、轻量级、模块化的架构,支持快速横向扩展。比如开源的自动化工具Ansible就是如此,其不仅功能多,同时迭代也非常快。而且,对于开源产品,用户拥有更大的自主权和灵活性,结合其模块化的架构,稍微调整就能快速投入使用。另外,不少开源产品采用非侵入式部署,部署后对企业原来的运维体系不会产生太大的影响,而且上线周期可以非常短,

同样,开源也有不足。比如,开源软件对使用者技术能力要求比较高,学习曲线比较陡,易学难精,虽然很快可以用起来,但用好需要求助于社区或者自己要投入比较多的时间。使用中一旦出了问题,没有人来兜底。另外,开源软件还有一个通病是,由于来自国外,其设计主要基于国外用户的使用习惯,对于中国用户不太友好。

让更多人从开源软件中受益

开源的运维平台具有诸多优点,同时缺点也是实实在在。问题的关键是如何扬长避短,让开源的运维平台或者工具能为我所用。实际上,在业界共同努力下,特别是有像红帽这样的开源公司的存在,开源平台的挑战正在逐步得到解决:因为市场上出现了一些基于开源软件来构建一站式的解决方案以及相关的咨询和技术服务,从而大大降低了开源软件的门槛。

红帽的OPlus就是一个面向运维市场的插件。严兴华介绍说,OPlus基于自动化运维工具Ansible构建。它有几个特点:首先,它是非侵入式,不需要对企业已有运维架构进行任何调整,也不用在服务器上部署探针,开箱即用。其次,OPlus把执行工作交给了Ansible,而自己侧重在UI,侧重在数据的集成,克服了传统开源工具对用户不太友好的问题。第三,OPlus支持二次开发,方便运维人员进行优化。

“OPlus不是在Ansible上套个皮,OPlus还是一个运维开发平台,运维人员可以在此上自主开发。而且红帽已经给大家准备好了很多常用的功能模块,类似积木,运维人员可以按照自己的需求进行组合,来满足日常的大部分运维需求。”严兴华说。

另外, OPlus支持可视化的拖拽式开发。OPlus把功能做成了API,通过API快速调用,通过统一的接口屏蔽了各个不同平台或者不同对象间的差异。

更值得一提的是,红帽在OPlus中内置了针对RHEL、CentOS的安全、合规、性能等70多个巡检常用的指标,可以帮助客户快速发现问题提前做预防。这是客户比较喜欢的功能之一。同样,客户比较喜欢的还有补丁管理。Ansible不止是针对红帽的产品,也支持对其他一些开源软件进行补丁管理。另外,还有权限和密码管理也是比较贴心的功能。

据悉,OPlus已经拥有众多用户,某博彩娱乐公司就是其中之一。该公司业务众多,导致IT系统非常复杂,裸金属服务器、虚拟化、容器并存,同时,多个业务也导致网络环境非常复杂,以前一直是各个业务单独进行运维管理。更有挑战的是,博彩业对实时性要求很高,这些都对运维工具提出了很高的要求。在红帽的支持下,该公司部署OPlus,实现了10多万台服务器的统一纳管,大大提升了管理效率,为其业务提供了可靠的支撑。

当然,红帽不止是提供运维工具和平台,为了帮助客户彻底解决运维烦恼,红帽还提供相关咨询服务。严兴华介绍说,红帽有一套成熟度模型,通过这个模型客户可以从多个维度对企业的运维水平进行评价,了解自己在各个维度里面自动化水平是怎样的,自己跟业界以及和期望的目标差距有多大。基于红帽再和客户一起制定出一个解决方案。

“这个解决方案包括整体提升计划,要补充哪些工具,哪些工具要做调整和优化,以及各个工具之间如何去做贯通和整合等。”严兴华表示。

当然,自动化只是提升运维水平的一个步骤,运维最终会走向智能化,特别是近年来随着AI技术的进步,AIOps非常热。对此,严兴华表示,AIOps的价值大家非常认可,现在的问题是如何让AIOps落地。

“对于红帽而言,我们会通过Ansible来保证所有的执行可以平滑的,不会出现任何差错。同时,红帽也会和企业、大学或者研究团队一起,同时借助红帽全球和开源社区的力量,共同探讨AIOps在哪些场景更好落地,以期间让AIOps真正赋能客户,来更好地支持业务,支持企业的数字化转型。”严兴华说。

《数字化转型方略》杂志 《数字化转型方略》杂志