开源实践联盟通信 2021年 10月25日

兴业证券「现身说法」:谈云原生时代技术架构和运维的「解题技巧」

文/郝伟静
身处金融科技比拼较量的重要阵地之一的企业一线开源实践者兴业证券,它自然了解其中的规则——从数据中心到云平台,再到最上层运维全方位技术改革,兴业证券用自身搭建新一代数字基础设施的成功实践现身说法,特别是如何构建容器云平台、实施AIOps等。

有人说,互联网时代所有行业的宿命,是披着传统行业的外衣,内里是朝着科技公司进化变异的物种。

你以为星巴克只是卖咖啡,其实它已经把科技看得比卖咖啡还重要,利用数字科技拓展全球业务的版图;你以为达美乐只是卖披萨,但是它最大的部门不是研发部门,不是营销部门,而是IT部门……科技和传统行业之间的界限,已经越来越模糊。我们熟知的传统行业,其实都是科技公司。

其中,被影响最深刻的行业之一,还属金融业。身处金融科技比拼较量的重要阵地之一的兴业证券,它自然了解其中的规则——从数据中心到云平台,再到最上层运维全方位技术改革,兴业证券用自身搭建新一代数字基础设施的成功实践,特别是如何构建容器云平台、实施AIOps等实践现身说法。

兴业证券信息技术部副总经理王玥表示,兴业证券一直将数字化转型战略置于集团战略的高度,作为企业一线开源实践者,兴业证券将持续保持对IT建设的高水位投入和前瞻布局。

谈三大挑战和三大抓手

记者:兴业证券面临什么数字化转型挑战,落实到信息技术部门,对信息技术部门提出了什么诉求?

王玥:过去五年,我们明显感受到以数字化和智能化为特征的新技术发展正在推动着企业整个信息技术体系的变化。过去IT部门的定位是助力业务发展,而现在的定位是引领业务发展,技术体系更是朝着数字化和智能化场景转变。

从我们自己的角度来看,能够清晰感受到三个挑战。第一,证券行业历来是对风险和监管要求比较严格的行业,在这种态势下,我们一方面要保障系统安全稳定运行,另一方面又要做到业务创新、系统敏捷,在这两个之间权衡有一定的挑战。

第二,云计算是整个金融科技发展的底座,正不断影响着我们上层的应用架构,对于证券公司来讲,也需要深入研究并且充分发挥云原生架构的效能,来支撑企业业务快速创新。

第三,云原生技术体系比如微服务、容器应用快速迭代,其交付的敏捷模式越来越普遍,架构也越来越复杂,这种情况下,过去依赖个人经验和手工操作的传统运维模式,在敏态的状态下行不通,因此我们的运维模式也进行了转型。

针对这种情况,兴业证券经过充分调研,我们也做了“十四五”金融科技发展规划,提出了”数智兴证愿景“,在全面推进集团数智化转型,以强保障为基石、以超融合为抓手、以促发展为主线,重点打造金融科技、财富管理,机构服务三大业务生态,目标是提升三项核心能力,分别是数智化客户服务能力、数智化风险管理能力和数智化运营能力。

记者: 面对上面这些诉求你们确立哪些重点工作?是基于什么考虑?

王玥:数智化基建是整个金融科技发展的基础支撑平台,这个平台上我们重点会朝三条主线发力,一是数据中心的建设,我们参考了一些国际标准和行业实践,重构了整个企业架构,完善了整个系统的可用性设计和灾备格局,大幅提升了基础设施的性能和容量,以期支撑集团未来5-10年的业务发展需要。

具体来看,我们现在在福州、上海两地建设了双活的数据中心,所有的重要系统我们在异地做了同等规模部署,在新的架构下,每个数据中心都可以独立支撑集团重要业务系统的连续稳定运行,这是我们第一条主线。

第二条主线是云原生的生态建设,云计算已经成为了国家数字经济发展一个重要的基础,我们兴业证券也一直在拥抱云计算的浪潮,在云原生架构里我们以容器化还有微服务为抓手,在分域建设,生产云、测试云、托管云、数据库云,还有生态云为核心的云原生体系,这是“五朵云”。由过去的单点突破走向整体效能的提升,整体推进集团的云计算建设。

第三个抓手是一体化智能运维体系建设。集团的整个研发体系,包括业务支撑能力都是在朝着敏态转型。

过去,集团遵循传统的IT运维管理规范,结合 ISO20000 国际先进管理理念,它有好的一面,但是它也急需要跟上金融科技的发展,特别是数字化进程的加快,带来运维管理压力的提升。因此集团全面重新规划运维管理体系,以“监、管、控、析、营”为主线推进运维管理的转型。

总的来讲,我们重点落地是三大抓手,一是数据中心建设,二是云原生生态建设,三是一体化智能运维体系的建设。

谈云原生建设五大思路

记者: 容器云作为云原生生态建设的核心,你们选择了哪个技术平台来搭建,为什么选它?

王玥:数据中心给技术体系带来了变革,大幅提升了整体能力,让研发和运维人员都能够更好更快掌握整个应用的生命周期,能够以代码化、工程化方法来设计、创建、管理、控制,甚至度量我们整个应用系统。

从我们兴业证券自己的容器云选型过程来讲,我们确实经过了大量技术调研,了解同业使用的平台使用效果,我们也选取了多家容器云产品做了长达半年的 POC 测试对比,最终我们还是红帽OpenShift作为我们的技术平台来建设容器云。

之所以选择了红帽主要是考量了几点,一是OpenShift是一个企业级产品,在功能全面性、稳定性和安全性方面我们觉得是有保障的,而且确实也有比较多的同业案例支撑,平台也提供了很强的扩展性。

另一方面,我们看重了红帽的服务能力,从证券公司角度来说,我们还是非常需要供应商能提供很好的服务能力,与我们一起协同,共同发展。

基于这两点,我们选择了红帽的OpenShift,整个项目实施过程中也比较顺利,印证了我们前面的一些考量点,实施过程中一些知识传递、培训、最佳实践服务确实都发挥了很大作用,帮助我们少走了弯路,对我们整个云原生体系建设还是非常有帮助的。

记者: 容器云建设过程中是否遇到了挑战,如果有,如何解决的?

王玥:大家做每一件事都希望找到窍门,看前面的是怎么走过来的,希望少走一些弯路,但其实还是要一步一个脚印走下去,该踩的坑大概率还是要踩。

总体来看,容器云确实对传统的架构有较大改变,它对应用的研发、测试、发布、运维的各个阶段,涉及到各个人员的角色都会有不小的变革。只有文化理念和知识的认同与同步,才能享受到它带来的技术变革,因此对整个团队的知识传递和培训是必不可少。其次,企业要选择合适的合作伙伴来推进工作,帮助企业尽可能在这条路上走得顺畅一点。

记者: AIOps是你们的又一个工作重点,你们是如何落地AIOps的,取得了哪些效果?

王玥:AIOps之所以成为我们的工作重点,主要是因为我们一直试图在平稳运行和创新之间找平衡,希望“两手都要抓,两手都要硬“。

现在我们的技术架构越来越复杂,快速迭代开发模式越来越普遍,我们期望用AIOps的转型来应对传统运维模式的挑战。我觉得建设AIOps的主要思路有五点,即监、管、控、析、营。

分开来讲,“监”就是我们所说的监控,这是整个运维能力的基础。企业时刻要提升对于系统运行的感知能力,“监”重点的目标是统一指标,覆盖全面,从基础设施层、中间件层、应用层、业务层分层构建整个统一监控体系,通过监控体系标准化提高覆盖面,解决整个系统运行态势的感知能力提升问题。

二是“管”,核心是规范化,即企业如何管理整个运维体系。一方面要坚持ISO2000体系下传统的稳态,但同时我们又会进行CMDB平台建设、ITSM平台建设,把整个信息技术的各类资源统一纳管起来,同时规范各类的流程,包括变通、事件、问题和SLA等等。

三是“控”,也就是自动化。我们希望用应用商店方式,让运维人员可以在整个运维平台上找到他们适合的工具,或者也可以编写相关脚本和工具,经过审核发布到平台上成为整个自动化运维平台能力的一部分。这个平台经过持续建设和迭代会越来越成熟,越来越流畅,让越来越多的工作通过自服务的方式来实现。

四是“析”,也就是分析。我们利用运维大数据平台把监控类、日志类、自动化类、流程类、知识类等各种数据进行汇总,通过机器学习的算法分析和挖掘,应用于各类的智能运维场景,比如说异常指标检测、难点问题分析等,从而降低运维人员使用自动化能力的门槛,提升智能化水平和效率。这个过程中我们不指望智能化能解决一切问题,可能最终20%的工作还是要人来做,不过我们希望通过智能化帮助又快又好解决80%的工作。

最后是持续运营,我们明白“罗马不是一天建成的”,整个智能运维体系也不可能一年就会建好,它永远是一个持续运营、迭代优化的过程,集团的目标是经过2-3年的发展,让大家再上一个台阶,只要这个方向对的,我相信通过持续迭代未来肯定能达到比较好的远景。

《数字化转型方略》杂志 《数字化转型方略》杂志