数字化转型方略 第18期 2021/12/31

深度:Nvidia如何借助AI赢得数据中心博弈

Nvidia在数据中心市场大获全胜的大门是敞开的,即使没有Arm,我们认为Nvidia也要比其他公司更有能力满足企业级技术的未来需求。

Nvidia希望给企业计算带来一场彻底的变革:让数据中心运行速度提高10倍,而成本将至1/10。

Nvidia首席执行官黄仁勋正在打造一项战略,重新构建现有的本地数据中心、公有云和边缘计算环境,他提出了利用Nvidia在人工智能架构中强大地位的愿景。而这项端到端战略的关键,在于要有一个清晰的愿景、大规模的芯片设计能力,以及集成了内存、处理器、I/O和网络的基于Arm的新架构,还有具有吸引力的软件使用模式。

我们相信,即使现在Nvidia还没有完成对Arm的收购,它仍然能够通过积极参与Arm的生态系统来执行这项战略。而如果成功收购,我们相信Nvidia将能够把这家全球最有价值的芯片公司,变成为全球最有价值的集成计算架构提供商。

在本文中,我们将解释为什么我们认为Nvidia在为全球计算中心提供动力方面处于有利地位,以及Nvidia是如何计划打破几十年来英特尔x86架构在数据中心市场中的统治地位。我们还将分享一些把AI支出和竞争格局融入在内的Enterprise Technology Research调研数据。

转型中的数据中心市场

超级云很少,但数据中心却很多。据IDC称,尽管全球数据中心正在经历整合,但数量仍然超过700万个。像宇宙一样,云扩展的速度越来越快,数百万个数据中心通过互联网相互连接。这种新型云正在变得与越来越超级分布式,并且是由软件运行的。

开放API、外部应用、庞大的数字供应链、不断扩大的云,让全球各地数据中心内那些最敏感的信息面临越来越大的威胁面和脆弱性。零信任似乎在一夜之间从流行语变成了强制要求。

我们还看到,AI正在融入到每一个应用中,新冠疫情期间我们看到这个领域发生了翻天覆地的变化。我们相信,为人工智能提供动力的架构,将成为Nvidia强势进入数据中心市场的关键。

我们相信,这个新世界不会完全由通用的x86 CPU所统治,而是会得到Arm厂商生态系统的支持,这些厂商正在影响着处理性能的空前提升。

在我们看来,Nvidia正处于领先地位,正在成为统治着全球数据中心、公有云、近端和远端计算架构新时代的宠儿。

黄仁勋的清晰愿景

下面这张图突出了Nvidia首席执行官黄仁勋希望扩大市场的一些基本假设。首先是数据中心存在大量浪费情况,他认为,如今部署在数据中心的CPU核心中只有一半被真正用于支持应用运行,而另一半是围绕着运行软件定义数据中心应用处理基础设施的,CPU核心的利用率严重不足。

分析师Zeus Kerravala在一篇博客文章中,将Nvidia Bluefield-3 DPU描述成一个完整的卡上迷你服务器,内置了软件定义的网络、存储和安全加速。Nvidia声称,该产品的带宽足以替代300个通用x86核心。

黄仁勋认为,每个网络芯片最终都将是智能的、可编程的,能够执行这种加速并将计算从传统CPU上卸载下来。他认为,每个服务器节点都将具有这个能力,让每个数据包和每个应用始终受到实时监控,以防入侵。随着服务器迁移到边缘位置,Bluefield将变成其中一个核心组件。他说,每年出货2500 万台服务器,这就是他的目标。

在我们看来他说的最后一句话是关键:“人工智能是我们这个时代最强大的力量。”不管你是否同意,AI都与其密切相关,因为AI是无处不在的,而Nvidia在AI领域的地位以及正在打造的架构,是其数据中心和企业战略的基本核心。

AI是最高优先级支出项

让我们来看看ETR的数据,看看AI在CIO们的优先级列表上处于什么位置。下面这组数据采用了我们经常喜欢分享的视图方式。横轴是市场份额(或者说ETR定义的普遍性),但我们想提醒的是重点关注纵轴,也就是净分数(Net Score),或者说支出速度。

疫情过后我们看到,AI在最近两次调查中占据了第一的位置。我们认为,随着AI成为数字化转型和自动化的一个主要事项,这种趋势将持续很长一段时间,AI将融入到你在这张图表中看到的每个点。

Nvidia的架构是为AI工作负载量身打造的,上图中几乎每个部分都将使用Nvidia的技术。

工作负载正在涌向Nvidia

让我们来量化一下,说说我们认为Nvidia是如何在企业级市场中借助Arm的力量。

上图中显示了来自Wikibon Research的预测,展示了按工作负载类型划分的全球服务器基础设施支出百分比。以下是一些要点:

  • 去年市场规模约为780亿美元,预计到这个十年末的时候将接近1150亿美元,而且这个数字可能是比较保守的。
  • 我们把这个市场分为三大工作负载类别:蓝色,是我们定义的AI和其他数据密集型应用;橙色,是ERP、供应链、HCM、协作等通用型应用,基本可以认为是来自Oracle、SAP、微软的应用,以及数百个通用应用;灰色,是黄仁勋所谓的“浪费周期”,这部分卸载了网络和存储、以及全球数据中心中所有软件定义管理的工作。
  • 我们的观点是,随着投资转向AI+工作负载,并且卸载的部分转向了嵌入存储和网络解决方案中的替代处理器,通用工作负载正在受到挤压。后者让我们想起了旋转型磁盘驱动器,多年来,企业组织被迫购买越来越多的盘片和未被充分利用的存储容量,只是为了获得更高的性能。这种做法既浪费又低效,最终出现了新的技术解决这个问题。
  • 在我们看来,Nvidia和Arm都处于有利地位,可以攻击这个卸载部分的市场,从逻辑上讲,就是基于AI的工作。但即使是橙色通用应用中的一部分,也可以采用基于Arm的系统。例如,AWS和Oracle都采用了基于Arm的设计来服务于通用型工作负载。

    为什么这样做?答案就是,成本。因为通常上x86(特别是英特尔)并不能提供所需的性价比和效率来满足需求,从而降低数据中心成本。因此,这些公司正在与独立软件厂商展开合作,确保通用型应用可以运行在基于Arm的处理器上,而无需客户进行任何更改。

    思考练习:如果英特尔不回应会怎样?

    如果英特尔对这一明显的趋势不作回应的话,我们认为到2030年之前,英特尔只能赢得50%的通用工作负载。而Nvidia,将主导蓝色的AI+和灰色卸载部分,也就是赢得90%的市场。

    现在显然英特尔不会坐以待毙让这种情况发生的。英特尔首席执行官Pat Gelsinger很清楚这一点,他正在英特尔推行一项新的战略,更好地管理内存资源并且适应生态系统的卸载处理和更高可编程性。但是在这场竞赛中,目前Nvidia和Arm还是遥遥领先的,而且Nvidia扩大了与存储领导厂商的合作,例如NetApp、DataDirect Networks、VAST Data、WekaIO、Pure Storage等,我们认为,这将与Nvidia的部分产品组合战略保持一致。

    Nvidia不再是一家游戏公司

    Nvidia最早是一家游戏公司成名的,即使在今天Nvidia也有近一半的收入来自游戏市场。如果你找一些游戏玩家,问问他们对Nvidia 的看法,他们会侃侃而谈Nvidia那令人难以置信的性能、惊人的驱动、更流畅的色彩、更清晰的图像呈现、出色的资源分配、以及屏幕录制等一系列功能。他们唯一不完全喜欢的是高昂的价格——这是个很好的问题。

    但是Nvidia通过进军企业级市场扩大自身所覆盖的市场规模。下面就让我们快速浏览一下我们认为与本文讨论主题相关的Nvidia企业产品组合战略。

    上面这张图来自Nvidia的投资人幻灯片,阐述了Nvidia的三芯片战略。重要的是,Nvidia正在积极转向基于Arm的架构,这一点我们将在后面详细介绍。幻灯片中的第一行是Nvidia Ampere架构(注意不要与Ampere Computing公司混淆了)。显而易见,Nvidia正在采用以GPU为核心的策略(这也是Nvidia的优势),但我们认为随着时间的推移,Nvidia可能会重新考虑这一点,并出于成本和灵活性的考虑,更多地考虑体现多样化的替代选择,例如NPU。但这个还是留到以后吧。

    第二行,Nvidia推出了Grace CPU,向知名计算机科学家Grace Hopper致敬。Grace是一种新架构,不依赖于x86,可以更有效地使用内存资源。

    最后一行是Nvidia Bluefield DPU路线图,正如Zeus Kerravala所描述的,它本质上是一个完整的卡上服务器。

    最后一点非常重要,但经常被忽视。采用Arm架构将把从芯片设计到生产的时间缩短50%,也就是说,时间会从数年缩短到18个月或者更短,这将让Nvidia企业级市场中占有产品快速上市的优势。

    押注AI工作负载 赢得领先优势

    在这里我们不打算深入探究Nvidia的企业产品组合。如果你有兴趣,网上有很多信息。但是,我们认为下图突出了在我们看来很重要的一些事情,与Nvidia的端到端战略有关。

    上图显示了Nvidia Jetson架构的一部分细节,该架构旨在加速上述蓝色的AI+工作负载。我们认为这很重要,原因是同一个软件可以支持小型一直到大型系统,还包括边缘系统。我们认为这种架构非常适合边缘的AI推理以及使用AI的核心数据中心应用。所以这是一个很好的例子,通过一个架构覆盖了很大的性能和成本范围,这对Nvidia来说是有利的。

    尤其是与边缘工作负载有关联的时候,我们认为目前传统服务器厂商正在错过一个更大的机会——主要是因为目前这个市场规模还较小,无法证明投资该市场是合理的。这些厂商正在贴近他们的客户,并与工业巨头建立合作关系,找到途径重新将他们现有的x86架构投资投入到他们看到的认“边缘”位置。

    我们认为,他们很大程度上是把边缘视为小型数据中心或者数据聚合点。他们希望大规模提供横向基础设施,以利用他们的运营杠杆。他们很小心谨慎,不要过于深入“边缘”,不要过于深入专业应用。

    我们认为,Nvidia和Arm看到了更大的格局。当有厂商抛出TAM数据,即边缘价值将达到数万亿美元时,真正的机会在于边缘深处的实时AI推理,这将需要大量的处理,而且看起来不像传统x86服务器。这些服务器节省空间、低功耗、紧密封装或者是嵌入式的、高性能、可编程、且超便宜。我们认为这就是Nvidia和Arm希望的发展方向。

    Nvidia联手Arm解决了最大的技术瓶颈

    我们想花点时间解释一下,为什么我们认为转向基于Arm的架构对Nvidia来说如此重要。

    目前Nvidia面临的最大成本挑战之一是保持GPU的利用率。通常GPU的利用率远低于 20%。上图试图解释其中的原因。

    想象一下,图表左侧显示了传统计算机架,突显了Nvidia面临的瓶颈。处理器和DRAM在不同的块中捆绑在一起。想象一下,一个机架中有数千个核心,每次当系统需要保存在另一个处理器中的数据时,就必须发送请求,请找回这些数据,这个过程开销很大。RoCE等技术可以提供帮助,但这并不能解决基本的架构瓶颈。

    因为如底部左侧所示,每个GPU都有自己的DRAM,必须与处理器进行通信才能获得所需的数据——也就是说,GPU彼此之间不能有效地相互通信。

    面向未来的架构

    右侧显示了Nvidia的发展方向。从中间的片上系统(SoC)开始,CPU和NPU、IPU(图像处理单元)以及XPU(其他替代处理器),这些都与SRAM相连,SRAM作为一个高速层,例如L1缓存。内部是SoC的操作系统,也是Nvidia发挥杀手级新定价模型作用的地方。

    Nvidia正在对这个操作系统采取售卖许可的模式,该系统实施了一种全新的、真正引人注目的软件订阅模式,与企业买家购买软件的方式越来越保持一致。理论上说,Nvidia甚至可以免费赠送芯片,只对软件收费,就像剃须刀模式一样。

    右侧外层是DPU和共享DRAM及其他资源(例如Ampere Computing——这次是这家公司了——以及CPU、固态组件和其他资源),这些处理器将共同管理SoC。

    这一设计是基于Nvidia使用了Bluefield DPU的三芯片方法,采用了Mellanox网络。该网络支持跨CPU共享DRAM,最终将全部基于Arm。Grace位于SoC内部,也位于外部。当然,GPU以缩小版本(例如,渲染型GPU)的形式存在于SoC内,外层是一些GPU,以及用于 AI 工作负载的一些GPU——至少近期的情况是这样的。我们认为最终这些GPU可能只会存在于SoC内部,但只有时间能证明一切。

    所以正如你所看到的,Nvidia正在采取一系列重要决策,与Arm合作、倾向于Arm生态系统。这就是Nvidia计划大幅提升其解决方案效率、减少对x86的依赖、支持之前我们提到的新型AI工作负载的途径。

    谁在争夺计算领导者位置?

    下面是同一张XY图表,显示了市场份额,或者说反应普遍性追踪结果的净得分,或者支出形势。我们已经摘出了一些ETR的计算、存储和网络细分市场数据,关于那些我们认为正在争夺计算数据中心领导者地位的主要厂商。

    AWS处于非常有利的地位。我们认为AWS有一半以上的收入来自计算,所以运营规模大概是250多亿美元,非常庞大。AWS自己设计芯片,并与独立软件开发商合作,在基于Arm的Graviton芯片上运行通用工作负载。微软和谷歌是计算的消耗大户,同时销售量也很大。特别是微软可能会继续与OEM合作伙伴合作,抓住本地数据中心的机会,但实际上计算提供商是英特尔,客户包括HPE、戴尔、思科,以及这里没有罗列出来的原始设计制造商。

    HPE一直以来都是开发架构的,在这里我们不想提及HPE,但HPE在人工智能和数据密集型高性能计算领域拥有强劲的表现。HPE在新型计算架构上所做的工作,及惠普实验室开发的共享内存可能还有影响力,也许未来某一天会派上用场。HPE也以自己设计定制芯片而闻名,因此我们也把HPE视为这场竞赛中的一个创新者。

    思科很有意思,因为它不仅拥有定制的芯片设计,而且十年前凭借统一计算系统进入计算领域之所以引人关注,是因为思科开创了一种新的整合数据中心资源的方法。思科也会投资架构,我们预计下一代UCS将标志着思科数据中心业务发展的又一重要里程碑。此外,思科还有安全业务,并通过大量收购——例如AppDynamics、ThousandEyes、Banzai、Meraki等——巩固自己在数据中心的地位。

    戴尔刚刚发布了一份令人意外的季度财报,总收入增长了约12%。尽管传统EMC存储业务持续疲软,但戴尔仍然有出色的执行力。笔记本电脑需求持续飙升,戴尔的服务器业务再次增长。不过,我们并不认为戴尔是计算领域的架构创新者。相反,我们认为戴尔将会满足于与供应商合作,无论是英特尔、Nvidia、基于Arm的合作伙伴、还是上述所有合作伙伴。我们预计,戴尔将依靠庞大的产品组合、优秀的供应链和执行精神,通过整合其他公司开发的核心架构创新来挤压利润空间。然而,我们确实希望,特别是在存储方面,戴尔能利用成本更低的替代方案来更好地服务于我们之前讨论过的那部分卸载工作负载。

    IBM因其历史原因而值得关注。IBM凭借大型机创造了自己的计算寡头地位,然后不知不觉地将其交给了英特尔还有微软。我们不认为IBM有志于重新夺回曾经拥有的大型机的计算平台地位,相反,我们认为Red Hat和混合云是IBM未来的发展方向。

    房间里的大象:英特尔、Nvidia和一些中国公司

    现在让我们来看看这些大公司:英特尔、Nvidia和一些中国公司。中国之所以重要,是因为阿里巴巴、华为等公司以及中国政府希望在半导体技术方面能做到自给自足。

    但我们的前提是,上图中的趋势有利于Nvidia而不是英特尔,因此我们用logo标出了相对位置。Nvidia正在采取措施进一步赢得数据中心的新工作负载,并一步步逼近英特尔的大本营。英特尔试图进行自我重塑,但今天Pat Gelsinger正在做的,是英特尔5-7年前就应该开始做了的。英特尔无法改变这一点,并且远远落后,需要数年时间才能赶上。

    通过数字看Nvidia

    让我们花一些时间来对Nvidia和英特尔进行比较,快速看看两家公司的财务状况。

    上面是一个概览表,我们把一些直观的关键业绩指标放在了一起,其中一些数字是近似的或者四舍五入的。你可以看到,英特尔是一家年收入800亿美元的公司——是Nvidia的4倍。然而Nvidia的市值远远超过英特尔。为什么?因为生长线。在我们看来,这要归功于Nvidia更强大的战略定位。

    英特尔曾经是毛利率之王,但Nvidia的利润率要高得多。在自由现金流方面,英特尔仍然占据主导地位。从资产负债表来看,英特尔——特别公布了新代工战略——的业务要比Nvidia更为资金密集型。随着英特尔开始为其代工厂构建更高的制造能力,这将给企业的现金状况带来压力。

    我们在第三列汇总了2022年底Nvidia与Arm合体的大概情况。我们认为合并之后的年收入将达到英特尔的一半左右。要说收购Arm获得什么好处的话,那就是可能会将Nvidia的市值推高至超过5000亿美元。风险在于,由于收购Arm是基于现金加上大量股票,因此可能会在一段时间内对市值造成压力。

    Arm的毛利率为90%,因为Arm有一套纯许可的模式,对毛利率是有帮助的——但Arm的收入规模相对较小,只有20亿美元左右,所以这并没有起到太大的推动作用。从资产负债表数据来看,Arm曾表示不会通过举债来进行收购,但我们没有时间搞明白如何在不承担债务的情况下做到这一点,所以我们猜测是和超低资本成本有关的。

    关键是,鉴于Nvidia的势头和增长,以及在AI方面的战略地位,针对所有正确目标领域的深度参与,以及与Arm一起释放巨大价值的潜力,所以看起来,如果可以很好地执行下去的话,Nvidia将是会胜出的。

    总结:Nvidia进击企业级市场

    Nvidia正在打造占据主导的AI业务,在此之上的架构正在不断演化。工作负载组合和未来需求正朝着这些新架构的方向发展。在我们看来,Nvidia正处于进击企业级市场的有利位置。

    发展势头正在从英特尔Intel/x86架构转移到Arm生态系统,Nvidia正在积极投身其中,而英特尔必须在重塑自我的同时维持当前的业务倾斜。这是需要时间的,不过英特尔可能得到美国政府的强大支持。

    现在未知数是:Nvidia能否成功收购Arm?英国和欧盟的某些派系正在反对这笔收购交易,不希望由美国来决定Arm可以向谁出售他们的技术——例如为打压华为而针对很多Arm芯片商实施的限制措施。此外,Nvidia的竞争对手博通和高通也担心,如果Nvidia最终收购了Arm,他们将处于竞争劣势。

    我们可以预想有这样一种情况,即美国政府向英国/欧盟监管机构施压,要求通过这笔交易,以换取在欧洲投资建厂的承诺。人工智能和半导体:没有比这更具战略意义的了,我们认为美国军方有充分的理由支持这笔收购交易。作为交换,政府方面可向Nvidia施压,要求其供给英特尔的代工业务,以及我们之前苹果的方案。与此同时,政府可以施加条件,确保Nvidia的竞争对手也可以使用Arm的技术。

    目前我们没有任何关于幕后的消息,但Nvidia在财报电话会议上表示,正在与监管机构合作有望在2022年初完成交易。

    现在正是胜负关头,在这场博弈中有很多个可能性。从国家层面的战略考量,与呼吁打破技术限制的呼吁发生冲突。中国的行动措施清晰而确定。Nvidia在数据中心市场大获全胜的大门是敞开的,即使没有Arm,我们认为Nvidia也要比其他公司更有能力满足企业级技术的未来需求。

    本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码

    《数字化转型方略》杂志