数字化转型方略 第17期 2021/11/15

GPU比CPU耗电?NVIDIA用自身行动回应疑问

文/李祥敬
其实,对于AI工作负载,NVIDIA GPU的能效是传统CPU服务器的42倍。NVIDIA的HGX-A100云服务器平台将16个NVIDIA V100 Tensor Core GPU连接在一起,可作为单一巨型GPU运行,提供2petaflops的AI性能,创下了单台服务器AI训练算力的纪录。

据国家发改委官方数据,每消耗1吨标准煤,数据中心直接贡献产值1.1万元,数字产业化增加贡献值88.8万元,此外还可带动各行业数字化转型,间接产生360.5万元的产业数字化市场。但是与此同时,由于数据中心耗电量不断刷新纪录,在碳达峰、碳中和目标下,数据中心的节能减排也备受关注。

随着人工智能类工作负载的流行,GPU已经成为数据中心的标配。无论是通过云还是在本地数据中心,各大公司在采用AI等技术的同时,计算的能耗也在日益提升。在我们的常识中,GPU是比CPU更加耗电。那么这是否意味着GPU会加大数据中心的能耗呢?

其实,对于AI工作负载,NVIDIA GPU的能效是传统CPU服务器的42倍。NVIDIA的HGX-A100云服务器平台将16个NVIDIA V100 Tensor Core GPU连接在一起,可作为单一巨型GPU运行,提供2petaflops的AI性能,创下了单台服务器AI训练算力的纪录。

在短短两年内,NVIDIA AI系统将在单一服务器上训练图像识别模型ResNet-50的时间从8小时减少至40分钟。随着AI采用的加速,NVIDIA的重点从训练转移到推理,使经过训练的模型能够在全球数百万台超大规模服务器运行的实时应用程序中运行。

NVIDIA的TensorRT推理软件甚至能够助力最大型神经网络在数据中心、嵌入式和汽车等多种应用中实时运行。A100比CPU快237倍。与其所取代的基于CPU的系统相比,配备NVIDIA GPU和TensorRT的超大规模数据中心占用的机架空间仅为其1/47,运行的能源成本降低了95%,同时还能提供运行所有AI模型的实用程序。

NVIDIA的绿色化

对于NVIDIA的Logo我们一定不陌生,其实NVIDIA一直通过以降低环境影响的方式推动卓越运营,从而保护环境。

NVIDIA实施了符合 ISO 50001标准的能源管理体系,以采用更加结构化的方法来管理NVIDIA的几处重要的数据中心所在地的能源效率。

2021财年,数据中心占NVIDIA总能源使用量的46%,随着NVIDIA布局的扩大,NVIDIA将能源效率纳入了NVIDIA拥有的新建筑的设计中,NVIDIA在英国剑桥的全新超级计算机的所在地和位于达拉斯的数据中心都签署了新的可再生能源供应合同。

NVIDIA还致力于采用更多可再生能源运营自身的数据中心。2021财年,NVIDIA有17处办公地点完全采用可再生能源供电。NVIDIA的目标是到2025年,全球65%的用电来自太阳能等来源。

随着业务不断扩展,并通过新的在线服务来实现多元化,数据中心运营也在快速发展。在NVIDIA的全球数据中心足迹出现这种增长趋势的过程中,NVIDIA努力将环境因素(包括能效和可再生能源选项)纳入NVIDIA的数据中心选址和采购评估中。过去的两年中,NVIDIA重新为美国和全球的数个主机托管数据中心提供了可再生能源。

随着NVIDIA数据中心业务的增长,NVIDIA已经部署了专为NVIDIA服务器产品设计的最新冷却技术。配电增加了电压供应,以更有效地输送电能。冷却解决方案与服务器机架紧密结合,以定位并优化热传递。NVIDIA使用计算流体动力学模型来增强数据中心设计和服务器机架部署的散热。数据中心还部署了白色表面以优化反射照明。可控型高效LED照明安装在需要人工照明之处。这一系列的举措让数据中心的能耗控制更高效。

NVIDIA与客户和合作伙伴共享NVIDIA的数据中心最佳实践和优化方法,以进行部署相关的教育,并优化部署。例如,NVIDIA与领先的存储和网络技术提供商合作,提供参考架构组合,以实现NVIDIA DGX服务器产品的优化和高效部署,并在NVIDIA的网站上公开提供这些架构。

本文章选自《数字化转型方略》杂志,阅读更多杂志内容,请扫描下方二维码

《数字化转型方略》杂志