公共云巨头微软公司如何争夺HPC霸主地位

发布时间：2019-12-23 浏览数：

微软Azure将Cray XC系列超级计算机和CS Storm集群应用到其公共云中已有两年多的时间，目前尚不清楚有多少用户采用了Cray公司(现在是HPE公司的一部分)的产品。希望在公共云平台上运行高性能计算(HPC)和人工智能工作负载(尤其是GPU加速的工作负载)的用户更有可能将现有实例集群集中在一起以创建虚拟超级计算机。

但是，微软公司非常渴望在Azure公共云平台上建立高性能计算(HPC)业务，从而让用户在外观上和感觉上都像在自己的数据中心中部署的集群一样，从而消除体验差异。

微软公司日前在丹佛举行的SC19超级计算机会议上宣布，Azure新实例将在技术预览版中发布，它实际上是微软公司正在选定地区部署的100节点集群中的一个节点(目前还不清楚是哪一个节点)。这个名为NDv2的高性能计算(HPC)实例显然同样适用于运行机器学习训练工作负载以及GPU加速工作负载。NDv2实例是基于一个HGX的Tesla V100 GPU加速器捆绑在一起共享数据，通过NVLink(可以把它想象成Nvidia的DGX-2系统中一半的GPU复合体，其中抽出了NVSwitch，并在这些GPU之间直接引导NVLink，这样它们就可以寻址彼此的32GB HBM2内存)。这个GPU计算组件连接到主机CPU系统，该主机CPU系统基于一对20个“Skylake” Xeon SP-6168 Platinum核心处理器，该处理器运行在2.7 GHz频率上，并安装在微软公司自己开发的“Project Olympus”系统中。服务器节点具有672 GB的内存，这表明某个地方有一个虚拟机管理程序会消耗一些内存资源。估计可能是96GB，并且这个超级计算机在其24个内存插槽中装有64GB的内存条。

每个NDv2节点都有一个100Gb/秒的ConnectX-5网络接口卡，可以和100 Gb/秒的EDR InfiniBand互连，这显然是从Mellanox科技公司那里获得的技术，Nvidia公司正在收购该公司。多年来，以太网已切换到微软公司的Azure公共云中。目前尚不清楚微软公司正在使用哪种拓扑来相互链接NDv2实例，但是猜测它是高性能计算(HPC)和人工智能工作负载中通常使用的FatTree拓扑，而不是超大规模厂商和云计算供应商通常使用的拓扑。Nvidia公司副总裁兼加速计算总经理Ian Buck表示，NDv2中的机器将以8台服务器为一个单元的形式出售，总共有64个GPU，这意味着随着用户扩展他们的NDv2集群，他们正在购买一棵FatTree的相邻分支。知道这一点，人们可能会认为NDv2的高端Pod是96个节点，带有768个GPU，但是被告知实际上是100个节点，总共有800个GPU。

这些系统显然是在运行某些Linux变体的情况下设置的(CentOS或Ubuntu Server是默认版本，但Red Hat Enterprise Linux和SUSE Linux Enterprise Server也是一个很好的选项)，并且可以通过以下方式获得完整的Nvidia软件堆栈：Nvidia NGC云或Azure市场。微软公司表示已经安装了Mellanox OFED网络驱动程序(就像有任何其他选择一样)，并且支持所有MPI类型和版本。显然，某处有一个虚拟机管理程序，大概是Hyper-V，微软公司用来构建Azure云。Hyper-V运行时，没有任何性能下降的迹象。

微软公司目前还没有正式公布其定价，但有消息表明，每个NDv2实例的定价将为26.44美元。但是需要了解所有的GPU性能和内存带宽带来的负担。而且，即使客户没有充分利用InfiniBand网络的成本，也必须为此支付费用。

如果没有任何数据存储服务，用户将一个96节点的集群运行三年将会花费6,675万美元，并且这个超级计算机将具有5.76 petaflops的总峰值双精度性能。DGX-1V具有8个Tesla V100和两个Xeon处理器，大致类似于微软公司为NDv2实例组装的节点，当前价格为119,000美元(低于两年前发布时的169,000美元)。因此，其中96台服务器将花费1140万美元，其中包括大量的本地闪存和4倍的网络带宽。这些费用并没有包括电源、冷却、房地产、系统管理或InfiniBand的交换机和布线成本，但是如果用户将其向后计算并在四年内摊销，则仅硬件就具有相同的5.76 petaflops的性能，并且可以计算出DGX-1节点的费用为每小时4.53美元，用户自行承担构建一个96节点集群的成本，并了解如何比较它们的负担。或者，相当于ODM和OEM服务器的成本，甚至比Nvidia公司的价格还要低。微软公司为其公共云上的高性能计算(HPC)设置了上限。

这里要考虑的另一件事是利用率。为了进行论证，假设一个内部DGX-1集群每小时仅需花费10美元，仅用于计算和联网，而无需来自Pure Storage或DataDirect Networks的本地闪存存储阵列，也无需使用Excelero、Vast Data或Lightbits自产实验室软件定义的存储。如果企业拥有自己的混合CPU-GPU集群，并且只在50%的时间内使用它，那么实际上每小时要支付20美元才能拥有该集群。因此，云计算与内部部署之间的差距很快就消除了。但是，用户也可以使用ODM或OEM服务器来降低成本，例如浪潮、Supermicro、戴尔、HPE公司的服务器，而价格却要比Nvidia公司要低得多，大概减少40%的成本。这样可以降低一些总成本，但可能不会达到用户的期望。如果提高利用率，那么每小时的本地成本也会下降。这里要了解的是，利用率是决定因素，而利用率模式可能会驱动用户选择在内部部署和云平台部署多少容量。

或者只需管理所有这些，然后将其全部移至云中就可以。一些高性能计算(HPC)和人工智能从业者会这样做，因为他们不会大规模运作。

除了NDv2实例之外，微软公司还将预览其基于64核“Rome”Epyc 7742处理器的HBv2虚拟机，其中60个核心处理器用在Hyper-V虚拟机管理程序之上。基础节点有两个这样的处理器，核心处理器的运行频率为2.25 GHz，最高可提升至3.4 GHz。微软公司表示，两路HBv2节点可以双精度提供4teraflops的总峰值浮点性能，此外，它已经建立的网络可以使用MPI跨越8万个核心处理器，Azure区域内峰值容量的5.36 petaflops。顺便说一下，这些节点使用Mellanox的200Gb/秒的HDR InfiniBand互连，这是在公共云上首次使用HDR InfiniBand。HBv2实例具有480GB的可供应用程序使用的内存，并在两个插槽之间提供350GB/秒的内存带宽。每小时收费3.96美元。按照微软公司在HBv2实例上为其HDR网络提供的全部MPI可扩展性限制(可能是672个节点)，每小时仅需花费2,661美元，即可使用按需实例租用5.36 petaflops云。其预留实例尚不可用，这将显著降低价格。

微软公司希望在Azure公共云上拥有数据启示的四个主要功能，就像英特尔公司想要拥有一样，而AMD公司正在通过合作伙伴关系和自己的芯片(CPU、GPU、FPGA和NNP)来实现这一目标。为此，微软公司正在预览其NDv3实例，该实例将具有与一对具有768 GB内存和8个Skylake Xeon SP-8168 Platinum处理器的基本Olympus服务器节点。每个Graphcore加速器都有一对IPU芯片，并提供1,216个IPU芯片，7,296个线程和300MB的内存以及惊人的45TB/秒的内存带宽。Graphcore处理器上的16个IPU核心库组通过专有的IPU-Exchange交换机连接，其总带宽为8TB/ 秒，并且在NDv3实例中，使用专有的IPU链接将多达8个Graphcore芯片粘合在一起互连(这大致类似于带有GPU的NVLink)。Graphcore芯片通过PCI-Express 4.0×16插槽连接到CPU结构中。这些实例配备了Graphcore的Poplar软件开发套件。

此外，微软公司承诺将在Azure上提供NP系列实例，该实例将公开Xilinx的一到四个Alveo U250 FPGA加速器。该服务器将由与上述其他实例相同的基本服务器实例托管，并将预装Xilinx的SDAccel 2019.1运行时环境。

微软公司尚未发布Graphcore NDv3系列和Xilinx U250 NP系列实例的价格。

在已经出售其F1 FPGA实例并且尚未透露任何NNP实例计划的AWS公共云上，SC19的目的是谈论其新的C5a和C5ad实例，它们将以裸机形式与192个虚拟实例一起提供。虚拟CPU(vCPU是跨激活内核的线程)和384GB内存。C5a使用网络存储，而C5ad具有7.6 TB的本地NVM-Express闪存存储。对于虚拟化实例，CPU计算的比例将分成8个不同大小的实例，并且Nitro SmartNIC将处理绝大多数KVM虚拟机管理程序功能以及网络、存储和加速器虚拟化，从而释放那些Skylake核心开展真正的主机工作。在裸机模式下，C5a和C5ad Rome Epyc实例将有一个100Gb/秒的以太网接口连接到网络，并且Elastic Fabric Adapter会根据CPU计算来扩大或缩小规模。