进军Arm服务器携手微软开启云超算，这是英伟达黄仁勋的超算已来

发布时间：2019-11-20 浏览数：

机器之心报道
参与：李泽南、杜伟进军Arm服务器携手微软开启云超算，这是英伟达黄仁勋的超算已来(1)

正在美国丹佛举行的 SC2019 是全球超算领域最重要的高端学术交流活动之一。今年 SC 的主题是「超算已来（HPC is now）」。随着算力的不断提升，以及先进算法的不断落地，超级计算机早已不再是科学研究专用的工具，而是已经成为了我们生活当中不可或缺的基础设施。

Arm 架构服务器的火热当然少不了英伟达的参与。今年 6 月，英伟达就在德国宣布了与 Arm 全面合作的新计划：两家公司将合力推动构建超级计算机。而加速计算平台 CUDA 也将支持 Arm 架构，这一行动将为深度学习、高性能计算打开了一条全新道路。

在 SC2019 大会上，这一愿景得以实现。

推出基于 GPU 加速器的 Arm 服务器

在大会上，英伟达 CEO 黄仁勋宣布推出最新服务器平台设计，该平台可以使企业能够快速构建基于 GPU 加速器的 Arm 服务器，从而开辟新的高性能计算（HPC）时代，并满足越来越多的科学和工业应用。

英伟达表示，该平台由硬件和软件构建块组成，可以满足 HPC 社区不断增长的需求，从而利用更广泛的 CPU 架构。它能够使超级计算中心、超大规模云运营商和企业将英伟达加速计算平台的优势与最新的基于 Arm 的服务器平台相结合。

为了构建该平台，英伟达与 Arm 及其生态系统合作伙伴（包括 Ampere、Fujitsu 和 Marvell）展开合作，以确保英伟达 GPU 可以与基于 Arm 的处理器实现无缝协作。该平台还得益于与 Cray 和 HPE 两家基于 Arm 的早期服务器提供商的大力合作。此外，许多 HPC 软件公司已使用 NVIDIA CUDA-X 库来构建可在 Arm 服务器上运行的 GPU 赋能的管理和监测工具。

该平台的首次亮相是在英伟达今年早些时候宣布将 CUDA-X 软件平台引入 Arm 之前。为了兑现这一诺言，英伟达将预览其与 Arm 兼容的软件开发套件，其中包括英伟达 CUDA-X 库和用于加速计算的开发工具。

致力于更广泛的 HPC 生态系统合作

除了使自己的软件兼容 Arm 外，英伟达还与 GROMACS、LAMMPS、MILC、NAMD、Quantum Espresso 以及 Relion 等主要 HPC 应用开发者密切合作，以将 GPU 加速的应用交付给 Arm。英伟达和其 HPC 应用生态系统合作伙伴已经编译了大量的代码，以将 GPU 加速引入到 Arm 平台上它们自己的应用。

此外，为了实现 Arm 生态系统，英伟达与 Canonical、Red Hat, Inc. 和 SUSE 等领先的 Linux 发行商以及业界领先的基础 HPC 工具供应商展开合作。目前，世界领先的超级计算中心已开始测试基于 GPU 加速的 Arm 计算系统，这其中包括美国橡树岭和桑迪亚国家实验室、英国布里斯托大学和日本理化研究所。

英伟达希望能够成为 Arm 生态的一部分，在 HPC，云计算等领域贡献自己的力量。不过，英伟达的 Arm 生态目前主要专注于大规模计算的应用，在端侧领域，其和高通等公司的合作还不明确。

联合微软推出全球最大「云超算」

还记得英伟达 50 分钟训练 BERT 吗？英伟达和微软正希望把这样的强大算力带给更多人。

除了在架构上的创新之外，英伟达和微软在大会上共同推出了基于 Azure 云服务的可扩展 GPU 加速型超级计算机 NDv2。新的微软 Azure NDv2 可以扩展到数百个用于复杂 AI 和高性能计算（HPC）应用的英伟达 Tensor Core GPU。被构建用于处理要求最高和高性能的计算应用，Azure NDv2 的部署将使其跻身于世界上最快超级计算机之列，最多可提供 800 个在单个_Mellanox InfiniBand_后端网络上互通的英伟达 V100 Tensor Core GPU。它使客户首次可以按需租用整个 AI 超级计算机，并且其性能抵得上花费数月时间才能部署的大型本地超级计算机。

黄仁勋在会上表示：「现在，你可以启动一台 NDv2 实例，在 container 中抓取一个堆栈，并在 Azure 中启动它。这就是科学，真是太神奇了！」

黄仁勋宣布推出可在微软 Azure 云服务上使用的、GPU 赋能的超级计算机 NDv2。他表示：「这使得世界各地的科学家都可以拥有一台超级计算机。」

性能优越，成本效益高英伟达表示，NDv2 非常适合复杂的 AI、机器学习和 HPC 工作负载，并且与传统的基于 CPU 的计算相比，其可以提供显著的性能和成本优势。因此，需要快速解决方案的 AI 研究人员可以在短短几个小时内快速启动多个 NDv2 和训练复杂的对话型 AI 模型。

微软和英伟达的工程师在集群的预发布版本上使用了 64 个 NDv2，在约三个小时内训练了 BERT（目前最流行的 NLP 模型）。这在一定程度上是利用 NCCL 提供的多 GPU 优化的优势，NCCL 是英伟达 CUDA X 库和高速 Mellanox 的连接器。

客户还可以使用多个 NDv2 来运行复杂的 HPC 工作负载。此外，对于特定类型的应用而言，单个 NDv2 即可以在无需 GPU 加速的情况下，比传统 HPC 节点快一个数量级的速度得出结果。对于大规模模拟而言，这种性能可以线性地扩展到 100 个 NDv2 实例。

所有的 NDv2 都可以获益于 GPU 优化的 HPC 应用、机器学习软件以及出自英伟达 NGC 容器注册表和 Azure Marketplace 的 TensorFlow、PyTorch 和 MxNet 等深度学习框架。NGC 容器注册表还提供了 Helm 图表，从而可以轻松地将 AI 软件部署到 Kubernetes 集群中。

NDv2 目前发布的是预览版，搭载 8 块英伟达 Tesla V100 GPU 的 NDv2 可以实现集群化，以实现扩展进而满足各种工作负载需求。

推出 Magnum IO 软件套件，几分钟内实现数据移动

英伟达还在大会上宣布推出 Magnum IO 软件套件，该套件可以帮助数据科学家以及 AI 和高性能计算研究人员在几分钟内实现数据移动，而不再需要几个小时了。

在全球顶级超级计算机大会 SC19 开幕式上，有近 1400 名研究和技术人员聆听了黄仁勋的主题演讲。

就其性能而言，Magnum IO 进行了大幅度优化以消除存储和输入/输出瓶颈，并且当在大规模数据集上进行复杂的金融分析、气候建模和其他 HPC 工作负载时，Magnum IO 可以使得多服务器和多 GPU 计算节点的数据处理速度提升高度 20 倍。

黄仁勋表示：「这是一个充满创新的领域，我们将投入大量的精力帮助用户高效地实现系统中数据的移入和移出。」

Magnum IO 的核心功能是英伟达 GPU Direct Storage，它在 GPU 内存和存储之间提供了一个直接的数据通路，使得数据能够绕过 CPU 并在 GPU、存储和网络设备所提供的的「open highways」上畅通无阻地传输。此外，GPUDirect Storage 还使研究人员在访问存储时可以绕过 CPU，并快速访问数据文件以进行模拟、分析或可视化操作。

GPU Direct 由对等网络和 RDMA 元素组成，并且可以与包括 NVLink、NCCL 以及 OpenMPI 以及 UCX 在内的各种通信连接器和 API 兼容。除了 GPU Direct Storage 功能之外，英伟达 Magnum IO 软件套件现在可以使用，用户可以进行抢先体验。此外，英伟达计划在 2020 年上半年发布功能更广泛的 GPU Direct Storage。