微软揭晓 Brainwave 人工智能系统, 可实现超低延迟

发布时间：2017-08-23 浏览数：

今日，微软在 HotChips 大会上正式揭晓了 Brainwave 系统，该产品是微软加入人工智能硬件竞赛的首发产品。微软表示这款高速度、低延迟的 AI 专用芯片系统可以为机器学习开发者们提供超越 GPU 的性能。

微软揭晓 Brainwave 人工智能系统, 可实现超低延迟(1)

微软的研究人员现场展示了 Brainwave 的威力：在使用英特尔最新的 Stratix 10 FPGA（现场可编程门阵列）芯片的情况下，Brainwave 运行 Gated Recurrent Unit（LSTM的变种）的浮点运算速度可高达 39.5 TFLOPS，并且不需要任何批量处理，即芯片可以即时处理每一项提交上去的请求，为机器学习系统提供实时的见解。

对于用户来说，低延迟是大规模部署机器学习系统时必须满足的一个要求，因为他们不会有太多耐心等待 APP 反应。

“我们需要‘即时AI’，因为你在提交请求后，会想立刻获得反馈，不论是视频播放、对话，还是检测网络入侵者和异常状况，你会期望 APP 都能即时反馈”，微软研究所的工程师 Doug Burger 说。

然而，之前的硬件加速机器学习系统相关的研究却注重于牺牲延迟来实现高流量。Burger 认为，需要思考的是，在不对请求进行批量处理时，机器学习加速器的反应速度。“其他人给出的数字都注水了。”

由于 FPGA 属于可编程芯片，它可以让开发者专门为各种功能对硬件进行优化设置，比如设置出可以快速处理神经网络所需的数学计算的硬件。微软已在其数据中心安装了数十万枚 FPGA。而这些 FPGA 已经开始使用 Brainwave，让微软的各种服务可以更迅速地支持人工智能功能。此外，微软还将通过旗下 Azure 云服务，向第三方客户提供 Brainwave。

在这些 FPGA 上，Brainwave 会提前设置好一个经过训练的机器学习模型。之后，它们就可以被用来做识别文字、辨别图像等机器学习任务了。对于一个较大的文件，Brainwave 的软件可以将它分拆到多个芯片上进行计算。而这个模型将永存与这些 FPGA 上，直到微软选择对其进行升级。

微软并不是唯一一家投资于加速机器学习硬件的公司。今年年初，谷歌就曾揭晓其机器学习训练和运行的专用芯片——TPU（Tensor Processing Unit）的第二个版本。此外，还有多家初创公司正在开发机器学习加速硬件。

然而，各方各界对于机器学习加速硬件的看法却并不一样。有些人认为，FPGA比专门为机器学习而设计的 ASIC（专用集成电路）效率更低，速度更慢。Burger 表示，他们在 FPGA 上所展现的性能足以反驳这一说法，让人们见识到FPGA 也可以提供高性能。

而且，今天微软的展示的 Stratix 10 是一款全新芯片，还有与英特尔合作优化的空间。据Burger计算，使用 Stratix 10 的 Brainwave 的运算速度最高应该可以实现 90 TFLOPS。

目前，Brainwave 只支持在微软 CNTK 框架和谷歌 TensorFlow 框架下的模型。其团队正开发兼容 Caffe 等其他框架的 Brainwave 版本。微软表示，未来，第三方客户将可以在 Brainwave 上运行任何模型，不过并未给出 Brainwave 全面上市的时间表。

-End-