微软AI：你我都能感知、能使用的AI

发布时间：2018-05-30 浏览数：

当微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士与来自南京理工大学的硕士研究生宋昊旻站在2018微软AI人工智能大会现场，借助微软语音翻译服务顺利进行中英文对话时，会议现场响起了热烈的掌声。

这个掌声是给特殊来宾宋昊旻的，宋昊旻在一岁时失去了听力，被医生判定将终生成为聋哑人，但在妈妈的鼓励下，他坚持训练发声，并成功考上了南京理工大学的本科和硕士研究生，一路走来非常艰辛。这个掌声同样也是给微软的，微软语音服务根据宋昊旻声音定制的语音识别模型能够准确地、近乎实时地将他略显吃力的语音转换为更加流畅的普通话，还能同步翻译成英语或其它语种，让宋昊旻能够和外界无障碍沟通。

宋昊旻只是众多微软AI技术中受益者之一，今天微软的AI技术正在各个领域服务于我们，其中有像宋昊旻这样的特殊人群，也有各种专业人士，而更多的是普普通通的你我。实际上，普通人触手可及的AI正是微软AI的一个鲜明特点，而这也很好的印证了微软的愿景：予力全球每个人、每个组织，成就不凡。

微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士与南京理工大学研究生宋昊旻

让更多人从AI中受益

“微软作为一个技术平台的公司，我们希望通过领先业界的云计算和人工智能服务与工具，能够予力全球每一人、每一组织，成就不凡。”微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士在大会演讲中表示。

基于这一愿景，微软致力于普及人工智能，让众多普通人从中受益。微软小冰就是一个很好的例子。小冰诞生于四年前，是一个面向情商（EQ）维度发展的人工智能系统，目前已在中、日等多个国家落地。经过这几年持续不断的技术迭代，现在的小冰功能越来越强大，从初期的简单人机对话发展到今天不仅可以作诗、写文章，还能唱歌，而最新应用的全双工语音技术让小冰的技能又上一层楼，让小冰与人的对话更类似人与人的交流。

据悉，全双工语音是微软小冰身上最新的技术突破之一。这项新技术的作用在于可以实时预测人类即将说出的内容，实时生成回应，并控制对话节奏，从而使长程语音交互成为可能。它的实现需要同时具备文本、语音两种能力，并要求两种能力均达到更高的质量标准。目前，小米生态链企业亿联客开发的Yeelight语音助手中就是搭载了微软技术的全双工语音交互感官的智能设备，其硬件产品已开始进入千家万户。

“全双工语音技术能够使得人机交互进化为人机交流，一字之差，差之万里。微软小冰通过这项技术能和人类进行更长程、更自然流畅的对话。”沈向洋博士在演讲时表示。

微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士

在大会上，沈向洋还宣布微软将基于小冰推出一项造福孩子的人工智能内容创造的全新技能：为每个孩子定制专属于他们的有声童话故事，让每个家庭的孩子都可以拥有一位专属于自己的故事主播。家长可以设置童话故事的主人公和故事倾向，如更偏教育意义等，然后安排微软小冰完成创作。这项功能将于“六一”儿童节正式上线。

有必要指出的是，微软研发小冰要做的不仅仅只是聊天机器人，小冰的背后是“对话机器人”市场，在销售、市场、客户都需要这种更智能的对话机器人服务。针对这个市场，微软推出了“对话机器人”服务Azure Bot Services和对应的开发平台，至今已经有超过30万人用这样一个开发平台去开发这样对话机器人，如中国移动的智能客服就基于微软的对话机器人技术实现。

实际上，在这些明显贴有AI标签的产品之外，微软的AI技术早已随着微软的产品进入千家万户，比如最为我们熟悉的Windows 10桌面上的Cortana、几乎人人都在用的Office 365和搜索引擎Bing，这些简单易用的产品和服务背后都是微软AI技术在支撑。

值得一提的是，在普及AI的道路上，微软不仅致力于让更多的普通人用上AI，还在努力让类似宋昊旻这样的非普通人从AI受益。在不久前的微软Build大会上，微软曾宣布推出“人工智能无障碍计划”，将在未来五年内投入2500万美元，用于研发能够增强人类能力的人工智能技术，以造福全球各地超过10亿残障人士。

让AI应用可以很简单

除了让AI更多地为人类服务外，微软还在大力降低AI的使用门槛，让每个开发者都有机会打造属于自己的AI应用，并让AI更简单易用。比如，微软在Azure上推出了24项认知服务，它们以API的形式为开发者提供简单易用的人工智能技术，这些认知服务覆盖了语音、视觉、语言、机器翻译等，目前已经有超过100万开发者使用认知服务。

Azure Batch AI服务是微软智能云上的一项托管服务，允许数据科学家和人工智能开发者以非常简单的方式利用包括GPU在内的Azure云计算资源对人工智能模型进行训练。数据科学家只需明确任务需求，设定输入、存储、输出等设置，其它所有与基础设施管理、规模缩放、批量工作任务相关的繁杂的后台工作都能由Azure Batch AI自动完成。

如果Azure上的这些认知服务不能满足用户需求，微软还提供了定制化的AI服务，而且这种定制非常简单。

“我们在预制化的AI人工智能服务上做了很多工作，让它们很容易上手，开发者并不太需要知道这些东西如何工作。比如说，定制计算机视觉、定制语音或者定制自然语言，都可以很轻易地使用。”微软全球资深副总裁、云计算与人工智能事业部郭昱廷在接受采访时表示。

微软全球资深副总裁、云计算与人工智能事业部郭昱廷

另外，微软还把这些服务跟Visual Studio结合，推出了Visual Studio Tools for AI。“微软希望能把这些事情做得尽可能简单，尽量帮助开发者以最简单的方式使用人工智能。比如，让定制视觉服务可以部署在各种手机上，并根据不同的手机自动优化数据模型，而无需使用者去操心这些事情。”郭昱廷说。

打通云+边缘的AI

今天微软谈到AI往往是与Azure联系到一起的。实际上，Azure已经越来越成为微软AI战略的一个不可分割的重要组成部分，而微软云计算与人工智能事业部的成立就是一个体现。

郭昱廷介绍说，“成立云计算与人工智能事业部，就体现了微软对云计算和AI的决心。微软将云计算与AI结合，能更好地让这两种技术落地。这样我们给客户的就不只是一般的计算、存储或者是基础设施服务，而是有更高价值的服务，是具有人工智能的价值服务。”

而交付这些高价值的AI服务就离不开的Azure。应该说，微软Azure也的确为微软AI提供了很好的制程，比如， Azure现已覆盖全球50多个区域，并且获得了不同地区的超过70项安全合规认证，远高于其它任何公有云服务。Azure上汇聚了微软在人工智能领域的全部投入与技术积累，是开发、部署、运行人工智能的最佳云平台，包括微软现在提供的24项认知服务都运行在Azure上。

还有，在不久前举行的微软Build开发者大会微软发布了的Project Brainwave（预览版）也可以运行在Azure上。Project Brainwave是一个旨在加速实时AI计算的硬件架构，可以满足数据密集型AI应用的计算需求（比如图像识别）。它能够部署在Azure云端以及边缘设备上，帮助用户实现低成本的实时AI计算。

而且，Azure还是微软将智能云与智能边缘融会贯通的关键环节。郭昱廷在接受采访时表示，智能边缘现在也是微软AI战略的一部分，微软不但要把AI放到云上，还要放到边缘物联网环境中。为此，微软推出了Azure IoT Edge物联网服务，同时，Azure 上的认知服务也可以扩展到Azure IoT Edge。目前微软已经推出了定制视觉服务，可以让无人机或其他工业装备无需连接到云。另外，为了给边缘设备提供更好的安全保护，微软发布了Azure Sphere预览， Azure Sphere方案将提供经过特殊设计的安全芯片、安全操作系统和能够守护每台设备的云端安全，是一个能够为联网微控制器（MCU）提供工业级安全保障的完整平台级解决方案。

在打通微软Azure云与边缘的连接上，Azure Stack也是一个非常重要的组成部分。Azure Stack是微软推出的一个可以独立部署的软硬一体化混合云解决方案，由于采用与Azure云同样的架构，使得很多Azure云上的应用，包括认知服务、前面提到的Project Brainwave等都可以运行直接在Azure Stack，非常适合于那些边缘计算的AI场景。

微软AI的强大后台

目前，在AI技术上微软的领先性有目共睹，而微软在AI领域有此地位与微软在AI领域长期持久的投入不有关系，特别时与微软研究院有直接关系。其实，微软对AI的研究就发端于微软研究院。在27年前，微软研究院创立的时候，最早成立的三个研究组都是围绕人工智能展开的：自然语言、语音与计算机视觉。

如今，微软研究院在人工智能研究上成果卓著、令人瞩目。沈向洋博士在大会上介绍了部分研究成果，包括：两年前，在ResNet测试上以152层、96%的准确率拔得头筹；一年前，在Switchboard语音识别基准测试中的错误率已经降低至5.1%，达到了媲美人类专业速记员的水平；今年1月，微软第一个在斯坦福大学发起的SQuAD文本理解挑战赛上获得超越人类的分数；两个月前，微软在对新闻报道测试集的英中、中英机器翻译上实现了比肩人工翻译的水平。

另外，微软亚洲研究院开发的OCR (Optical Character Recognition光学字符识别）技术，将为各种人工智能应用增加图形文字识别功能，目前支持从Office到Skype、Bing、HoloLens的微软应用，能识别打印字体、美术字、手写字体，可以满足从智能云到边缘计算的各种场景。目前手写识别OCR引擎V3.0版本的精度达到了70.5%，已经部署于微软认知服务，可供开发者用于自己开发的智能应用。

展望未来，人工智能的研究还将是一条慢慢长路。正如微软语言技术的创世人、微软全球资深技术院士、微软云与人工智能事业部黄学东博士所总结的，目前所看到的人工智能技术的主要是“感知”方面，包括计算机视觉和语音识别等进步都很大。然而，在“认知”方面进步还是有限的，也就是至今我们还没办法真正让机器理解我们人类的语言和思想，真正的自然语言理解还有很长的路要走。在这条道路上，微软机器翻译有了一个好的开端，但未来还有很多工作要做。