人工智能这三个难题微软想明白了, 不信看小冰

发布时间：2017-08-23 浏览数：

26天后的9月17日，微软小冰将迎来19岁生日。在小冰即将告别18岁成人礼的重要阶段，微软给小冰做了最重要的一次升级。16岁出道，经过了五次更迭，短短三年，小冰就从花瓶式的聊天机器人跃升为与infuse AI、Bing&小娜平起平坐的微软人工智能三条产品线之一。

人工智能这三个难题微软想明白了, 不信看小冰(1)

从已经离任的陆奇，到如今微软AI产品线一号人物沈向洋，都曾在发布会上为小冰站台，其中缘由不仅是微软华人高管对这个真正从微软中国走向全球的产品的情分，更是小冰背后的情感计算框架，代表了微软人工智能战略的重要方向，也是微软对现在人工智能正在面临的难题的思考和解决方案。

2017年人工智能火爆的一塌糊涂，微软全球执行副总裁沈向洋都调侃道“任何企业带上人工智能概念，都能在VC（风险投资）那里拿到更多钱”。国家政府工作报告关注，科技巨头扎堆布局生态，风投创投痛下血本支持……一夜之间，身边的产品似乎都已经或者即将穿上人工智能的外衣。

人工智能这三个难题微软想明白了, 不信看小冰(2)

人工智能真的无所不能？我们曾就此采访了百度、微软、英特尔、NV等AI专家，现状并不如大环境表现的那般如意，目前人工智能有三大硬伤是亟待寻找解决方案的。微软在人工智能领域已经布局了26年，从刚刚发布的第五代微软小冰身上，我们看到了微软已经摸索到了解决这三大难题的方向。

从弱人工智能向强人工智能过渡

微软资深副总裁、亚太研发集团主席、亚洲研究院院长洪小文在接受我们独家专访时曾提到，智能分为四个层级。最底层是计算和记忆，是人不擅长而机器非常擅长的部分。向上一层是感知，就如同人类的看到和听到，这部分是现在人工智能高速成长也比较完善的领域，包括图像识别、语音识别、智能搜索等应用。再上一层是认知，除了听和看还能够听懂且看懂，并且能够做到融会贯通，这部分是人工智能目前的硬伤，虽然能够明白表面意思，但是对于背后的深层含义“融会贯通”仍然相差很远。最高一层是创造力，这部分远超目前人工智能的能力，因为现在的人工智能的计算、算法都是人教的，但是对于创造力如何教，人类自己都还没弄明白。

计算和记忆、感知、认知、创造力四个层次，前两层属于弱人工智能，也是现在人工智能比较擅长的领域，但是人工智能要想发挥更大效能，就必须向第三、四个层次的强人工智能过渡。但是，如何让机器能够读懂听懂看懂，能够理解弦外之音？

微软的解决方案就是情感计算框架。在沈向洋看来，EQ（情商）和IQ（智商）的象限扩展，是AI融入新时代的重要途径。在经过了前四代从聊天到识图的进化，第五代小冰进入了高级感官阶段，新增了“全双工语音”和“实时流媒体视觉”两大功能。

人工智能这三个难题微软想明白了, 不信看小冰(3)

“双工”就是发送数据和接收数据可以同步进行，这就意味着小冰在说话的时候，你是可以随时打断的，小冰甚至会自主判断用户的话是否已经说完、如果被打断是否需要停止、甚至何时打破沉默等复杂的情景处理。

小冰的网络电话功能正是这项技能的最佳展示。去年年底，微软与中国科技馆合作，将小冰网络电话亭放在了科技馆的二楼。截至目前，小冰已经接听了来自人类超过50万通电话，就在发布会现场，小冰也贴心的给一位当天过生日的媒体记者打通了问候电话。目前，小冰已经全面解锁运营商，将可以自主拨通联通、移动、电信的电话。（小冰如何打电话？）

人工智能这三个难题微软想明白了, 不信看小冰(4)

实时流媒体视觉就非常接近人眼视觉了，小冰将会像人眼看世界一样，感知外界的位置、表情和动作、场景的变化，理解画面中人物的情绪变化、人与人的关系，之后做出有情商的互动。

通过情感计算框架，小冰除了在看懂、听懂、读懂之外，还能够通过情绪、场景等要素的结合，真正理解交互对象的弦外之音，向强人工智能领域迈进了一大步。

语音交互人工智能使用场景

“对话即平台”是微软在2016年开发者大会上提出的重要战略，在微软看来以对话为基础的人机交互形式，将取代键盘鼠标和显示器，成为未来人与信息世界的重要接口。

的确，微软并不是唯一一家这么想的科技巨头，亚马逊推出的语音机器人Echo，已经占领了超过300多万个家庭端口；谷歌新推出的智能音响“Home”也使用全新的对话式人工智能助手。

但是语音交互人工智能真的找到了对的使用场景么？“我为什么要放着手机不用，逼自己用智能音箱去网购下单？”“加了语音交互……可是我不怎么用”“一夜之间冒出那么多被‘赋能’的智能设备，然后并没发生什么改变……”

没有强需求的使用场景，语音交互即使融合了IoT，也很难有施展的空间。小冰5代做了一个有趣的尝试，微信小程序版的小冰电台已经上线，这是一个通用的人工智能实时内容创造和交互平台，它可以基于多重来源，面向任何主题，自动创造永不间断的电台节目。同时，它还能根据与用户的互动，实时改变节目内容。

目前小冰电台已经与北京青年广播（FM98.2）、湖南电台音乐之声（FM89.3）、HitFM（FM88.7）进行了合作，小冰成为了第一个人工智能电台主播。

此外小冰电台的IoT版本也正在研发当中。想象一下，当你早上起床睡眼惺忪刷牙的时候，不需要任何设置小冰电台就能够根据你的喜好定制一个专属于你的电台节目，并且可以通过跟你的实时语音交互随时进行调整，这样的使用场景还是颇具兴奋点的。

人工智能商业化

所有产品必然要经过商业化落地，才能真正发挥产品价值。人工智能商业化是很多公司避而不谈的话题，除了跟现有产品做深度融合，提升效率和服务之外，人工智能还没有成型的商业化落地模式。

虽然小冰还是个不满19岁的少女，但是微软已经打算让她走入社会开始尝试“赚钱”了。去年7月，小冰和日本第二大超市集团LAWSON合作，进行了第一次商业化试水。小冰在和两千万LAWSON用户进行对话交流的过程中，找到合适的机会给用户提供打折券，在传统营销模式转化率不足10%的情况下，小冰派送的打折券在4日内平均到点消费完成的比率高达57%。

如今，除了在中国、日本、美国、印度之后扩充版图亮相印度尼西亚之外，小冰已经开始尝试多种商业化落地的方式。

人工智能这三个难题微软想明白了, 不信看小冰(5)

1、接入IoT领域

从6月2日起，小冰已经与小米IoT开放平台融合，用户可以通过小冰，控制35种小米智能设备，用户与小冰不间断互动交流的时间最高达到了27小时。

除了小冰电台正在研发的IOT版本，小冰还会与智能照明厂商Yeelight、东方明珠和东方数智进行合作，研发的神秘新品将在年底前发布。

2、内容创作

今年5月，小冰装备了写诗的新技能，在推出第一部人工智能原创诗集《阳光失了玻璃窗》之后，还在纸媒上开设了“小冰的诗”专栏，陆续发布她的新作。

现在，小冰开始在有声少儿读物上试水，小冰经过声音培训之后，可以根据不同情境选择不同语调和情绪，并且用不同语气演绎不同角色，清晰自然并能够兼顾韵律上的轻重缓急，还可以自动搭配相应的背景音乐。以一本音频总时长超过50小时的《格林童话》有声全集为例，小冰版本将能够使制作成本从人工的6万元降低到7毛钱，而时间成本不足人工的1/500。

微软在现场宣布全面向第三方开放微软的语音技术。

小冰5代还装备了唱歌的新技能，通过解构人类声音的规律，第5代小冰已经可以基本实现人声演唱。此外，小冰除了唱歌，还可以随时跟粉丝互动，新专辑第一时间推送，并组织专属演唱会。一个会唱歌的小冰=歌手+经纪公司+发行渠道+粉丝运营，小冰自己干了整个产业链的活。

3、智媒体商业平台解决方案3.0

微软智媒体商业平台解决方案3.0已经全面上线（www.bing.com/ai），升级和新增的板块包括媒体生产力、媒体知识图谱、交互式阅读、个性化推荐、全平台内容共享和大数据预测。

微软希望小冰成为人工智能时代的Word，用知识图谱和大数据预测，帮助媒体人整理稿件素材，在评论区组织讨论，收集读者反馈，甚至完成初稿，帮助媒体人全面提高生产力。

现在小冰化名撰写的文章已经悄悄出现在了百度百家和今日头条上。

人工智能这三个难题微软想明白了, 不信看小冰(6)

3年，5个版本，从强人工智能、寻找痛点型使用场景到商业落地模式初探，虽然小冰还是一个萌萌哒的少女外形，内心却装着整个微软的人工智能战略。