微软李笛：为什么说画家小冰是最艰难的一次养成？

发布时间：2019-06-24 浏览数：

“小冰学习绘画是我所领导的团队目前为止进行的时间最长、最艰苦的一个项目。”微软小冰研发团队在今年5月微软小冰人工智能创造媒体说明会上表示。

被微软小冰研发团队视为耗时最长、最艰苦的项目的绘画模型，是微软小冰针对视觉能力攻克的模型，也是继文本、语音之后的第三类AI模型。据官方资料显示，这一模型通过对过往四百年艺术史上236位人类画家画作的学习，可以独立完成100%原创绘画作品，接近专业人类画家水准。

与此同时，这一模型无论是从模型设计的技术性、复杂性，还是从推广应用、产品化上而言，都与此前两类内容创造模型（基于文本、语音的模型）有所不同。当然，也并非完全不同。

就三者（基于文本、语音、视觉的模型）的相同与不同，微软（亚洲）互联网工程院副院长，微软小冰全球产品线负责人李笛在接受采访时总结称，“理念上极其相似，细节上完全不同。”

然而，微软为何要为小冰构建一个绘画模型？画家小冰项目技术难点在哪里？小冰绘画模型与此前两个模型技术实现上有何不同？少女画家小冰有怎样的逻辑思维？……

带着这些问题，来到微软中国研发集团总部，向微软（亚洲）互联网工程院副院长、微软小冰全球产品线负责人李笛寻求答案。

微软（亚洲）互联网工程院副院长、微软小冰全球产品线负责人李笛

关于画家小冰的最初构想

微软小冰是微软打造的人工智能系统，有所不同的是，在针对微软小冰构建模型时，是先找到产业中的落地需求，然后反推出一个概念模型，进行技术攻克，最后一步是量产模型推广。整体逻辑可以视为：产业需求——概念模型——量产模型。

李笛告诉，微软先看到金融领域对文本生成的需求，随后有了小冰的概念模型（诗人小冰），之后有了推广到相关应用领域的文本生成模型；此次也是看到在纹样设计等方面的需求，因而有了绘画模型（画家小冰）。

：微软为什么会选择为小冰构建这样一个绘画模型，最初构想是怎样的？

李笛：在微软小冰人工智能创造这一分支上，外界看到的是我们先有一个概念模型，例如写诗，但往往实际情况并非如此。

实际上，我们是先在实际产业中找到一个量产计划，例如微软在实际产业中看到金融文本生成的需求，制定了相应的计划，与此同时，我们会找一个这个领域的概念模型（诗人小冰），在攻克这一模型的过程中，我们会得到很多技术积累，让我们可以把这个量产模型（金融文本生成模型）做好。

此前我们针对语音、文本进行了模型设计及产业化落地，此次针对视觉方面的绘画模型，也是以这样的理念完成的产品需求反推，从而进行概念模型打造、量产模型构建。

：据微软官方之前在发布会上公布的数据显示，小冰通过对236位人类画家的画作学习，构建了这一绘画模型，具体这些训练的数据（236位人类画家的画作）是怎样的一个年代分布？

李笛：过去400年到过去200年之间，我们比较有意识地规避了当代的艺术家。

少女画家小冰以「一个人的北京」为题创作的画作

：小冰的画作都比较抽象，为什么会选择这样的绘画风格，而不是更受大众欢迎的现代风格画作？

李笛：一方面，我们的模型选择是与工业化应用和内容产业是分不开的；另一方面，艺术不是人工智能需要的，但是人工智能拥有高并发、质量稳定的特点，可以对应到内容产业，也是内容产业很必要的。

小冰绘画风格基本涵盖从古典到抽象风格，这其实与我们当时构建小冰诗人模型时选择现代诗，没有选择古诗词的原因类似。古诗词的规则性更强，这对于我们当时要做的量产模型（诸如歌词生成、金融文本生成）的价值有限。

绘画模型对应到产业应用中的是诸如纺织品设计的产品设计领域，如果用当代的艺术形式做纺织品设计，量太小，无法形成规模化效益。这类设计更适合人类艺术家来完成。而抽象、古典的绘画艺术形式在纺织品纹样设计上更具有传承价值。

三个模型+溯源算法，撑起小冰绘画模型硬核

说到小冰绘画模型的硬核，自然少不了其情感计算框架。其中，人工智能创造是小冰情感计算框架的一个分支。针对人工智能创造这一分支，李笛又将其分为两个分支，“一个分支是攀登艺术概念巅峰，诸如唱歌、写诗、绘画等；另一个分支是工程化量产（偏重内容产业），例如金融文本生成、电台节目、有声读物，以金融行业文本生成为例，目前国内90%的金融交易员用的都是我们的金融文本生成模型。”

小冰绘画模型正属于前者，是在艺术领域的一个AI模型，前文有提到，微软的思路是以这样的训练出来的AI模型去规模化适应多产业需求，类似一个更为复杂的通用模型的概念。

而在同为AI绘画模型领域中，小冰绘画模型也并非首创，早在2018年10月佳士得的拍卖会上，由AI创作的画作Edmond Belamy（《埃德蒙·贝拉米肖像》）曾在佳士得拍卖，预计售价会在7000到10000美元之间，实际成交额为43.25万美元。其创作团队Obvious运用GAN（Generative Adversarial Networks，生成式对抗网络）已经创作了11副画作。

Obvious团队成员之一Caselles-Dupré此前曾表示：“该系统由两部分组成，一边是生成器，另一边是鉴别器。我们为该系统提供了14世纪到20世纪之间的15000张肖像画数据集。生成器根据这个数据集生成新图像，然后鉴别器尝试识别人类画的肖像与生成器创建的图像之间的差异。我们的目的是骗过鉴别器，让它认为生成的新图像是真实的肖像，并得到这样一幅画作。”

2018年10月25日在佳士得拍得43.25万美元的AI画作

：小冰绘画模型在研发过程中主要解决了哪些技术问题？

李笛：2018年佳士得拍出一张AI画作，该画作是用GAN生成的。通俗地理解，小冰绘画模型用的是多种GAN的混合模型：用一个模型解决具体元素的生成，一个模型完成构图，一个模型完成对色彩的应用和命题的解读，所以，在小冰绘画模型创作的画作中，画面中的一只鸟、一匹马，是完全由绘画模型生成的。

一个GAN生成的绘画模型，是将画作内容迁移到新作品中，通过一个GAN生成的绘画模型进行创作面对的是一个数量问题。如果画作的内容看起来不够好，或许是因为模型没有收敛好。

小冰的绘画模型通过将三个模型融合，解决了收敛问题，这三个要能够很好的融合，这个难点其实挺大的。

：宋睿华博士此前曾介绍小冰写诗模型的时候表示，训练小冰写诗的时候，训练小冰写诗，需要对 519 位诗人的现代诗作，正读一万遍，倒读一万遍，用层次递归神经元模型来打磨诗作的语言，小冰绘画模型生成之后有进行了哪些调整？

李笛：小冰绘画模型与写诗模型的数据训练在形式上有很多相似之处，包括训练次数都是很接近的。不同之处在于，我们另外还加入了一个判断功能——判断小冰的画作有没有溯源。

小冰写诗模型在训练完之后，小冰写的每一首诗都是一个文本，这个文本你不需要去看是谁的风格，她的文本的风格是比较统一的风格。绘画与此不同，小冰绘画模型现在大概有30%的画作是可以比较明确地看出绘画风格（例如莫奈、伦勃朗的绘画风格），是能够溯源的。

换言之，小冰对每一位诗人的学习，是学习了一个共性，但是对每一位画家的学习，由于绘画艺术的不同，相当于是学会这些画家的技能。所以就会涉及到，如何判定我学会了那个画家的技法。

：我们现在针对文本、语音、视觉三个方面都已经形成模型并做了对外技术输出，这三者在技术上有怎样的相同和不同之处？

李笛：简单可以理解为，理念上极其相似，细节上完全不同。

包括用这三项技术去完成人工智能的创造，细节上很不一样，画画的细节跟唱歌的细节可以说是千差万别，要解决的具体问题，包括模型问题、工程问题也都千差万别，但理念是一样的。

相同之处包括三者都需要一个激发源。

写诗模型需要一个激发源，模型训练过程就是要解决模型如何对激发源产生合适的结果。人类写诗是先有一个命题，然后进行创作，有感而发；小冰写诗可以是以图片为激发源，从图中获得足够的信息量来激发小冰去创作。绘画模型与之类似，通过输入一段文本或提供其他信息源来进行创作，画画、写诗、音乐创作都是这样，需要有一个激发源。

不同之处包括三者的数据类型不同，解决问题的方法在细节上也有所不同。

例如，你在音乐上要解决的是你的基频、和谐程度，以及对某个音节上的预测，需要解决的是一个序列问题。绘画在数据类型上与之差别很大，需要解决色彩、空间构图上的数据问题。

少女画家小冰的逻辑思维

在微软小冰绘画模型正式发布一周后，少女画家小冰也作为一项技能以小程序和H5页面形式上线。在通过少女画家小冰进行绘画时，在3分钟等待时间里，画面会显示“抽取意象、激发创作灵感、选择内容主题、尝试画面构图、起草线稿造型、底层颜色涂抹、画面层次深入、细节反复打磨”八个步骤。

深度学习的基本理论告诉我们，大数据带来的是相关关系，而非因果关系，AI在创作过程中更多是一个「黑盒子」模型，如若想要详细理解工作原理，也是模型完成构建后，研究人员反推的结果。

少女画家小冰会有怎样的逻辑思维呢？

少女画家小冰在APP端显示的作画步骤

：小冰绘画模型发布后，微软官方又上线了少女画家小冰小程序，三分钟可以生成一幅画，有注意到的，在等待的三分钟过程中，画面会显示“抽取意象、激发创作灵感、选择内容主题、尝试画面构图”等八个步骤，这是小冰绘画模型真实的运行逻辑吗？

李笛：必须承认，一部分是真实的，还有一部分其实是为了增加产品的趣味性而设置的。例如我刚才提到，她有三个模型完成构图、色彩、确定意向，这些是小冰绘画模型真实的运行逻辑中有的。

：小冰绘画模型实际上生成一幅作品的逻辑是怎样的？

李笛：在少女画家小冰小程序中看到的好像是串行运行的，实际上真正的逻辑是很简单粗暴的。就是「进去、出来」（注：模型接受到激发源开始创造、生成作品），刚刚提到的三个模型也是同时工作的。但这个就没意义了，所以我们增加了趣味性。

算法执行就需要那么多的运行时间，运算过程中确实会形成一些中间步骤或成果，但这些成果，甚至于都不足以拿出来。人类画一幅画，他的下一个版本和上一个版本是有承接关系的，例如上一个版本打了个底子，下一个版本是在底子之上做一些细节的创作；小冰不是，小冰上一个版本的画作和下一版本的画作是完全不一样的。背后的逻辑关系是深度学习的「黑匣子」原理，实际上也没有办法用其他方式来描述。

小冰的训练数据，源自何处？

无论是数据模型，还是智能搜索引擎，都是大数据时代的杰作。大数据成就了当下的人工智能，小冰作为当下主流人工智能系统之一，其背后除了有强大的研发团队，还需要有海量数据的支撑。也了解到，第一代小冰的大数据源于微软的搜索引擎，随后小冰得到推广后，才有更多的与用户的交互数据。

与此同时，小冰并没有打造自己的硬件设备，也没有太多作为主语音助手的硬件设备，更多是以Dual AI战略入驻其他品牌的智能硬件，将小冰的情感计算框架植入合作伙伴的生态，如今小米等智能语音助手已经可以召唤小冰。然而，这样的非主语音助手的接入方式是否会影响小冰的训练数据集？

：小冰的训练数据来自哪里？是搜索引擎？还是有其他来源？

李笛：第一年、第二年的时候，搜索引擎是我们训练小冰的主要数据来源。从第二年开始，当时微软官方在第三代小冰发布会上就曾表示，我们当时训练小冰所用的数据就已经一半一半了，已经有一半的数据来自于小冰与用户交互产生的数据了。现在，我们在所有的QQ群以及很多其他平台上都有小冰的身影，另外，小冰还有很多化名，还有很多第三方（诸如电台主持人、歌手）是由小冰赋能的。

所以小冰的数据来源已经不是特别依赖我们搜索引擎，我们可以通过多种形式获得交互数据，得到的训练结果用来服务于某个单一领域。

：小冰在语音能力这块对外部署有怎样的一个思路。

李笛：我们去年发布会的时候提出来小冰的Dual AI战略，即双AI生态，我们也在践行这样的承诺。未来你可能看到朋友圈最广的是小冰，小冰也将是唯一一个目前为止你在各个平台上都可以看到的人工智能助手。

某种程度上这是我们的选择，微软在中国有自己的技术优势，但在市场上也有一定局限性。所以我们选择用一种发挥我们优势，一种更适合微软的生态模式继续发展。

：这种模式是否会使微软小冰在之后获取数据能力上或场景化嵌入能力上处于劣势？

李笛：这些工作还是要一步一步来的。就数据量而言，小冰现在每个月有一亿多活跃用户，在交互式人工智能领域中，可能全球范围内90%的交互数据都在我们这儿。所以，目前为止，我们还真不是特别依赖某一个终端。

：小冰绘画模型是如何获取训练数据版权的，我们对外输出的作品有没有版权？

李笛：数据这方面是没有问题的，这些艺术家都是400年前的艺术家的公开数据。小冰自己生产的原创作品，在视觉这方面，我们进行了版权保护的，小冰的画作每一副都有一个编码。因为视觉作品比较容易判定，所以我们每一个作品都可以溯源。小冰写诗，我们当时是明确放弃了诗作的版权，绘画方面我们不会放弃。

：是因为绘画这块我们对外会做更多商业落地吗？

李笛：不是更多商业落地，而是绘画本身的版权情况不同。

小冰的情感计算框架和未来发展规划

与众多AI语音助手、AI引擎注重IQ（智商）有所不同，微软小冰更注重EQ（情商），微软的小冰的硬核部分也正是基于其情感计算框架。之所以微软会这样注重小冰的EQ，一方面是微软在人工智能上的战略倾斜，另一方面其实也是对当下市场AI发展的现实难题的一种“迂回”或是“妥协”。

微软小冰的情感计算框架

：当下智能音箱在智能语音应用上并没能出现类似手机上的那种社交软件、电话、拍照这些强需求的应用，您觉得原因是什么？

李笛：原因有很多，我个人认为最主要的原因是“前代抑制”。

移动互联网时代智能手机的发展，包括你说社交网络、各种去中心化的App等发展得太成功了，所以紧接着而来的这个时代就没有那么容易成功。

这就有点像中国DVD已经很普及的时候，我们看似很老套的录像带，清晰度不够，尺寸也大，但在美国和日本却经久不衰，这直接遏止了DVD在这两个国家的普及。为什么？因为他们在录像带时代的整个产业链，包括录像带设备的普及太成熟了，直接遏止随后的DVD的发展。

例如今天很多人会尝试用更复杂的人工智能系统实现订餐比另一个人工智能系统方便，但是用户关注的是你们两个都没有那么方便，没有手机App上订餐来得方便，因为那个按钮不会出错，但是对话一定有一个比例会出错，所以就是你这个移动互联网时代太成功了，尤其是在中国，发展的太成熟了，反而会遏止下一个时代的发展。这也意味着AI需要多花一些时间，或者说它门槛会变高，成熟时间会变得更长。

：您觉得现在的智能语音助手或AI引擎，就技术和产品方面，关键的技术突破点在哪里？

李笛：在产品方面还有很多不足之处，以智能音箱为例，智能音箱至少存在两种维度不同的概念，我们经常混淆：它到底是智能音箱，还是一种高性价比或者说一种新形式的音箱；它卖的是硬件，还是AI能力。我有时候也去看一些智能音箱发布会，发布会上，三分之一的时间在讲音质，三分之一的时间在讲内容，剩下三分之一的时间在讲价格。

智能音箱里的AI语音助手，就目前为止，绝大部分的设计还停留在一个好用、没那么好用，或是比较好用的语音控制。你如果用一个智能音箱控制开灯、关灯，虽然方便，但如果你只叫开灯、关灯，再方便也只是不停地重复，它没有情感就很难实现真正的交流，因而也只是一种带语音控制的音箱。

智能音箱什么时候在发布会上可以更多介绍其AI特点，而不是介绍音质、内容和售价，我觉得这个就算是解决问题了。

：其实也是因为这个原因（当下的智能不够智能），所以微软小冰会更注重情感框架和EQ？

李笛：这个行业其实在慢慢地发展，我们的看法是，如果能做成绝对强AI引擎，如果今天你这个AI，无论是个人助理或其他应用真能像爱因斯坦那么睿智，或者真正什么任务都能完成，那他不需要EQ，人们也可以接受。人们可以接受爱因斯坦EQ低一点，但问题是你做不到，所以你再没EQ的话，那就没有太大价值了。所以现在的方案看起来很美，但实际上没达到那么好。好的产品需要有一个好的“体验底层”，到人工智能这来讲的话就是EQ。

：微软小冰AI引擎在技术研发方向上，做了文本、语音，然后又做了视觉，接下来会有怎样的一个整体规划？

李笛：接下来我们在量产和概念模型上会更丰富，我们现在已经将基于文本、语音、和视觉的（模型）三个领域一一攻破，接下来就是在这三个领域扩大覆盖能力，所以我们肯定文本的概念模型不只是会写诗，还会有别的，视觉也不会仅仅是停留在静态的绘画，还会有动态的。未来应用领域会继续扩大，但是领域不会有更多了。

注：本文中的「模型」（诸如基于文本、语音、视觉的模型）均指「内容创作模型」。