微软小冰唱歌惹怒二次元, 但深度学习和音乐的故事才刚开始

发布时间：2017-10-19 浏览数：

最近，人工智能第一次和人类在小范围爆发了“冲突”，而双方的主角是人见人爱的人工智能少女微软小冰和虚拟歌姬们的粉丝。

虚拟歌姬是二次元中的圈子之一，爱好者们用一款名为Vocaloid的软件，输入歌词和音符，利用音源库中的人声音源和伴奏制作音乐。再搭配上虚拟形象，就变成了初音未来、洛天依这样的虚拟歌姬。

微软小冰唱歌惹怒二次元, 但深度学习和音乐的故事才刚开始(1)

而最近，微软亚洲研究院为微软小冰打造了人工智能歌手深度学习模型，只需要人声清唱一遍，就能学会人类的感情和演唱风格。在微博上发布关于这一消息时，小冰用到了“过时的技术”等等话术，惹恼了虚拟歌姬粉丝，甚至有些粉丝喊出了让小冰“滚出中国”。

虽然这件事最终以小冰道歉为结尾，但深度学习和音乐之间的故事却要更丰富的多。

理解音乐，是创造的前提

用算法创造音乐这件事，需要的技术门槛不高，更不需要多大的硬件成本，但真正的难点，却是如何创造出好听的音乐。

其实在音乐的创作上，最基础的就是七个音符的排列组合，利用随机输入和聚类算法，就能用无规律的音符组合出想要模仿的旋律。又或者，干脆让电脑把音符随机组合，让人来判断好不好听，最终电脑总会创造出让人满意的旋律。

微软小冰唱歌惹怒二次元, 但深度学习和音乐的故事才刚开始(2)

以上这些方法都存在于“理论中”，音符、乐器、和弦、人声之间可以有无限组合，而音乐类型中既存在通俗歌曲这种规律性较强的，也有爵士乐这种几乎找不到规律的。单纯靠无限组合这种概率事件，恐怕比让猴子打出一部莎士比亚还要难。

这一切的局限就在于，人工智能不能“理解音乐”，因为不能理解，所以只能无意识的模仿和排列组合。而深度学习的加入，让理解音乐这件事成为可能。

再造一个巴赫：庖丁解牛的创作模式

在人工智能理解音乐这件事上，可以参考音乐平台的推荐算法。音乐属于非结构化数据，能够从中识别的推荐标签通常是歌手、出版年份等等信息，或者人为添加上去的歌曲风格。

可如果利用信号分离技术，提取出音频文件中的分轨（既把人声、器乐等等音乐的不同部分分离出来），则可以利用深度学习技术分别学习音乐中和弦、节奏、人声中的规律，更完整的理解音乐。

深度学习作曲最好的案例就是DeepBach，一个诞生于索尼计算机科学实验室的开源项目。

巴赫创作过大量的复调圣歌，既一种包含两条独立旋律的复音音乐。这种音乐形式极具共同点，同时结构简单，非常适合作为研究对象。实验室的科学家选择了巴赫的三百多部作品，在一定范围内变调，再利用循环神经网络反复训练。最终训练出来的曲目，几乎可以以假乱真。

微软小冰唱歌惹怒二次元, 但深度学习和音乐的故事才刚开始(3)

其实听过一些复调歌曲就会发现，在演奏时这种左右互搏的音乐虽然很难，但从结构上来说，复调音乐的特点非常明晰。以巴赫的复调来说，精准的对位、明显的阶梯感和层次感、更严禁的节奏等等。

严谨、有规律、特点鲜明，意味着巴赫的复调音乐更容易理解、更容易模仿。

说白了，DeepBach创作的音乐谈不上有多高的原创性，只是琢磨透了巴赫复调圣歌的特点，在其原作品形式上进行变化，创作出与之十分相似的音乐。

只会做数学题的深度学习

目前大多数人工智能作曲都和DeepBach类似，捕捉音源中的特点，再根据用户的需求对有限的元素进行组合。

Jukedeck、Amper Music等等人工智能作曲平台也是一样，把原本被标注为作者、年份、风格的整首歌曲分解成器乐、节奏等等多个部分，再进行更详细的标注。最后，再根据用户设定的音乐类型、情绪、速度等等“创作”一首歌曲。

微软小冰虽然不是依靠深度学习作曲，但提出的“示唱人”概念，也是收集用户的音准、音高、颤音振幅和颤音频率等等数据，再将这种特征植入到用户制作的歌曲中。

在微软小冰开放平台之前，我们很难距离了解到小冰如何在十几分钟内通过一段语音训练处相似的风格和情感。不过可以确定的是，目前多数依靠深度学习的音乐创作不外乎都是如此，玩票、再创作的性质远高于原创性。

微软小冰唱歌惹怒二次元, 但深度学习和音乐的故事才刚开始(4)

深度学习只能去学习流行歌曲、复调音乐等等结构清晰、规律性强的音乐，给它一段Coleman的Free Jazz，它可能学着学着就崩溃了。目前深度学习在音乐领域中可以把数学题做的很好，可到了数学公式不管用的领域，它也无能为力。

所以，音乐人们可以放下心来，你们暂时还不会被AI替代。

是包容侵权者，还是和音乐人好好相处？

虽然利用深度学习创作的音乐没有那么高的原创性，AI也暂时不能替代音乐人，但深度学习却可以帮助音乐人更好的工作，也能给人们带来很多便利。

比如说，当我们想为视频作品、PPT、H5等加入一段配乐时，可以通过Amper Music选择风格，随机创作一段音乐。既不用承担使用盗版音乐的侵权风险，也绕开了不会创作这个大坑。

又比如说唱音乐的伴奏，通常来自某一首歌的采样，再经编辑而成。这就导致在其他乐迷看来，说唱音乐经常有抄袭的嫌疑。而有了深度学习的存在，创作者可以利用算法学习采样歌曲的风格，而不是直接使用原有旋律。

微软小冰唱歌惹怒二次元, 但深度学习和音乐的故事才刚开始(5)

不仅如此，深度学习让所有没有作曲能力的爱好者都有机会创造自己的歌曲，不用再扒曲子、翻唱。

其实，对于大多数人来说，利用了深度学习的人工智能作曲工具只不过是在打侵权的擦边球——把想抄袭的歌曲喂给算法，算法就能吐出一段非常相似但不涉及到侵权的旋律。

至于专业音乐人，当我们还在担忧他们被人工智能抢走饭碗时，人家已经开始熟练的应用各种人工智能平台进行创作了。美国歌手Taryn Southern的新专辑《I AM AI》中，就有一首由人工智能负责编曲的歌，歌手创造旋律和歌词，算法完成编曲。虽然这首歌的编曲听起来没有太多亮点，但它的完整度已经很接近人类的创作了。

或许在未来，深度学习可以更好的为创作者提供灵感，创作者给出一段旋律，算法就可以为这段旋律渲染上各种不同的风格和感情，以此拓宽思路。

微软小冰唱歌惹怒二次元, 但深度学习和音乐的故事才刚开始(6)

换个角度想，小冰和虚拟歌姬粉丝间的冲突就是一种预示。现在让我们直接接受人工智能创作歌曲还为时过早，但利用深度学习加持音乐创作的时代已经来临。不管是Amper还是小冰，又或者是有着众多粉丝的Vocaloid，他们的本质都是工具。工具本身毫无意义，但有了人类参与，才能一起创造出整个瑰丽的世界。