小米语音技术负责人王育军：小米智能语音技术从0到1的实践之路

发布时间：2020-03-25 浏览数：

从乐视到小米，一直在从事语音技术

2017 年以前，在各大媒体报道中很少提及小米语音技术，当时小米还没有自己的语音技术团队。因为业界有很多成功的语音技术合作伙伴，所以小米认为与他们的合作是理性的、性价比也很高。但其实小米早已经有了自己的云、大数据和 AI 平台，业务数据的集中化管理也做得可圈可点。

正是在这样的背景下，2017 年王育军加入了小米人工智能部门，在人工智能实验室语音组负责小米的语音识别、语音唤醒、声纹识别和语音合成方面的研发工作。在入职小米之前，王育军曾就职于乐视，负责为乐视电视和手机提供远近场语音识别、语音唤醒声纹识别和语义解析等技术。对开发者来说，研发的延续性尤为重要，由于之前一直从事语音技术工作，而当时小米也有电视业务，因此对他来说加入小米在技术上算得上是无缝“平移”。

小米在智能语音上的应用实践从 0 到 1：解决生存问题

小米的技术研发主要服务于产品，因此技术积累也紧跟产品发展趋势。在小米语音技术的发展初期，团队首先要考虑自身生存问题，所以必须尽快实现从 0 到 1 的突破。

小米的设备生态囊括了手机、电视、音箱、手表、耳机等，由于当时需要尽快完成从 0 到 1 的技术突破，所以团队选择了可以热启动的、有经验的项目，比如小米电视。据王育军称，他入职第一个月，就看到了小米语音生态的优势。随后语音组用 4 个月时间开发了小米第一个语音识别系统，上线到小米电视，因为小米电视的用户、产品形态已经非常成熟了。当初团队还只有 4 个人。他们将这段经历戏称为“444 岁月”，意思是 4 个人，经过 40 多次试验，历时 4 个月，不但上线了语音识别系统，还发表了自己基于端对端语音识别的论文。

据王育军介绍，在发展初期，小米训练语音技术使用的数据都是真实业务数据，而应用到的语音识别工具是 Kaldi。之所以选择 Kaldi，是因为小米语音团队刚开始只有两名正式员工和两名实习生。要重新搭识别器，训练模型都不现实。Kaldi 是大家公共的技术语言，这样无论是开发还是招聘，上手成本都很低，并且直接遏制了打着“崇尚螺丝钉文化”旗号搞“技术自留地”的想法。

落地进入正轨，开始规划新技术

随着语音识别技术落地逐渐步入正轨，小米开始规划语音唤醒、声纹和语音合成技术。

经过几年的发展，小米语音团队从仅有 4 个人的“游击战”转入了正规军“阵地战”。步入正轨后就不能只选择热项目了，必须把没有数据、产品形态未知的冷项目也做好。这些冷项目“上线”后，小米面临着产品成本和性能的双重挑战。以小爱为例，小爱的用户量一直在猛增，计算成本需要优化，每天各个渠道都会反馈 Badcase 。所以团队要广揽人才，同时思考如何把这些事情尽量地系统化解决。模型需要自动更新，在线计算资源、优化算法和本地化要均衡发展。

繁华落尽，恰逢人员流失

在 2018 年到 2019 年期间，kaldi 模型存在迭代机制不灵活、声学语言不方便解耦的问题。算法离线化时，内存冗余。当创业般的激情被繁琐的工程细节和看似千篇一律的模型迭代消磨殆尽后，正逢所有团队都必须面临的“两年之痒。人员流失导致团队无法再去逆行开发去解决过去遗留的问题，有限的人力不得不投入到新技术预研上。这是每个语音团队必经之路，并非是小米语音团队特有。从事语音技术的人都清楚，从 0 到 1 容易，但是从 1 到 1.1 就要付出比 0 到 1 多很多倍的人力和财力。

目前，小米的语音技术用已经应用在了小米手机、音箱、电视和其他 40 多品类的小米生态链设备中的语音识别、语音合成、语音唤醒和声纹识别功能上。

在谈到未来小米智能语音技术的发展规划时，王育军表示：

从技术角度看，所有语音的技术都会进入小红利期。我们希望看到的局面是语音识别只需要一个模型就可以直接处理多通道语音信号，语言和声学模型不再异构，推理过程变得越来越简单有效。我们也希望看到语音合成可以由精雕细琢，变成规模化生产任何声音。这些都是端到端技术要解决的问题。在今天全民端到端的时代，交互领域内的人工智能技术同质化越来越重，语音技术中前后左右的融合技术模块，包括语音技术自己的上游会逐渐交融。在短期内，语音技术和 NLP 可能会你中有我我中有你。搞清楚自己发展方向之前，首先需要开放地拥抱这些技术边界的模糊化。

语言识别、语音合成的技术发展脉络

智能语音技术是最早落地的人工智能技术，也是在 AI 产品中应用最为广泛的一项技术。自从深度学习引入到智能语音领域后，这项技术才真正地从不温不火变为炙手可热。深度学习的引入使语音识别文字的准确率从 70% 多，提升到了近 90%。这些改变很大程度上得益于算法的改进以及模型的迭代。

在算法方面，语音识别技术主要经历了隐含马尔科夫模型的引进，统计模型的应用，基于模板的技术复兴尝试以及深度学习。深度学习之后的一些演变，都是应用场景的变迁推动的，近场 -> 远场 -> 多通道语音识别，在王育军看来，这不完全属于算法演变。在模型方面，当下业界倾向于端到端语音识别模型，王育军则认为这种模型与传统识别模型只是形式上有所不同，但初衷相同，他表示：

如今的深度学习技术正在从自然语言处理、图像、计算机方向不断地向语音技术渗透，技术迁移以天为单位。

语音合成面临的挑战

任何一项技术发展到一定阶段后都会迎来瓶颈期，语音技术也是如此。在语音合成方面，当前面临的问题是把合成从艺术做成规模化产品：过去语音合成是用一位声优，录出尽量多的专业录音数据，然后训练声学模型和声码器。目前研究者们需要时间来逐步论证数据采集、使用与标注的方法，使用户可以听见自己熟悉的声音。甚至可以弱化合成和语音编码，语音降噪的边界。

语音识别技术难点

语音识别的难点从来都没有变过，仍然是尽量使用户可以“自由场景自由说”。场景中面临的挑战是混响、竞争说话人、极低信噪比等。在说话方式上面临儿童发音不清楚、口音和方言多语言问题，这些挑战会长期存在。各方都在呼唤一套可以“兼容”自由场景自由说的产品方案，拉近技术边界和用户预期。当然从算法的逻辑上讲，无论是回归问题还是分类问题，都会面临“未见”的情况，这是永恒的难点。

解决跨设备“自由场景自由说”是当务之急

目前，语音技术也被应用在了很多不同的端上，比如智能家居场景中的很多终端，在王育军看来，语音技术是整个语音交互生态中的一环，要应用的智能家居中，语音生态的掌舵者，和其他环节要做的努力远比提升语音技术本身要多。具体到语音技术，我们面临的问题还是要解决跨设备“自由场景自由说”。举例来说，如果家居设备联动做得不好，会让用户唤醒小爱同学的时候一呼多应，让人欲言又止，无法自由说。再比如说声纹技术本来初衷是简化用户的语音操作，但随着声控设备的增加，每个设备都需要做声纹注册，增加了用户的使用成本。很多家居控制设备是家庭成员共享的，这些设备需要记住每个语音使用成员的偏好，上述提到的这些问题，小米的相关团队都在努力优化中。

近几年，业内讨论较多的一个话题是，语音识别面临的下一个突破要从技术上突破还是从应用场景上突破，对此王育军认为，技术突破和主宰性的应用场景总是交替出现。作为技术从业人员，他更希望利用技术去驱动应用。但近年来更多的时候是主宰性的应用场景复活了技术。比如说在 2007 年，很多语音界的人开始关注到了 GPU 在其他领域的应用，并把 GPU 迁移到声学模型训练中和推理中；2011 年，深度学习的成果已经在语音研究中逐渐形成，但直到 Siri 的出现才再次复活了手机语音助手；Google 开启了语音搜索和语音输入，人们才广泛地认可语音交互，算力也成为了炙手可热的资源。3G 和第一大波移动互联应用的才让研究者第一次把所谓的“铁三角”（场景，算力，数据）闭环。远场和端到端语音技术也是伴随着 4G 时代第二波移动互联的应用，才回到在人们视野中的。那个时代有人说智能等于一个设备可以触达的应用于服务。正是因为我们有了移动互联新贵的出现，才让手机和音箱更有“料”。

关注我并转发此篇文章，私信我“领取资料”，即可免费获得InfoQ价值4999元迷你书！