专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来

发布时间：2017-11-30 浏览数：

如今VR已经变成老生常谈的话题，2016年火了一把之后今年有些疲倦之势。与此同时，随着苹果ARKit和谷歌ARCore等技术的推出，AR这个看似离我们很远的东西正在通过手机等移动载体快速进入大家的生活。

“现有的VR和AR设备已经拥有出色的体验，例如探索遥远的太空，用于工业设计辅助参考、医学培训等。不过，这些激动人心的应用实现的关键在于高质量的三维内容，没有则会大打折扣。”童欣在ICEVE 2017大会演讲时说到。

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(1)

然而和以往相比，现有的三维内容产生方式并没有本质上的变化，三维内容的生成工具依旧很复杂，需要艺术家进行大量的手工工作，同时三维内容的捕捉工具对于普通用户而言也非常困难，这些还得依赖专业的工作室，它们造价昂贵，普通用户不能简单的完成这些操作，依旧面临很多难题。

童欣是微软亚洲研究院的网络图形组首席研究员，在研究院内部人们亲切地将他称之为 “童姥”。他在微软所从事的工作用一句话概括就是：希望通过智能化的方式来代替以往繁琐的操作步骤，让用户更快速、简单的生成高质量三维内容。

不过一个有潜力的解决方案是，如今通过很多便宜的捕捉设备（RGB摄像头、深度摄像头等），专业艺术家们已经创建的大量的高质量三维内容，和机器学习技术，让普通用户快速生成三维内容变成了可能。以下是童欣在本次演讲的三个研究方向。

一，草图快速生成三维图像

没想到的是，微软图形组潘浩，刘洋研究员等人的研究成果竟能让一张简单的草图就能让用户快速创建三维内容。例如图中的贝壳，只需画出轮廓线，中间用曲线（Bendline）的形式勾绘，来表明凸起或凹陷的程度，对于变化尖锐、不连续的地方只需用曲线标注一下即可。

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(2)

有了基本草图之后，算法通过人们总结出来的几何约束和几何知识，自动的从草图中推断出三维形状。之后，就需要算法识别出哪一段曲线的形状是凸起或凹陷的，这些数据在图中就形成一个方向场，根据这些方向场，把物体表面的法向恢复出来，从而形成三维的图像。

这套系统简单到什么程度：对于普通用于而言只需约20分钟，就能学会快速生成质量较为不错的三维内容。而对于专业用户而言，通过该系统可形成初始版本三维内容，之后可导出至专业软件工具进行细节的调整和修饰，从而达到快速设计的目的。

二，机器学习，生成高质量贴图

通过现有的高质量的图片，自动为三维内容生成高质量的材质贴图。传统的工作需要艺术家通过PS等工具进行大量手工操作。

而研究院的另外一项技术，就是希望通过机器学习的算法，代替繁琐的手工，自动快速的帮助用户实时生成材质贴图，即便生成的效果不够理想，也能通过简单的修改达到可以正常使用的模型。

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(3)

利用深度学习技术做这件事情的前提是需要大量的训练数据，这件事情非常难。一个我们观察到的有意思的现象是，网络上存有大量的贴图照片，同时绘制算法已经相对成熟，它可以帮助我们生成高质量的图像，这个逆向的过程是可直接拿来用的。于是，研究院的董悦研究员等人开发了自增强的深度神经网络训练算法。

利用网上下载大量高质量图片，和逆向的绘制过程一起来完成这个深度学习的过程。实际效果上，这种算法合成的贴图无论是应用在金属、木头、塑料等材质上都有着很好的效果。童欣讲到，目前这项技术已经开源，任何人都能免费使用这些。

三，动态三维物体的生成

除了这些固定外形的三维物体外，微软的图形研究小组还在研究动态的三维模型的设计和打印。这其中，软体机器人就是一个很典型的研究案例，通过给软体机器人充气，给定不同气压，可以实现不同的作用和功能，这是由图形组的张译中副研究员等人最近发表的工作。

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(4)

对于用户而言，这项技术只需给出数字三维模型的自然形状和变化后的形状，之后算法就会计算出哪些部分不需要变形，把不需要变形的部分用坚固的材质填充起来。再通过算法计算出气囊大小、形状、位置等，最后用线框将三维物体进行包裹，以控制哪些地方需要变形，哪些地方不需要变形。

之后，对线框内的材质进行再次优化，控制好材质的硬度和变形方向。最后用3D打印机打印出来，得到最后的形状。例如，这个心脏，需要分成几块进行打印。

以上是童欣在本次演讲中谈到的几个最新的研究成果。同时他还提到，本次谈到的的智能不仅仅指的是机器学习技术，它还包含人类在过去总结出的几何知识、物理知识、高端的物理模拟计算机制，这些都可以和机器学习算法一起，来帮助用户快速、简单的创建三维内容。

童欣认为：“距离普通用户生成三维内容还有很多工作要做，我们最终的愿景是，希望通过5-10年时间让用户能够像拍照一样快速的生成三维内容。”

本届ICEVE活动后，青亭网也针对VR和AR领域的一些问题和童欣展开了讨论，本次采访围绕这360度全景视频方面进行展开，其中关于视频传输过程中的压缩和解压，6DoF全自由度视频以及全景视频中的焦距等方面，以下是采访摘要。

青亭网：计算机图形学应用在VR和AR中的体现哪些方面？

童欣：我研究的内容主要集中在高质量的三维内容生成。目前的VR和AR视频都是需要去捕捉的，但是如果你想对这些视频中的人或者物体进行编辑的话就非常难。

这就和我们人工创造的视频就不同了，人工创造的视频正好相反，你创造的所有的三维内容都可以进行编辑和修改的，这个是它的好处。对于我们来说，要解决的一些问题是：我们怎么能够帮助用户，简单快捷的获取这些三维内容。比如说，我们想把这个椅子扫描下来，同时需要获取椅子的形状和材质。首先就需要拿一台三维扫描仪过来，经过编辑获取椅子三维图像后，再把椅子的材质捕捉下来，然后把材料和椅子贴合到一起，这样就能把椅子放在任何虚拟环境中进行渲染了。

我们想做的事情就是，简化这个流程，能让他快速获取这些。普通用户只需要摄像头或深度摄像头就能获取这些东西，希望用户的手工工作越少越好。另外还有很多艺术家，他直接去创造他脑中虚拟的形象，我们也在研究一些技术，能够帮助他们快速生成他们想要的东西。

青亭网：图形学对于VR和AR视频的影响有哪些？

童欣：计算机图形学（Computer Graphics）在计算机分支中算是一门应用学科，我们的研究基本上围绕在计算机中如何创建、表达、显示、操作各种可视媒体内容（Graphics Content）。

随着VR设备的诞生，全景视频就变成最直观最迫切的需求，从真实世界中捕捉、再现的这种媒体形式，也给用户带来更沉浸的使用体验。

虽然近些年的硬件迭代更新延续不断，但软件层面的技术上并没有新突破，基本还在沿用前些年的技术。在360度全景视频内容生成、压缩、传输方面，可能还会遇到新的挑战，但在捕捉方面该有的问题还是在那里。

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(5)

青亭网：360度全景视频的压缩，与常规2D视频压缩的不同点

童欣：常规视频压缩以“流”的形式传播，有一个很强的时序，大部分人在看视频时不会倒着看，最多选取其中一段观看，但基本都是按顺序在播放。

而360度全景视频中，虽然在时间上虽然并没有较大改观，但是你看到的内容实际上是其中一小块，观看时只会选取视角前的内容，意味着必须要在任何时刻都能随时做到存取其中的任意一块内容，这也是和传统视频压缩最大的不同点。

另外，传统视频压缩为时间流做了非常多的优化，通常的做法是进行关键帧和非关键帧的区分，在关键帧时压缩每一帧的内容，而在非关键帧时压缩这一帧和关键帧之间的差别，通过这样的技术来达到更高的压缩比。

不过，这套技术并不完全适用在360度全景视频中，尤其是在存取较远关键帧时会带来连贯性的丢失，这会直接影响全景视频的体验。

此外，大家对于VR内容的反馈要求更高，随着视频内容分辨率更高，每次又只读取一小块内容，无疑也在增加解压过程的难度。因为，只有解压速度足够快时，才能够保证实时的反馈输出效果。

青亭网：全景视频传输的存在的难点（目前的无线VR传输方案已经有不少，包括像TPCAST等推出了VR无线套件体验都还不错，同时还有即将到来的5G移动网络，这些技术对于VR内容的传输来讲有哪些难点呢？）

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(6)

童欣：大家最关心有以下两点：

1，带宽。带宽的问题相对来讲好解决，特别是在近距离环境，相当于一个专有网络，只要把技术做到位，带宽就可以做到足够大。

2，延迟。相比较带宽而言，延迟的问题显得更为重要。因为体验者的头部是运动的，并且是在本地发生的，把内容通过流媒体的形式传送到头显中，如果当头部转动时流媒体内容没有及时传送到，这种延迟就会带来眩晕感。因此相比较带宽而言，延迟可看作是VR视频无线传输中更重要的问题。

青亭网：如何看待6DoF全景视频

童欣：6DoF全自由度全景视频最难的地方在于全光函数（自然界中给定一个场景，里面所有光线的集合）采样，如果不考虑任何物体几何的因素，能把全光函数捕捉下来，就意味着你在任何一个点都能获得来自任何方向的光强，这样就可以实现6DoF的漫游。

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(7)

不过摆在目前的难题是，全光函数的数据量是非常非常大的，无论是从捕捉、压缩，还显示来看都是一个巨大的挑战，这些也是原来基于图像绘制、捕捉中研究的基本问题。

全景视频的捕捉基本上只有两个方式：

1，先捕捉，后压缩

不管三七二十一，把视频先捕捉下来，然后通过压缩技术、分析技术，然后传递给用户。不过，这样的方式仅对传统的静态视频奏效，对于6Dof的动态视频而言实现起来太难了。

2，关键点捕捉

捕捉时需根据场景内容预先做一些稀疏的工作，例如选取几个关键点进行捕捉。完成两个点的捕捉后，我需要做的是从这个视点到另外一个视点的漫游，在两个之间做插值，让你看不出任何破绽来。

然而在这里面就涉及到一堆计算机视觉的问题。

首先，需要对场景进行一些识别和重建，只有重建找到对应关系后，才能在之间做插值。最难解决的问题就是遮挡，如果从这个视点到另外一个视点中间被遮住，当我走到中间的时候就要去推测被遮挡的那一块有多少露出来了，这个在传统的插值中是解决不掉的问题，在IBR（图像的绘制技术，Image Based Rending)）中过去大家也花了很长时间去解决这个问题，但也并没有一个很好的解决方案。

那现在所谓的六自由度全景视频中，可以想象两件事儿：

如果这个场景是一个虚拟的场景，通过计算机程序生成然后渲染出来，那么捕捉问题就不存在了，但图像的压缩和显示将来是一个问题。

如果是真实世界中的场景，视频的捕捉和缝合本身就是一个非常大的问题，尤其是全自由度全景视频。

青亭网：如何看待全景相机的未来发展

童欣：全景相机的发展应该跟传统相机一样，基本上还是围绕解决三个方向：分辨率继续攀升，拥有高动态范围，拥有较高的帧速率。

专访微软童欣: VR是新媒体, AR是服务平台, 两者都是未来(8)