当谈论虚拟现实(VR)、增强现实(AR)的时候,我们到底在谈什么?
新风口?新概念?新技术?新名词?从技术人的视角来看,这是技术累积的量变引发的。沉浸感体验的一个技术基础是对海量场景、物体、人物进行三维建模并渲染,是属于计算机视觉和计算机图形学的交叉领域,曾经是一个相当小众的领域。
二十年前,我在选择这一研究方向时,这个领域并不像今天这般吸引眼球。这一领域的入门非常辛苦,不但要学很复杂的数学、物理,发表一篇论文都要写上万行代码,甚至还需要在实验室的暗室里面动手搭设备、拍数据,出成果的周期很长。
二十年过去,技术已进步太多:三维模型数据比过去丰富得多,渲染效果也更逼真、更快速。三维模型可以由艺术家手工设计出来,也可以通过对真实物体、场景进行三维重建得到。并且,重建结果的细节更丰富,超过了手工设计。
得益于这些技术进步,VR/AR、“数字孪生”等虚拟世界有了实现的基础条件。
现如今,国内在这一领域已发展到了全球的前列水平,微软研究院的童欣、浙江大学的周昆等都是这个领域全球知名的学者。阿里达摩院也调集全球上百位科学家,成立了“XR实验室”。
“像照片般的真实感”
我曾经担任计算机视觉和图形学几个学术会议CVPR、ICCV、SIGGRAPH的领域主席,也担任两本学术杂志TPAMI和IJCV的副主编。回顾过去这些年三维重建和渲染方向的进展,用更好理解的话说,很多研究都是寻求“像照片般的真实感”(photorealism)。
真实感渲染中一个基本问题,就是研究光线在物体表面的反射现象。这是人类视觉感知的基础,也是我在博士生阶段的第一个课题。在学术界,有各种各样的反射模型来描述光的反射现象。但有个问题一直没解决:在不同尺度上物体的反射特性是不一样的。
比如,从10厘米左右的近距离观察,一颗沙粒表面的石英片是像玻璃一般的高反射表面,对应的反射函数是一个狄拉克函数;而从100米外看,一大片沙则是哑光、蓬松的,接近于朗伯表面,对应的反射函数是一个常数函数。
我的导师曾希望我能够建立一个统一的反射模型,把不同尺度的反射现象都统一起来。这是一个极其困难的问题,我失眠的毛病大约就是从那个时候开始的。我花了差不多两年时间,才在这个问题上获得突破,并在欧洲图形学会的渲染分会上发表了博士阶段的第一篇论文。
反射模型是一个偏光学领域的问题,此后大家又开始研究几何层面的问题。当时的几何建模技术主要局限在对简单规则物体的建模,如汽车、家具等。如何对自然界的复杂物体建模依然未知。
自然界物体的几何形状非常复杂,但往往又遵从简单的数学规则,比如斐波那契数列、分形等。数学家们很早就注意到了这些现象,加拿大一位科学家写过一本书叫《植物的算法之美》,专门研究这一问题。
在这个问题上,我与合作者做了三年,提出了第一个从照片构建植物三角网格模型的方法,在图形学领域最重要的学术会议SIGGRAPH上发表了一系列基于图像三维建模的论文。建模对象也从树木、盆栽扩大到建筑、街道,甚至整个城市。并获得了当时评委的称赞:“真是电影特效级的质量”。今天许多从航拍图像构建城市三维地图的工作就是基于类似的技术框架。
这些研究本质上都是为了提升虚拟世界的真实感,称得上是三维重建、渲染领域的根本问题,后期的技术发展也大多沿袭了这条道路。
下一代互联网
如今,游戏、影视和AR/VR等数字产业,在不断消化吸收关于“真实感”的研究成果,将其产品化、商业化。美国一家头部科技投资基金甚至预测,未来10年VR/AR眼镜的出货量将大大超过智能手机。
未来虚拟世界到底怎样?众说纷纭。让我来说,可能会是“VR/AR眼镜上的互联网”。
VR/AR眼镜将会推动互联网更新换代,现在的互联网应用都会在VR/AR眼镜上有新的呈现形式。从这个角度来看,过去受互联网影响非常深的通讯、社交、媒体、零售,甚至支付,都很可能会迎来一场革命。这场技术革命,可以类比历史上的计算平台迁移带来的巨变。
从PC到手机,媒体、零售发生了很大的变化,因为屏幕变小了,过去门户网站那样分门别类的罗列方式被彻底淘汰了,取而代之的是智能推荐。甚至,电商出现了新的形态——本地生活。得益于手机定位功能,本地生活类应用可以推荐附近三公里内的餐馆和服务,完全重塑了零售服务业。
VR/AR时代,我们可能都会有自己的虚拟形象,在一个虚拟空间里“面对面”交流。
而到了AR/VR时代,类似的微妙而又深刻的变革将再次发生,AR/VR将会革新显示和交互的底层基础。过去PC上、手机上显示交互的界面是二维的,是一个个的“窗口”,而在AR/VR眼镜上,显示交互的界面是三维的,是立体空间。在三维空间,人们可以有更直观、更沉浸式的显示,用户和内容的互动方式也会从文字、图片进化到视频、互动,发生根本性改变。
显示和交互是所有互联网应用的底层基础,它们的改变会带来上层应用脱胎换骨般的革命,整个互联网行业将会重新洗牌。
远不止于游戏
在这场技术革命中,最敏感的是影视与游戏公司。他们创建了非常丰富的虚拟IP和虚拟场景,让用户沉浸在各种数字内容之中。工业制造、生物医药等行业则在设计阶段大量应用虚拟数字孪生仿真技术。
但这不是想象力的全部。通过虚实结合,有更多现实问题可以尝试解决。我们目前也在探索一种更高效的三维重建体系,它已经应用在我们对外贸工厂、城市街道的空间重建中。
调研显示,当前70%~80%的B2B交易都要通过远程互动,更有效的方式是直接看到工厂和样品的三维实景。但这面临硬件设备的困局——一直以来,空间三维模型需要依托专业扫描设备、专业操作人员、投入极大的成本才可构建。
为了解决这个问题,XR实验室自研扫描机器,配合云端三维重建算法,实现快速、便捷地构建VR内容;而软硬一体的设备,普通摄影师即可操作。不久后,这套技术将在杭州文三路上部署街景增强现实。
虚拟世界技术的另一个落地案例,是摘苹果。
我国年产4000多万吨苹果,需要超过100万采摘工人,密集采摘期有2周左右。疫情当前,熟练工人无法区域流动,有些果园因为找不到足够人手,苹果直接烂在果园里。
达摩院XR实验室与行业生态伙伴合作,尝试结合虚拟建模与机器人技术解决这一问题。技术团队采集了大量图片,通过三维重建技术构建果园环境和植物的三维地图,训练苹果识别算法,并研制高效自动采收机器人系统。今年9月,系统开始在陕西的千阳和洛川苹果基地进行试验测试,取得了初步成效。
未来,随着这一仿真数字模型不断完善,机器人数字孪生体在仿真环境中不断优化作业技能,就可迁移到实体机器人进行作业。机器人在果园作业过程中也会不停地采集数据反馈给果园模型,用于实现自我更新和优化。如此一来,也许能优化一套标准化、数字化、自动化的苹果生产方式,帮助果农降本增效。
终局是什么?
不管是场景展示,还是结合机器人进行实地劳作,都只是虚拟世界技术的一种形式。XR的终局是什么?
笔者认为,可以把未来“虚拟世界”的技术分为四个层次。
第一层是全息构建,就是用三角形网格建立出整个世界的外表,并在终端上显示,制造一种沉浸式的体验。当前,VR看房、看店,就是这类技术的应用。但全息构建技术深入发展,还需要对物体的内部精细结构建模,同时场景中的物体要可以被操作,结构要可以重新组合。比如,一些室内装修设计平台可以让用户随意搭配不同的家具,提前体验装修的效果。
第二层是全息仿真,要让虚拟世界无限逼近真实世界。虚拟世界里,水要往低处流、扔一块石头能打碎玻璃、虚拟角色对外界能做出合理反应。电影《头号玩家》展现了这一场景。这一层的技术在游戏、电影中已经有过比较多的应用,但还可以应用到更广泛的领域,如工业设计、模拟仿真等。
前两层的技术结合起来就能实现VR眼镜中的虚拟世界。但还有第三层、第四层。
第三层是虚实融合,让虚拟世界和真实世界融合起来。技术上要实现这一点就要能建立真实世界的高精三维地图,并在地图中实现厘米级精准定位、定姿,准确叠加相关信息。千人千面的基于厘米级精准定位的信息推送将无时不刻、无所不在。这就能实现AR眼镜中的虚拟世界,虚拟世界和真实世界的边界从此被打破。
第四层是虚实联动,虚拟世界的改变能够对应到真实世界。要做到这一层需要解决机器人的问题。技术问题解决后,就可以通过第二层的全息仿真寻求问题的最优解决方案,然后通过第三层的虚实融合把方案映射到真实世界,再通过第四层的机器人技术实现在真实世界执行。
关于未来,人们总是有各种畅想。未来达摩院XR实验室也会在这个方向深耕,努力不断打破技术和想象力的边界。
(作者系阿里达摩院XR实验室负责人,本报记者赵广立整理)
|