2021-4-10 | 互联网
真实场景建模是虚拟现实、计算机图形学和计算机视觉研究的重要内容之一,特别是构造室外静态场景三维模型,如故宫、巴黎圣母院、自由女神像等,它在文化遗产数字化保护、数字城市、数字影视与娱乐等方面有重要的应用价值.
传统的三维场景建模方法往往需要使用专门设备对目标场景进行数据采集,如用三维激光扫描仪采集场景的几何信息,用同一个已标定的相机采集场景的外观,用可控的主动光源对场景进行照明等,因而受到场景规模、几何结构、周边环境与光照条件等的诸多限制,能适用的场景数量非常有限,而且这种数据采集过程的复杂性和高成本也决定了其伸缩性较差,难以用于街道乃至城市规模的室外场景建模.
近几年,随着数码相机、照相手机与互联网的普及,人们将拍摄的大量的室外场景照片上传到互联网进行分享.
截至2011年2月,著名的照片分享站点picasaweb的照片总数达到70亿张,flickr.com达50亿张,而社交网站Facebook的共享照片更高达600亿张,再加上Google街景等照片,构成了海量的互联网共享照片集.
这种照片集有3个特点:
1)覆盖面广.
几乎涵盖了世界的各个角落,特别是对于各地的名胜古迹,往往有大量从不同视点、在不同时间(一年四季,一天从早到晚)和不同天气条件(晴天、多云等)下拍摄的照片;
2)获取成本很低.
例如人们可以轻松地从Google上搜索、下载超过20万张天安门的照片;
3)具有无结构性.
即拍摄的视点是无序分布的,并且拍摄时的光照条件未经过测量,拍摄者所使用的相机、镜头各不相同,响应曲线和色彩未经过标定,场景中还常存在杂乱的遮挡现象等.
这些特点决定如何挖掘和利用这类新数据集中丰富的信息,快速、方便地构造逼真的虚拟场景模型,这是近年来互联网发展给虚拟现实、计算机图形学和计算机视觉带来的新的研究热点.
本文先分析基于互联网照片构造室外场景模型中存在的基本科学问题,然后分别从室外场景的几何、光照和反射属性建模技术3个方面,分析和总结该领域的国内外研究现状,并给出对发展趋势的思考.
1基于互联网照片集的室外场景建模
互联网照片记录了室外场景的外观,照片中各像素每个通道的值反映了由场景各点向观察者视点方向出射的光照辐射度,这取决于光照条件、场景的几何结构、其表面材质的光学属性、相机的视点、投影变换参数、曝光参数和成像系统的响应曲线.
这些因素中,前三者与相机无关,它们之间的交互作用决定了场景在某一时刻形成的光场,若仅考虑由不透明材质构成的场景,则该交互过程可用绘制方程表示为L(x,ωo)=∫ΩLin(x,ωi)V(x,ωi)ρ(ωi,ωo)h(n,ωi)dωi(1)该方程是在场景中某一点x处单位正半球面Ω上的积分,其中ωi,ωo分别表示入射与出射光方向;n是表面法向量;Lin(x,ωi)表示入射辐照度;V(x,ωi)表达环境光源可见性,其值为0或1;ρ(ωi,ωo)表示材质反射属性,常用双向反射分布函数(bidirectionalreflectancedistributionfunction,BRDF)描述;投影因子h(n,ωi)=n•ωi,常包含在BRDF模型ρ中;L(x,ωo)则是出射辐射度.
与相机相关的参数中,投影与视点三维变换通常用相机内外参数矩阵P和M表示,如(u,v)T=P•M•(x,y,z)T=P•(R|t)•(x,y,z)T所示,其中R和t分别是视点的相对旋转、平移参数.
曝光参数与响应曲线则分别用I(u,v)=f(k•L(u,v))中线性系数k与从辐射度L到像素值I的非线性映射f来表示.
因此,从照片构造场景模型可看作反射与成像的逆过程,根据式(1),由不同照片中的像素值,求出拍摄各照片的视点与投影参数、场景各点三维坐标与表面法向量,以及表面材质的BRDF反射属性模型和环境光照信息.
研究者们对基于图像建模研究已经取得丰硕的成果,但与这些传统方法相比,通过互联网共享照片集进行场景建模要解决的难点问题包括:
问题1.
传统基于图像的建模方法中拍照所用的相机往往曝光参数已知,响应曲线可用实验测出,很容易将不同相片中的像素值投影到统一的线性辐照度空间.而拍摄每张互联网照片所用的不同相机曝光参数和响应曲线无法事后通过实验测量,因此需要发掘照片自身特征和场景中的不变特性,对各照片进行辐射度标定.
问题2.
传统基于图像的建模方法所用的场景照片往往是视点固定或已知的,其分布也满足一定轨迹和顺序.而互联网照片的拍摄视点都是未知的,分布具有无序和不均匀性,因此需要发掘场景自身几何结构的不变性对外观的作用和约束、求出相机视点,并对视点进行筛选,按一定结构重新组织;然后将基于照片集的建模问题划分为有序的子问题,设计出高效的几何重构算法.
问题3.
室外场景的外观是一个甚高维空间,变幻无穷的环境光照与阴影、变化的视点位置与镜头焦距、多种多样材质的复杂反射属性、复杂几何结构带来的自遮挡与随机出现的前景遮挡等,各自都具有很高的维度.互联网照片集虽然数量多,所采样到的场景外观仍只是一个相对很小的子空间,使得求解问题高度病态.