3D电视视差舒适度客观评价
魏娜 张为冬
(国家新闻出版广电总局广播科学研究院)
摘要:视差是双目立体视觉的重要研究方向,也是影响人眼观看3D电视舒适度的重要因素。本文阐述了双目立体视觉和视差的概念、约束条件,介绍了3D电视视频图像质量评价的方法、发展以及相关标准,最后分析视差舒适度客观评价的相关算法,并通过实验对比各种算法的提取精度和效果,设计和实现3D电视视差舒适度客观评价软件。
关键词:双目立体视觉 视差 3D电视 图像匹配 舒适度评价
引言
双目立体视觉的开创性工作始于上世纪的60年代中期。上世纪80年代初,Marr首次将图像处理、心理物理学、神经生理学和临床精神病学的研究成果从信息处理的角度进行概括,创立了视觉计算理论框架[1]。
立体视频图像技术发展至今,3D技术作为其代表技术,在电影行业已经成熟运用。南非世界杯直播、美国探索频道、欧洲3D立体卫星电视以及国内3D频道开播标志着3D技术在电视行业中也较为成熟的运用起来。除此之外,在网络、游戏、医疗等诸多领域,3D技术也在不断发展。
虽然3D技术有广阔的应用前景,但限制其发展的一大壁垒是由于3D电视的视差在带给观众纵深感、真实感的同时带来的视觉疲惫感。这大大限制了观看3D电视的时长和舒适度,从而造成3D电视技术不能大范围普及。
一、双目立体视觉
1. 双目立体视觉理论
人眼接收光搭载的传递信息来感知观看外界的事物,这些光线透过角膜、晶状体、玻璃体的折射,在视网膜上显出景物的影景象,转换成神经冲动传入大脑的视觉中枢,经过大脑皮层的综合分析产生视觉。人眼结构示意图如图1所示:
图1 人眼结构示意图
双目立体视觉理论建立在对人类视觉系统的研究基础上,通过双目立体图像的处理,获取场景的三维信息,其结果表现为深度图,再经过进一步处理就得到三维空间中的景物,实现二维图像到三维空间的重构。
3D电视,就是通过在液晶面板上加上特殊的精密柱面透镜屏,经过编码处理的3D视频影像独立送入人的左右眼,观众无需借助立体眼镜即可裸眼体验立体感,同时能兼容2D画面。目前3D电视显示技术可分为眼镜式和裸眼式两大类。对于眼镜式3D技术,又可细分出三种主要类型:色差式、偏光式和主动快门式,如表1所示。
表1 三种3D显示技术
色差式3D技术 | 偏光式3D技术 | 主动快门式3D技术 | |
技术 方法 | 滤光轮分出光谱信息,一个图片能产生出两幅图像 | 光线有“振动方向”的原理,把图像分为垂直向偏振光和水平向偏振光两组画面 | 控制快门式3D眼镜的左右镜片开关,使左、右双眼能够在正确的时刻看到相应画面 |
优点 | 1.成像原理简单2.成本低廉3.无需特殊显示 | 1.图像效果比色差式好 2.成本也不算太高 | 1.保持画面的原始分辨率 2.不会造成画面亮度降低 |
缺点 | 1.无法重现真实彩色 2.效率低 | 1.对显示设备亮度要求高 2.画面清晰度减半3D效果减半 3.观看者头部保持平直 | 1.会出现串扰重影现象 2.匹配的3D眼镜价格高 3.需要额外红外解码器和发射器 |
3D电视使用两台摄像机设置在与人眼瞳孔距离相近的距离同时拍摄记录左右眼图像,将两路图像合并成一路图像,进行混合、划像,切换和编辑制作,最终的三维立体信号在特殊设备上显示观看。采用“帧兼容”方式传输3D信号。目前利用空间压缩的方法把双眼的两个图像压缩在现有的高清传输带宽内,有Side by Side以及Line by Line模式,都属于空间压缩的范畴,两种模式在水平或者垂直方向上损失一半分辨率。
图2 左右眼图像Side by Side以及Line by Line传输模式
2. 视差人眼在观看时能够感知物体的宽度、高度以及深度,判断物体之间的距离,这种三维视觉的主要原因是人眼用双目同时观看物体。在单用左眼和右眼观看物体时,所产生的图像移位感觉就叫视差(Binocular disparity)。视差分为正视差和负视差两种。基于双目视差的原理,运用两台距离类似于IOD(约65mm)的摄像机同时记录拍摄景象,获得景象的立体图像左右眼视频,可以通过视差的匹配计算方法计算出视差值,通过几何和三角关系换算出深度信息。
图3 正、负视差
视差估计是依据参考图像中的一个点或者一个块,根据某种准则,在对应图像中寻找其匹配的点或者块的过程。视差估计越精密,所得到的预测图像就越能接近原始图像,残差图像也越好,如应用在压缩编码中,压缩比也越高。
视差估计的匹配主要有稠密匹配和稀疏匹配两种。视差受摄像机几何及物体表面的连续性约束,恰到好处运用这些约束将有益于视差的估计。Marr提出了外极性等约束条件[1],后来经过Mayhew和Frishy推广,目前有:外极性约束条件、方向性约束条件、相容性约束条件、平滑性约束条件、连续性约束条件、唯一性约束条件和视差梯度约束条件。
二、3D电视视频图像质量评价
3D立体视频利用人眼的双目视差原理,让左右眼分别接收不同的视频信息进行神经合成一幅3D有立体纵深的画面。3D立体视频图像质量评价依托于现有成熟的2D图像领域的主客观图像质量评价体系[2],但也不是简单地全盘移植,还需有基于3D特性的变化。
1. 2D图像质量评价体系
视频质量主要从主观和客观两个角度进行评价,而评价的内容有逼真度和可懂度两个方面。逼真度是指观看图像和原始图像的相似程度或者偏离程度,而可懂度是指视频所提供的信息与人们日常生活中积累的经验的符合程度。视频质量评价的另外一个非常重要的指标就是视频的舒适度,如闪烁频率、亮度色度饱和度等。
国际电信联盟ITU从1999年起陆续发布了一系列的主观评估的测试标准,有多媒体应用的主观视频质量评价方法《ITU-T P.910》、《ITU-R BT.500》等,主要包括ACR测试方法、DCR测试方法和DSCQS测试方法。
视频的客观评价标准是借助计算机机器视觉和数学模型的方法和手段,来模拟人眼的真实客观评价标准,最终达到使用客观的评价标准来达到与人主观评价相一致的评价结果。客观评价标准有以下三种常用的评价模型:基于误差统计的评价模型、基于HVS模型和基于图像特征统计量。
2. 3D图像质量评价1)立体视频评价的必要性立体视频从采集拍摄、压缩、编解码、传输到最后的存储和显示过程中,这些技术过程都经过电子线路,很容易引入高斯白噪声等噪声因素,从而影响到了图像最终观看的质量。因此要建立起一种立体视频视觉质量评价标准,确保该评价标准能够察觉到立体视频图像在中间环节引入的失真和误差,做出主、客观的评价。
图4 典型的3D电视制播链路
2)现有立体视频评价标准目前在立体视频图像质量评价中常借鉴2D图像质量评价的指标,如峰值信噪比、均方误差等,但实际使用后发现它们不能很好地反映人眼对3D立体图像质量的真实感觉。
MPEG组织专门成立小组致力于立体视频的研究,ITU国际电信联盟也专门对3DTV进行研究,陆续制定人眼对于图像质量主观感知特性的主观实验测试标准,其中针对于立体视频图像质量的有立体图像质量测试操作规范《ITU-R BT.1438》,通过主观感知实验,研究人眼视觉系统对图像的感知:如人眼对亮度的非线性感知,包括视觉的非线性、对不同空间频率的不同敏感度、对比度敏感度等。
3)《3D电视技术指导意见---节目制作播出》国家广电总局科技司发布《3D电视技术指导意见》,该意见的第一部分系统阐述了3D节目制作播出节目拍摄、后期制作、节目存储和节目播出这几个方面的技术方案和标准,其中特别提出了3D电视拍摄制作视觉安全准则和质量控制,对3D电视的视差、误差、视野冲突和质量进行控制。其中对于视差的管理部分如下:
1. 长时间观看,为保证舒适度,大部分时间内的画面主体内容视差角小于1度,相当于在屏幕上左右成像间距小于高清电视水平方向的3%,约58个像素;
2. 拍摄、制作是控制视差的办法有两种:拍摄时调整左右摄像单元的间距、会聚角;制作时校正左右眼图像的水平相关参数;
3. 通过后期调整图像的水平位置,实现等效调整摄像单元间距的视差效果。
三、3D图像视差提取
在3D视频图像对这个应用场景中,要提取到左右眼图像的视差,需要对左右眼图像进行匹配获得运动估计。视差的提取有以下两步:确定匹配图像、采用合理的匹配算法和准则。1. 图像匹配准则匹配过程中使用的各种匹配准则或者叫匹配算子,是用来衡量两个子块的相似程度的误差度量函数,匹配准则直接关系到运动估计的精确性,每一个匹配算子都有自己的优缺点。目前常用的有以下四种匹配准则:平均绝对误差MAD、绝对绝对误差和SAD、均方误差函数MSE和归一化互相关函数NCCF。在后续小节中通过实验对比不同匹配准则的匹配效果。2. 图像匹配算法1)块匹配
基于区域的稠密匹配方法考虑两幅图像中具有相似特性的区域,最常用的方法是基于块匹配的算法,其他算法有光流法、相位相关法等。块匹配算法简单有效,以及被诸多视频压缩编码算法所采用作为运动估计的算法,如MPEG系列和H.26x等。块匹配算法中,一帧图像被分割成M×N或N×N像素大小的互不重叠的块,在视频图像序列中,t时刻对应图像序列的第K帧,t+1时刻对应图像序列的第k+1帧。在K+1的图像帧中的一个块,寻找它在第k帧中的位置,是匹配的过程,基于一定的匹配标准,找到最佳匹配,并且将从k到k+1帧过程中块移动的距离、方向当作运动矢量。常用的块匹配算法有全搜索法、三步搜索法、交叉搜索法、四步搜索法、菱形搜索法等。块匹配算法块的大小的选择、运动估计的精度和物体运动的一致性这几个要素。2)特征匹配
特征匹配是稀疏匹配的匹配算法,只通过提取图像的特征边缘或者特征点,对这些特征进行两幅图像的匹配计算,而对其他的点进行相似插值的算法,这种算法计算复杂度低于块匹配,但是匹配真实性低于块匹配。常用的检测边界的算子有一阶导数梯度算子有Roberts算子、Sobel算子、Prewitt算子;二阶导数算子有拉普拉斯算子、马尔算子以及Canny算子;常用的特征点检测的算子有Harris、Susan和Sift算子。3)SGBM立体匹配Heiko Hirschmulle提出的基于半全局信息和互相关信息的立体匹配算法SGBM[3],它采用像素精度,基于互相关信息的匹配来弥补输入图像的细小差异。像素精度的匹配通常是被看作全局信息也就是稠密匹配的一种平滑性限制条件,SGBM算法是一种像素精度各个方向的快速近似算法。互相关信息在处理复杂的光照问题时被引入计算机视觉算法,现在已经广泛应用在立体匹配和快速近似计算中。SGBM算法是基于像素精度的互相关信息匹配过程和近似全局的2D平滑度限制,也就是视差匹配的限制条件,分别从以下三个方面来进行:像素精度匹配计算、全方向聚合计算、二次曲线拟合亚像素级别视差计算。四、舒适度客观评价1. 匹配准则对比实验之前介绍了图像匹配常用准则:平均绝对误差MAD、绝对绝对误差和SAD、均方误差函数MSE和归一化互相关函数NCCF。SAD和MAD的计算实质是一样的,并且在匹配算法中广泛使用SAD代替MAD;MSE是SAD匹配准则的特例,即窗口是方形的情况。所以在实验中选择SAD和NCCF两种匹配算法进行比较。使用块匹配中全搜索的算法,窗口大小设为9,最大可能视差48,对Tsukuba和Teddy等四套标准测试视差图进行了两种匹配算法的比较,实验结果是:NCCF的视差图质量略好于SAD,但是计算复杂,时间较长。在实时性要求高的应用场景下选择SAD准则;NCCF效果虽然比SAD好一些,但是运算过于复杂,时间过长。具体效果如下图:图5 SAD和NCCF匹配准则效果比较
2. 匹配算法对比实验通过实验,实现之前介绍的块匹配、特征匹配和SGBM匹配算法,并且对比了各种算法的实际匹配效果与匹配效率的关系,最终选取了适用于3D电视场景的算法。
在匹配中使用了方向性、外极性、平滑性与唯一性约束条件,即视差只在水平方向上有变化。三种匹配算法试验中,统一设最大可能视差为48,SAD的匹配准则。
图6 三种匹配算法结果比较
表2 三种匹配算法实验测试数据
计算时间(ms)/最大视差值 | BM | 特征匹配 | SGBM |
Teddy | 114.2/44 | 59.7/43 | 1014.1/46 |
Tsukuba | 144.9/43 | 64.5/37 | 612.3/41 |
图7 一帧3D电视视差提取与舒适度分析流程图
五、结束语
视差估计在计算机视觉以及立体视频、3D电视领域都有着非常重要的地位和意义,随着机器视觉和立体视频的广泛应用,对系统的实时性和准确性的要求也越来越高。由于3D图像内容存在遮挡效应、噪声、光线等约束因素,立体图像的视差图存在一定误差,提高精度依旧是今后发展的重点。3D视频图像质量评价目前仍然以借鉴2D图像的主客观评价思路,虽然ITU及其他国内外组织做了大量的研究提出了一些规范建议,但是对于3D立体视频的评价仍然缺乏有效的准则。3D电视技术发展依旧任重而道远。
参考文献:
[1] Marr D, “Vision: A computational investigation into the human representation and processing of visual information” [J], 1987[2] Wang Z, Bovik A C, Sheikn H R, et al. Image Quality Assessment: From Error Visibility to Structural Similarity [J], IEEE Transactions on Image Processing, 2004, 600-612[3] J. Kim, V. Kolmogorov, and R. Zabih. Visual correspondence using energy minimization and mutual information [J], International Journal of Computer Vision, October 2003 编辑:中国新闻技术工作者联合会
评论 点击评论