混合现实 | 浏览量 : 0 下载量: 18 CSCD: 0
  • 导出

  • 分享

  • 收藏

  • 专辑

    • 面向增强现实的虚实遮挡技术综述

    • Virtual-real occlusion handling technologies in augmented reality

    • 吴宇晖

      1

      李晓娟

      2

      刘越

      12
    • 2024年29卷第10期 页码:2859-2879   

      纸质出版日期: 2024-10-16

    • DOI: 10.11834/jig.240045     

    移动端阅览

  • 引用

    阅读全文PDF

  • 吴宇晖, 李晓娟, 刘越. 2024. 面向增强现实的虚实遮挡技术综述. 中国图象图形学报, 29(10):2859-2879 DOI: 10.11834/jig.240045.
    Wu Yuhui, Li Xiaojuan, Liu Yue. 2024. Virtual-real occlusion handling technologies in augmented reality. Journal of Image and Graphics, 29(10):2859-2879 DOI: 10.11834/jig.240045.
  •  
  •  
    论文导航

    摘要

    随着软件技术的快速发展以及硬件设备的不断更新,增强现实技术已逐步成熟并广泛应用于各个领域。在增强现实中,虚实遮挡处理是实现虚拟世界和真实世界无缝融合的前提,对提升用户的沉浸感和真实感具有重要的研究意义。该技术通过建立尽可能精确的虚实物体遮挡关系以呈现逼真的虚实融合效果,使得用户能够正确地感知虚拟物体和真实物体的空间位置关系,从而提升交互体验。本文首先介绍了虚实遮挡的相关背景、概念和总体处理流程。然后针对刚性物体和非刚性物体的不同特点,总结了现有的基于深度、基于图像分析和基于模型3类虚实遮挡处理方法的具体原理、代表性研究工作以及它们对刚性物体和非刚性物体的适用性。在此基础上,从实时性、自动化程度、是否支持动态场景及适用范围等多个角度对现有的虚实遮挡方法进行了对比分析,并归纳了3类虚实遮挡处理方法的具体流程、难点以及局限性。最后针对相关工作中存在的问题,提出了目前虚实遮挡技术所面临的挑战以及未来可能的研究方向,希望能为后续的研究工作提供参考。

    Abstract

    With the rapid development of software technology and the continuous updating of hardware devices, augmented reality technology has gradually matured and been widely used in various fields, such as military, medical, gaming, industry, and education. Accurate depth perception is crucial in augmented reality, and simply overlaying virtual objects onto video sequences no longer meets user demands. In many augmented reality scenarios, users need to interact with virtual objects constantly, and without accurate depth perception, augmented reality can hardly provide a seamless interactive experience. Virtual-real occlusion handling is one of the key factors to achieve this goal. It presents a realistic virtual-real fusion effect by establishing accurate occlusion relationship, so that the fusion scene can correctly reflect the spatial position relationship between virtual and real objects, thereby enhancing the user’s sense of immersion and realism. This paper first introduces the related background, concepts, and overall processing flow of virtual-real occlusion handling. Existing occlusion handling methods can be divided into three categories: depth based, image analysis based, and model based. By analyzing the distinct characteristics of rigid and nonrigid objects, we summarize the specific principles, representative research works, and the applicability to rigid and nonrigid objects of these three virtual-real occlusion handling methods. The shape and size of rigid objects remain unchanged after motion or force, and they mainly use two types virtual-real occlusion handling methods: depth based and model based. The depth-based methods have evolved from the early use of stereo vision algorithms to the use of depth sensors for indoor depth image acquisition and further to the prediction of moving objects’ depth by using outdoor map data, as well as the densification of sparse simultaneous localization and mapping depth in monocular mobile augmented reality. Further research should focus on the depth image restoration algorithms and the balance between real-time performance and accuracy of scene-dense depth computation algorithms in mobile augmented reality. The model-based methods have developed from constructing partial 3D models by segmenting object contours in video key frames or directly using modeling software to achieving dense reconstruction of indoor static scenes using depth images and constructing approximate 3D models of outdoor scenes by incorporating geographic spatial information. Model-based methods already have a relative well-established processing flow, but further exploration is still needed on how to enhance real-time performance while ensuring tracking and occlusion accuracy. In contrast to rigid objects, nonrigid objects are prone to irregular deformations during movement. Typical nonrigid objects in augmented reality are user’s hands or the bodies of other users. For nonrigid objects, related research has been conducted on all three types virtual-real occlusion handling methods. Depth-based methods focus on the depth image restoration algorithms. These algorithms aim to repair depth image noise while ensuring precise alignment between depth and RGB image, especially in extreme scenarios, such as when foreground and background have similar colors. Image analysis-based methods focus on foreground segmentation algorithms and occlusion relationship judgment means. Foreground segmentation algorithms have evolved from the early color models and background subtraction techniques to the deep learning-based segmentation networks. Moreover, the occlusion relationship judgment means have transitioned from user-specified to incorporating depth information to assist judgment. The key challenge in image analysis-based methods lies in overcoming the irregular deformations of nonrigid objects, obtaining accurate foreground segmentation masks and tracking continuously. Model-based methods initially used LeapMotion combined with customized hand parameters to fit hand model, but now using deep learning networks to reconstruct hand models has become mainstream. Model-based methods should improve the speed and accuracy of hand reconstruction. On the basis of summarizing the virtual-real occlusion handling methods for rigid and nonrigid objects, we also conduct a comparative analysis of existing methods from various perspectives including real-time performance, automation level, whether to support perspective or scene changes, and application scope. In addition, we summarize the specific workflows, difficulties and limitations of the three virtual-real occlusion handling methods. Finally, aiming at the problems existing in related research, we explore the challenges faced by current virtual-real occlusion technology and propose potential future research directions: 1) Occlusion handling for moving nonrigid objects. Obtaining accurate depth or 3D models of nonrigid objects is the key to solving this problem. The accuracy and robustness of hand segmentation must be further improved. Additionally, the use of simpler monocular depth estimation and rapid reconstruction of nonrigid objects other than user’s hands need to be further explored. 2) Occlusion handling for outdoor dynamic scenes. Existing depth cameras have limited working range, which makes them ineffective in outdoor scenes. Sparse 3D models obtained from geographic information systems have low precision and cannot be applied to dynamic objects, such as automobiles. Therefore, further research on dynamic objects’ virtual-real occlusion handling in large outdoor scenes is needed. 3) Registration algorithms for depth and RGB images. The accuracy of edge alignment between depth and color images must be improved without consuming too much computing resources.

    关键词

    增强现实; 虚实遮挡; 刚体及非刚体; 深度图修复; 前景提取

    Keywords

    augmented reality; virtual-real occlusion handling; rigid and non-rigid bodies; depth image restoration; foreground extraction

    论文引用格式:Wu Y H, Li X J and Liu Y. 2024. Virtual-real occlusion handling technologies in augmented reality. Journal of Image and Graphics, 29(10):2859-2879(引用格式:吴宇晖, 李晓娟, 刘越. 2024. 面向增强现实的虚实遮挡技术综述. 中国图象图形学报, 29(10):2859-2879)[

    0 引 言

    增强现实(augmented reality, AR)技术在用户周围的现实世界呈现由计算机构建的虚拟物体以及作为提示的文字、图案和视频等信息,并允许用户与虚拟信息自然交互。AR系统叠加的虚拟信息扩充和增强了真实场景,在空间和认知上架起了虚拟世界和真实世界之间的桥梁。随着相关软硬件技术的不断发展,AR已经深入到军事、医疗、工业、游戏和教育等领域,并成为未来元宇宙的关键一环。

    增强现实技术的三大特点是虚实融合、实时交互和三维注册(

    Azuma,1997),虚实融合作为3大特点之一 ,其逼真与否与增强现实用户的体验感息息相关。而虚实遮挡技术对提高虚实融合的真实感至关重要,经虚实遮挡处理后的融合图像能够反映用户视角下虚拟世界和真实世界中各自可见的部分,从而赋予用户正确的深度感知。假设当前用户视角下相机所捕获的真实场景为大小n×m的图像R,需要在其上叠加的虚拟元素为V,如图1所示,虚实遮挡问题可描述为确定最终融合图像A中的每个像素Ax y)是来自真实场景Rx y)还是虚拟元素Vx y),其中x[1,n]y[1,m]

    fig

    图1  虚实遮挡示意

    Fig.1  Virtual-real occlusion handling

    icon 下载:  原图 | 高精图 | 低精图

    早期的AR应用中并未考虑虚拟物体与真实物体的空间位置关系,只是简单地将虚拟物体直接叠加到场景中,可能会导致虚拟物体错误地遮挡真实物体。错误的虚实遮挡关系不仅会降低AR系统的真实性,使用户产生视觉疲劳,且在诸如外科手术、工业装配等需要严格确认前后位置关系的应用中会带来难以估计的后果和损失。因此,虚实遮挡处理对AR技术的发展和应用具有重要的研究意义。

    虚实遮挡处理是增强现实领域长期存在的问题,多年来国内外众多研究者和开发者提出了多种解决方案,已有的代表性综述(

    徐维鹏 等,2013郑毅,2014Macedo等,2023)将这些解决方案分为基于深度、基于图像分析和基于模型3类。增强现实中虚实遮挡的通用处理流程如图2所示,其中基于深度的方法首先获取并修复场景的深度图,之后逐像素比较真实场景中的刚性和非刚性物体与虚拟物体的深度关系;基于图像分析的方法需要获取真实场景中刚性和非刚性物体的轮廓并在后续的视频序列中进行跟踪,通过人工指定或借助深度传感器比较虚拟物体和真实物体轮廓的深度关系;基于模型的方法首先对场景进行三维重建,并在比较虚拟物体和真实场景中刚性和非刚性物体的深度关系后渲染深度值较小的虚拟物体以实现正确的虚实遮挡效果。上述3类方法都能实现较为准确的遮挡效果,但在实时性、自动性、场景是否动态、对刚性及非刚性物体的适用性等方面具有不同的性能。

    fig

    图2  虚实遮挡处理流程

    Fig.2  Virtual-real occlusion handling flow

    icon 下载:  原图 | 高精图 | 低精图

    通过对虚实遮挡技术及其相关应用的全面调查发现,目前已有的虚实遮挡相关综述较少。

    聂平(2013)的综述侧重于阐述典型方法背后的具体原理,而对其他相关方法的介绍较少。徐维鹏等人(2013)郑毅(2014)的综述较为详尽地列举和比较了当时已有的虚实遮挡方法,但受发表年限的限制,缺乏对近年来相关硬件设备及软件算法的介绍。Macedo等人(2023)的综述全面地概括了近30年来虚实融合方面的相关工作,将虚实融合问题分为遮挡顺序、X-ray及视觉显示器3个问题来看待并进行详细讨论,但该综述在将虚实融合看待为遮挡顺序问题时的分类将背景、颜色和边缘等与图像分析相关的特征都归类到基于模型的方法中。由于AR应用中,与虚拟物体发生遮挡的可能是刚性物体,也可能是进入视场的手、其他用户等非刚性物体。因此本文与已有综述不同的是,在补充最新方法的同时,针对刚性物体和非刚性物体的不同特点,从不同虚实遮挡方法对刚性物体和非刚性物体的适用性角度出发,对基于深度、基于图像分析和基于模型3类方法进行总结和对比,同时对未来研究方向进行了展望。

    1 刚性物体虚实遮挡方法

    刚性物体在运动或受力作用后形状大小保持不变,其遮挡处理方法可以分为基于深度和基于模型两种方法。基于深度的方法对于简单刚性物体具有较好的遮挡效果,而利用图像处理算法修复后的深度图像可用于形状复杂的刚性物体的遮挡处理。基于模型的方法多用于对静态的真实场景进行遮挡处理,适用于大部分刚性物体。

    1.1 基于深度的刚性物体虚实遮挡方法

    为获取场景深度信息,

    Wloka和Anderson(1995)提出一种从立体视觉算法中获取场景深度图的近实时算法(Kanbara等,19992000),并将其应用于虚实遮挡处理。作者在头盔显示器上安装两台摄像机并利用立体匹配算法获取真实环境的深度图像,在将深度图输入到渲染缓冲区中比较真实场景深度与虚拟物体深度关系后渲染深度值小于真实物体的虚拟物体,进而实现正确的虚实遮挡效果。然而立体匹配过程涉及到的计算量大,该算法为保证实时性牺牲了深度图的精度。此后,一些研究者对立体匹配算法进行优化和改进,例如对场景中物体进行区域立体匹配或在立体匹配过程中利用图像的绝对差值累加器加快匹配速度(Duchesne和Herve,2000Schmidt等,2002王红 等,2008)。为提高获取的深度图像的精度,Kim等人(2003)提出一种两个步骤的视差估计算法,利用区域分割技术和形状自适应匹配窗口对双目图像匹配进行分层次处理得到精确的匹配结果和视差估计。虽然该算法能够得到平滑、精细的遮挡边缘,但是在计算视差过程中计算量过大,导致系统不能实时运行。为减少计算量,Zhu和Pan(2008)Zhu等人(2010)对Kim基于双目匹配获得视差估计的方法进行了简化,将对极几何引入到双目匹配算法中得到感兴趣目标的低精度的深度图像。

    基于立体视觉算法获取场景深度图像涉及的计算量大,系统实时性难以保证,即使对立体视觉算法进行优化也很难平衡深度图像精度和系统实时性的关系。随着深度传感设备的问世,用户可以通过现有设备获取场景的深度图像。

    Fischer等人(2007)提出利用飞行时间(time of flight, ToF)传感器(Bartczak等,2008Kolb等,2010)结合高分辨率照相机获取场景的深度图像和RGB图像的方法。该方法首先对两个相机进行标定对齐,然后利用基于图形处理器(graphics processing unit, GPU)的渲染流水线比较虚拟物体和真实场景的深度关系实现正确的遮挡效果。为了解决室外AR应用中发生的错误遮挡问题,Behzadan和Kamat(2010)利用激光探测和测距设备(laser detection and ranging, LADAR)获取场景深度信息。此后随着便携式深度相机的流行,越来越多的研究者将深度相机获取的深度图像应用于AR虚实遮挡方法中。Gimeno等人(2012)利用Kinect深度相机(Cruz等,2012)获取室内场景有限范围内的深度图像并将其应用于工业装配和维修任务,实现了正确的虚实遮挡效果,但是由于原始深度图像中存在很多深度值缺失区域,使得物体边缘等细节处的遮挡效果存在较大误差。

    对于大规模长距离的室外增强现实场景,普通的深度相机工作距离有限,而激光雷达过于昂贵,因此利用定位系统结合地图数据是获取室外场景深度的有效手段,但其无法获取移动物体的深度。为改进该问题,

    Sizintsev等人(2021)提出了一种如图3所示的长距离室外增强现实动态遮挡处理框架,其先使用深度学习YOLACT(you only look at coefficients)实例分割网络,实时分割出不同类别物体的轮廓,然后利用摄像机的重力矢量找到轮廓最低点与地图场景的交点,以该交点的深度作为整个分割物体的深度。该框架同时引入了移动物体跟踪模块计算分割轮廓相较于前序时刻的运动参数,加速了移动物体深度推理的过程。该框架能够实现近实时的室外移动物体遮挡,但其用地势交点预测整个移动物体深度的方法在地形崎岖且自遮挡很多的情况下缺乏鲁棒性。

    fig

    图3  长距离室外动态遮挡处理框架(

    Sizintsev等,2021

    Fig.3  Long range outdoor dynamic occlusion handling framework (

    Sizintsev et al., 2021

    icon 下载:  原图 | 高精图 | 低精图

    在移动增强现实领域,仅有少部分智能手机配备深度传感器件且价格高昂,因此在移动增强现实中嵌入获取场景深度信息的方法以解决虚实遮挡问题具有更好的普适性,也成为了主要的研究方向。

    Valentin等人(2018)提出了一种应用于移动增强现实的虚实遮挡方法,利用最近邻图像和过去的关键帧之间的立体匹配算法得到低延迟的密集深度图,其实现流程如图4所示。该方法首先利用ARCore的视觉惯性里程计(visual-inertial odometry, VIO)跟踪物体6自由度姿态,在关键帧和当前帧之间进行极性校正以加快立体匹配速度,然后通过视差估计得到稀疏的深度图像,并将稀疏的深度图像输入改进的快速双边求解器(Barron和Poole,2016)中生成双边深度网格,最后将双边网格转换成与智能手机上显示的RGB图像对齐的具有时空平滑属性的密集深度图像,该研究成果已集成到ARCore的深度应用程序接口中。但是该方法会受到单目深度估计系统性能的限制,当所选关键帧与当前帧之间的相对位姿不精确时,立体匹配结果的准确性会受到影响。此外,在低纹理区域立体匹配算法会失效且该系统在物体移动过快时会具有运动模糊特征。

    fig

    图4  密集深度图像获取流程(

    Valentin等,2018

    Fig.4  Intensive depth image acquisition process (

    Valentin et al., 2018

    icon 下载:  原图 | 高精图 | 低精图

    Holynski和Kopf(2018)提出了一种能够移植到移动AR中的深度图像致密化算法。该算法以视频序列为输入,首先利用DSO-SLAM(direct sparse odometry simultaneous localization and mapping)(Engel等,2018)获得关键帧的相机位姿和稀疏三维点云数据,在选取关键帧的附近帧后利用DIS Flow(Kroeger等,2016)计算关键帧与附近帧的光流场和边缘点梯度,将前后附近帧的光流边缘融合到关键帧中获得准确的遮挡边缘。然后进行盒式滤波与时间滤波得到具有准确边缘的深度图像,通过删除与实际边缘点较远的纹理边缘实现深度图像的致密化。该算法可得到如图5(f)所示的具有时空平滑特征并在深度边缘表现出尖锐的不连续性的深度图像,但是该算法同样具有现有即时定位与地图构建(simultaneous localization and mapping, SLAM)算法的缺点,无法处理刚性物体中无纹理的区域,并且只能允许轻微的场景运动。

    fig

    图5  深度致密化过程(

    Holynski和Kopf,2018

    Fig.5  Depth densification flow (

    Holynski and Kopf, 2018

    ((a) input frame;(b) SLAM points;(c) flow to future/past;(d) soft depth edges;(e) localized depth edges;(f) densification depth)

    icon 下载:  原图 | 高精图 | 低精图

    1.2 基于模型的刚性物体虚实遮挡方法

    在早期的研究工作中,对于简单刚性物体首先需要构建三维模型并将模型放置在场景对应位置,之后比较其与虚拟物体的空间位置关系。

    Breen等人(1996)提出构建场景中的简单几何体模型并将其放置在真实世界对应位置的方法,当真实物体出现在虚拟物体前方时将其三维模型渲染成黑色,从而实现虚实遮挡效果。为了克服该方法只适用于简单物体、无法对复杂场景进行建模的缺点,Ong等人(1998)利用运动恢复结构(structure from motion, SFM)算法(Ullman,1979)计算视频序列中的相机位姿和场景中真实物体的特征点,之后通过用户手动分割的真实物体轮廓内部的特征点构建近似的三维模型。尽管该三维模型的几何形状可能与真实物体不完全对应,但是当其投影到图像上时三维模型恰好覆盖了真实物体的轮廓。该方法只需要对感兴趣区域进行建模,降低了工作量,但是帧间运动估计的不确定性导致三维模型无法精准投影到遮挡物上,从而使得遮挡效果不够精确。随后Lepetit和Berger(2000)提出了一种处理遮挡问题的半自动方法,尽管同样需要人工分割遮挡目标,但遮挡边界计算可自动进行。该方法仅从两幅连续的关键帧中恢复真实物体的三维轮廓曲线,并采用可形变的基于区域的跟踪技术以及基于蛇模型的方法进行优化处理,提高了遮挡边界的准确性。随后几年,这种基于静态场景建模的遮挡方法广泛应用于工业装配、医学和游戏等领域(Fischer等,2004Klein和Drummond,2004)。

    与室内场景相比,室外场景建模难度大、耗费时间长、实时性差。因此,室外场景的AR应用通常需要借助地理信息辅助建模过程或建立室外场景的近似模型。

    Zollmann和Reitmayr(2012)首先将地理信息系统(geographic information systems, GIS)中已知的点、线等地标的稀疏三维模型投影到AR应用的注册图像中,结合形状和外观先验信息在图像的投影位置自动分割出三维模型对应的图像区域并将其作为真实物体轮廓图像。之后通过将物体轮廓反投影到代表稀疏三维特征深度的平面上得到密集深度图像。该方法虽然获取了室外环境的密集深度图像,但是使用的超像素分割和变分方法增大了计算量,导致系统不能实时运行。由于应用GIS信息进行准确的室外场景建模涉及的计算量大,一些研究者提出通过建立室外场景的近似模型来降低系统的复杂度。Kasperi等人(2017)设计了基于模型的非深度感知室外移动AR系统。该系统在Kasapakis和Gavalas(20152017)的工作基础之上,利用公开地图(open street map, OSM)的标志物轮廓图和高度数据构建真实建筑的近似三维模型,在将模型放置在真实建筑对应位置并从虚拟建筑中移除与真实建筑轮廓图的相交区域后可以获得正确的虚实遮挡效果。由于OSM地理空间数据无法转换为详细的遮挡模型,因此该系统只能为用户提供可接受的感知深度和沉浸感,无法实现准确、真实的虚实遮挡效果。Kilimann等人(2019)设计了应用于室外景观规划的实时移动AR系统,利用智能手机中的摄像头、全球定位系统(global positioning system, GPS)、加速度计、陀螺仪等传感器结合GIS提供的物体位置信息和高度图获取室外场景的三维模型。该系统的框架如图6所示,通过后端提供的虚拟物体以及GIS系统中的真实物体高度图和位置信息等生成真实物体的三维模型,由前端利用智能手机上的多传感器生成点云并进行被真实物体遮挡的虚拟物体的实时渲染。Ogawa和Mashita(2021)针对摄像机定位不准确导致建筑物三维模型与真实场景存在移位的问题,先使用实例分割网络对摄像机图像中的建筑物进行分割,再将从地图数据创建的真实建筑物三维模型与所分割的建筑物进行匹配,对齐后的三维建筑物模型能够实现更准确的遮挡处理。

    fig

    图6  室外景观规划移动AR系统(

    Kilimann等,2019

    Fig.6  Mobile AR system for outdoor landscape planning (

    Kilimann et al., 2019

    icon 下载:  原图 | 高精图 | 低精图

    随着便携式深度相机的问世,研究者开始探索利用深度相机进行场景三维重建。

    Izadi等人(2011)提出经典的KinectFusion框架对室内场景进行密集实时重建,如图7所示。该系统首先对Kinect相机获取的原始深度图进行预处理并获取点云以及法向量坐标,然后使用快速迭代最近点(iterative closest point, ICP)算法利用当前帧的点云和上一帧预测出的点云计算当前相机的位姿,最后根据相机位置姿态更新截断符号距离函数 (truncated signed distance function, TSDF)并利用TSDF值重建完整的场景表面。通过KinectFusion框架能够获取室内静态场景的三维模型,但是该系统内存消耗随时间以幂的三次方形式增长,因此最高仅支持5123体素,无法对大面积平面场景进行重建。

    fig

    图7  KinectFusion框架以及室内重建效果(

    Izadi等,2011

    Fig.7  KinectFusion framework and its indoor reconstruction effects (

    Izadi et al., 2011

    icon 下载:  原图 | 高精图 | 低精图

    在KinectFusion框架提出后,

    Tian等人(2015)将基于模型的遮挡方法划分为离线和在线两个阶段,如图8所示。离线阶段通过联合双边滤波修复深度图像,将深度图像转换为全局坐标下的三维顶点坐标并将结果输入到在线阶段。在线阶段采用基于GPU的三维点云对齐算法,利用点到切平面的距离作为误差度量加快收敛速度。在渲染时将真实物体的每个像素的Z坐标与重投影所覆盖的区域中的虚拟对象的Z坐标进行比较,通过渲染深度值较小的虚拟物体得到了实时、自动的虚实遮挡效果。由于采用离线和在线两个阶段进行场景重建,该方法仅适用于预先设定好的场景,不适用于场景中添加或移出物体的动态场景。随后Tian等人(2021)提出了利用深度相机同时解决AR中虚实注册和遮挡问题的新方法。该方法利用快速行进算法(fast marching method, FMM)对深度图像进行修复,保证后续配准的准确性。由于深度相机的成像范围有限,在距用户较近距离时无法获取深度图像,因此利用深度直方图的近景模式自动判断深度相机处于近距离模式或是非近距离模式。在非近距离模式下,采用基于ICP的注册方法计算相机位姿;在近距离模式下,利用快速ICP与ORB(oriented FAST and rotated BRIEF)特征匹配算法组合的虚实注册方法计算相机位姿。在得到相机位姿后通过对场景的几何分析确定虚拟物体与真实物体的遮挡关系,但是该方法在切换跟踪方法时会出现跟踪失效、系统运行速度下降的问题。

    fig

    图8  两阶段遮挡处理方法(

    Tian等,2015

    Fig.8  Two-stage occlusion handling method (

    Tian et al., 2015

    icon 下载:  原图 | 高精图 | 低精图

    综上所述,基于深度的虚实遮挡方法由早期利用双目立体视觉算法获取深度图像,发展到通过深度相机获取室内深度图像,再到利用户外地图数据预测移动物体的深度以及单目移动增强现实中稀疏SLAM深度的致密化,后续研究重点在于深度图像的图像修复算法以及在移动增强现实中平衡场景密集深度计算算法的实时性能和深度信息的准确性之间的关系。基于模型的虚实遮挡方法由早期通过建模软件、视频序列关键帧中分割物体轮廓构建三维模型,发展到利用深度图像实现室内静态场景的密集重建以及结合地理空间信息实现室外场景近似三维模型的构建。基于模型的方法已具有较为完善的处理流程,但仍需要深入研究如何在保证跟踪和遮挡准确性的同时提升系统的实时性以及如何改善室外场景模型的精度。

    2 非刚性物体虚实遮挡方法

    与刚性物体不同,非刚性物体在运动过程中容易发生不规则形变、内部褶皱扭曲等现象。在AR应用中典型的非刚性物体是用户的手或场景中其他用户的身体。非刚性物体的遮挡处理可分为基于深度、基于图像分析和基于模型3种方法,其中基于深度的方法利用深度传感器实时获取非刚性物体的深度信息,然后逐像素比较非刚性物体的深度和虚拟物体的深度关系;基于图像分析方法从图像处理角度获取非刚性物体的轮廓边界并在后续视频序列中进行跟踪,由人工指定或借助深度图像判断非刚性物体轮廓与虚拟物体之间的深度关系;基于模型的方法基本针对手这种非刚性物体,通过定制参数或重建用户手的三维模型来判断手与虚拟物体间的遮挡关系。

    2.1 基于深度的非刚性物体虚实遮挡方法

    自深度相机问世以来,基于深度的虚实遮挡处理方法普遍选取深度相机实时获取真实场景深度图像,该种方法既可以应用于刚性物体也可以应用于非刚性物体,区别在于非刚性物体需要的深度图像更加精确且需要考虑非刚性物体后续跟踪问题。目前采用结构光原理生成深度图像的深度传感设备已广泛应用于虚实遮挡处理相关研究中。基于此原理的深度相机中的红外投影设备首先发射一个预先设计好的激光散斑参考图案至物体表面,然后利用红外摄像机接收该物体表面反射的结构光图案并通过结构光图案在相机中的位置和形变程度来计算物体表面空间信息,最后采用三角测距原理进行物体深度计算。然而深度相机获取的原始深度图像存在一定误差,其误差来源于两个方面。第1个方面是由测量环境引起的误差,环境中的光照条件对深度图像的质量产生较大影响,在明亮的光照条件下,尤其是光线中含有大量红外光时发射到被测物体上的激光散斑不明显。第2个方面是由测量目标的表面特征引起的误差。当物体是透明玻璃、镜子以及吸收红外光的材料等表面是透明的或具有低反射率特性时,物体表面不会形成激光散斑。两种误差都会导致深度值缺失,具体表现为深度图像中存在黑色孔洞区域。因此,利用深度相机获取深度图像解决虚实遮挡问题时首先需要提高获取深度图像的准确性。

    Leal-Meléndrez等人(2013)提出利用邻域填充算法对深度图像孔洞区域进行填充,后续有研究者使用联合双边滤波算法(Hosni等,2013Luo等,2019)、引导滤波算法(He等,2013)对深度图像进行降噪处理并填补深度图像中的孔洞区域。但是上述方法在填补孔洞的同时会造成深度图像边缘模糊,导致遮挡边界出现伪影。

    Du等人(2016)提出了一种深度图像边缘捕捉算法,可以得到与RGB图像精准对齐并保留显著深度边缘的深度图像。该算法的运行流程如图9所示。

    fig

    图9  基于边缘捕捉的深度图像修复算法(

    Du等,2016

    Fig.9  Edge snapping-based depth enhancement algorithm (

    Du et al., 2016

    icon 下载:  原图 | 高精图 | 低精图

    首先检测深度图像边缘点,之后对边缘点分组排序并计算边缘点的二维法线,沿着边缘点的法线方向搜索RGB图像边缘点,最后利用最小化损失函数找到每个深度图像边缘点所对应的RGB图像边缘点,用RGB图像边缘点对应的深度值代替深度图像的边缘点的深度值得到保留锐利边缘但内部平滑的深度图像。然而当背景复杂的场景中目标物体附近存在许多显著边缘信息以及不同物体具有非常相似的色彩特征时,该算法无法捕捉到对应的RGB图像边缘点。此外,当深度相机移动速度过快时,该算法会出现场景抖动问题。

    上述算法主要适用于前景和背景是明显可分离的真实物体,但是头发或其他具有模糊边界的物体的边界附近像素并不是严格意义上属于前景或背景。对于这些边界模糊、深度值不确定的物体,

    Hebborn等人(2017)利用抠图技术对深度图像边缘区域进行修复,其处理流程如图10(a)所示。该方法首先对深度图像进行简单前景背景分割以生成包含前景、背景以及深度边缘区域(未知区域)的三区分布图。之后根据未知区域相对于RGB图像边缘的位置关系对像素进行分类,通过对深度边缘区域进行形态学滤波扩大真实场景的模糊边缘。最后利用采样和传播相结合的方法最小化包含颜色项和传播损耗项的目标函数得到准确的前景蒙板。该方法对毛发等边缘模糊的真实物体具有良好的虚实遮挡效果,但是在前景和背景颜色难以区分的区域很难找到合适的前景背景样本对。Walton和Steed(2017)提出了利用代价体积滤波结合引导滤波的方法修复深度图像,其运行流程如图10(b)所示。通过比较深度图像中像素与虚拟场景深度将虚拟场景像素分为前、后、待处理和无关4类。其中,待处理类像素代表真实物体深度数据不清晰或与虚拟物体深度相等的区域,然后以RGB图像为引导对待处理区域进行滤波并在模糊区域选择不同结构函数进行二次滤波以获得毛发等模糊物体边缘更精确的遮挡效果。由于该算法并未考虑到RGB图像的颜色分布信息,因此在场景中存在高反射率物体以及真实物体与背景颜色相近的遮挡时会出现不正确的遮挡效果。

    fig

    图10  基于图像处理方法修复深度图像(

    Hebborn等,2017Walton和Steed,2017

    Fig.10  Repair depth image based on image processing methods (

    Hebborn et al., 2017Walton and Steed, 2017

    ((a) alpha matting-based;(b) cost volume filtering and guided filtering-based)

    icon 下载:  原图 | 高精图 | 低精图

    2.2 基于图像分析的非刚性物体虚实遮挡方法

    基于图像分析的方法仅从图像的角度出发,利用多种前景背景分割算法获取前景轮廓,通过用户指定遮挡关系或借助深度图像得到真实物体轮廓和虚拟物体的遮挡关系,这种方法计算量小,能够实时运行。

    Berger(1997)提出基于轮廓的虚实遮挡方法。首先利用边缘检测获得真实物体的边缘并在后续图像中进行跟踪,之后根据虚拟物体和真实物体与相机的距离确定真实物体的边缘点相对于虚拟物体的空间位置关系,最后利用蛇模型优化遮挡边缘。该方法仅从图像的角度解决虚实遮挡问题,避免了三维重建方法庞大的计算量,但是该方法需要用户手动标注每一帧图像的轮廓,其自动化程度较低。Wang等人(2005)提出通过背景建模方法跟踪场景中的自然特征点、获取当前相机位姿并生成当前视角下背景视图。上述方法可以自动分割前景与背景,但是由于缺失真实物体的三维信息只能简单地将虚拟物体绘制在真实物体后方,无法实现部分遮挡。此外,为保证背景减除法的稳定性,该方法仅允许相机在小范围内移动。Tian等人(2010)提出了一种基于目标跟踪的遮挡处理算法。首先用户需要在交互式界面显示的图像中选取遮挡目标,将用户选择的像素设置为外部像素,其他作为背景,之后在序列图像中实时跟踪用户选取的特征点并根据其平均位移估计目标边界,最后在渲染时将跟踪目标的图像重新绘制在合成图像上实现虚实融合效果。由于缺少对深度信息的估计,该算法仅能处理指定的遮挡目标且需要人工干预,自动化程度低。

    以上基于图像分析的方法均需要用户手动分割前景与背景或预先设定真实物体与虚拟物体的深度关系。为了实现自动化程度较高的遮挡处理,也有研究者探索基于场景深度信息判断虚实物体深度关系的解决方案。

    Hayashi等人(2005)提出利用背景减除法检测跟踪用户手并结合立体匹配算法实现手与虚拟物体的遮挡处理方法。该方法首先在离线阶段选定AR标志物前某个位置的图像作为关键帧,以关键帧为背景利用背景减除法检测场景中的手的轮廓,然后在运动物体目标检测的基础上采用了与Schmidt等人(2002)类似的基于轮廓的区域立体匹配算法,最后在渲染阶段比较轮廓边界与虚拟物体的深度关系。但是该方法在像素值剧烈变化区域会出现检测标记失败的情况,同时立体匹配算法在无法准确检测运动目标区域时会失效。Sanches等人(2012)提出将颜色和对比度线索以及空间和时间先验的概率模型融合进前景分割方法中,通过将实时分割结果与开放图形库(open graphics library, OpenGL)帧缓冲区操作相结合实现虚实遮挡效果。然而该方法的前景分割结果受光照条件变化、相机抖动的影响易出现错误结果,同时该方法需要事先明确真实场景的标志物空间位置关系,限制了其应用范围。Abate等人(2014)提出了基于颜色分割与基于信念传播的立体匹配算法(Sun等,2003)相结合的虚实遮挡方法。该方法首先提取感兴趣区域,将视频序列图像从RGB颜色空间转换到HSV颜色空间并设置适当的色相和饱和度范围过滤手部的颜色,从而可以从输入图像中分割出手的轮廓。随后利用基于信念传播的立体匹配算法得到感兴趣区域的视差图像。该方法可以实现对用户手部的精细分割和自然交互的功能,但是在用户快速移动时分割准确性下降,且无法应用于背景复杂的大型场景。Figueiredo等人(2013)提出了一种徒手跟踪与手势识别相结合的虚实遮挡方法。该方法使用贝叶斯分类器(Shen等,2011)对用户手部的皮肤颜色像素进行分割,通过计算用户拇指和食指3D点坐标,从手掌中心开始螺旋式搜索最近有效的深度信息为手部区域分配深度值。该方法仅适用于简单场景且手部运动需要匀速进行,否则会导致场景缺失检测目标。Battisti等人(2018)提出一种在RGB图像中自动定位用户手部的方法,并使用距离变换算法将LeapMotion估计的相应深度与每个手部像素相关联,通过比较手和虚拟物体的深度关系渲染被手部遮挡的虚拟物体。该方法在手指重叠的情况下无法利用距离变换算法处理深度图像,影响了手与虚拟物体的遮挡效果。以上方法可总结为首先利用前景分割算法提取用户手部轮廓,之后结合场景深度信息辅助遮挡渲染,其整体流程如图11所示。

    fig

    图11  前景分割结合深度信息进行遮挡处理流程

    Fig.11  Occlusion handling using foreground segmentation combined with depth information

    icon 下载:  原图 | 高精图 | 低精图

    利用颜色模型分割手部区域时,在后续的跟踪过程中手的外形会发生变化,导致分割与跟踪难度升高且难以处理背景颜色与手部肤色相近的情况,而深度学习技术在图像分割领域的发展一定程度上改善了该问题。

    Luo等人(2020)提出了针对中学实验教学环境的混合现实(mixed reality, MR)系统。该系统首先利用多相机标定算法(Zhang,2000)里联合标定深度相机和两个辅助RGB相机,之后利用CBAM-UNet(Long等,2015Woo等,2018周涛 等,2021)网络分割用户手部轮廓。所提出的分割网络结构如图12(a)所示,网络的中心部分为由512个通道组成的单一卷积,编码器主干网络是U-Net,解码器部分利用上采样将特征映射放大一倍,同时在网络中增加了注意力机制模块提高收敛速度和推理速度。最后该系统设计了完整的虚实遮挡渲染流水线,定义不透明、半透明物体以及虚拟物体之间的多层遮挡关系,所实现的像素级别的精确、连续、多层的虚实遮挡效果如图12(b)所示。Wu等人(2023)Luo等人(2020)的遮挡流水线进行了改进,提出了一种实时的手部虚实遮挡处理方法。该方法首先使用MobileNetV3主干网络作为手部分割模块的编码器以快速提取手部轮廓,然后基于提取的手部轮廓设计了不同的策略对手部和非手部区域的深度数据进行校正,利用校正后的深度图像可实现实时的虚实遮挡处理,但其在用户双手发生重叠的场景下缺乏鲁棒性。

    fig

    图12  CBAM-UNet网络结构和虚实遮挡效果(

    Luo等,2020

    Fig.12  CBAM-UNet network structure and its occlusion effect (

    Luo et al., 2020

    ((a) CBAM-UNet network structure;(b) occlusion effect)

    icon 下载:  原图 | 高精图 | 低精图

    前述基于图像分析的方法利用多种手段分割前景轮廓,并且结合场景深度信息判断提取的物体轮廓与虚拟物体的深度关系。

    Tang等人(2020)另辟蹊径,利用深度学习技术单纯从图像角度出发,提出了一种无需场景深度解决手与虚拟物体虚实遮挡的新方法——GrabAR。该方法首先制作了由12种常见手势抓取10种虚拟物体的数据集,之后提出如图13(a)所示的深度学习网络获取手部遮挡掩码。该网络主体是编码器解码器模型架构,在编码器和解码器阶段都由5个卷积块组成,每个卷积块由卷积操作(convolution, Conv)、组归一化(group normalization, GN)和修正线性单元(rectified linear unit, ReLU)激活函数构成。在解码器的前3个块中引入全局上下文 (global context, GC) 模块来聚合全局信息,并设计细节增强(detail enhancement, DE)模块来收集具有跳跃连接的低级特征中的细节信息。此外,该网络使用深度监督来计算损失并预测解码器中每层的遮挡掩码,将最后一层预测的遮挡掩码作为最终的网络输出。Tang等人(2020)提出的方法使得用户在抓取和操作各种虚拟物体时具有如图13(b)所示的准确的遮挡关系,但是存在数据集背景简单、手势有限以及只支持单手交互的缺点。

    fig

    图13  GrabAR网络结构及其虚实遮挡效果(

    Tang等,2020

    Fig.13  GrabAR network structure and its occlusion effects (

    Tang et al., 2020

    ((a) GrabAR network structure;(b) occlusion effects)

    icon 下载:  原图 | 高精图 | 低精图

    2.3 基于模型的非刚性物体虚实遮挡方法

    随着以自我为中心的手物交互AR应用的涌现,增强现实场景中最典型的非刚性物体是用户的手,因此基于模型的非刚性物体虚实遮挡方法主要利用手的三维模型。

    Feng等人(2018)提出了预先定制手模型并结合LeapMotion得到的手部关节信息估计手部遮挡掩码的方法,可以实现如图14(b)所示的虚实遮挡效果。该方法虽然能够实现手与虚拟物体的正确遮挡,但是需要在纸上定义手的形状后才能完成手部模型的拟合,自动化程度较低。两年后该团队提出了基于深度学习的手部位姿和轮廓提取相结合的改进方法,通过手部姿态估计模块和手部掩码分割模块并行执行的遮挡感知深度学习系统(Feng等,2020)解决手与虚拟物体之间的遮挡问题。该系统的网络结构如图14(a)所示,其中手部姿态估计模块基于改进的ResNet-50(residual network-50)结构,能够实时估计手部关节坐标,将每个关节的姿态估计过程中返回的二维似然热力图整合在一起传递给分割模块。手部掩码分割模块由U-Net结构组成,其中编码器部分替换为ResNet-18的主干网络,该模块得到的手部掩膜与从手部姿态估计模块获得的手部热力图相结合可以确保手关节始终位于手部轮廓内部,减少分割错误。系统最终结合手部掩膜和估计的手部姿态拟合出较为精确的手部模型,实现了如图14(c)所示的虚实遮挡效果。但是该系统仅支持单手与虚拟物体交互,并且当手部快速移动时可能出现跟踪和遮挡失效问题。

    fig

    图14  Feng团队虚实遮挡方法的网络结构和结果(

    Feng等,20182020

    Fig.14  Network structure and occlusion effects of Feng team (

    Feng et al., 20182020) ((a) occlusion-aware deep-learning system;(b) occlusion effect of hand model customization;(c) occlusion effect of occlusion-aware deep-learning system)

    icon 下载:  原图 | 高精图 | 低精图

    以上方法在重建手部模型的过程中都用到了深度信息,

    Olshevsky等人(2021)提出了一种从单目RGB相机帧中重建三维手部模型并用于预测遮挡的方法。该方法首先使用目标检测网络来定位用户的手部,然后将定位并放大的手部区域送入用于预测手部关节热力图、3D运动学手部模型参数以及手部分割掩膜的神经网络并最终恢复出手部的三维模型。该方法能够在现有的智能手机上近实时运行,但其手部重建的误差较大导致所呈现的手物虚实遮挡效果不够精确。同年,Tang等人(2021)为提高重建的手部模型与图像对齐的精度,提出了一种新的流水线深度学习网络架构,其结构如图15(a)所示。该方法将手部网格的重建分为关节、网格以及细化3个阶段,在关节阶段预测手部的关节参数和分割掩膜,在网格阶段预测粗糙的手部网格,最后在细化阶段对网格进行微调以实现手部网格和图像的对齐。配合精心设计的损失函数,该架构能够实现实时的高质量的手部3D网格模型的重建和对齐,进而呈现较为逼真的手物虚实遮挡效果(图15(b))。近年来单目RGB手部模型重建深度学习网络朝着轻量化方向迅速发展,Chen等人(2022)提出的MobRecon手部重建框架能够在保证精度的同时于配备Apple A14中央处理器的移动平台上达到83帧/s的高推理速度,重建的手部模型可实现手指级别的戒指穿戴虚实遮挡效果。

    fig

    图15  三阶段深度学习网络架构及其手物遮挡效果(

    Tang等,2021

    Fig.15  Three-stage deep learning network architecture and its hand-object occlusion effects (

    Tang et al., 2021

    ((a) three-stage deep learning network architecture;(b) hand-object occlusion effects)

    icon 下载:  原图 | 高精图 | 低精图

    从上述分析可以看出,对于非刚性物体尤其是用户的手而言,基于深度的方法重点研究深度图像的修复算法,在修复深度图像的孔洞区域的同时需要考虑在背景颜色相近等极端情况下保证深度图像和RGB图像边缘精准对齐。基于图像分析的方法应用到的前景分割算法由早期的基于颜色模型、背景减除方法发展到基于深度学习的分割网络获取前景掩码,虚实物体遮挡关系由用户指定发展到结合深度信息辅助判断。基于图像分析的方法的研究重点在于克服非刚性物体的不规则形变,获取准确的前景分割并进行后续跟踪。基于模型的方法大多使用LeapMotion结合定制的手部参数来拟合手部模型,近期使用深度学习网络进行手部重建的方法逐渐成为主流,这方面算法改进的重点在于提高手部重建的速度和精度。

    3 虚实遮挡方法比较与分析

    长期以来,国内外研究者为解决AR中的虚实遮挡问题开展了大量的研究工作。理想的虚实遮挡处理应该实时、准确且能够支持视角和场景的动态变化,以应对复杂的AR应用场景。表1针对AR应用的需求从实时性、自动化程度、是否支持视角变化和场景变化、适用范围等多个角度对比了现有的典型虚实遮挡处理方法。

    表1  现有虚实遮挡方法比较
    Table 1  Comparison of existing virtual-real occlusion handling methods
    分类实时性现有方法自动化程度支持视角及场景变化适用范围特点

    基于

    深度

    非(近)实时 Wloka和Anderson(1995)、Kim等人(2003)、Zhu和Pan(2008)、Zhu等人(2010) 室内场景、刚性物体与非刚性物体 利用立体匹配算法及其改进算法,如区域匹配、极线校正获取场景深度图像
    Sizintsev等人(2021) 室外场景、刚性物体 采用地理信息获取静态场景深度,通过分割及重力矢量估计移动物体深度
    Holynski和Kopf(2018) 室内场景、刚性物体与非刚性物体 基于SLAM算法与光流法得到致密化深度图像
    Du等人(2016) 室内场景、刚性物体与非刚性物体 将深度图像边缘点匹配到相应的RGB图像边缘点,实现深度图像与RGB图像严格对齐
    实时 Fischer等人(2007)、Behzadan和Kamat(2010)、Gimeno等人(2012) 室内场景、刚性物体与非刚性物体 利用深度传感器件,如ToF相机、激光测距设备或深度相机获取场景深度图像
    Valentin等人(2018) 室内场景、刚性物体与非刚性物体 移动增强现实中添加立体匹配算法获取密集深度图像
    Leal-Meléndrez等人(2013) 室内场景、刚性物体与非刚性物体 邻域填充算法填补深度图像中的孔洞
    Hebborn等人(2017)、Walton和Steed(2017) 室内场景、刚性物体与非刚性物体 比较真实物体与虚拟物体深度关系,提取深度不确定区域,利用形态学滤波算法对不确定区域进行处理

    基于

    图像

    分析

    非(近)实时 Berger(1997)、Wang等人(2005)、Tian等人(2010) 仅支持场景变化 室内场景、非刚性物体 利用边缘检测、背景减除或人工指定方法分割前景并基于曲线进行跟踪;深度关系由人工指定
    实时 Hayashi等人(2005)、Abate等人(2014)、Figueiredo等人(2013)、Battisti等人(2018) 室内场景、非刚性物体 背景减除法、皮肤颜色分割前景物体;区域立体匹配算法或深度相机获取深度信息辅助确定深度关系
    Luo等人(2020)、Wu等人(2023) 室内场景、刚性物体与非刚性物体 语义分割网络对场景物体进行轮廓分割;深度相机获取深度信息辅助确定深度关系
    Tang等人(2020) 室内场景、非刚性物体 纯图像方法预测虚拟物体与真实手的交互

    续表1 现有虚实遮挡方法比较

    Continued Table 1 Comparison of existing virtual-real occlusion handling methods

    icon 下载:  CSV icon 下载:  表格图片

    以下结合表1对3类虚实遮挡处理方法进行分析总结。

    1)基于深度的虚实遮挡处理方法的流程如图16所示,其难点在于获取准确、深度边缘清晰的稠密深度图像。在获取深度信息的方法中,立体匹配算法涉及到的计算量大且对纹理稀少的物体无法提取足够的特征点,导致视差图像不完全稠密。深度相机获取的原始深度图像在物体内部或边缘存在孔洞区域,现有修复深度图像的滤波算法在填充深度图像孔洞时会模糊物体边界,影响边缘区域的遮挡效果。而以RGB图像为引导的深度图像修复算法在复杂场景或背景颜色与前景颜色相近等特殊场景中无法实现深度图像边缘与RGB图像边缘的严格匹配。

    fig

    图16  基于深度的虚实遮挡处理方法流程图

    Fig.16  Depth-based virtual-real occlusion handling flow chart

    icon 下载:  原图 | 高精图 | 低精图

    2)基于图像分析的虚实遮挡处理方法的流程如图17所示,其难点在于克服非刚性物体运动时的不规则形变,从而实时准确地分割其轮廓图像。传统的基于皮肤颜色模型、背景减除的前景分割算法在用户手部颜色与背景颜色相近或手部快速移动时很难准确分割轮廓图像。基于卷积神经网络的分割算法存在数据集数据量较少、背景简单等缺点且只适用于用户单手或使用特定手势与虚拟物体进行交互的场景。

    fig

    图17  基于图像分析的虚实遮挡处理方法流程图

    Fig.17  Image analysis-based virtual-real occlusion handling flow chart

    icon 下载:  原图 | 高精图 | 低精图

    3)基于模型的虚实遮挡处理方法的流程如图18所示,其难点在于实时获取精确的场景三维模型。由于建模过程涉及到的计算量大,为保证系统实时性建模过程会选择性地牺牲模型的精度,使得重建的三维模型在细节上无法与真实场景保持一致。同时,适用于动态场景的建模方法应用于虚实遮挡处理中无法保证系统的实时性能且目前针对室外场景的建模方法仍然有待研究。此外,对于除用户手以外的其他非刚性物体的建模方法还需进一步探索。

    fig

    图18  基于模型的虚实遮挡处理方法流程图

    Fig.18  Model-based virtual-real occlusion handling flow chart

    icon 下载:  原图 | 高精图 | 低精图

    虚实遮挡处理需要获取场景深度信息,因此基于图像分析和基于模型方法都与基于深度方法密切相关。基于图像分析的方法需要借助场景深度信息判断提取的前景边缘与虚拟物体的遮挡关系。基于模型的方法可以使用深度相机获取的深度图像生成点云,后续经过点云配准、融合和网格化得到精准的场景表面模型或使用深度图像作为卷积神经网络的部分输入以重建手部模型。3类方法在渲染阶段都需要比较真实物体与虚拟物体的深度值大小,区别在于基于深度的方法利用修复后的密集深度图像逐像素比较虚拟物体与真实物体的深度关系;基于图像分析的方法只需比较前景轮廓内部或者轮廓边界的像素与虚拟物体的深度关系;基于模型的方法将构建的三维模型放置在真实物体相应位置,因此渲染阶段只需比较虚拟物体与虚拟模型之间的深度关系。随着研究者对虚实遮挡技术的不断探索,近来的虚实遮挡方法正朝着综合3类遮挡处理方法优势的方向发展,因而具体的界限也变得越来越模糊。

    同时,为了更直观地分析3类虚实遮挡方法对刚性物体和非刚性物体的适用情况,根据前面的分类,绘制了如图19所示的条形图。可以看出,基于深度的方法对于刚性物体和非刚性物体具有普适性,几乎所有基于深度的方法对刚性物体和非刚性物体都适用,而这也很容易想到,因为无论真实场景中包含刚性物体还是非刚性物体,基于深度的方法都能通过双目视觉、深度相机或单目SLAM等方法获取场景的深度,从而实现相应的虚实遮挡。唯一一种(

    Sizintsev等,2021)只适用于刚性物体的基于深度的方法因其深度是由已有的室外地图数据转换而来,不包含除建筑物以外物体的深度数据,自然无法适用于非刚性物体。基于图像分析的方法大多数是通过分割并跟踪指定的非刚性物体前景以解决非刚性物体的遮挡问题,因此大部分基于图像分析的方法仅适用于非刚性物体。但只要指定的前景为刚性物体,基于图像分析的方法也能很容易地应用于刚性物体的虚实遮挡处理。而部分基于图像分析的方法(Luo等,20192020Wu等,2023)之所以对刚性物体和非刚性物体都适用,是因为它们使用了深度数据来辅助判断虚实遮挡关系而不是单纯地通过人为指定,从而更具通用性和鲁棒性,同时也说明了深度数据在遮挡关系判断中的普适性。而基于模型的方法中要么仅适用于刚性物体,要么仅适用于非刚性物体,尚未有具有普适性的基于模型的方法。在适用于刚性物体的基于模型的方法中,一部分方法需预先构建真实场景的模型,因而在遮挡关系判断期间无法应对非刚性物体的形变;另一部分方法则是为了解决室外场景的虚实遮挡问题,使用已有的地图数据来构建建筑物等刚性物体的模型,缺少其他物体包括非刚性物体的模型,因而无法处理非刚性物体的遮挡问题。而仅适用于非刚性物体的基于模型的方法都是通过实时构建手部模型来解决增强现实裸手交互中的手物遮挡问题,它们无法构建除手以外的其他物体的模型,导致无法适用于刚性物体。因此具有通用性的基于模型的虚实遮挡处理方法还有待进一步研究。

    fig

    图19  不同虚实遮挡方法对刚性物体和非刚性物体的适用性

    Fig.19  Applicability of different virtual-real occlusion handling methods to rigid and non-rigid objects

    icon 下载:  原图 | 高精图 | 低精图
    分类实时性现有方法自动化程度支持视角及场景变化适用范围特点
    基于模型 非(近)实时 Breen等人(1996) 仅支持视角变化 室内场景、刚性物体 简单几何体三维重建,建模方法简单,不适用于复杂场景
    Ong等人(1998)、Lepetit和Berger(2000) 仅支持视角变化 室内场景、刚性物体 从视频序列中手动分割物体轮廓,提取特征点构建近似三维模型并进行优化
    Zollmann和Reitmayr(2012)、Kasperi等人(2017)、Ogawa和Mashita(2021) 室外场景、刚性物体 采用地理信息辅助建模或建立室外场景的近似模型
    Izadi等人(2011) 仅支持视角变化 室内场景、刚性物体 基于RGB-D相机的三维重建
    Tian等人(2021) 室内场景、刚性物体 基于RGB-D相机的三维重建,近距离模式下采用ORB特征点匹配进行配准
    实时 Feng等人(2018) 室内场景、非刚性物体 预先定制手部形状参数,结合LeapMotion得到的手部关节信息拟合出手部模型
    Feng等人(2020) 室内场景、非刚性物体 以RGB-D输入的遮挡感知深度学习网络拟合出手部模型
    Olshevsky等人(2021)、Tang等人(2021)、Chen等人(2022) 室内场景、非刚性物体 单目RGB相机重建手部模型
    icon 下载:  CSV icon 下载:  表格图片

    4 虚实遮挡方法研究方向展望

    基于深度、基于图像分析以及基于模型3类虚实遮挡方法在实时性、准确性与适用场景等不同方面表现出不同的特点,通过对它们的比较和分析,总结了目前虚实遮挡研究中亟待解决的问题和未来的研究热点,主要有以下方面:

    1)运动的非刚性物体虚实遮挡方法。现有的基于图像分析的虚实遮挡方法可以解决真实手与虚拟物体的遮挡问题,但在手部轮廓的准确性和鲁棒性仍需改进。因此,通过手部姿态信息与前景分割算法相结合,以及结合实例分割网络实现双手与虚拟物体准确的遮挡效果是未来可能的研究方向。此外,现有的基于图像分析的方法通过立体匹配算法或深度相机获取的深度图像辅助判断虚拟物体和真实物体轮廓的遮挡关系,但是由此构成的AR系统涉及的硬件设备更多、算法复杂度更高。利用单目深度估计网络(

    宋巍 等,2022)得到场景深度图像能够有效简化AR系统结构且与实例分割网络更好地结合于一体,也是未来可能的研究方向。而基于运动的非刚性物体三维模型重建的方法目前局限于手部,无法实现其他非刚性物体的虚实遮挡处理,因此如何快速重建除用户手以外的其他非刚性物体模型也需要进一步探索。

    2)室外动态场景的虚实遮挡方法。在基于模型的方法中,基于RGB-D的三维重建方法受限于深度相机作用距离而无法适用于室外场景且随着场景改变导致相机位姿估计与场景表面模型构建过程计算量增大,无法满足增强现实系统的实时性要求。因此,在室外场景建模时需要利用地理信息系统(

    Kilimann等,2019)获取室外场景中典型建筑物的稀疏三维模型,并结合实例分割网络(Kirillov等,2020Hafiz和Bhat,2020)得到的物体轮廓图像对三维模型的投影视图进行精细化以获取准确的物体三维模型。而对于室外除建筑物外的其他动态物体,使用基于实例分割结合地理信息进行物体平面粗略深度估计的方法(Sizintsev等,2021)在地形崎岖的情况下准确度较低,以物体完整3D姿态代替平面假设并结合卷积神经网络可能有助于提高动态物体深度的预测精度。

    3)深度图像与RGB图像的配准算法。前述分析已经表明深度数据对于刚性物体和非刚性物体的虚实遮挡判断具有普适性。但由于深度相机中红外摄像头与RGB摄像头存在位置偏移,因此深度图像与RGB图像配准是实现准确虚实遮挡关系判断的前提。深度图像与RGB图像的位置配准可通过基于GPU的并行坐标变换实现,但对于深度图像边缘与RGB图像边缘对齐算法仍然有待研究。现有算法(

    Du等,2016)在背景复杂的场景和不同物体具有非常相似的色彩特征的特殊场景中无法进行RGB图像边缘点捕捉。因此,将场景语义信息(Nirkin等,2021)或颜色特征信息(Li等,2021)添加到算法中有助于在RGB图像候选边缘点集合中搜索到与深度边缘隶属于同一物体且符合目标函数最小化的最优边缘点。

    5 结语

    虚实遮挡处理是当前增强现实技术的研究热点,国内外的众多研究者从获取场景准确深度图像、提取前景轮廓边缘及构建三维模型等角度提出了多种解决方案。本文从刚性物体和非刚性物体的角度综述了3类虚实遮挡方法的处理流程和典型研究成果。目前虚实遮挡处理技术的理论体系及方法尚在完善过程中,现有的3类虚实遮挡方法暂时无法同时满足自动、实时、准确且支持动态场景的要求。不同背景下的AR应用对虚实遮挡处理的精度、尺度、视角变化和场景变化等特性具有不同的需求,目前在实际使用中应根据应用背景、系统复杂度、实时性以及真实物体的属性和纹理等特征选择合适的遮挡方法。

    参考文献(References)

    Abate A FNarducci F and Ricciardi S. 2014. An image based approach to hand occlusions in mixed reality environments//Proceedings of the 6th International Conference on Virtual, Augmented and Mixed Reality. Heraklion, GreeceSpringer: 319-328DOI: 10.1007/978-3-319-07458-0_30 [百度学术] 

    Azuma R T. 1997. A survey of augmented reality. Presence: Teleoperators and Virtual Environments64): 355-385DOI: 10.1162/pres.1997.6.4.355 [百度学术] 

    Barron J T and Poole B. 2016. The fast bilateral solver//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the NetherlandsSpringer: 617-632DOI: 10.1007/978-3-319-46487-9_38 [百度学术] 

    Bartczak BSchiller IBeder C and Koch R. 2008. Integration of a time-of-flight camera into a mixed reality system for handling dynamic scenes, moving viewpoints and occlusions in real-time//Proceedings of the 4th International Symposium on 3D Data Processing, Visualization and Transmission. Atlanta, USAIEEE: 155-162 [百度学术] 

    Battisti CMesselodi S and Poiesi F. 2018. Seamless bare-hand interaction in mixed reality//Proceedings of 2018 IEEE International Symposium on Mixed and Augmented Reality Adjunct. Munich, GermanyIEEE: 198-203DOI: 10.1109/ISMAR-Adjunct.2018.00066 [百度学术] 

    Behzadan A H and Kamat V R. 2010. Scalable algorithm for resolving incorrect occlusion in dynamic augmented reality engineering environments. Computer-Aided Civil and Infrastructure Engineering251): 3-19DOI: 10.1111/j.1467-8667.2009.00601.x [百度学术] 

    Berger M O. 1997. Resolving occlusion in augmented reality: a contour based approach without 3D reconstruction//Proceedings of 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Juan, USAIEEE: 91-96DOI: 10.1109/CVPR.1997.609304 [百度学术] 

    Breen D EWhitaker R TRose E and Tuceryan M. 1996. Interactive occlusion and automatic object placement for augmented reality. Computer Graphics Forum153): 11-22DOI: 10.1111/1467-8659.1530011 [百度学术] 

    Chen X YLiu Y FDong Y JZhang XMa C YXiong Y MZhang Y and Guo X Y. 2022. MobRecon: mobile-friendly hand mesh reconstruction from monocular image//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, USAIEEE: 20544-20554DOI: 10.1109/CVPR52688.2022.01989 [百度学术] 

    Cruz LLucio D and Velho L. 2012. Kinect and RGBD images: challenges and applications//Proceedings of the 25th SIBGRAPI Conference on Graphics, Patterns and Images Tutorials. Ouro Preto, BrazilIEEE: 36-49DOI: 10.1109/SIBGRAPI-T.2012.13 [百度学术] 

    Du CChen Y LYe M and Ren L. 2016. Edge snapping-based depth enhancement for dynamic occlusion handling in augmented reality//Proceedings of 2016 IEEE International Symposium on Mixed and Augmented Reality. Merida, MexicoIEEE: 54-62DOI: 10.1109/ISMAR.2016.17 [百度学术] 

    Duchesne C and Herve J Y. 2000. A point-based approach to the interposition problem in augmented reality//Proceedings of the 15th International Conference on Pattern Recognition. Barcelona, SpainIEEE: 261-265DOI: 10.1109/ICPR.2000.905315 [百度学术] 

    Engel JKoltun V and Cremers D. 2018. Direct sparse odometry. IEEE Transactions on Pattern Analysis and Machine Intelligence403): 611-625DOI: 10.1109/TPAMI.2017.2658577 [百度学术] 

    Feng QShum H P H and Morishima S. 2018. Resolving occlusion for 3D object manipulation with hands in mixed reality//Proceedings of the 24th ACM Symposium on Virtual Reality Software and Technology. Tokyo, JapanACM: #119DOI: 10.1145/3281505.3283390 [百度学术] 

    Feng QShum H P H and Morishima S. 2020. Resolving hand-object occlusion for mixed reality with joint deep learning and model optimization. Computer Animation and Virtual Worlds314-5): #e1956DOI: 10.1002/cav.1956 [百度学术] 

    Figueiredo LDos Anjos RLindoso JNeto ERoberto RSilva M and Teichrieb V. 2013. Bare hand natural interaction with augmented objects//Proceedings of 2013 IEEE International Symposium on Mixed and Augmented Reality. Adelaide, AustraliaIEEE: 1-6DOI: 10.1109/ISMAR.2013.6671836 [百度学术] 

    Fischer JBartz D and Straßer W. 2004. Occlusion handling for medical augmented reality using a volumetric phantom model//Proceedings of the 11th ACM Symposium on Virtual Reality Software and Technology. Hong Kong, ChinaACM: 174-177DOI: 10.1145/1077534.1077570 [百度学术] 

    Fischer JHuhle B and Schilling A. 2007. Using time-of-flight range data for occlusion handling in augmented reality//Proceedings of the 13th Eurographics conference on Virtual Environments. Weimar, GermanyEurographics Association: 109-116DOI: 10.2312/EGVE/IPT_EGVE2007/109-116 [百度学术] 

    Gimeno JMorillo POrduña J M and Fernandez M. 2012. An occlusion-aware AR authoring tool for assembly and repair tasks//Proceedings of 2012 International Conference on Computer Graphics Theory and Applications and International Conference on Information Visualization Theory and Applications. Rome, ItalySciTePress: 377-386DOI: 10.5220/0003843303770386 [百度学术] 

    Hafiz A M and Bhat G M. 2020. A survey on instance segmentation: state of the art. International Journal of Multimedia Information Retrieval93): 171-189DOI: 10.1007/s13735-020-00195-x [百度学术] 

    Hayashi KKato H and Nishida S. 2005. Occlusion detection of real objects using contour based stereo matching//Proceedings of 2005 International Conference on Augmented Tele-existence. New York, USAACM: 180-186DOI: 10.1145/1152399.1152432 [百度学术] 

    He K MSun J and Tang X O. 2013. Guided image filtering. IEEE Transactions on Pattern Analysis and Machine Intelligence356): 1397-1409DOI: 10.1109/TPAMI.2012.213 [百度学术] 

    Hebborn A KHöhner N and Müller S. 2017. Occlusion matting: realistic occlusion handling for augmented reality applications//Proceedings of 2017 IEEE International Symposium on Mixed and Augmented Reality. Nantes, FranceIEEE: 62-71DOI: 10.1109/ISMAR.2017.23 [百度学术] 

    Holynski A and Kopf J. 2018. Fast depth densification for occlusion-aware augmented reality. ACM Transactions on Graphics376): #194DOI: 10.1145/3272127.3275083 [百度学术] 

    Hosni ARhemann CBleyer MRother C and Gelautz M. 2013. Fast cost-volume filtering for visual correspondence and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence352): 504-511DOI: 10.1109/TPAMI.2012.156 [百度学术] 

    Izadi SKim DHilliges OMolyneaux DNewcombe R AKohli PShotton JHodges SFreeman DDavison A J and Fitzgibbon A W. 2011. KinectFusion: real-time 3D reconstruction and interaction using a moving depth camera//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology. Santa Barbara, USAACM: 559-568DOI: 10.1145/2047196.2047270 [百度学术] 

    Kanbara MOkuma TTakemura H and Yokoya N. 1999. Real-time composition of stereo images for video see-through augmented reality//Proceedings of 1999 IEEE International Conference on Multimedia Computing and Systems. Florence, ItalyIEEE: 213-219DOI: 10.1109/MMCS.1999.779195 [百度学术] 

    Kanbara MOkuma TTakemura H and Yokoya N. 2000. A stereoscopic video see-through augmented reality system based on real-time vision-based registration//Proceedings of 2000 IEEEVirtual RealityCat. No.00CB37048. New Brunswick, USAIEEE: 255-262DOI: 10.1109/VR.2000.840506 [百度学术] 

    Kasapakis V and Gavalas D. 2015. Determining field of view in outdoors augmented reality applications//Proceedings of the 12th European Conference on Ambient Intelligence. Athens, GreeceSpringer: 344-348DOI: 10.1007/978-3-319-26005-1_23 [百度学术] 

    Kasapakis V and Gavalas D. 2017. Occlusion handling in outdoors augmented reality games. Multimedia Tools and Applications767): 9829-9854DOI: 10.1007/s11042-016-3581-1 [百度学术] 

    Kasperi JEdwardsson M P and Romero M. 2017. Occlusion in outdoor augmented reality using geospatial building data//Proceedings of the 23rd ACM Symposium on Virtual Reality Software and Technology. Gothenburg, SwedenACM: #30DOI: 10.1145/3139131.3139159 [百度学术] 

    Kilimann J EHeitkamp D and Lensing P. 2019. An augmented reality application for mobile visualization of GIS-referenced landscape planning projects//Proceedings of the 17th International Conference on Virtual-Reality Continuum and Its Applications in Industry. Brisbane, AustraliaACM: #23DOI: 10.1145/3359997.3365712 [百度学术] 

    Kim HYang S J and Sohn K. 2003. 3D reconstruction of stereo images for interaction between real and virtual worlds//Proceedings of the 2nd IEEE and ACM International Symposium on Mixed and Augmented Reality, 2003. Proceedings. Tokyo, JapanIEEE: 169-176DOI: 10.1109/ISMAR.2003.1240700 [百度学术] 

    Kirillov AWu Y XHe K M and Girshick R. 2020. PointRend: image segmentation as rendering//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USAIEEE: 9799-9808DOI: 10.1109/CVPR42600.2020.00982 [百度学术] 

    Klein G and Drummond T. 2004. Sensor fusion and occlusion refinement for tablet-based AR//Proceedings of the 3rd IEEE and ACM International Symposium on Mixed and Augmented Reality. Arlington, USAIEEE: 38-47DOI: 10.1109/ISMAR.2004.54 [百度学术] 

    Kolb ABarth EKoch R and Larsen R. 2010. Time-of-flight cameras in computer graphics. Computer Graphics Forum291): 141-159DOI: 10.1111/j.1467-8659.2009.01583.x [百度学术] 

    Kroeger TTimofte RDai D X and Gool L V. 2016. Fast optical flow using dense inverse search//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the NetherlandsSpringer: 471-488DOI: 10.1007/978-3-319-46493-0_29 [百度学术] 

    Leal-Meléndrez J AAltamirano-Robles L and Gonzalez J A. 2013. Occlusion handling in video-based augmented reality using the kinect sensor for indoor registration//Proceedings of the 18th Iberoamerican Congress on Pattern Recognition. Havana, CubaSpringer: 447-454DOI: 10.1007/978-3-642-41827-3_56 [百度学术] 

    Lepetit V and Berger M O. 2000. Handling occlusion in augmented reality systems: a semi-automatic method// Proceedings of 2000 IEEE and ACM International Symposium on Augmented Reality (ISAR 2000). Munich, GermanyIEEE: 137-146DOI: 10.1109/ISAR.2000.880937 [百度学术] 

    Li FZheng J BZhang Y FLiu N and Jia W J. 2021. AMDFNet: adaptive multi-level deformable fusion network for RGB-D saliency detection. Neurocomputing465141-156DOI: 10.1016/j.neucom.2021.08.116 [百度学术] 

    Long JShelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USAIEEE: 3431-3440DOI: 10.1109/CVPR.2015.7298965 [百度学术] 

    Luo T RLiu Z HPan Z G and Zhang M M. 2019. A virtual-real occlusion method based on GPU acceleration for MR//Proceedings of 2019 IEEE Conference on Virtual Reality and 3D User Interfaces. Osaka, JapanIEEE: 1068-1069DOI: 10.1109/VR.2019.8797811 [百度学术] 

    Luo T RZhang M MPan Z GLi ZCai NMiao J DChen Y B and Xu M X. 2020. Dream-experiment: a MR user interface with natural multi-channel interaction for virtual experiments. IEEE Transactions on Visualization and Computer Graphics2612): 3524-3534DOI: 10.1109/TVCG.2020.3023602 [百度学术] 

    Macedo M C F and Apolinario A L. 2023. Occlusion handling in augmented reality: past, present and future. IEEE Transactions on Visualization and Computer Graphics292): 1590-1609DOI: 10.1109/TVCG.2021.3117866 [百度学术] 

    Nie P. 2013. Survey on occlusion handling in augmented reality. Digital Communication405): 34-37 [百度学术] 

    聂平. 2013. 增强现实中虚实遮挡技术的研究现状. 数字通信405): 34-37DOI: 10.3969/j.issn.1001-3824.2013.05.009 [百度学术] 

    Nirkin YWolf L and Hassner T. 2021. HyperSeg: patch-wise hypernetwork for real-time semantic segmentation//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, USAIEEE: 4061-4070DOI: 10.1109/CVPR46437.2021.00405 [百度学术] 

    Ogawa T and Mashita T. 2021. Occlusion handling in outdoor augmented reality using a combination of map data and instance segmentation//Proceedings of 2021 IEEE International Symposium on Mixed and Augmented Reality Adjunct. Bari, ItalyIEEE: 246-250DOI: 10.1109/ISMAR-Adjunct54149.2021.00057 [百度学术] 

    Olshevsky VBondarets ITrunov O and Shcherbina A. 2021. Realistic occlusion of virtual objects using three-dimensional hand model//Proceedings of the 23rd International Conference on Human-Computer Interaction. Virtual EventSpringer: 295-301DOI: 10.1007/978-3-030-78642-7_40 [百度学术] 

    Ong K CTeh H C and Tan T S. 1998. Resolving occlusion in image sequence made easy. The Visual Computer144): 153-165DOI: 10.1007/s003710050131 [百度学术] 

    Sanches S R RTokunaga D MSilva V FSementille A C and Tori R. 2012. Mutual occlusion between real and virtual elements in augmented reality based on fiducial markers//Proceedings of 2012 IEEE Workshop on the Applications of Computer Vision. Breckenridge, USAIEEE: 49-54DOI: 10.1109/WACV.2012.6163037 [百度学术] 

    Schmidt JNiemann H and Vogt S. 2002. Dense disparity maps in real-time with an application to augmented reality//Proceedings of the 6th IEEE Workshop on Applications of Computer Vision, 2002. (WACV 2002). Proceedings. Orlando, USAIEEE: 225-230DOI: 10.1109/ACV.2002.1182186 [百度学术] 

    Shen YOng S K and Nee A Y C. 2011. Vision-based hand interaction in augmented reality environment. International Journal of Human-Computer Interaction276): 523-544DOI: 10.1080/10447318.2011.555297 [百度学术] 

    Sizintsev MMithun N CChiu H PSamarasekera S and Kumar R. 2021. Long-range augmented reality with dynamic occlusion rendering. IEEE Transactions on Visualization and Computer Graphics2711): 4236-4244DOI: 10.1109/TVCG.2021.3106434 [百度学术] 

    Song WZhu M FZhang M HZhao D F and He Q. 2022. A review of monocular depth estimation techniques based on deep learning. Journal of Image and Graphics272): 292-328 [百度学术] 

    宋巍朱孟飞张明华赵丹枫贺琪. 2022. 基于深度学习的单目深度估计技术综述. 中国图象图形学报272): 292-328DOI: 10.11834/jig.210554 [百度学术] 

    Sun JZheng N N and Shum H Y. 2003. Stereo matching using belief propagation. IEEE Transactions on Pattern Analysis and Machine Intelligence257): 787-800DOI: 10.1109/TPAMI.2003.1206509 [百度学术] 

    Tang XHu X WFu C W and Cohen-Or D. 2020. GrabAR: occlusion-aware grabbing virtual objects in AR//Proceedings of the 33rd Annual ACM Symposium on User Interface Software and Technology. Virtual Event, USAACM: 697-708DOI: 10.1145/3379337.3415835 [百度学术] 

    Tang XWang T Y and Fu C W. 2021. Towards accurate alignment in real-time 3D hand-mesh reconstruction//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, CanadaIEEE: 11698-11707DOI: 10.1109/ICCV48922.2021.01149 [百度学术] 

    Tian YGuan T and Wang C. 2010. Real-time occlusion handling in augmented reality based on an object tracking approach. Sensors104): 2885-2900DOI: 10.3390/s100402885 [百度学术] 

    Tian YLong YXia DYao H and Zhang J C. 2015. Handling occlusions in augmented reality based on 3D reconstruction method. Neurocomputing15696-104DOI: 10.1016/j.neucom.2014.12.081 [百度学术] 

    Tian YZhou X LWang X FWang Z F and Yao H. 2021. Registration and occlusion handling based on the FAST ICP-ORB method for augmented reality systems. Multimedia Tools and Applications8014): 21041-21058DOI: 10.1007/s11042-020-10342-5 [百度学术] 

    Ullman S. 1979. The interpretation of structure from motion. Proceedings of the Royal Society BBiological Sciences2031153): 405-426DOI: 10.1098/rspb.1979.0006 [百度学术] 

    Valentin JKowdle ABarron J TWadhwa NealDzitsiuk MSchoenberg MVerma VCsaszar ATurner EDryanovski IAfonso JPascoal JTsotsos KLeung MSchmidt MGuleryuz OKhamis STankovitch VFanello S RIzadi S and Rhemann C. 2018. Depth from motion for smartphone AR. ACM Transactions on Graphics376): #194DOI: 10.1145/3272127.3275041 [百度学术] 

    Walton D R and Steed A. 2017. Accurate real-time occlusion for mixed reality//Proceedings of the 23rd ACM Symposium on Virtual Reality Software and Technology. Gothenburg, SwedenACM: #11DOI: 10.1145/3139131.3139153 [百度学术] 

    Wang HZhou YMa J T and Liu X P. 2008. Research on the real-virtual occlusion in an optical see-through AR system. Journal of Image and Graphics138): 1566-1569 [百度学术] 

    王红周雅马晋涛刘宪鹏. 2008. 光学透视式增强现实显示系统虚实遮挡问题研究. 中国图象图形学报138): 1566-1569DOI: 10.11834/jig.20080830 [百度学术] 

    Wang H LSengupta KKumar P and Sharma R. 2005. Occlusion handling in augmented reality using background-foreground segmentation and projective geometry. Presence: Teleoperators and Virtual Environments143): 264-277DOI: 10.1162/105474605323384636 [百度学术] 

    Wloka M M and Anderson B G. 1995. Resolving occlusion in augmented reality//Proceedings of 1995 Symposium on Interactive 3D Graphics. Monterey, USAACM: 5-12DOI: 10.1145/199404.199405 [百度学术] 

    Woo SPark JLee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, GermanySpringer: 3-19DOI: 10.1007/978-3-030-01234-2_1 [百度学术] 

    Wu Y HLiu Y and Wang J J. 2023. Real-time hand-object occlusion for augmented reality using hand segmentation and depth correction//Proceedings of 2023 IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops. Shanghai, ChinaIEEE: 631-632DOI: 10.1109/VRW58643.2023.00158 [百度学术] 

    Xu W PWang Y TLiu Y and Weng D D. 2013. Survey on occlusion handling in augmented reality. Journal of Computer-Aided Design and Computer Graphics2511): 1635-1642 [百度学术] 

    徐维鹏王涌天刘越翁冬冬. 2013. 增强现实中的虚实遮挡处理综述. 计算机辅助设计与图形学学报2511): 1635-1642DOI: 10.3969/j.issn.1003-9775.2013.11.005 [百度学术] 

    Zhang Z. 2000. A flexible new technique for camera calibration. IEEE Transactions on Pattern Analysis and Machine Intelligence2211): 1330-1334DOI: 10.1109/34.888718 [百度学术] 

    Zheng Y. 2014. Review and prospects of occlusion handling among virtual and real objects in augmented reality. Journal of System Simulation261): 1-10 [百度学术] 

    郑毅. 2014. 增强现实虚实遮挡方法评述与展望. 系统仿真学报261): 1-10DOI: 10.16182/j.cnki.joss.2014.01.025 [百度学术] 

    Zhou TDong Y LHuo B QLiu S and Ma Z J. 2021. U-Net and its applications in medical image segmentation: a review. Journal of Image and Graphics269): 2058-2077 [百度学术] 

    周涛董雅丽霍兵强刘珊马宗军. 2021. U-Net网络医学图像分割应用综述. 中国图象图形学报269): 2058-2077DOI: 10.11834/jig.200704 [百度学术] 

    Zhu J J and Pan Z G. 2008. Occlusion registration in video-based augmented reality//Proceedings of the 7th ACM SIGGRAPH International Conference on Virtual-Reality Continuum and Its Applications in Industry. Singapore, SingaporeACM: #10DOI: 10.1145/1477862.1477875 [百度学术] 

    Zhu J JPan Z GSun C and Chen W Z. 2010. Handling occlusions in video-based augmented reality using depth information. Computer Animation and Virtual Worlds215): 509-521DOI: 10.1002/cav.326 [百度学术] 

    Zollmann S and Reitmayr G. 2012. Dense depth maps from sparse models and image coherence for augmented reality//Proceedings of the 18th ACM Symposium on Virtual Reality Software and Technology. Toronto, CanadaACM: 53-60DOI: 10.1145/2407336.2407347 [百度学术] 

    文章被引用时,请邮件提醒。
    提交

    相关作者

    鲍虎军 浙江大学计算机辅助设计与图形系统全国重点实验室
    刘浩敏 商汤研究院
    王楠 商汤研究院
    陈丹鹏 浙江大学计算机辅助设计与图形系统全国重点实验室;商汤研究院
    谢卫健 浙江大学计算机辅助设计与图形系统全国重点实验室;商汤研究院
    黄赣 浙江大学计算机辅助设计与图形系统全国重点实验室
    章国锋 浙江大学计算机辅助设计与图形系统全国重点实验室
    徐 彤 北京理工大学光电工程系

    相关机构

    浙江大学计算机辅助设计与图形系统全国重点实验室
    商汤研究院
    北京理工大学光电工程系
    北京理工大学信息科学技术学院光电工程系
    江南大学信息工程学院
    0