摘要:单目视觉惯性同步定位与地图构建(visual-inertial simultaneous localization and mapping,VI-SLAM)技术因具有硬件成本低、无需对外部环境进行布置等优点,得到了广泛关注,在过去的十多年里取得了长足的进步,涌现出诸多优秀的方法和系统。由于实际场景的复杂性,不同方法难免有各自的局限性。虽然已经有一些工作对VI-SLAM方法进行了综述和评测,但大多只针对经典的VI-SLAM方法,已不能充分反映最新的VI-SLAM技术发展现状。本文首先对基于单目VI-SLAM方法的基本原理进行阐述,然后对单目VI-SLAM方法进行分类分析。为了综合全面地对比不同方法之间的优劣势,本文特别选取3个公开数据集对代表性的单目VI-SLAM方法从多个维度上进行定量评测,全面系统地分析了各类方法在实际场景尤其是增强现实应用场景中的性能。实验结果表明,基于优化或滤波和优化相结合的方法一般在跟踪精度和鲁棒性上比基于滤波的方法有优势,直接法/半直接法在全局快门拍摄的情况下精度较高,但容易受卷帘快门和光照变化的影响,尤其是大场景下误差累积较快;结合深度学习可以提高极端情况下的鲁棒性。最后,针对深度学习与V-SLAM/VI-SLAM结合、多传感器融合以及端云协同这3个研究热点,对SLAM的发展趋势进行讨论和展望。
摘要:目的针对现有无参考点云质量评估方法需要将点云预处理为二维投影或其他形式导致引入额外噪声、限制空间上下文等问题,提出了一种基于邻域信息嵌入变换模块和点云级联注意力模块的无参考点云质量评估方法。方法将点云样本整体作为输入,减轻预处理引入的失真。使用稀疏卷积搭建U型主干网络提取多尺度特征,邻域信息嵌入变换模块逐点学习提取特征,点云级联注意力模块增强小尺度特征,提高特征信息的可辨识性,最后逐步聚合多尺度特征信息形成特征向量,经全局自适应池化和回归函数进行回归预测,得到失真点云质量分数。结果实验在2个数据集上与现有的12种代表性点云质量评估方法进行了比较,在SJTU-PCQA(Shanghai Jiao Tong University subjective point cloud quality assessment)数据集中,相比于性能第2的模型,PLCC(Pearson linear correlation coefficient)值提高了8.7%,SROCC(Spearman rank-order coefficient correlation)值提高了0.39%;在WPC(waterloo point cloud)数据集中,相比于性能第2的模型,PLCC值提高了4.9%,SROCC值提高了3.0%。结论所提出的基于邻域信息嵌入变换和级联注意力的无参考点云质量评估方法,提高了可辨识特征提取能力,使点云质量评估结果更加准确。
摘要:目的微表情识别旨在从面部肌肉应激性运动中自动分析和鉴别研究对象的情感类别,其在谎言检测、心理诊断等方面具有重要应用价值。然而,当前微表情识别方法通常依赖离线光流估计,导致微表情特征表征能力不足。针对该问题,提出了一种基于自适应光流估计的微表情识别模型(adaptive micro-expression recognition, AdaMER)。方法AdaMER并行联立实现光流估计和微表情分类两个任务自适应学习微表情相关的运动特征。首先,提出密集差分编码—解码器以提取多层次面部位移信息,实现自适应光流估计;然后,借助视觉Transformer挖掘重建光流蕴含的微表情判别性信息;最后,融合面部位移微表情语义信息与微表情判别信息进行微表情分类。结果在由SMIC(spontaneous micro-expression recognition)、SAMM(spontaneous micro-facial movement dataset)和CASME II(the Chinese Academy of Sciences micro-expression)构建的复合微表情数据集上进行大量实验,结果显示本文方法UF1(unweighted F1-score)和UAR(unweighted average recall)分别达到了82.89%和85.95%,相比于最新方法FRL-DGT(feature representation learning with adaptive displacement generation and Transformer fusion)分别提升了1.77%和4.85%。结论本文方法融合了自适应光流估计与微表情分类两个任务,一方面以端到端的方式实现自适应光流估计以感知面部细微运动,提高细微表情描述能力;另一方面,充分挖掘微表情判别信息,提升微表情识别性能。
摘要:目的工业产品表面的缺陷检测是保证其质量的重要环节。针对工业产品表面缺陷与背景相似度高、表面缺陷特征相似的问题,提出了一种差异化检测网络YOLO-Differ(you only look once-difference)。方法该网络以YOLOv5(you only look once version 5)为基础,利用离散余弦变换算法和自注意力机制提取和增强频率特征,并通过融合频率特征,增大缺陷与背景特征之间的区分度;同时考虑到融合中存在的错位问题,设计自适应特征融合模块对齐并融合RGB特征和频率特征。其次,在网络的检测模块后新增细粒度分类分支,将视觉变换器(vision Transformer,ViT)作为该分支中的校正分类器,专注于提取和识别缺陷的微小特征差异,以应对不同缺陷特征细微差异的挑战。结果实验在3个数据集上与7种目标检测模型进行了对比,YOLO-Differ模型均取得了最优结果,与其他模型相比,平均准确率均值(mean average precision,mAP)分别提升了3.6%、2.4%和0.4%以上。结论YOLO-Differ模型与同类模型相比,具有更高的检测精度和更强的通用性。
摘要:目的快速检测工业场景中的文本,可以提高生产效率、降低成本,然而数据的标注耗时耗力,鲜有标注信息可用,针对目前方法在应用到工业数据时存在伪标签质量低和域差距较大等问题,本文提出了一种结合文本自训练和对抗学习的领域自适应工业场景文本检测方法。方法首先,针对伪标签质量低的问题,采用教师学生框架进行文本自训练。教师和学生模型应用数据增强和相互学习缓解域偏移,提高伪标签的质量;其次,针对域差距,提出图像级和实例级对抗学习模块来对齐源域和目标域的特征分布,使网络学习域不变特征;最后,在两个对抗学习模块之间使用一致性正则化进一步缓解域差距,提高模型的域适应能力。结果实验证明,本文的方法在工业铭牌数据集的精确率、召回率和F1值分别达到96.2%、95.0%和95.6%,较基线模型分别提高了10%、15.3%和12.8%。同时在ICDAR15和MSRA-TD500数据集上也表现出良好性能,与当前先进的方法相比,F1值分别提高0.9%和3.1%。此外,本文的方法在应用到EAST(efficient and accurate scene text detector)文本检测模型后,铭牌数据集的各指标分别提升5%,11.8%和9.5%。结论本文提出的方法成功缓解了源域与目标域数据之间的差距,显著提高了模型的泛化能力,并且具有良好的通用性,同时模型推理阶段不会增加计算成本。
摘要:目的三维人体姿态估计是计算机视觉的研究热点之一,当前大多数方法直接从视频或二维坐标点回归人体三维关节坐标,忽略了关节旋转角的估计。但是,人体关节旋转角对于一些虚拟现实、计算机动画应用至关重要。为此,本文提出一种能同时估计三维人体坐标及旋转角的注意力融合网络。方法首先应用骨骼长度网络和骨骼方向网络分别从2D人体姿态序列中估计出人体骨骼长度和骨骼方向,并据此计算出初步的三维人体坐标,然后将初步的三维坐标输入关节旋转角估计网络得到关节旋转角,并应用前向运动学(forward kinematics,FK)层计算与关节旋转角对应的三维人体坐标。但由于网络模块的误差累积,与关节旋转角对应的三维人体坐标比初步的三维坐标精度有所降低,但是FK层输出的三维坐标具有更稳定的骨架结构。因此,为了综合这两种三维坐标序列的优势,最后通过注意力融合模块将初步的三维坐标及与关节旋转角对应的三维人体坐标融合为最终的三维关节坐标。这种分步估计的人体姿态估计算法,能够对估计的中间状态加以约束,并且使用注意力融合机制综合了高精度和骨骼稳定性的特点,使得最终结果的精度得到提升。另外,设计了一种专门的根关节处理模块,能够输出更高精度的根关节坐标,从而进一步提升三维人体坐标的精度和平滑性。结果实验在Human3.6M数据集上与对比方法比较平均关节位置误差(mean per joint position error,MPJPE),结果表明,与能够同时计算关节点坐标和旋转角的工作相比,本文方法取得了最好的精度。结论本文提出的方法能够同时从视频中估计人体关节坐标和关节旋转角度,并且得到的人体关节坐标比现有方法具有更高的精度。
摘要:目的柑橘是我国最常见的水果之一,目前多以人工采摘为主,成本高、效率低等问题严重制约规模化生产,因此柑橘自动采摘成为近年的研究热点。但是,柑橘生长环境复杂、枝条形态各异、枝叶和果实互遮挡严重,如何精准实时地定位采摘点成为自动采摘的关键。通过构建级联混合网络模型,提出了一种通用且高效的柑橘采摘点自动精准定位方法。方法构建团簇框生成模型和枝条稀疏实例分割模型,对两者进行级联混合实现实时柑橘采摘点定位。首先,构建柑橘果实检测网络,提出团簇框生成模型,该模型通过特征提取、果实检测框生成和DBSCAN(density-based spatial clustering of applications with noise)果实密度聚类,实时地生成图像内果实数目最多的团簇框坐标;然后,提出融合亮度先验的枝条稀疏分割模型,该模型以团簇框内的图像作为输入,有效降低背景枝条的干扰,通过融合亮度先验的稀疏实例激活图,实时地分割出与果实相连接枝条实例;最后基于分割结果搜索果实采摘点定位坐标。结果经过长时间户外采集制作了柑橘果实检测数据集CFDD(citrus fruit detection dataset)和柑橘枝条分割数据集CBSD(citrus branch segmentation dataset)。这两个数据集由成熟果实、未成熟果实组成,包含晴天、阴天、顺光和逆光等挑战,总共37 000幅图像。在该数据集上本文方法的采摘点定位精准度达到了95.77%,帧率(frames per second,FPS)达到了28.21帧/s。结论本文方法在果实采摘点定位方面取得较好进展,能够快速且准确地获取柑橘采摘点,并且提供配套的机械臂采摘设备可供该采摘点定位算法的落地使用,为柑橘产业发展提供有力支持。
摘要:目的高质量的病理切片对人工诊断和计算机辅助诊断至关重要。当前基于图像块的伪影检测方法存在着计算资源消耗巨大以及伪影检测过程的完整性缺失问题。为此,本文提出了一种适用于低倍率病理全切片图像的伪影检测算法WRC_Net(window-row-col_net)。方法首先,将低倍率的全切片图像输入到ResNet50(residual neural network)网络中,以提取图像的低级特征。随后,这些低级特征被传入特征融合模块,用于聚合来自不同深度和方向的特征。此外,在特征提取模块中,引入了WRC模块,包括WRC注意力和多尺度扩张模块,其能够同时捕捉全局和局部信息,提取多尺度特征,从而增强了特征的表达能力。最后,将融合后的特征传入单一检测头,以获取最终的检测结果。结果在SPDPSD(Shanghai Pudong department of pathology slide dataset)和NCPDCSD(Ningbo clinical pathology diagnosis center slide dataset)两个数据集上,所提方法的平均精度(mean average precision,mAP)分别达到了63.1%和55.0%,与目前主流的目标检测算法相比具有一定竞争力。结论本文提出的病理切片伪影检测算法能够准确识别数字病理切片中的不同种类伪影,为病理图像质量评估提供了一种有效的技术解决方案。