摘要:新兴的三维目标检测技术在自动驾驶领域中扮演着关键的角色,它通过提供环境感知和障碍物检测等信息,为自动驾驶系统的决策和控制提供了基础。过去的许多学者对该领域优秀的方法论和成果进行了全面的检验和研究。然而,由于技术上的不断更新和快速进步,对该领域的最新进展保持持续跟踪并坚持跟随知识前沿,不仅是学术界的一项至关重要任务,同时也是应对新兴挑战的一项基础。本文回顾了近两年内的新兴成果并针对该方向中的前沿理论进行系统性的阐述。首先,简单介绍三维目标检测的背景知识并回顾相关的综述研究。然后,从数据规模、多样性等方面对KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)等多个流行的数据集进行了归纳总结,并进一步介绍相关基准的评测原理。接下来,按照传感器类型和数量将最近的几十种检测方法划分为基于单目的、基于立体的、基于多视图的、基于激光雷达的、基于多模态5个类别,并根据模型架构或数据预处理方式的不同对每一种类别进行更深层次的细分。在每一种类别的方法中,首先对其代表性算法进行简单回顾,然后着重对该类别中最前沿的方法进行综述介绍,并进一步深入分析了该类别潜在的发展前景和当前面临的严峻挑战。最后展望了三维目标检测领域未来的研究方向。
摘要:目的随着视觉感知技术的快速发展,无人驾驶已经可以应用于简单场景。但是在实际的复杂城市道路应用中,仍然存在一些挑战,尤其是在其他车辆的突然变道、行人的闯入、障碍物的出现等突发紧要场景中。然而,真实世界中此类紧要场景数据存在长尾分布问题,导致数据驱动为主的无人驾驶风险感知面临技术瓶颈,因此, 本文提出一种基于平行视觉的风险增强感知方法。方法该方法基于交互式ACP(artificial societies,computational experiments,parallel execution)理论,在平行视觉框架下整合描述、指示、预测智能,实现基于视觉的风险增强感知。具体地,基于描述与指示学习,在人工图像系统中引入改进扩散模型,设计背景自适应模块以及特征融合编码器,通过控制生成行人等危险要素的具体位置,实现突发紧要场景风险序列的可控生成;其次,采用基于空间规则的方法,提取交通实体之间的空间关系和交互关系,实现认知场景图的构建;最后,在预测学习框架下,提出了一种新的基于图模型的风险增强感知方法,融合关系图注意力网络和Transformer编码器模块对场景图序列数据进行时空建模,最终实现风险的感知与预测。结果为验证提出方法的有效性,在MRSG-144(mixed reality scene graph)、IESG(interaction-enhanced scene graph)和1043-carla-sg(1043-carla-scenegraph)数据集上与5种主流风险感知方法进行了对比实验。提出的方法在3个数据集上分别取得了0.956、0.944、0.916的F1-score,均超越了现有主流方法,达到最优结果。结论本文是平行视觉在无人驾驶风险感知领域的实际应用,对于提高无人驾驶的复杂交通场景风险感知能力,保障无人驾驶系统的安全性具有重要意义。
摘要:目的无人驾驶规划与控制是保障行驶安全的重要环节之一,现有的规划方法大多假定驾驶场景是精确感知的,忽略了行驶环境中存在的感知、定位等不确定性。忽略这些不确定性的因素将影响驾驶的安全。本文在考虑传感器数据不确定性的情况下,将系统中实际存在的定位不确定性融入规划系统,从而规划出更加安全的轨迹。方法通过研究基于栅格地图的不确定环境概率模型框架以及基于该表征框架的轨迹规划方法降低不确定性的影响,产生舒适安全的类人轨迹。该方法首先将先验地图转换为栅格地图作为全局栅格地图,接着结合定位系统将局部栅格地图初始化,然后在局部栅格地图中进行定位不确定性传播,最后在Frenet坐标系进行轨迹规划,使用局部栅格地图的占据概率计算候选轨迹代价,选择最优代价轨迹。结果本文方法在CARLA(CAR learning to act)仿真器中进行验证,通过仿真实验对比多种方法,验证了本文方法能够在定位不确定性环境下平稳行驶,安全地避开障碍物,在路径安全性和高效性上找到一个平衡点,在多种场景下本文考虑定位不确定性的方法通过率提高15%。结论本文提出了一种能够融入多种不确定性的环境表征框架,并将定位系统不确定性融入规划方法,实现了规划的安全性和效率的提升。
摘要:目的随着深度学习技术的快速发展,规范手写汉字识别(handwritten Chinese character recognition, HCCR) 任务已经取得突破性进展,但对非规范书写汉字识别的研究仍处于萌芽阶段。受到书法流派和书写习惯等原因影响,手写汉字常常与打印字体差异显著,导致同类别文字的整体结构差异非常大,基于现有数据集训练得到的识别模型,无法准确识别非规范书写的汉字。方法为了推动非规范书写汉字识别的研究工作,本文制做了首套非规范书写的汉字数据集(irregular handwritten Chinese character dataset, IHCCD),目前共包含3 755个类别,每个类别有30幅样本。还给出了经典深度学习模型ResNet,CBAM-ResNet,Vision Transformer,Swin Transformer在本文数据集上的基准性能。结果实验结果表明,虽然以上经典网络模型在规范书写的CASIA-HWDB1.1数据集上能够取得良好性能,其中Swin Transformer在CASIA-HWDB1.1数据集上最高精度达到了95.31%,但是利用CASIA-HWDB1.1训练集训练得到的网络模型,在IHCCD测试集上的识别结果较差,最高精度也只能达到30.20%。在加入IHCCD训练集后,所有的经典模型在IHCCD测试集上的识别性能均得到了较大提升,最高精度能达到89.89%,这表明IHCCD数据集对非规范书写汉字识别具有研究意义。结论现有OCR识别模型还存在局限性,本文收集的IHCCD数据集能够有效增强识别模型泛化性能。该数据集下载链接https://pan.baidu.com/s/1PtcfWj3yUSz68o2ZzvPJOQ?pwd=66Y7。
摘要:目的大气中颗粒对光线的吸收和散射以及人造光源的影响,导致夜间获取的图像存在雾化、照度低和颜色偏差等问题,但传统的夜间去雾方法常局限于处理特定情况,未能综合考虑夜间图像中的各种影响因素。针对上述问题,提出一种基于透射率补偿与归一化和结构纹理优化的两阶段夜间图像去雾方法。方法首先,提出融合透射率补偿与归一化的修正方法获取透射率图,同时使用二次高斯滤波方法获取大气光图,并根据夜间成像模型实现图像去雾;其次,使用改进的基于Retinex的结构纹理分层模型(structure and texture aware retinex model based on the YUV color space,STAR-YUV)将图像分为结构层和纹理层,对结构层进行照明补偿和颜色校正,对纹理层采用拉普拉斯高斯滤波器以丰富细节信息;最后,采用两阶段融合方法将图像分步融合得到增强后的图像。结果理论分析和实验结果表明,经本文算法处理过的测试集图像,其峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity index measure,SSIM)、平均梯度(average gradient,AG)、信息熵(information entropy,IE)和自然图像质量评估器(natural image quality evaluator,NIQE)指标平均值分别达到了17.024 dB、0.765、7.604、7.528和2.693,在对比的传统和深度学习算法中均位于前列,表明本文算法能够很好地实现夜间图像去雾,对细节和图像自然度的恢复也取得了较好结果。结论所提出的方法将透射率修正与结构纹理优化有效结合在一起,对含有整体色偏问题的夜间图像有更好的效果,能够提高场景亮度、校正色偏并丰富细节信息,具有普适性。
摘要:目的零样本汉字识别(zero-shot Chinese character recognition,ZSCCR)因其能在零或少训练样本下识别未见汉字而受到广泛关注。现有的零样本汉字识别方法大多采用基于部首序列匹配框架,即首先预测部首序列,然后根据表意描述序列(ideographic description sequence,IDS)字典进行最小编辑距离(minimum edit distance,MED)匹配。然而,现有的MED算法默认不同部首的替换代价、插入代价和删除代价相同,导致在匹配时候选字符类别存在距离代价模糊和冗余的问题。为此,提出了一种字符敏感编辑距离(character-aware edit distance,CAED)以正确匹配目标字符类别。方法通过设计多种部首信息提取方法,获得了更为精细化的部首描述,从而得到更精确的部首替换代价,提高了MED的鲁棒性和有效性;此外,提出部首计数模块预测样本的部首数量,从而形成代价门控以约束和调整插入和删除代价,克服了IDS序列长度预测不准确产生的影响。结果在手写汉字、场景汉字和古籍汉字等数据集上进行实验验证,与以往的方法相比,本文提出的CAED在识别未见汉字类别的准确率上分别提高了4.64%、1.1%和5.08%,同时对已见汉字类别保持相当的性能,实验结果充分表明了本方法的有效性。结论本文所提出的字符敏感编辑距离,使得替换、插入和删除3种编辑代价根据字符进行自适应调整,有效提升了对未见汉字的识别性能。
摘要:目的自动引导运输小车(automatic guided vehicles,AGV)在工厂中搬运货物时会沿着规定路线运行,但是在靠近障碍物时只会简单地自动停止,无法感知障碍物的具体位置和大小,为了让AGV小车在复杂的工业场景中检测出各种障碍物,提出了一个点云多尺度编码的单阶段3D目标检测网络(multi-scale encoding for single-stage 3D object detector from point clouds,MSE-SSD)。方法首先,该网络通过可学习的前景点下采样模块来对原始点云进行下采样,以精确地分割出前景点。其次,将这些前景点送入多抽象尺度特征提取模块进行处理,该模块能够分离出不同抽象尺度的特征图并对它们进行自适应地融合,以减少特征信息的丢失。然后,从特征图中预测出中心点,通过多距离尺度特征聚合模块将中心点周围的前景点按不同距离尺度进行聚合编码,得到语义特征向量。最后,利用中心点和语义特征向量一起预测包围框。结果MSE-SSD在自定义数据集中进行实验,多个目标的平均精度(average precision,AP)达到了最优,其中,在困难级别下空AGV分类、简单级别下载货AGV分类比排名第2的IA-SSD(learning highly efficient point-based detectors for 3D LiDAR point clouds)高出1.27%、0.08%,在简单级别下工人分类比排名第2的SA-SSD(structure aware single-stage 3D object detection from point cloud)高出0.71%。网络运行在单个RTX 2080Ti GPU上检测速度高达77 帧/s,该速度在所有主流网络中排名第2。将训练好的网络部署在AGV小车搭载的开发板TXR上,检测速度达到了8.6 帧/s。结论MSE-SSD在AGV小车避障检测方面具有较高的精确性和实时性。