摘要:合成孔径雷达(synthetic aperture radar,SAR)图像分类作为SAR图像应用的重要底层任务受到了广泛关注与研究。SAR图像分类是处理和分析遥感图像的重要手段,在环境监测、目标侦察和地质勘探等任务中发挥着关键作用,但是目前基于深度学习的SAR图像分类任务存在小样本问题。本文针对小样本SAR图像分类方法进行全面的论述和分析。1)介绍了SAR图像分类任务的重要性和早期的SAR图像分类方法,并阐述了小样本SAR图像分类任务的必要性。2)介绍了小样本SAR图像分类任务的定义、常用的数据集、评价指标和应用。3)整理了各类方法的贡献点和使用的数据集,将已有的小样本SAR图像分类方法分为基于迁移学习的方法、基于元学习的方法、基于度量学习的方法和综合性方法4类。根据分类总结了4类方法存在的缺陷,为后续工作提供了一定的参考。在统一的框架内测试了16种可见光数据集方法迁移到SAR图像数据集上的分类性能,并从分类精度和运行时间两个方面综合评估了小样本学习模型迁移效果。该项工作利用SAR图像分类通用数据集MSTAR(moving and stationary target acquisition and recognition)完成,极大地补充了小样本SAR图像分类任务的测评基准。4)对小样本SAR图像分类方法的发展趋势进行了展望,提出了未来可能的一些严峻挑战。
摘要:步态识别在身份识别领域具有重要的研究意义。随着技术的发展,步态识别的研究热点正从二维(2D)转向三维(3D)。与图像固有的2D信息相比,用视觉技术还原的3D信息能更有效地预测人员的身份。在2D视觉领域中,由于受到物体遮挡、视角变化等因素的影响,传统的步态识别方法在实际应用中难以取得理想的识别性能。基于人体3D重建和人体3D姿态估计等3D人体技术,近年来的研究在3D步态识别领域取得了一系列进展。本文介绍了3D步态识别方法,探讨了基于3D步态的身份识别领域的研究现状、优势与不足;总结了主要的3D步态数据集;讨论了3D识别方法与2D识别方法的对比;提出了3D身份识别领域未来潜在的研究方向,包括3D数据集的采集和整理、2D 和 3D 数据的多模态融合等。
摘要:目的密文评估方法在衡量和增强混沌图像加密系统的安全性方面发挥着至关重要的作用。现有以密钥空间、密文密钥敏感性、像素个数变化率和统一平均变化强度等为代表的评估方法虽无法保证通过测试的加密系统一定具有非常高的安全性。而以选择明文攻击为代表的分析方法,与前者相比缺乏通用性和一致性,需要针对不同的加密系统设计不同的攻击方案。针对上述问题,本文基于深度学习模型面向混沌图像加密系统提出了一种兼具通用性和有效性的密文评估方法。方法该方法的核心思路是以降噪自编码器为基础模型,使用编码器分别对图像加密方法中的扩散密文、置乱密文和完整加密密文进行深度表示,然后使用解码器以上述深度表示为输入生成相应的不同明文,最后统计该明文与真实明文间的结构相似度作为度量加密方法抵抗密码学常用攻击手段能力的量化指标。对于一个加密方法来说,不仅其完整加密密文必须完全不可破译,而且其置乱阶段和扩散阶段的密文中也必须有一项是完全不可破译的,否则表明加密方法存在严重的安全缺陷。另外,密文数据集是影响上述方法有效性的关键因素。针对该问题,本文提出了一种相关性密文生成方法,该方法充分利用了明文敏感性密钥的特性,确保了生成的密文和本文评估方法的真实性和有效性。结果本文以Arnold置乱、2D-SCL(2D chaotic map based on the sine map, the chebyshev map and a linear function)加密和基于二维交叉混沌映射的量子加密为例对提出的密文评估方法进行了实验验证,实验中用到的数据集分别是MNIST(modified national institute of standards and technology database)和Fashion-MNIST。实验结果显示,本文提出的密文分析模型对上述加密方法及其各个阶段生成的密文图像表现出不同的密文分析能力:对Arnold置乱、2D-SCL扩散和量子bite置乱的密文来说,破译图像与真实图像间结构相似性指数(structural similarity,SSIM)的值均大于0.6;虽然在其他阶段的密文分析方面的效果较低,但也能破译出部分关键明文信息,呈现出较高的结构相似度。结论本文提出的密文图像分析方法通过客观的评价指标数据,能够有效地评估加密方法的安全性,为提升混沌图像加密方法的安全性提供了直观有效的量化依据,具有较高的指导意义。
摘要:目的化学结构识别是化学和计算机视觉领域的一个重要问题,传统光学化学结构识别技术在复杂化学结构识别任务中易发生信息丢失或误识别的现象,同时又因为化学物质的结构多样性常导致其无法解析,识别效果不佳。而基于深度学习的模型通常具有网络结构复杂度高、上下文信息易丢失和识别率低的问题。为此,提出一种结合注意力机制和编码器—解码器架构的化学结构识别方法。方法首先,使用改进的ResNet50(residual network)作为特征提取器抓取表征信息;其次,使用BLSTM(bi-directional long-short term memory)作为行编码器为ResNet50提取的表征信息加强空间信息;最后,使用去填充模块和基于覆盖注意力机制的LSTM(long short-term memory)网络作为模型解码器,对化学结构图像进行解码,将编码结果解码为SMILES(simplified molecular input line entry system)序列。结果在Indigo、ChemDraw、CLEF(Conference and Labs of the Evaluation Forum)、JPO(Japanese Patent Office)、UOB(University of Birmingham)、USPTO(United States Patent and Trademark Office)、Staker、ACS(American Chemistry Society)、CASIA-CSDB(Institute of Automation of Chinese Academy of Sciences—Chemical Structure Database)和Mini CASIA-CSDB数据集上,所提方法识别准确率分别为71.1%、70.21%、45.8%、30.3%、53.02%、58.21%、43.39%、46.3%、84.42%和85.78%,高于SwimOCSR、Image2Mol和ChemPix模型得分。结论与其他模型相比,本文方法通过少量训练集能够获得较高的识别准确率。
关键词:化学结构识别;编码器—解码器;注意力机制;残差网络;SMILES(simplified molecular input line entry system)
摘要:目的针对模糊行人特征造成身份切换的问题和复杂场景下目标之间遮挡造成跟踪精度降低的问题,提出AIoU-Tracker多目标跟踪算法。方法首先根据骨干网络检测头设计了一个特殊的AIoU(adaptive intersection over union)回归损失函数,从重叠面积、中心点距离和纵横比3个方面去衡量,缓解了由于模糊行人特征判别性不足造成的身份切换现象;其次提出了一种简单有效的层级(hierarchical)关联策略,在高分检测框和低分检测框分别关联之后,充分利用关联失败检测框周围的嵌入信息再次进行关联,提高了在遮挡条件下多目标跟踪的关联精度。结果通过一系列的对比实验,提出的AIoU-Tracker跟踪方法相比于FairMOT跟踪方法在MOT16数据集上,HOTA(higher order tracking accuracy)值由58.3%提高至59.8%,IDF1(ID F1 score)值由72.6%提高至73.1%,MOTA(multi-object tracking accuracy)值由69.3%提高至74.4%;在MOT17数据集上,HOTA值由59.3%提高至59.9%,IDF1值由72.3%提高至72.9%。结论本文提出的特征平衡性跟踪方法,使边界框大小特征、热图特征和中心点偏移量特征在训练测试中达到了更好的平衡,使多目标跟踪结果更加准确。
摘要:目的多示例学习是解决弱监督视频异常事件检测问题的有力工具。异常事件发生往往具有稀疏性、突发性以及局部连续性等特点,然而,目前的多示例学习方法没有充分考虑示例之间的联系,忽略了视频片段之间的时间关联,无法充分分离正常片段和异常片段。针对这一问题,提出了一种长短期时间序列关联的二阶段异常检测网络。方法第1阶段是长短期时间序列关联的异常检测网络(long-and-short-term correlated mil abnormal detection framework, LSC-transMIL),将Transformer结构应用到多示例学习方法中,添加局部和全局时间注意力机制,在学习不同视频片段间的空间关联语义信息的同时强化连续视频片段的时间序列关联;第2阶段构建了一个基于时空注意力机制的异常检测网络,将第1阶段生成的异常分数作为细粒度伪标签,使用伪标签训练策略训练异常事件检测网络,并微调骨干网络,提高异常事件检测网络的自适应性。结果实验在两个大型公开数据集上与同类方法比较,两阶段的异常检测模型在UCF-crime、ShanghaiTech数据集上曲线下面积(area under curve, AUC)分别达到82.88%和96.34%,相比同为两阶段的方法分别提高了1.58%和0.58%。消融实验表明了关注时间序列的Transformer模块以及长短期注意力的有效性。结论本文将Transformer应用于时间序列的多示例学习,并添加长短期注意力,突出局部异常事件和正常事件的区别,有效检测视频中的异常事件。
摘要:目的电力设备的状态检测和故障维护是保障电力系统正常运行的重要基础。针对目前多数变电站存在电力设备缺陷类型复杂且现有的单分类缺陷检测方法无法满足电力设备的多标签分类缺陷检测需求的问题,提出一种面向电力设备缺陷检测的多模态层次化分类方法。方法首先采集来自多个变电站的电力设备缺陷图像并进行人工标注、数据增强及归一化等预处理,构建了一个具有层次标签结构的电力设备缺陷图像数据集。然后提出一种基于多模态特征融合的层次化分类模型,采用ResNet50网络对图像进行特征提取,利用区域生成网络对目标进行定位以及前景、背景预测;为避免对区域生成网络生成的位置坐标进行量化时引入误差,进一步采用ROI Align(region of interest align)方法连续操作,生成位置坐标。最后采用层次化分类,将父类别标签嵌入到当前层目标特征表示进行逐层缺陷分类,最后一层得到最终的缺陷检测结果。结果在电力设备缺陷数据集和基准数据集上,与多标签分类电力设备缺陷检测方法和流行的常用目标检测算法进行对比实验。实验结果表明,模型对绝大部分设备缺陷类别的检测准确率最高,平均检测准确率达到86.4%,相比性能第2的模型,准确率提升了5.1%,并且在基准数据集上的平均检测准确率也提高了1.1%~3%。结论提出的电力设备缺陷检测方法充分利用设备缺陷标签的语义信息、层次结构和设备缺陷数据的图像特征,通过多模态层次化分类模型,能够提升电力设备缺陷检测的准确率。
摘要:目的传统基于频率域的矢量地图水印算法往往通过直接修改变换系数实现水印嵌入,嵌入位置随机,且嵌入强度难以控制,实用能力受限。为此,本文挖掘了离散小波变换(discrete wavelet transform,DWT)和复数奇异值分解(complex singular value decomposition,CSVD)系数比值作为新的水印嵌入域,融合系数放大法和量化索引调制(quantization index modulation,QIM)提出了一种嵌入强度可控的鲁棒性矢量地图水印算法。方法利用道格拉斯—普克算法提取矢量地图特征点,并基于特征点构建复数序列,对复数序列进行二层DWT,得到二层低频系数和二层高频系数。在此基础上,利用CSVD分别计算二层低频和高频系数的奇异值,并以奇异值比值作为水印嵌入域。在水印嵌入阶段,对系数比值放大合适倍数,通过调制放大后的奇异值比值来控制水印嵌入误差,并实现水印信息的盲提取。结果与最新的3种方法进行比较,本文算法从平移、旋转和缩放的组合攻击中提取的水印图像的归一化相关性系数(normalized correlation,NC)值从低于0.6提升至1。此外,在裁剪、简化和几何攻击的任意组合攻击中,本文算法均能够提取出NC值为1的水印图像,相较于对比方法,鲁棒性更加全面。在不可见性方面,本文算法表现优势,水印嵌入造成的误差被控制在毫米级。结论本文所提的矢量地图水印算法挖掘了多重频率域变换的比值作为水印嵌入域,具有良好的安全性和稳健性,可以为矢量地图的版权保护提供技术参考。