最新刊期

    2024 29 7

      可信人工智能

    • 高新波,王楠楠,徐迈,严严,徐行,冷佳旭,苏航,韩向娣
      2024, 29(7): 1785-1786. DOI: 10.11834/jig.2400007
        
      10
      |
      2
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64931175 false
      发布时间:2024-07-12
    • 周大为,徐一搏,王楠楠,刘德成,彭春蕾,高新波
      2024, 29(7): 1787-1813. DOI: 10.11834/jig.230423
      针对未知攻击的泛化性对抗防御技术综述
      摘要:在计算机视觉领域,对抗样本是一种包含攻击者所精心设计的扰动的样本,该样本与其对应的自然样本的差异通常难以被人眼察觉,却极易导致深度学习模型输出错误结果。深度学习模型的这种脆弱性引起了社会各界的广泛关注,与之相对应的对抗防御技术得到了极大发展。然而,随着攻击技术和应用环境的不断发展变化,仅实现针对特定类型的对抗扰动的鲁棒性显然无法进一步满足深度学习模型的性能要求。由此,在尽可能不依赖对抗样本的情况下,通过更高效的训练方式和更少的训练次数,达到一次性防御任意种类的未知攻击的目标,是当下亟待解决的问题。期望所防御的未知攻击要有尽可能强的未知性,要在原理、性能上尽可能彻底地不同于训练阶段引入的攻击。为进一步了解未知攻击的对抗防御技术的发展现状,本文以上述防御目标为核心,对本领域的研究工作进行全面、系统的总结归纳。首先简要介绍了研究背景,对防御研究所面临的困难与挑战进行了简要说明。将未知对抗攻击的防御工作分为面向训练机制的方法和面向模型架构的方法。对于面向训练机制的方法,根据防御模型所涉及的最基本的训练框架,从对抗训练、自然训练以及对比学习3个角度阐述相关工作。对于面向模型架构的方法,根据模型结构的修改方式从目标模型结构优化、输入数据预处理两个角度分析相关研究。最后,分析了现有未知攻击防御机制的研究规律,同时介绍了其他相关的防御研究方向,揭示了未知攻击防御研究的整体发展趋势。不同于一般对抗防御综述,本文注重在未知性极强的攻击上的防御的调研与分析,对防御机制的泛化性、通用性提出了更高的要求,希望能为未来防御机制的研究提供更多有益的思考。  
      关键词:对抗防御;未知对抗攻击;对抗训练;数据预处理;深度学习   
      9
      |
      5
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930587 false
      发布时间:2024-07-12
    • 王玫,邓伟洪,苏森
      2024, 29(7): 1814-1833. DOI: 10.11834/jig.230226
      面向图像识别的公平性研究进展
      摘要:在过去的几十年里,图像识别技术经历了迅速发展,并深刻地改变着人类社会的进程。发展图像识别技术的目的是通过减少人力劳动和增加便利来造福人类。然而,最近的研究和应用表明,图像识别系统可能会表现出偏见甚至歧视行为,从而对个人和社会产生潜在的负面影响。因此,图像识别的公平性研究受到广泛关注,避免图像识别系统可能给人们带来的偏见与歧视,才能使人完全信任该项技术并与之和谐相处。本文对图像识别的公平性研究进行了全面的梳理回顾。首先,简要介绍了偏见3个方面的来源,即数据不平衡、属性间的虚假关联和群体差异性;其次,对于常用的数据集和评价指标进行汇总;然后,将现有的去偏见算法划分为重加权(重采样)、图像增强、特征增强、特征解耦、度量学习、模型自适应和后处理7类,并分别对各类方法进行介绍,阐述了各方法的优缺点;最后,对该领域的未来研究方向和机遇挑战进行了总结和展望。整体而言,学术界对图像识别公平性的研究已经取得了较大的进展,然而该领域仍处于发展初期,数据集和评价指标仍有待完善,针对未知偏见的公平性算法有待研究,准确率和公平性的权衡困境有待突破,针对细分任务的独特发展趋势开始呈现,视频数据的去偏见算法逐渐受到关注。  
      关键词:公平性;偏见;去偏见学习;图像识别;深度学习   
      42
      |
      14
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 61664179 false
      发布时间:2024-07-12
    • 李伟,黄添强,黄丽清,郑翱鲲,徐超
      2024, 29(7): 1834-1848. DOI: 10.11834/jig.230422
      面向人脸修复篡改检测的大规模数据集
      摘要:目的图像合成方法随着计算机视觉的不断发展和深度学习技术的逐渐成熟为人们的生活带来了丰富的体验。然而,用于传播虚假信息的恶意篡改图像可能对社会造成极大危害,使人们对数字内容在图像媒体中的真实性产生怀疑。面部编辑作为一种常用的图像篡改手段,通过修改面部的五官信息来伪造人脸。图像修复技术是面部编辑常用的手段之一,使用其进行面部伪造篡改同样为人们的生活带来了很大干扰。为了对此类篡改检测方法的相关研究提供数据支持,本文制作了面向人脸修复篡改检测的大规模数据集。方法具体来说,本文选用了不同质量的源数据集(高质量的人脸图像数据集CelebA-HQ及低质量的人脸视频数据集FF++),通过图像分割方法将面部五官区域分割,最后使用两种基于深度网络的修复方法CTSDG(image inpainting via conditional texture and structure dual generation)和RFR(recurrent feature reasoning for image inpainting)以及一种传统修复方法SC(struct completion),生成总数量达到60万幅的大规模修复图像数据集。结果实验结果表明,由FF++数据集生成的图像在基准检测网络ResNet-50下的检测精度下降了15%,在Xception-Net网络下检测精度下降了5%。且不同面部部位的检测精度相差较大,其中眼睛部位的检测精度最低,检测精度为0.91。通过泛化性实验表明,同一源数据集生成的数据在不同部位的修复图像间存在一定的泛化性,而不同的源数据制作的数据集间几乎没有泛化性。因此,该数据集也可为修复图像之间的泛化性研究提供研究数据,可以在不同数据集、不同修复方式和不同面部部位生成的图像间进行修复图像的泛化性研究。结论基于图像修复技术的篡改方式在一定程度上可以骗过篡改检测器,对于此类篡改方式的检测方法研究具有现实意义。提供的大型基于修复技术的人脸篡改数据集为该领域的研究提供了新的数据来源,丰富了数据多样性,为深入研究该类型的人脸篡改和检测方法提供了有力的基准。数据集开源地址 https://pan.baidu.com/s/1-9HIBya9X-geNDe5zcJldw?pwd=thli。  
      关键词:图像篡改;深度学习;图像修复;数据集;基准   
      30
      |
      10
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930701 false
      发布时间:2024-07-12
    • 黄文柯,叶茫,杜博
      2024, 29(7): 1849-1860. DOI: 10.11834/jig.230239
      自适应异构联邦学习
      摘要:目的模型异构联邦学习由于允许参与者在不损害隐私的情况下独立设计其独特模型而受到越来越多的关注。现有的方法通常依赖于公共共享的相关数据或全局模型进行通信,极大地限制了适用性。且每个参与者的私有数据通常以不同的分布收集,导致数据异构问题。为了同时处理模型异构和数据异构,本文提出了一种新颖的自适应异构联邦学习方法。方法给定一个随机生成的输入信号(例如,随机噪声),自适应异构联邦学习直接通过对齐输出逻辑层分布来实现异构模型之间的通信,实现协作知识共享。主要优势是在不依赖额外相关数据收集或共享模型设计的情况下解决了模型异构问题。为了进一步解决数据异构问题,本文提出了在模型和样本层面上进行自适应权重更新。因此,自适应异构联邦学习(adaptive heteogeneous federated learning,AHF)允许参与者通过模型输出在无关数据上的差异和强调“有意义”的样本来学习丰富多样的知识。结果通过在不同的联邦学习任务上使用随机噪声输入进行通信,进行了广泛的实验,显示出比竞争方法更高的域内精确度和更好的跨域泛化性能。结论本文方法提供了一个简单而有效的基准,为异构联邦学习的未来发展奠定基础。  
      关键词:联邦学习(FL);模型异构;数据异构;随机噪声;异构联邦学习   
      12
      |
      4
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 61664152 false
      发布时间:2024-07-12
    • 石程,刘莹,赵明华,苗启广,潘治文
      2024, 29(7): 1861-1874. DOI: 10.11834/jig.230462
      面向高光谱图像分类网络的对比半监督对抗训练方法
      摘要:目的深度神经网络在高光谱图像分类任务中表现出明显的优越性,但是对抗样本的出现使其鲁棒性受到严重威胁,对抗训练方法为深度神经网络提供了一种有效的保护策略,但是在有限标记样本下提高目标网络的鲁棒性和泛化能力仍然需要进一步研究。为此,本文提出了一种面向高光谱图像分类网络的对比半监督对抗训练方法。方法首先,根据少量标记样本预训练目标模型,并同时利用少量标记样本和大量无标记样本构建训练样本集合;然后,通过最大化训练样本集合中干净样本和对抗样本在目标模型上的特征差异生成高迁移性对抗样本;最后,为了减少对抗训练过程对样本标签的依赖以及提高目标模型对困难对抗样本的学习和泛化能力,充分利用目标模型和预训练模型的输出层及中间层特征,构建对比对抗损失函数对目标模型进行优化,提高目标模型的对抗鲁棒性。对抗样本生成和目标网络优化过程交替进行,并且不需要样本标签的参与。结果在PaviaU和Indian Pines两组高光谱图像数据集上与主流的5种对抗训练方法进行了比较,本文方法在防御已知攻击和多种未知攻击上均表现出明显的优越性。面对6种未知攻击,相比于监督对抗训练方法AT(adversarial training)和TRADES(trade-off between robustness and accuracy),本文方法分类精度在两个数据集上平均提高了13.3%和16%,相比于半监督对抗训练方法SRT(semi-supervised robust training)、RST(robust self-training)和MART(misclassification aware adversarial risk training),本文方法分类精度再两个数据集上平均提高了5.6%和4.4%。实验结果表明了提出模型的有效性。结论本文方法能够在少量标记样本下提高高光谱图像分类网络的防御性能。  
      关键词:对抗防御;高光谱图像分类;半监督学习;深度神经网络;对抗攻击   
      3
      |
      4
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930585 false
      发布时间:2024-07-12
    • 陈宇涵,杜侠,王大寒,吴芸,朱顺痣,严严
      2024, 29(7): 1875-1888. DOI: 10.11834/jig.230432
      令牌损失信息的通用文本攻击检测
      摘要:目的文本对抗攻击主要分为实例型攻击和通用非实例型攻击。以通用触发器(universal trigger,UniTrigger)为代表的通用非实例型攻击对文本预测任务造成严重影响,该方法通过生成特定攻击序列使得目标模型预测精度降至接近零。为了抵御通用文本触发器攻击的侵扰,本文从图像对抗性样本检测器中得到启发,提出一种基于令牌损失权重信息的对抗性文本检测方法(loss-based detect universal adversarial attack,LBD-UAA),针对UniTrigger攻击进行防御。方法首先LBD-UAA分割目标样本为独立令牌序列,其次计算每个序列的令牌损失权重度量值(token-loss value,TLV)以此建立全样本序列查询表。最后基于UniTrigger攻击的扰动序列在查询表中影响值较大,将全序列查询表输入设定的差异性检测器中通过阈值阀门进行对抗性文本检测。结果通过在4个数据集上进行性能检测实验,验证所提出方法的有效性。结果表明,此方法在对抗性样本识别准确率上高达97.17%,最高对抗样本召回率达到100%。与其他3种检测方法相比,LBD-UAA在真阳率和假阳率的最佳性能达到99.6%和6.8%,均实现大幅度超越。同时,通过设置先验判断将短样本检测的误判率降低约50%。结论针对UniTrigger为代表的非实例通用式对抗性攻击提出LBD-UAA检测方法,并在多个数据集上取得最优的检测结果,为文本对抗检测提供一种更有效的参考机制。  
      关键词:文本对抗样本;通用触发器;文本分类;深度学习;对抗性检测   
      4
      |
      2
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930588 false
      发布时间:2024-07-12
    • 叶乙轩,杜侠,陈思,朱顺痣,严严
      2024, 29(7): 1889-1901. DOI: 10.11834/jig.230453
      二维码掩膜下的稀疏对抗补丁攻击
      摘要:目的传统的基于对抗补丁的对抗攻击方法通常将大量扰动集中于图像的掩膜位置,然而要生成难以察觉的扰动在这类攻击方法中十分困难,并且对抗补丁在人类感知中仅为冗余的密集噪声,这大大降低了其迷惑性。相比之下,二维码在图像领域有着广泛的应用,并且本身能够携带附加信息,因此作为对抗补丁更具有迷惑性。基于这一背景,本文提出了一种基于二维码掩膜的对抗补丁攻击方法。方法首先获取目标模型对输入图像的预测信息,为提高非目标攻击的效率,设定伪目标标签。通过计算能够远离原标签同时靠近伪目标标签的梯度噪声,制作掩膜将扰动噪声限制在二维码的有色区域。同时,本文利用基于Lp-Box的交替方向乘子法(alternating direction method of multipliers,ADMM)算法优化添加扰动点的稀疏性,在实现高效攻击成功率的条件下保证二维码本身携带的原有信息不被所添加的密集高扰动所破坏,最终训练出不被人类察觉的对抗补丁。结果使用ImageNet数据集分别在Inception-v3及ResNet-50(residual networks-50)模型上进行对比实验,结果表明,本文方法在非目标攻击场景的攻击成功率要比基于L的快速梯度符号法(fast gradient sign method,FGSM)、DeepFool和投影梯度下降(projected gradient descent,PGD)方法分别高出8.6%、14.6%和4.6%。其中,对抗扰动稀疏度L0和扰动噪声值在L2、L1、L范数指标上对比目前典型的攻击方法均取得了优异的结果。对于量化对抗样本与原图像的相似性度量,相比FSGM方法,在峰值信噪比(peak signal-to-noise ratio,PSNR)和相对整体维数综合误差(erreur relative globale adimensionnelle de synthèse,ERGAS)指标上,本文方法分别提高4.82 dB和576.3,并在可视化效果上实现真正的噪声隐蔽。同时,面对多种先进防御算法时,本文方法仍能保持100%攻击成功率的高鲁棒性。结论本文提出的基于二维码掩膜的对抗补丁攻击方法于现实攻击场景中更具合理性,同时采用稀疏性算法保护二维码自身携带信息,从而生成更具迷惑性的对抗样本,为高隐蔽性对抗补丁的研究提供了新思路。  
      关键词:对抗补丁;稀疏噪声;图像分类;二维码;非目标攻击   
      5
      |
      2
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930584 false
      发布时间:2024-07-12

      综述

    • 王梓祺,李阳,张睿,王家宝,李允臣,陈瑶
      2024, 29(7): 1902-1920. DOI: 10.11834/jig.230359
      小样本SAR图像分类方法综述
      摘要:合成孔径雷达(synthetic aperture radar,SAR)图像分类作为SAR图像应用的重要底层任务受到了广泛关注与研究。SAR图像分类是处理和分析遥感图像的重要手段,在环境监测、目标侦察和地质勘探等任务中发挥着关键作用,但是目前基于深度学习的SAR图像分类任务存在小样本问题。本文针对小样本SAR图像分类方法进行全面的论述和分析。1)介绍了SAR图像分类任务的重要性和早期的SAR图像分类方法,并阐述了小样本SAR图像分类任务的必要性。2)介绍了小样本SAR图像分类任务的定义、常用的数据集、评价指标和应用。3)整理了各类方法的贡献点和使用的数据集,将已有的小样本SAR图像分类方法分为基于迁移学习的方法、基于元学习的方法、基于度量学习的方法和综合性方法4类。根据分类总结了4类方法存在的缺陷,为后续工作提供了一定的参考。在统一的框架内测试了16种可见光数据集方法迁移到SAR图像数据集上的分类性能,并从分类精度和运行时间两个方面综合评估了小样本学习模型迁移效果。该项工作利用SAR图像分类通用数据集MSTAR(moving and stationary target acquisition and recognition)完成,极大地补充了小样本SAR图像分类任务的测评基准。4)对小样本SAR图像分类方法的发展趋势进行了展望,提出了未来可能的一些严峻挑战。  
      关键词:小样本学习;SAR图像分类;迁移学习;元学习;度量学习   
      752
      |
      8
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930809 false
      发布时间:2024-07-12
    • 沈澍,张文昊,丁浩,张浩,沙超,王森,陈书军
      2024, 29(7): 1921-1933. DOI: 10.11834/jig.230328
      三维步态识别研究进展
      摘要:步态识别在身份识别领域具有重要的研究意义。随着技术的发展,步态识别的研究热点正从二维(2D)转向三维(3D)。与图像固有的2D信息相比,用视觉技术还原的3D信息能更有效地预测人员的身份。在2D视觉领域中,由于受到物体遮挡、视角变化等因素的影响,传统的步态识别方法在实际应用中难以取得理想的识别性能。基于人体3D重建和人体3D姿态估计等3D人体技术,近年来的研究在3D步态识别领域取得了一系列进展。本文介绍了3D步态识别方法,探讨了基于3D步态的身份识别领域的研究现状、优势与不足;总结了主要的3D步态数据集;讨论了3D识别方法与2D识别方法的对比;提出了3D身份识别领域未来潜在的研究方向,包括3D数据集的采集和整理、2D 和 3D 数据的多模态融合等。  
      关键词:计算机视觉;生物特征识别;步态识别;三维人体;身份识别;三维建模   
      9
      |
      5
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930972 false
      发布时间:2024-07-12

      图像处理和编码

    • 常晓琦,王明合,游大涛,武相军
      2024, 29(7): 1934-1947. DOI: 10.11834/jig.230147
      面向混沌图像加密系统的密文分析方法
      摘要:目的密文评估方法在衡量和增强混沌图像加密系统的安全性方面发挥着至关重要的作用。现有以密钥空间、密文密钥敏感性、像素个数变化率和统一平均变化强度等为代表的评估方法虽无法保证通过测试的加密系统一定具有非常高的安全性。而以选择明文攻击为代表的分析方法,与前者相比缺乏通用性和一致性,需要针对不同的加密系统设计不同的攻击方案。针对上述问题,本文基于深度学习模型面向混沌图像加密系统提出了一种兼具通用性和有效性的密文评估方法。方法该方法的核心思路是以降噪自编码器为基础模型,使用编码器分别对图像加密方法中的扩散密文、置乱密文和完整加密密文进行深度表示,然后使用解码器以上述深度表示为输入生成相应的不同明文,最后统计该明文与真实明文间的结构相似度作为度量加密方法抵抗密码学常用攻击手段能力的量化指标。对于一个加密方法来说,不仅其完整加密密文必须完全不可破译,而且其置乱阶段和扩散阶段的密文中也必须有一项是完全不可破译的,否则表明加密方法存在严重的安全缺陷。另外,密文数据集是影响上述方法有效性的关键因素。针对该问题,本文提出了一种相关性密文生成方法,该方法充分利用了明文敏感性密钥的特性,确保了生成的密文和本文评估方法的真实性和有效性。结果本文以Arnold置乱、2D-SCL(2D chaotic map based on the sine map, the chebyshev map and a linear function)加密和基于二维交叉混沌映射的量子加密为例对提出的密文评估方法进行了实验验证,实验中用到的数据集分别是MNIST(modified national institute of standards and technology database)和Fashion-MNIST。实验结果显示,本文提出的密文分析模型对上述加密方法及其各个阶段生成的密文图像表现出不同的密文分析能力:对Arnold置乱、2D-SCL扩散和量子bite置乱的密文来说,破译图像与真实图像间结构相似性指数(structural similarity,SSIM)的值均大于0.6;虽然在其他阶段的密文分析方面的效果较低,但也能破译出部分关键明文信息,呈现出较高的结构相似度。结论本文提出的密文图像分析方法通过客观的评价指标数据,能够有效地评估加密方法的安全性,为提升混沌图像加密方法的安全性提供了直观有效的量化依据,具有较高的指导意义。  
      关键词:图像安全;密文分析;混沌图像加密系统;明文敏感性;深度学习;降噪自编码器   
      5
      |
      2
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 61664207 false
      发布时间:2024-07-12
    • 刘家希,周洋,林坤,殷海兵,唐向宏
      2024, 29(7): 1948-1959. DOI: 10.11834/jig.230290
      面向虚拟视点绘制空洞填充的渐进式迭代网络
      摘要:目的基于深度图像的绘制(depth image based rendering,DIBR)是合成虚拟视点图像的关键技术,但在绘制过程中虚拟视图会出现裂纹和空洞问题。针对传统算法导致大面积空洞区域像素混叠和模糊的问题,将深度学习模型应用于虚拟视点绘制空洞填充领域,提出了面向虚拟视点绘制空洞填充的渐进式迭代网络。方法首先,使用部分卷积对大面积空洞进行渐进修复。然后采用U-Net网络作为主干对空洞区域进行编解码操作,同时嵌入知识一致注意力模块加强网络对有效特征的利用。接着通过加权合并方法来融合每次渐进式迭代生成的特征图,保护早期特征不被破坏。最后结合上下文特征传播损失提高网络匹配过程中的鲁棒性。结果在微软实验室提供的2个多视点3D(three-dimension)视频序列以及4个3D-HEVC(3D high efficiency video coding)序列上进行定量与定性评估实验,以峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity,SSIM)作为指标。实验结果表明,本文算法在主观和客观上均优于已有方法。相比于性能第2的模型,在Ballet、Breakdancers、Lovebird1和Poznan_Street数据集上,本文算法的PSNR提升了1.302 dB、1.728 dB、0.068 dB和0.766 dB,SSIM提升了0.007、0.002、0.002和0.033;在Newspaper和Kendo数据集中,PSNR提升了0.418 dB和0.793 dB,SSIM提升了0.011和0.007。同时进行消融实验验证了本文方法的有效性。结论本文提出的渐进式迭代网络模型,解决了虚拟视点绘制空洞填充领域中传统算法过程烦琐和前景纹理渗透严重的问题,取得了极具竞争力的填充结果。  
      关键词:虚拟视点绘制;空洞填充;注意力;特征提取;多视点视频加深度   
      4
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64931016 false
      发布时间:2024-07-12

      图像分析和识别

    • 曾水玲,李昭贤,张嘉雄,丁龙飞,赵才荣
      2024, 29(7): 1960-1969. DOI: 10.11834/jig.230367
      结合注意力机制和编码器—解码器架构的化学结构识别方法
      摘要:目的化学结构识别是化学和计算机视觉领域的一个重要问题,传统光学化学结构识别技术在复杂化学结构识别任务中易发生信息丢失或误识别的现象,同时又因为化学物质的结构多样性常导致其无法解析,识别效果不佳。而基于深度学习的模型通常具有网络结构复杂度高、上下文信息易丢失和识别率低的问题。为此,提出一种结合注意力机制和编码器—解码器架构的化学结构识别方法。方法首先,使用改进的ResNet50(residual network)作为特征提取器抓取表征信息;其次,使用BLSTM(bi-directional long-short term memory)作为行编码器为ResNet50提取的表征信息加强空间信息;最后,使用去填充模块和基于覆盖注意力机制的LSTM(long short-term memory)网络作为模型解码器,对化学结构图像进行解码,将编码结果解码为SMILES(simplified molecular input line entry system)序列。结果在Indigo、ChemDraw、CLEF(Conference and Labs of the Evaluation Forum)、JPO(Japanese Patent Office)、UOB(University of Birmingham)、USPTO(United States Patent and Trademark Office)、Staker、ACS(American Chemistry Society)、CASIA-CSDB(Institute of Automation of Chinese Academy of Sciences—Chemical Structure Database)和Mini CASIA-CSDB数据集上,所提方法识别准确率分别为71.1%、70.21%、45.8%、30.3%、53.02%、58.21%、43.39%、46.3%、84.42%和85.78%,高于SwimOCSR、Image2Mol和ChemPix模型得分。结论与其他模型相比,本文方法通过少量训练集能够获得较高的识别准确率。  
      关键词:化学结构识别;编码器—解码器;注意力机制;残差网络;SMILES(simplified molecular input line entry system)   
      6
      |
      4
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930807 false
      发布时间:2024-07-12
    • 郭文,刘其贵,丁昕苗
      2024, 29(7): 1970-1983. DOI: 10.11834/jig.230390
      自适应IoU损失和层级关联的多目标跟踪
      摘要:目的针对模糊行人特征造成身份切换的问题和复杂场景下目标之间遮挡造成跟踪精度降低的问题,提出AIoU-Tracker多目标跟踪算法。方法首先根据骨干网络检测头设计了一个特殊的AIoU(adaptive intersection over union)回归损失函数,从重叠面积、中心点距离和纵横比3个方面去衡量,缓解了由于模糊行人特征判别性不足造成的身份切换现象;其次提出了一种简单有效的层级(hierarchical)关联策略,在高分检测框和低分检测框分别关联之后,充分利用关联失败检测框周围的嵌入信息再次进行关联,提高了在遮挡条件下多目标跟踪的关联精度。结果通过一系列的对比实验,提出的AIoU-Tracker跟踪方法相比于FairMOT跟踪方法在MOT16数据集上,HOTA(higher order tracking accuracy)值由58.3%提高至59.8%,IDF1(ID F1 score)值由72.6%提高至73.1%,MOTA(multi-object tracking accuracy)值由69.3%提高至74.4%;在MOT17数据集上,HOTA值由59.3%提高至59.9%,IDF1值由72.3%提高至72.9%。结论本文提出的特征平衡性跟踪方法,使边界框大小特征、热图特征和中心点偏移量特征在训练测试中达到了更好的平衡,使多目标跟踪结果更加准确。  
      关键词:多目标跟踪(MOT);数据关联;回归损失;特征平衡性;级联匹配方法   
      12
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930803 false
      发布时间:2024-07-12
    • 王凯,戴芳,郭文艳,王军锋,王小侠
      2024, 29(7): 1984-1997. DOI: 10.11834/jig.230340
      融合目标相似性和作用力的多目标跟踪
      摘要:目的多目标跟踪是计算机视觉一个重要的研究方向,为了解决多目标跟踪中错跟和漏跟导致跟踪精度低的问题,提出一种融合目标相似性和作用力的多目标跟踪算法。方法首先将多目标跟踪问题转化为一个最大后验概率问题,其次将最大后验概率问题映射到网络流中,利用最小代价流寻找最优路径,这样获得的最优路径就是目标轨迹。为了计算网络流中目标节点之间的代价,从以下两方面考虑:1)将目标的外观、运动和位置信息三者结合,计算目标间的相似度;2)考虑目标与目标的相互影响,参考社会力模型中个体之间的吸引力来计算目标节点之间的作用力。结果在MOT15、MOT16和MOT17共3个公开数据集进行实验评估并与12种方法进行比较,实验结果表明,本文算法在MOTA (multiple object tracking accuracy)、MT (mostly tracked tracklets)、ML (mostly lost tracklets)、FP (false positives)、FN (false negatives)等指标上明显优于OACDASM (online association by continuous-discrete appearance similarity measurement)、STURE (spatial-temporal mutual representation learning)、IQHMOT (identity-quantity harmonic multi-object tracking)和GCNNMatch (graph convolutional neural network match)等典型算法。在MOT15数据集中选取ETH-Bahnhof、TUD-Stadtmitte与PETS09-S2L1 3个视频序列进行消融实验,验证增加目标作用力之后的数据关联结果,消融实验结果表明,增加目标作用力之后可以改善目标跟踪的精度和其他指标,尤其在遮挡不明显的视频序列中。结论本文在目标多特征的基础之上增加目标节点间作用力,加强了目标间的数据关联,减少错跟的目标数量,有效地提高了目标跟踪的精度。  
      关键词:多目标跟踪(MOT);最小代价流;目标作用力;目标相似性;社会力模型   
      4
      |
      4
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930970 false
      发布时间:2024-07-12
    • 朱新瑞,钱小燕,施俞洲,陶旭东,李智昱
      2024, 29(7): 1998-2010. DOI: 10.11834/jig.230406
      长短期时间序列关联的视频异常事件检测
      摘要:目的多示例学习是解决弱监督视频异常事件检测问题的有力工具。异常事件发生往往具有稀疏性、突发性以及局部连续性等特点,然而,目前的多示例学习方法没有充分考虑示例之间的联系,忽略了视频片段之间的时间关联,无法充分分离正常片段和异常片段。针对这一问题,提出了一种长短期时间序列关联的二阶段异常检测网络。方法第1阶段是长短期时间序列关联的异常检测网络(long-and-short-term correlated mil abnormal detection framework, LSC-transMIL),将Transformer结构应用到多示例学习方法中,添加局部和全局时间注意力机制,在学习不同视频片段间的空间关联语义信息的同时强化连续视频片段的时间序列关联;第2阶段构建了一个基于时空注意力机制的异常检测网络,将第1阶段生成的异常分数作为细粒度伪标签,使用伪标签训练策略训练异常事件检测网络,并微调骨干网络,提高异常事件检测网络的自适应性。结果实验在两个大型公开数据集上与同类方法比较,两阶段的异常检测模型在UCF-crime、ShanghaiTech数据集上曲线下面积(area under curve, AUC)分别达到82.88%和96.34%,相比同为两阶段的方法分别提高了1.58%和0.58%。消融实验表明了关注时间序列的Transformer模块以及长短期注意力的有效性。结论本文将Transformer应用于时间序列的多示例学习,并添加长短期注意力,突出局部异常事件和正常事件的区别,有效检测视频中的异常事件。  
      关键词:异常检测;Transformer网络;时空注意力;多示例学习(MIL);弱监督   
      4
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930703 false
      发布时间:2024-07-12
    • 白艳峰,王立彪,高卫东,马应龙
      2024, 29(7): 2011-2023. DOI: 10.11834/jig.230269
      摘要:目的电力设备的状态检测和故障维护是保障电力系统正常运行的重要基础。针对目前多数变电站存在电力设备缺陷类型复杂且现有的单分类缺陷检测方法无法满足电力设备的多标签分类缺陷检测需求的问题,提出一种面向电力设备缺陷检测的多模态层次化分类方法。方法首先采集来自多个变电站的电力设备缺陷图像并进行人工标注、数据增强及归一化等预处理,构建了一个具有层次标签结构的电力设备缺陷图像数据集。然后提出一种基于多模态特征融合的层次化分类模型,采用ResNet50网络对图像进行特征提取,利用区域生成网络对目标进行定位以及前景、背景预测;为避免对区域生成网络生成的位置坐标进行量化时引入误差,进一步采用ROI Align(region of interest align)方法连续操作,生成位置坐标。最后采用层次化分类,将父类别标签嵌入到当前层目标特征表示进行逐层缺陷分类,最后一层得到最终的缺陷检测结果。结果在电力设备缺陷数据集和基准数据集上,与多标签分类电力设备缺陷检测方法和流行的常用目标检测算法进行对比实验。实验结果表明,模型对绝大部分设备缺陷类别的检测准确率最高,平均检测准确率达到86.4%,相比性能第2的模型,准确率提升了5.1%,并且在基准数据集上的平均检测准确率也提高了1.1%~3%。结论提出的电力设备缺陷检测方法充分利用设备缺陷标签的语义信息、层次结构和设备缺陷数据的图像特征,通过多模态层次化分类模型,能够提升电力设备缺陷检测的准确率。  
      关键词:缺陷检测;图像识别;层次化分类;多模态特征融合;标签嵌入;区域特征聚集   
      13
      |
      8
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 61664111 false
      发布时间:2024-07-12

      图像理解和计算机视觉

    • 成娟,殷辰楚,宋仁成,付静,刘羽
      2024, 29(7): 2024-2034. DOI: 10.11834/jig.230428
      非规律运动伪迹干扰鲁棒的人脸视频心率检测
      摘要:目的基于远程光电容积脉搏波描记法(remote photoplethysmograph,rPPG)的非接触人脸视频心率检测广泛应用于移动健康监护领域,由于其携带的生理参数信息幅值微弱,容易受到运动伪迹干扰。据此,提出了一种结合非负矩阵分解(nonnegative matrix factorization,NMF)和独立向量分析(independent vector analysis,IVA)的非规律运动伪迹去除的视频心率检测方法,记为NMF-IVA。方法首先,将面部感兴趣区域(region of interest,RoI)分为多个子区域(sub RoIs,SRoIs),利用平均光照强度、光照强度变化、信噪比这3个指标筛选出3个最优质的SRoIs,并获取每个SRoI的绿色通道时间序列。其次,将3个绿色通道时间序列去趋势、带通滤波后送入NMF-IVA进行盲源分离。然后,对分离后的源信号进行功率谱密度分析,并且将峰值信噪比最高且主频落在心率感兴趣范围内的源信号确定为血容量脉冲(blood volume pulse,BVP)信号。最后,将BVP信号的主频确定为所测量心率的主频,从而计算出心率值。结果实验在2个公开数据集UBFC-RPPG和UBFC-PHYS,及1个真实场景自采数据集上与最相关的7种典型的rPPG方法进行比较,在UBFC-RPPG数据集上,相比于性能第2的单通道滤波(single channel filtering,SCF)方法,均方根误差提升了1.39 bpm(beat per minute)、平均绝对误差提升了1.25 bpm、皮尔逊相关系数提升了0.02;在UBFC-PHYS数据集上的T2情况下,其性能提升最为显著,相比于性能第2的独立向量分析(IVA)方法,均方根误差提升了16.42 bpm、平均绝对误差提升了9.91 bpm、皮尔逊相关系数提升了0.64;在自采数据集上,除了低于深度学习方法性能之外,所提NMF-IVA方法在传统方法中取得了最好的结果。结论所提NMF-IVA方法对规律信号提取具有敏感性,即便是在头部存在剧烈非规律运动情况下,相比于传统方法亦能取得最优结果,该结果能够媲美基于深度学习的方法。  
      关键词:远程光电容积脉搏波描记法(rPPG);非接触式心率检测;盲源分离(BSS);非负矩阵分解(NMF);独立向量分析 (IVA)   
      5
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930586 false
      发布时间:2024-07-12
    • 刘晓楠,陈纯毅,胡小娟,于海洋
      2024, 29(7): 2035-2045. DOI: 10.11834/jig.221188
      带深度信息监督的神经辐射场虚拟视点画面合成
      摘要:目的在神经辐射场虚拟视点画面合成过程中,因视图数量过少或视图颜色不一致产生离群稀疏深度值问题,提出利用深度估计网络的密集深度值监督神经辐射场虚拟视点画面合成的方法来解决此问题。方法首先输入视图进行运动恢复结构获取稀疏深度值,其次将RGB视图输入New CRFs(neural window fully-connected CRFs for monocular depth estimation)深度估计网络得到预估深度值,计算预估深度值和稀疏深度值之间的标准差。最后,利用预估深度值和计算得到的标准差,对神经辐射场的训练进行监督。结果实验在NeRF Real数据集上与其他算法进行了实验对比。在少量视图合成实验中,本文方法在图像质量和效果优于仅使用RGB监督的NeRF(neural radiance fields)方法和使用稀疏深度信息监督的方法,峰值信噪比较NeRF方法提高24%,较使用稀疏深度信息监督的方法提高19.8%;结构相似度比NeRF方法提高36%,比使用稀疏深度信息监督的方法提高16.6%。同时为了验证算法的数据效率,进行了相同的迭代次数达到的峰值信噪比的比较,相较于NeRF方法,数据效率也有明显提高。结论实验结果表明,本文所提出的利用深度估计网络密集深度值监督神经辐射场虚拟视点画面合成的方法,解决了视图数量过少或者视图颜色不一致产生离群稀疏深度值问题。  
      关键词:视点合成;神经辐射场(NeRF);深度监督;深度估计;体渲染   
      11
      |
      2
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 61664284 false
      发布时间:2024-07-12

      遥感图像处理

    • 周庆泽,郭擎,王海荣,李安
      2024, 29(7): 2046-2062. DOI: 10.11834/jig.220932
      双判别器深度残差GAN高光谱图像融合
      摘要:目的为了解决高空间分辨率多光谱图像与高光谱图像融合时的多波段对多波段问题,以及高空间分辨率多光谱图像波谱范围不能完全涵盖高光谱图像波谱范围而导致的光谱失真问题,本文利用深度学习的数据驱动优势,基于高分5号(GF-5)高光谱数据和Sentinel-2多光谱数据,提出一种基于生成对抗网络(generative adversarial network, GAN)的高光谱图像空谱融合方法——双判别器深度残差GAN网络(two discriminator deep residual GAN,2DDRGAN)。方法考虑待融合图像间的波谱范围关系,采用分组融合策略,利用波段间的相关性,将多对多的融合问题转变为多个一对多的融合问题。使用深度残差模块深度提取图像的光谱和空间特征,用两个判别网络对融合图像的空间和光谱质量分别进行判断,改善生成网络生成的融合图像质量。另外,本文的深度学习网络不需要制作额外的融合结果标签,待融合图像本身就是标签,这大大降低了高光谱融合的工作量,也是目前深度学习遥感图像融合的根本改变。结果与常用传统空谱融合方法和经典深度学习方法比较的实验结果表明,对于不同地物类型数据,该网络得到的融合结果在提升空间分辨率的同时,有较高的光谱保真度。光谱曲线评价也验证了该网络对于高空间分辨率图像波谱范围以外的高光谱图像波段进行融合时有良好的光谱保真度。结论本文方法通过深度残差模块提取高光谱图像光谱特征和高空间分辨率图像空间特征,同时引入双判别网络,使得融合结果在保持光谱信息的同时更好地提升空间信息。  
      关键词:高光谱图像空谱融合;高空间分辨率多光谱图像;光谱失真;融合策略;生成对抗网络(GAN);光谱曲线评价   
      10
      |
      3
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 61664243 false
      发布时间:2024-07-12
    • 胡帅,高峰,龚卓然,陶盛恩,上官心语,董军宇
      2024, 29(7): 2063-2074. DOI: 10.11834/jig.230381
      基于Transformer和通道混合并行卷积的高光谱图像去噪
      摘要:目的高光谱图像因设备及环境因素容易受到噪声污染,导致图像的可见性和分析精度降低,因此高光谱图像去噪任务已经成为遥感图像处理领域国内外研究热点。当前的高光谱图像去噪方法主要面临两个难题:1)对特征的全局信息利用不足。当前基于卷积神经网络的方法受限于卷积核的大小,难以捕获特征的全局信息;2)卷积神经网络和Transformer在结构上存在差异,导致两者难以融合,因此,需要考虑合理的特征交互方式,来平衡局部和全局特征提取之间的关系。方法针对上述问题,本文提出了基于Transformer和通道混合并行卷积的高光谱图像去噪模型,包括3个模块:通道混合特征提取模块、基于块下采样的全局增强模块和自适应双向特征融合模块。通过这3个模块的相互作用,可以充分结合全局和局部的特征信息,处理不同区域中的噪声和纹理差异,有效提高模型对空间细节信息的恢复能力。结果实验在2个数据集上与主流的5种方法进行比较,在Pavia数据集中设置不同高斯噪声强度的情况下,相比于性能第2的模型,峰值信噪比(peak signal-to-noise ratio,PSNR)值最大提高了0.4 dB;在ICVL数据集中设置各种混合噪声的情况下,相比于性能第2的模型,PSNR最大提高了2.18 dB。同时可视化的去噪结果图像体现了本文所提出的去噪模型的优异性能。结论本文方法在各种噪声情况下均具有较好的去噪效果,显著优于当前主流方法,能够有效去除高光谱图像中噪声,同时保留图像丰富的纹理信息。  
      关键词:高光谱图像去噪;通道混合;Transformer;特征融合;全局注意力   
      13
      |
      4
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64930806 false
      发布时间:2024-07-12

      地理信息技术

    • 奚旭,瞿成意,侯渲,杜景龙
      2024, 29(7): 2075-2086. DOI: 10.11834/jig.230305
      运用混合域比值不变性的矢量地图水印算法
      摘要:目的传统基于频率域的矢量地图水印算法往往通过直接修改变换系数实现水印嵌入,嵌入位置随机,且嵌入强度难以控制,实用能力受限。为此,本文挖掘了离散小波变换(discrete wavelet transform,DWT)和复数奇异值分解(complex singular value decomposition,CSVD)系数比值作为新的水印嵌入域,融合系数放大法和量化索引调制(quantization index modulation,QIM)提出了一种嵌入强度可控的鲁棒性矢量地图水印算法。方法利用道格拉斯—普克算法提取矢量地图特征点,并基于特征点构建复数序列,对复数序列进行二层DWT,得到二层低频系数和二层高频系数。在此基础上,利用CSVD分别计算二层低频和高频系数的奇异值,并以奇异值比值作为水印嵌入域。在水印嵌入阶段,对系数比值放大合适倍数,通过调制放大后的奇异值比值来控制水印嵌入误差,并实现水印信息的盲提取。结果与最新的3种方法进行比较,本文算法从平移、旋转和缩放的组合攻击中提取的水印图像的归一化相关性系数(normalized correlation,NC)值从低于0.6提升至1。此外,在裁剪、简化和几何攻击的任意组合攻击中,本文算法均能够提取出NC值为1的水印图像,相较于对比方法,鲁棒性更加全面。在不可见性方面,本文算法表现优势,水印嵌入造成的误差被控制在毫米级。结论本文所提的矢量地图水印算法挖掘了多重频率域变换的比值作为水印嵌入域,具有良好的安全性和稳健性,可以为矢量地图的版权保护提供技术参考。  
      关键词:离散小波变换(DWT);复数奇异值分解(CSVD);嵌入域;数字水印;矢量地图   
      10
      |
      4
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 64931014 false
      发布时间:2024-07-12
    0