最新刊期

2024 年第 29 卷第 11 期

无人系统的平行决策智能

《中国图象图形学报》无人系统的平行决策智能专栏简介

舒振杰,王飞跃,鲍泓,陈龙,戴玉超,贺威,林懿伦,鲁继文,田大新,赵席彬
2024, 29(11): 3171-3172. DOI: 10.11834/jig.2400011

0

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151844 false

发布时间：2024-11-16
仿真到现实环境的自动驾驶决策技术综述

胡学敏,黄婷玉,余雅澜,任佳佳,谢微,陈龙
2024, 29(11): 3173-3194. DOI: 10.11834/jig.230780

摘要：自动驾驶汽车作为未来交通的重要发展方向，决策技术是其进行安全高效行驶的关键。基于成本和安全性的考虑，最新的自动驾驶决策技术往往先在仿真环境中研究，再在现实世界中应用，故在自动驾驶决策领域，仿真到现实的方法能帮助自动驾驶系统更有效地进行学习、训练和验证。然而，仿真环境和现实环境之间的差距会在这些模型和技术转移到真实车辆时带来挑战，这种仿真到现实环境域差距的问题促使研究人员探索解决该问题的途径，并且提出各种有效的方法。本文将这些方法总结为两大类：虚实迁移和平行智能。前者通过不同方法将在模拟环境中训练的车辆决策迁移到现实环境中，以解决域差距问题；后者通过构建虚拟的人工系统和现实的物理系统，将二者进行交互、比较、学习和实验，从而解决自动驾驶决策在现实环境中的适配问题。本文首先从虚实迁移和平行智能的原理，以及自动驾驶决策领域应用的角度进行了详细综述，这也是首次从平行智能的角度来思考自动驾驶决策技术中仿真到现实环境的问题，然后总结了搭建仿真环境常用的自动驾驶模拟器，最后归纳了仿真到现实环境的自动驾驶面临的挑战和未来的发展趋势，既为自动驾驶在现实场景的应用与推广提供技术方案，也为自动驾驶研究人员提供新的想法和方向。

关键词：自动驾驶;决策技术;域差距（RG）;虚实迁移（sim2real）;平行智能（PI）

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151220 false

发布时间：2024-11-16
无人智能集群系统决策与控制研究进展

潘振华,夏元清,鲍泓,王睿哲,于婷婷
2024, 29(11): 3195-3215. DOI: 10.11834/jig.230766

摘要：无人集群系统是当前人工智能和机器人领域备受关注的研究热点，已在多个领域展现出广阔的应用前景。对无人集群系统进行了深入综述和分析，着重探讨了协同决策和博弈控制两个关键方面，旨在通过智能体之间的信息共享和协作，提高系统效率，解决在智能体之间可能出现的利益冲突和决策问题。首先，对一些基本概念进行了明确阐述，包括智能体、集群智能和无人集群系统，有助于读者建立对这一领域的基本理解。随后，介绍了协同与博弈控制数学模型、集群协同与博弈决策、集群协同控制方法、集群博弈控制方法等算法，着重强调了协同决策和博弈控制的理论基础，以及它们如何应用于无人集群系统中，从而提高系统的整体性能。接下来，列举了集群协同与博弈在多个领域的一些典型应用案例，包括智能交通、无人机编队、物流配送和军事领域。这些实际案例展示了该技术的广泛应用领域，以及它对提高效率和解决复杂问题的潜力。最后，讨论了未来研究方向和挑战，包括对新技术和方法的需求，以应对不断发展的需求和问题，以及如何进一步推动无人集群系统的发展。本文为无人集群系统的进一步发展提供指导和参考，以推动该领域的发展和创新，为未来的科学和技术进步做出了一定贡献。

关键词：无人集群系统（USS）;智能决策;博弈控制;协同控制;强化学习（RL）

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151215 false

发布时间：2024-11-16
端到端自动驾驶系统研究综述

陈妍妍,田大新,林椿眄,殷鸿博
2024, 29(11): 3216-3237. DOI: 10.11834/jig.230787

摘要：近年深度学习技术助力端到端自动驾驶框架的发展和进步，涌现出一系列创新研究议题与应用部署方案。本文首先以经典的模块化系统切入，对自动驾驶感知—预测—规划—决策4大功能模块进行简要概述，分析传统的模块化和多任务方法的局限性；其次从输入—输出模态到系统架构角度对当前新兴的端到端自动驾驶框架进行广泛地调研，详细描述弱解释性端到端与模块化联合端到端两大主流范式，深入探究现有研究工作存在的不足和弊端；之后简单介绍了端到端自动驾驶系统的开环—闭环评估方法及适用场景；最后总结了端到端自动驾驶系统的研究工作，并从数据挖掘和架构设计角度展望领域潜在挑战和亟待解决的关键问题。

关键词：人工智能（AI）;自动驾驶;模块式系统;端到端系统;数据驱动;可解释性

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151217 false

发布时间：2024-11-16
自动驾驶中的三维目标检测算法研究综述

李昌财,陈刚,侯作勋,黄凯,张伟
2024, 29(11): 3238-3264. DOI: 10.11834/jig.230779

摘要：新兴的三维目标检测技术在自动驾驶领域中扮演着关键的角色，它通过提供环境感知和障碍物检测等信息，为自动驾驶系统的决策和控制提供了基础。过去的许多学者对该领域优秀的方法论和成果进行了全面的检验和研究。然而，由于技术上的不断更新和快速进步，对该领域的最新进展保持持续跟踪并坚持跟随知识前沿，不仅是学术界的一项至关重要任务，同时也是应对新兴挑战的一项基础。本文回顾了近两年内的新兴成果并针对该方向中的前沿理论进行系统性的阐述。首先，简单介绍三维目标检测的背景知识并回顾相关的综述研究。然后，从数据规模、多样性等方面对KITTI（Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago）等多个流行的数据集进行了归纳总结，并进一步介绍相关基准的评测原理。接下来，按照传感器类型和数量将最近的几十种检测方法划分为基于单目的、基于立体的、基于多视图的、基于激光雷达的、基于多模态5个类别，并根据模型架构或数据预处理方式的不同对每一种类别进行更深层次的细分。在每一种类别的方法中，首先对其代表性算法进行简单回顾，然后着重对该类别中最前沿的方法进行综述介绍，并进一步深入分析了该类别潜在的发展前景和当前面临的严峻挑战。最后展望了三维目标检测领域未来的研究方向。

关键词：自动驾驶;三维目标检测;单目;立体;多视图;激光雷达;多模态

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151496 false

发布时间：2024-11-16
无人驾驶突发紧要场景下基于平行视觉的风险增强感知方法

苟超,刘欣欣,郭子鹏,周昱臣,王飞跃
2024, 29(11): 3265-3279. DOI: 10.11834/jig.230748

摘要：目的随着视觉感知技术的快速发展，无人驾驶已经可以应用于简单场景。但是在实际的复杂城市道路应用中，仍然存在一些挑战，尤其是在其他车辆的突然变道、行人的闯入、障碍物的出现等突发紧要场景中。然而，真实世界中此类紧要场景数据存在长尾分布问题，导致数据驱动为主的无人驾驶风险感知面临技术瓶颈，因此，本文提出一种基于平行视觉的风险增强感知方法。方法该方法基于交互式ACP（artificial societies，computational experiments，parallel execution）理论，在平行视觉框架下整合描述、指示、预测智能，实现基于视觉的风险增强感知。具体地，基于描述与指示学习，在人工图像系统中引入改进扩散模型，设计背景自适应模块以及特征融合编码器，通过控制生成行人等危险要素的具体位置，实现突发紧要场景风险序列的可控生成；其次，采用基于空间规则的方法，提取交通实体之间的空间关系和交互关系，实现认知场景图的构建；最后，在预测学习框架下，提出了一种新的基于图模型的风险增强感知方法，融合关系图注意力网络和Transformer编码器模块对场景图序列数据进行时空建模，最终实现风险的感知与预测。结果为验证提出方法的有效性，在MRSG-144（mixed reality scene graph）、IESG（interaction-enhanced scene graph）和1043-carla-sg（1043-carla-scenegraph）数据集上与5种主流风险感知方法进行了对比实验。提出的方法在3个数据集上分别取得了0.956、0.944、0.916的F1-score，均超越了现有主流方法，达到最优结果。结论本文是平行视觉在无人驾驶风险感知领域的实际应用，对于提高无人驾驶的复杂交通场景风险感知能力，保障无人驾驶系统的安全性具有重要意义。

关键词：无人驾驶;平行视觉;认知场景图;扩散生成;风险感知

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151216 false

发布时间：2024-11-16
考虑定位不确定性的无人驾驶安全规划方法

单云霄,刘沅昊
2024, 29(11): 3280-3292. DOI: 10.11834/jig.230885

摘要：目的无人驾驶规划与控制是保障行驶安全的重要环节之一，现有的规划方法大多假定驾驶场景是精确感知的，忽略了行驶环境中存在的感知、定位等不确定性。忽略这些不确定性的因素将影响驾驶的安全。本文在考虑传感器数据不确定性的情况下，将系统中实际存在的定位不确定性融入规划系统，从而规划出更加安全的轨迹。方法通过研究基于栅格地图的不确定环境概率模型框架以及基于该表征框架的轨迹规划方法降低不确定性的影响，产生舒适安全的类人轨迹。该方法首先将先验地图转换为栅格地图作为全局栅格地图，接着结合定位系统将局部栅格地图初始化，然后在局部栅格地图中进行定位不确定性传播，最后在Frenet坐标系进行轨迹规划，使用局部栅格地图的占据概率计算候选轨迹代价，选择最优代价轨迹。结果本文方法在CARLA（CAR learning to act）仿真器中进行验证，通过仿真实验对比多种方法，验证了本文方法能够在定位不确定性环境下平稳行驶，安全地避开障碍物，在路径安全性和高效性上找到一个平衡点，在多种场景下本文考虑定位不确定性的方法通过率提高15%。结论本文提出了一种能够融入多种不确定性的环境表征框架，并将定位系统不确定性融入规划方法，实现了规划的安全性和效率的提升。

关键词：不确定性;无人驾驶;栅格地图;轨迹规划;Frenet规划;传感器误差

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151219 false

发布时间：2024-11-16
面向网联自动驾驶部署的车—路—无人机跨域协同技术

于静茹,姚升悦,陈喜群,林懿伦,王飞跃
2024, 29(11): 3293-3304. DOI: 10.11834/jig.230786

摘要：目的随着车联网技术的发展，网联自动驾驶车辆（connected and autonomous vehicle， CAV）的部署场景变得越来越复杂。为了保证效率和安全，提出一种面向CAV部署的集成无人机和现有路侧基础设施的车—路—无人机跨域协同技术，旨在解决依靠路侧基础设施支持CAV感知和通信解决方案在部署范围、机动性和感知视角等方面存在一定限制的问题。方法本文设计了基于任务需求和资源约束的双层调度算法，实现无人机资源的灵活调度和智能决策。该算法上层实现任务规划，下层运动规划则根据动力学约束和虚拟场模型生成无人机运动轨迹，采用上、下层反馈机制，动态响应感知和通信需求，给出目标区域无人机的最优部署方案。结果实验模拟混合交通流场景，并估计了不同场景下CAV动态感知和通信需求；通过对比无人机跨域协同方案与现有路侧基础设施辅助方案，结果表明所提方案相比现有方案降低了路侧设备单元（roadside units， RSU）的空闲率，在CAV渗透率为70%时，所提方案在仿真路网和城市路网场景下分别将RSU的空闲率降低了33.82%和31.20 %；同时也展示了基于双层调度算法按需调度无人机的流程，验证了该算法的有效性。结论本文所提出的无人机跨域协同的CAV辅助部署方案，对比现有的基础设施辅助方案，具有覆盖范围广、可以按需灵活调度的特点，可以支持CAV大规模部署。

关键词：自动驾驶;跨域协同;无人机按需调度;双层调度算法;基于虚拟力场的轨迹规划

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151323 false

发布时间：2024-11-16
面向驾驶场景精准图像翻译的条件扩散模型

徐映芬,胡学敏,黄婷玉,李燊,陈龙
2024, 29(11): 3305-3318. DOI: 10.11834/jig.230785

摘要：目的针对虚拟到现实驾驶场景翻译中成对的数据样本匮乏、翻译结果不精准以及模型训练不稳定等问题，提出一种多模态数据融合的条件扩散模型。方法首先，为解决目前主流的基于生成对抗网络的图像翻译方法中存在的模式崩塌、训练不稳定等问题，以生成多样性强、训练稳定性好的扩散模型为基础，构建图像翻译模型；其次，为解决传统扩散模型无法融入先验信息从而无法控制图像生成这一问题，提出基于多头自注意力机制的多模态特征融合方法，该方法能将多模态信息融入扩散模型的去噪过程，从而起到条件控制的作用；最后，基于语义分割图和深度图能分别表征物体的轮廓信息和深度信息这一特点，将其与噪声图像进行融合后输入去噪网络，以此构建多模态数据融合的条件扩散模型，从而实现更精准的驾驶场景图像翻译。结果在Cityscapes数据集上训练本文提出的模型，并且将本文方法与先进方法进行比较，结果表明，本文方法可以实现轮廓细节更细致、距离远近更一致的驾驶场景图像翻译，在弗雷歇初始距离（Fréchet inception distance， FID）和学习感知图像块相似度（learned perceptual image patch similarity， LPIPS）等指标上均取得了更好的结果，分别为44.20和0.377。结论本文方法能有效解决现有图像翻译方法中数据样本匮乏、翻译结果不精准以及模型训练不稳定等问题，提高驾驶场景的翻译精确度，为实现安全实用的自动驾驶提供理论支撑和数据基础。

关键词：虚拟到现实;图像翻译;扩散模型;多模态融合;驾驶场景

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151325 false

发布时间：2024-11-16

综述

二维人体姿态编解码方法综述：从解决歧义性问题的角度出发

喻莉,杜聪炬,闫增强,赵慧娟,何双江
2024, 29(11): 3319-3344. DOI: 10.11834/jig.230648

摘要：人体姿态估计在娱乐、健康、安全等领域为众多应用提供了关键技术支持。人体姿态编解码的目的在于从原始输入数据中提取特征，将其构建为更易处理和理解的中间表示形式，并从中恢复出可理解的人体姿态。然而，实际场景中受到光照、运动模糊、遮挡、复杂姿态、拍摄视角和图像分辨率等因素的影响，人体姿态估计常常受到分布歧义、尺度歧义和关联歧义等问题的困扰。因此，合理的编解码设计是解决人体姿态估计各类歧义性问题的关键。首先，对人体姿态建模方法进行介绍，其是实现人体姿态编解码的前提条件。然后，针对分布歧义问题，从基于分布约束、基于结构约束和基于迭代约束3个方面进行介绍；尺度歧义问题被划分为关键点尺度歧义和像素尺度歧义问题，并介绍与之相关的基于尺度表征、基于无偏变换和基于积分回归的方法；针对关联歧义问题，归纳包括基于图优化、基于肢体向量、基于实例中心和基于参考标签的4类人体姿态编解码方法。同时，对各方法的性能进行了总结分析。最后，对未来人体姿态编解码的研究方向进行了展望。

关键词：深度学习;人体姿态估计;歧义性问题;人体姿态编解码;人体姿态建模

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151327 false

发布时间：2024-11-16

数据集

IHCCD: 非规范手写汉字识别数据集

季佳美,邵允学,季倓正
2024, 29(11): 3345-3356. DOI: 10.11834/jig.230047

摘要：目的随着深度学习技术的快速发展，规范手写汉字识别（handwritten Chinese character recognition， HCCR）任务已经取得突破性进展，但对非规范书写汉字识别的研究仍处于萌芽阶段。受到书法流派和书写习惯等原因影响，手写汉字常常与打印字体差异显著，导致同类别文字的整体结构差异非常大，基于现有数据集训练得到的识别模型，无法准确识别非规范书写的汉字。方法为了推动非规范书写汉字识别的研究工作，本文制做了首套非规范书写的汉字数据集（irregular handwritten Chinese character dataset， IHCCD），目前共包含3 755个类别，每个类别有30幅样本。还给出了经典深度学习模型ResNet，CBAM-ResNet，Vision Transformer，Swin Transformer在本文数据集上的基准性能。结果实验结果表明，虽然以上经典网络模型在规范书写的CASIA-HWDB1.1数据集上能够取得良好性能，其中Swin Transformer在CASIA-HWDB1.1数据集上最高精度达到了95.31%，但是利用CASIA-HWDB1.1训练集训练得到的网络模型，在IHCCD测试集上的识别结果较差，最高精度也只能达到30.20%。在加入IHCCD训练集后，所有的经典模型在IHCCD测试集上的识别性能均得到了较大提升，最高精度能达到89.89%，这表明IHCCD数据集对非规范书写汉字识别具有研究意义。结论现有OCR识别模型还存在局限性，本文收集的IHCCD数据集能够有效增强识别模型泛化性能。该数据集下载链接https://pan.baidu.com/s/1PtcfWj3yUSz68o2ZzvPJOQ?pwd=66Y7。

关键词：非规范书写;手写汉字识别（HCCR）;IHCCD数据集;深度学习;经典分类模型

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151427 false

发布时间：2024-11-16

图像处理和编码

基于透射率修正和分层优化的夜间图像去雾

罗杰,林森
2024, 29(11): 3357-3370. DOI: 10.11834/jig.230552

摘要：目的大气中颗粒对光线的吸收和散射以及人造光源的影响，导致夜间获取的图像存在雾化、照度低和颜色偏差等问题，但传统的夜间去雾方法常局限于处理特定情况，未能综合考虑夜间图像中的各种影响因素。针对上述问题，提出一种基于透射率补偿与归一化和结构纹理优化的两阶段夜间图像去雾方法。方法首先，提出融合透射率补偿与归一化的修正方法获取透射率图，同时使用二次高斯滤波方法获取大气光图，并根据夜间成像模型实现图像去雾；其次，使用改进的基于Retinex的结构纹理分层模型（structure and texture aware retinex model based on the YUV color space，STAR-YUV）将图像分为结构层和纹理层，对结构层进行照明补偿和颜色校正，对纹理层采用拉普拉斯高斯滤波器以丰富细节信息；最后，采用两阶段融合方法将图像分步融合得到增强后的图像。结果理论分析和实验结果表明，经本文算法处理过的测试集图像，其峰值信噪比（peak signal-to-noise ratio，PSNR）、结构相似性（structural similarity index measure，SSIM）、平均梯度（average gradient，AG）、信息熵（information entropy，IE）和自然图像质量评估器（natural image quality evaluator，NIQE）指标平均值分别达到了17.024 dB、0.765、7.604、7.528和2.693，在对比的传统和深度学习算法中均位于前列，表明本文算法能够很好地实现夜间图像去雾，对细节和图像自然度的恢复也取得了较好结果。结论所提出的方法将透射率修正与结构纹理优化有效结合在一起，对含有整体色偏问题的夜间图像有更好的效果，能够提高场景亮度、校正色偏并丰富细节信息，具有普适性。

关键词：夜间图像去雾;透射率修正方法;结构纹理优化;两阶段;图像融合

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151447 false

发布时间：2024-11-16

图像分析和识别

注意力集合表示的多尺度度量小样本图像分类

王雪松,吕理想,程玉虎,王浩宇
2024, 29(11): 3371-3382. DOI: 10.11834/jig.230763

摘要：目的在图像分类中，通常先用深度网络提取特征，再基于这些特征进行分类，小样本图像分类也遵循此原则。但在特征提取为向量的过程中，信息丢失是一个常见问题，这可能导致模型遗漏关键的类别信息。为构建更丰富、更全面的特征表示，提出了基于基类的丰富表示特征提取器（rich representation feature extractor， RireFeat）。方法RireFeat通过在特征提取网络中构建不同层级间的基于注意力机制的信息流通渠道，使得被忽略的类别强相关信息重新出现在新提取的特征表示中，从而根据重要性有效地利用图像信息以构建全面的特征表示。同时，为了增强模型的判别能力，从多个尺度对特征进行度量，构建基于对比学习和深度布朗距离协方差的损失函数，拉近类别强相关特征向量之间的距离，同时使不同类别特征向量距离更远。结果为了验证所提特征提取器的有效性，在标准的小样本数据集MiniImagenet、TierdeImageNet和CUB（caltech-ucsd birds-200-2011）上进行了1-shot和5-shot的分类训练。实验结果显示，在MiniImageNet数据集上RireFeat在基于卷积的骨干网络中于1-shot和5-shot情况下分别比集合特征提取器（set-feature extractor， SetFeat）取得精度高出0.64%和1.10%。基于ResNet12（residual network）的结构中于1-shot和5-shot情况下分别比SetFeat精度高出1.51%和1.46%。CUB数据集在基于卷积的骨干网络中分别于1-shot和5-shot情况下提供比SetFeat高0.03%和0.61%的增益。在基于ResNet12的结构中于1-shot和5-shot情况下比SetFeat精度提高了0.66%和0.75%。在TieredImageNet评估中，基于卷积的骨干网络结构中于1-shot和5-shot情况下比SetFeat精度提高了0.21%和0.38%。结论所提出的RireFeat特征提取器能够有效地提高模型的分类性能，并且具有很好的泛化能力。

关键词：小样本图像分类;注意力机制;多尺度度量;特征表示;对比学习;深度布朗距离协方差

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151498 false

发布时间：2024-11-16
字符敏感编辑距离的零样本汉字识别

陈宇,王大寒,池雪可,江楠峰,张煦尧,王驰明,朱顺痣
2024, 29(11): 3383-3400. DOI: 10.11834/jig.230875

摘要：目的零样本汉字识别（zero-shot Chinese character recognition，ZSCCR）因其能在零或少训练样本下识别未见汉字而受到广泛关注。现有的零样本汉字识别方法大多采用基于部首序列匹配框架，即首先预测部首序列，然后根据表意描述序列（ideographic description sequence，IDS）字典进行最小编辑距离（minimum edit distance，MED）匹配。然而，现有的MED算法默认不同部首的替换代价、插入代价和删除代价相同，导致在匹配时候选字符类别存在距离代价模糊和冗余的问题。为此，提出了一种字符敏感编辑距离（character-aware edit distance，CAED）以正确匹配目标字符类别。方法通过设计多种部首信息提取方法，获得了更为精细化的部首描述，从而得到更精确的部首替换代价，提高了MED的鲁棒性和有效性；此外，提出部首计数模块预测样本的部首数量，从而形成代价门控以约束和调整插入和删除代价，克服了IDS序列长度预测不准确产生的影响。结果在手写汉字、场景汉字和古籍汉字等数据集上进行实验验证，与以往的方法相比，本文提出的CAED在识别未见汉字类别的准确率上分别提高了4.64%、1.1%和5.08%，同时对已见汉字类别保持相当的性能，实验结果充分表明了本方法的有效性。结论本文所提出的字符敏感编辑距离，使得替换、插入和删除3种编辑代价根据字符进行自适应调整，有效提升了对未见汉字的识别性能。

关键词：零样本汉字识别（ZSCCR）;表意描述序列（IDS）;编辑距离;字符敏感;部首信息;代价门控

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151594 false

发布时间：2024-11-16

图像理解和计算机视觉

面向目标类别分类的无数据知识蒸馏方法

谢奕涛,苏鹭梅,杨帆,陈宇涵
2024, 29(11): 3401-3416. DOI: 10.11834/jig.230816

摘要：目的目前，研究者们大多采用无数据蒸馏方法解决训练数据缺乏的问题。然而，现有的无数据蒸馏方法在实际应用场景中面临着模型收敛困难和学生模型紧凑性不足的问题，为了满足针对部分类别的模型训练需求，灵活选择教师网络目标类别知识，本文提出了一种新的无数据知识蒸馏方法：面向目标类别的掩码蒸馏（masked distillation for target classes， MDTC）。方法MDTC在生成器学习原始数据的批归一化参数分布的基础上，通过掩码阻断生成网络在梯度更新过程中非目标类别的梯度回传，训练一个仅生成目标类别样本的生成器，从而实现对教师模型中特定知识的准确提取；此外，MDTC将教师模型引入到生成网络中间层的特征学习过程，优化生成器的初始参数设置和参数更新策略，加速模型收敛。结果在4个标准图像分类数据集上，设计13个子分类任务，评估MDTC在不同难度的子分类任务上的性能表现。实验结果表明，MDTC能准确高效地提取教师模型中的特定知识，不仅总体准确率优于主流的无数据蒸馏模型，而且训练耗时少。其中，40%以上学生模型的准确率甚至超过教师模型，最高提升了3.6%。结论本文方法的总体性能超越了现有无数据蒸馏模型，尤其是在简单样本分类任务的知识学习效率非常高，在提取知识类别占比较低的情况下，模型性能最优。

关键词：深度学习;图像分类;模型压缩;无数据知识蒸馏;生成器

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151596 false

发布时间：2024-11-16
点云多尺度编码的单阶段3D目标检测网络

韩俊博,胡海洋,李忠金,潘开来,王利红
2024, 29(11): 3417-3432. DOI: 10.11834/jig.230105

摘要：目的自动引导运输小车（automatic guided vehicles，AGV）在工厂中搬运货物时会沿着规定路线运行，但是在靠近障碍物时只会简单地自动停止，无法感知障碍物的具体位置和大小，为了让AGV小车在复杂的工业场景中检测出各种障碍物，提出了一个点云多尺度编码的单阶段3D目标检测网络（multi-scale encoding for single-stage 3D object detector from point clouds，MSE-SSD）。方法首先，该网络通过可学习的前景点下采样模块来对原始点云进行下采样，以精确地分割出前景点。其次，将这些前景点送入多抽象尺度特征提取模块进行处理，该模块能够分离出不同抽象尺度的特征图并对它们进行自适应地融合，以减少特征信息的丢失。然后，从特征图中预测出中心点，通过多距离尺度特征聚合模块将中心点周围的前景点按不同距离尺度进行聚合编码，得到语义特征向量。最后，利用中心点和语义特征向量一起预测包围框。结果MSE-SSD在自定义数据集中进行实验，多个目标的平均精度（average precision，AP）达到了最优，其中，在困难级别下空AGV分类、简单级别下载货AGV分类比排名第2的IA-SSD（learning highly efficient point-based detectors for 3D LiDAR point clouds）高出1.27%、0.08%，在简单级别下工人分类比排名第2的SA-SSD（structure aware single-stage 3D object detection from point cloud）高出0.71%。网络运行在单个RTX 2080Ti GPU上检测速度高达77 帧/s，该速度在所有主流网络中排名第2。将训练好的网络部署在AGV小车搭载的开发板TXR上，检测速度达到了8.6 帧/s。结论MSE-SSD在AGV小车避障检测方面具有较高的精确性和实时性。

关键词：3D目标检测;单阶段检测网络;点云下采样;点云特征提取;点云特征聚合

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151630 false

发布时间：2024-11-16

医学图像处理

端到端对称感知对比学习脑室分割算法

喻莉,华毅能
2024, 29(11): 3433-3446. DOI: 10.11834/jig.230372

摘要：目的脑室是人脑重要结构，在临床实践中，其大小、形状变化与多种慢性和急性神经系统疾病息息相关，对脑室的精确分割能够为脑部相关疾病的诊断提供有价值的辅助信息。随着深度学习在医学图像处理领域的迅速发展，医学图像分割任务取得了重大进展。然而，脑室内出血患者的脑室分割问题仍然有待探索。方法本文聚焦于脑室内出血患者的脑室分割问题，针对其面临的目标遮挡、边界不清晰等问题，提出针对性的脑室分割算法——基于端到端对比学习对称感知的脑室分割网络。该模型首先基于空间转换网络实现自适应图像校正，获取任意角度下输入图像的脑室对称图像。然后通过对比学习算法并结合加权对称损失函数施加对图像的对称性约束。通过上述方法可实现脑室分割网络的端到端训练，上游网络与下游分割任务协同合作。结果基于不同分割网络模型的实验结果表明，该方案在脑室内出血患者的脑室分割任务上可取得性能提升，该方案按病例和切片评估的Dice系数指标平均增益分别达到1.09%和1.28%。结合本文算法，最优模型按病例评估的DSC（Dice similarity coefficient）系数和召回率分别达到85.17%和84.03%。结论本文所提出算法对CT（computed tomography）和MR（magnetic resonance）图像的脑室分割均取得了有效提升，对脑室内出血患者相关医学图像分割提升尤为显著，并且本文方法可移植性强，可适用于多种分割网络。

关键词：脑室分割;深度学习;脑室内出血（IVH）;对称感知;端到端网络

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151687 false

发布时间：2024-11-16
感受野扩增的轻量级病理图像聚焦质量评估网络

丁维龙,朱伟,廖婉茵,刘津龙,汪春年,祝行琴
2024, 29(11): 3447-3461. DOI: 10.11834/jig.230676

摘要：目的病理切片扫描仪成像的数字病理图像的聚焦质量不佳，会严重影响肿瘤诊断的准确性。因此，开展对数字病理图像的聚焦质量评估的自动化算法至关重要。现有的聚焦质量评估主要采用深度学习方法，但常规的卷积神经网络（convolutional neural network， CNN）存在全局信息提取能力差和计算量过大问题。为此，提出一种感受野扩增的轻量级病理图像聚焦质量评估网络。方法该网络引入大卷积核来扩增网络的感受野，以捕获更多的全局信息。再利用新的双流大核注意力机制，增强对空间和通道上全局信息的提取能力。最后，将该网络优化为参数量递减的大型、中型和小型3个版本，以实现网络的轻量化。结果本文提出的大型网络比同类先进方法取得更优的性能。与本文的大型网络相比，优化后的小型网络牺牲了较小的性能，却取得参数量、计算量和CPU推理时间的显著下降。与同类轻量级网络SDCNN（self-defined convolutional neural network）相比，本文的小型网络在SRCC（Spearman’s rank correlation coefficient）、PLCC（Pearson linear correlation coefficient）和KRCC（Kendall rank correlation coefficient）等度量指标上分别提升了0.016 1、0.016 6和0.029 9，而参数量、计算量和CPU推理时间分别减少了39.06%、95.11%和51.91%。结论本文提出的方法可有效地提取数字病理图像的全局聚焦信息，且计算资源消耗更低，具有现实可行性。

关键词：数字病理图像;聚焦质量评估;感受野扩增;注意力机制;轻量级

1

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151689 false

发布时间：2024-11-16
融合交叉注意力与双编码器的医学图像分割

李赫,刘建军,肖亮
2024, 29(11): 3462-3475. DOI: 10.11834/jig.230705

摘要：目的在现有的医学图像分割算法中，卷积神经网络（convolutional neural network，CNN）和Transformer相结合的方法占据了主流。然而，这些方法通常不能有效地结合CNN和Transformer所提取到的局部和全局信息。针对这一问题，提出了一种基于全局—局部交叉注意力的双编码器分割网络（dual-encoder global-local cross attention network，DGLCANet）。方法DGLCANet是基于UNet的编码器—解码器结构实现的。首先，采用CNN和交叉形状窗口Transformer（CSWin Transformer）为主的双编码器结构来提取图像丰富的全局上下文特征以及局部纹理特征。其次，在CNN分支中，引入一个全局—局部交叉注意力Transformer模块来使双分支所提取到的信息关联起来。最后，为了减小编码器与解码器之间的特征差距，本文在原始跳跃连接中插入了一个特征自适应模块。结果将DGLCANet与9种先进的分割算法在4个公开数据集上进行实验对比，其分割效果在交并比（intersection over union，IoU）、Dice系数（Dice coefficient）、准确度（accuracy， ACC）和召回率（recall）指标上均有提高，在4个数据集上的IoU分别达到85.1%、83.34%、68.01%和85.63%，相较于经典算法UNet分别提升了8.07%、6.01%、7.83%和3.87%。结论DGLCANet综合了基于CNN方法和基于Transformer方法的优点，充分利用了图像中的全局和局部信息，具有更优异的分割性能。

关键词：医学图像分割;卷积神经网络（CNN）;双编码器;交叉注意力机制;Transformer

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151789 false

发布时间：2024-11-16
融合遗传算法和图神经网络的抑郁症智能诊断

龙丹,章梦达,应仁辉,陈丰农,邵岚,谢璩,罗聪
2024, 29(11): 3476-3486. DOI: 10.11834/jig.230337

摘要：目的构建基于脑网络的抑郁症智能诊断模型是一项具有挑战性的任务。近年来，图神经网络（graph neural network，GNN）越来越多地应用于图的分类任务中，大部分GNN研究都只是对单一空间（样本空间或者特征空间）进行建模，导致模型分类性能不够好，本文提出一种基于遗传算法（genetic algorithm，GA）和GNN的多空间融合算法来对抑郁症患者进行智能诊断。方法模型采用留一站点交叉验证来确保模型的泛化性。脑网络的构建是基于Pearson相关的功能连接方法。整个算法以遗传算法作为主要框架，其中适应度函数是基于图卷积网络（graph convolutional network， GCN）分类算法，通过搜索个体间相似性阈值来找到具有最高分辨力的GCN。GCN由两个网络串联组成，一个网络获取受试者特征空间信息，另一个提取受试者之间样本空间的信息，最后通过两级GCN的联合学习实现分类。结果所有数据来源于The REST-meta-MDD项目，一共有来自10个站点1 160个受试者功能磁共振数据纳入本实验（男434、女726）。实验结果显示，本文提出的分类器准确性、精度和受试者特征曲线（receiver operating characteristic，ROC）下面积分别为64.72%、69.69%和64.58%，优于其他主流算法。结论与其他算法相比，本文提出的算法融合了传统模型和深度学习模型的优点，获得了最佳的分类性能，未来很有可能为临床抑郁症诊断提供重要依据。

关键词：抑郁症;图卷积网络（GCN）;智能诊断;融合算法;个体相似性

0

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151804 false

发布时间：2024-11-16
无参考样本下的食管内镜图像增强技术

姚韩敏,周颖玥,郭俊菲,秦佳敏,李小霞,董舒琦
2024, 29(11): 3487-3500. DOI: 10.11834/jig.230865

摘要：目的在食管病变的筛查中，卢戈染色内镜（Lugol’s chromo endoscopy，LCE）因其良好的病变可视性、诊断准确性以及低廉的检查成本在消化内科检查中独具优势。然而，在采集LCE食管内镜图像时，由于内窥镜内置光源的限制，光照的方向和角度有限，导致图像出现光照不均匀、对比度低等问题。方法针对这一问题，本文在RetinexDIP算法基础上，提出了用于生成图像分量的生成器网络（stable generating network，SgNet）。该网络采用编码—解码结构，通过本文提出的通道调整模块（channel attention adjustment module， CAAM）使得上下采样过程中对应的特征通道权重保持一致，以增强网络稳定性，进而提升生成图像的质量。同时提出了一种新的颜色模型——“固定比例、独立亮度”模型（fixed proportion light，FPL），该模型将图像的亮度信息和颜色比例信息独立表示出来，图像的光照增强过程只在亮度通道上进行调整，从而保证LCE食管内镜图像的整体色彩信息不紊乱。结果在自建的LCE低光图像数据集上测试本文算法的有效性，与多种主流低光图像增强算法进行视觉效果和客观指标评价比较。结果显示本文所提算法在颜色保真、对比度提升以及降低噪声干扰等方面具有优势，在自然图像质量评估器（natural image quality evaluator，NIQE）和盲/无参考空间图像质量评估器（blind/referenceless image spatial quality evaluator，BRISQUE）指标上均表现出色。结论综合来看，本文算法在增强LCE食管内镜图像亮度的同时，有效地保持了图像的色彩和纹理细节信息，可以帮助医生更清晰地观察病灶组织结构和细节，提升诊断准确率，并为后续病灶智能检测提供了优质的图像数据。

关键词：图像增强;卢戈染色内镜（LCE）;Retinex模型;图像生成;颜色模型

2

|

0

|

0

<HTML>
<网络PDF><WORD><Meta-XML>

<引用本文> <批量引用> 77151806 false

发布时间：2024-11-16

地址：北京市海淀区北四环西路19号中科院电子所主楼223室邮编：100190
联系电话：010-58887035/58887030/58887418 Email：jig@aircas.ac.cn
技术支持由北京北大方正电子有限公司提供京ICP备05080539号-4 京公网安备11010802024621
本系统建议在Chrome、 IE9+ 以上版本浏览器阅读本站内容，360浏览器请切换至极速模式
Cookies帮助我们提供服务并提供个性化体验。使用本网站，即表示您同意我们使用Cookies

⁰