目的经颅超声成像技术作为高效率、低成本且无创的诊断手段,已逐步应用于帕金森病患者认知功能障碍诊断。由于经颅超声图像信噪比低、成像质量差、目标组织复杂且相似度高,需要依赖专业医生手动检测。但是人工检测不仅费时费力,还可能因为操作者的主观因素影响,造成检测结果出现差异性。针对这一问题,提出了一种基于Swin Transformer和多尺度深度特征融合的YOLO-SF-TV(YOLO network based on Swin Transformer and multi-scale deep feature fusion for third ventricle)模型用于经颅超声图像三脑室检测,以提高临床检测准确率,辅助医生进行早期诊断。方法YOLO-SF-TV模型在YOLOv8的基础上使用基于窗口注意力的Swin Transformer作为模型特征提取网络,并引入空间金字塔池化合模块SPP-FCM(spatial pyramid pooling fast incorporating CSPNet and multiple attention mechanisms)扩大网络感受野,并增强多尺度特征融合能力。在网络的多尺度特征融合部分结合深度可分离卷积和多头注意力机制,提出了PAFPN-DM(path aggregation and feature pyramid network with depthwise separable convolution)模块,并对主干特征输出层增加多头注意力机制,以提高网络对不同尺度特征图中全局和局部重要信息的理解能力。同时,将传统卷积替换为深度可分离卷积模块,通过对每个通道单独卷积提高网络对不同通道的敏感性,以保证模型准确度的同时降低训练参数和难度,增强模型的泛化能力。结果在本文收集的经颅超声三脑室图像数据及对应标签的数据集上进行实验,并与典型的目标检测模型对比。实验结果表明,本文提出的YOLO-SF-TV在经颅超声三脑室目标上的平均精确度均值(mean average precision, mAP)达到98.69%,相比于YOLOv8提升了2.12%,与其他典型模型相比检测精度达到最优。结论本文提出的YOLO-SF-TV模型在经颅超声图像三脑室检测问题上表现优秀,SPP-FCM模块和PAFPN-DM模块可以增强模型检测能力,提高模型泛化性和鲁棒性。同时,本文制作的数据集将有助于推动经颅超声三脑室图像检测问题的研究。
目的受煤矿井下粉尘浓度高和光照不均匀等因素的影响使得矿井图像容易产生不同水平的噪声,降低图像的局部对比度,丢失细节信息和边缘纹理特征,从而影响矿井图像的信息提取精度和视觉质量。针对上述问题,提出一种基于自适应掩码的矿井图像自监督去噪算法,主要包含自适应掩码、掩码集成以及自适应集成损失三个部分。方法首先,设计自适应掩码对矿井图像进行分块以减少后续计算消耗,逐次对各块中心像素外的边缘像素及角点像素进行掩码,避免恒等映射的同时增加数据多样性;然后,设计掩码集成对神经网络的输出和掩码区域进行重新组合,计算两者之间的Hadamard积以增强网络对噪声与信号边界的准确识别,综合考虑矿井图像的局部结构和全局特征,从而提升去噪后矿井图像的完整性和连贯性;最后,设计自适应集成损失,将集成图像作为训练标签,帮助模型更好理解矿井图像中局部特征和全局特征之间的关系,加入原始噪声图像增强模型对信号变化的敏感性,适应不同场景下的去噪任务。结果在煤矿井下图像数据集和4个公共数据集上进行实验,去噪后的图像质量在主观感受和客观指标上均优于其他对比算法,如在高斯噪声水平为50的巷道场景下,峰值信噪比/结构相似性指数(peak signal-to-noise ratio/structural similarity index, PSNR/SSIM)值比B2U(blind2unblind)、NBR2NBR(neighbor2neighbor)分别提高了4.2dB/0.055、2.99dB/0.077。在Kodak24(kodak lossless true color image suite)、BSD300(berkeley segmentation data set 300)、BSDS500(berkeley segmentation data set 500)数据集上,高斯噪声水平在5至50之间时,PSNR相较TBSN(transformer-based blind-spot network)、TBSN、NBR2NBR分别提升了1.09%、0.72%、0.68%。结论所提算法能够处理含有不同程度和类型噪声的矿井图像,有效去除噪声的同时保留图像的细节信息,展现出优越的鲁棒性和广泛的适用性。