目的针对大视场监控视频中小目标检测存在的样本稀缺、特征微弱与定位不准等难题,本文提出一种用于大视场监控视频的小目标检测网络SOD-YOLO(small object detection - you only look once)。方法该方法从三个层面系统性地进行改进:a)提出结合SAM2语义指导与UE虚拟仿真的虚实融合样本生成策略,以低成本获取大量高质量标注数据;b)设计包含视频差分预处理、多尺度特征融合及双层路由注意力的特征增强机制,以提升模型对微小特征的感知与分辨能力;c)采用解耦头结构并创新α-CIoU损失函数,以优化小目标边界框的回归精度。结果在建设工地、高速公路服务区及大学校园三个真实场景数据集上的实验结果表明,SOD-YOLO的综合性能显著优于当前主流模型,在建筑工地场景取得最高AP75(13.5%)与AP50s(53.9%);在高速公路服务区场景获得最优AP(42.6%)与AP75(29.5%);尤其在极具挑战的大学校园场景(小目标像素占比约0.0075%),其AP、AP75与AP50s相较基准模型YOLOv7分别提升了4.1%、2.5%与5.0%。结论本研究为解决低分辨率监控视频下的小目标检测问题提供了一套有效且可靠的技术方案。