最新刊期

    介绍了视频说话人检测领域的研究进展,专家们探索了基于纯视觉信息和音视结合的多种方法,为解决复杂场景下的说话人检测问题提供了新方向。

    张远航, 杨双, 山世光

    DOI:10.11834/jig.260107
    img
    摘要:视频说话人检测(Active Speaker Detection,ASD)旨在利用音视频信息实现对视频序列中说话人及其发声时段的检测,是人机交互、智能会议系统及媒体内容分析等领域中的关键技术。然而,真实场景中的视觉遮挡、环境噪声及多人对话中的语音重叠等复杂因素给该任务带来了严峻挑战。近年来,随着深度学习技术的飞速发展,说话人检测领域取得了显著进展。本文回顾该领域的发展历程,并对现有方法进行系统梳理,将其归纳为两类:第一类是基于纯视觉信息的方法,主要解决音频缺失或不可用场景下的检测问题;第二类是音视结合的方法,可进一步细分为:(1)基于音视对应的匹配方法,通过学习跨模态对应关系检测音视同步性或建立语音与潜在话者的身份关联,进而确定说话人;(2)基于音视融合的分类方法,将说话人检测任务直接建模为特征融合后的是/非说话人的二分类问题;(3)混合方法,结合音视对应与融合分类的互补优势完成检测,以提升鲁棒性。在此基础上,本文还对说话人检测领域常用的数据集与评价指标进行整理。最后,本文对说话人检测技术的发展趋势进行总结,探讨了当前的若干开放问题,并结合当前的前沿技术进展,展望未来可能的研究方向。  
    关键词:说话人检测;音视频信息;多模态;深度学习;综述   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154166095 false
    更新时间:2026-04-10
    相关研究在脑疾病诊断领域取得新进展,专家们构建了脑结构 - 功能耦合超图神经网络(SFC - HGNN)体系,通过跨模态交叉重建预训练与超图计算相结合,有效捕获脑结构与功能连接间的潜在高阶依赖,显著提升诊断准确性和鲁棒性,为临床辅助诊断应用开辟了新路径。

    雷孟奇, 韩向敏, 李思奇, 高跃

    DOI:10.11834/jig.250535
    img
    摘要:目的现有基于结构连接(structural connectivity, SC)与功能连接(functional connectivity, FC)的脑疾病诊断方法,通常只使用单一模态建模或仅做跨模态的浅层融合,难以充分刻画SC与FC之间的潜在依赖;同时,结构-功能耦合(structure-function coupling, SFC)与分类任务之间的关系尚缺系统性建模。针对上述问题,本文提出一种以SFC为先验引导的跨模态融合脑疾病诊断基础模型——脑结构-功能耦合超图神经网络(structure-function coupling hypergraph neural network, SFC-HGNN)。方法SFC-HGNN采用双流超图神经网络作为编码器,以SFC矩阵为中间桥梁,在功能分支与结构分支中分别构建超图以建模两种模态的高阶脑网络,并利用超图卷积学习跨脑区的高阶相互作用;在预训练阶段,本文设计跨模态交叉重建任务,用功能连接的表征重建结构连接、用结构连接的表征重建功能连接,并引入对称性与稀疏性约束的重建损失;在微调阶段,SFC-HGNN冻结编码器部分的参数,仅训练轻量级多层感知机分类器以完成下游任务的诊断。结果为验证方法的有效性,本研究在阿尔茨海默病神经影像学倡议(Alzheimer’s disease neuroimaging initiative, ADNI)和自闭症脑成像数据交换(Autism brain imaging data exchange, ABIDE)数据集上进行了广泛的实验。在ADNI数据集上,SFC-HGNN的阿尔兹海默病-正常对照分类任务准确率和特异性分别达到0.705、0.891;在ABIDE数据集上,SFC-HGNN的自闭症谱系障碍-正常对照分类任务准确率和特异性分别达到0.681、0.682,均显著优于对比方法。结论以SFC为先验的跨模态交叉重建预训练与超图计算相结合,能够有效捕获SC与FC之间的潜在高阶依赖,显著提升脑疾病诊断的准确性与鲁棒性,为结构-功能耦合在临床辅助诊断中的应用提供了可行路径。  
    关键词:脑疾病诊断;多模态脑网络;结构-功能耦合;超图神经网络;跨模态交叉重建;脑网络基础模型   
    12
    |
    11
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154040441 false
    更新时间:2026-04-08
    灵巧手作为人形机器人实现高维度、精细化物理交互的关键末端执行器,其高自由度、强接触非线性与多模态反馈耦合,使灵巧操作成为具身智能最具代表性的挑战任务之一。近年来,视觉 - 语言 - 动作模型与大语言模型等基础模型范式的兴起,结合扩散 / 流匹配等连续控制建模、强化学习与模仿学习的融合训练,以及高分辨率触觉、可变刚度与刚柔混合结构的发展,正推动灵巧手从“刚性高精度”的机械决定论走向“感知 - 学习 - 执行”闭环驱动的柔性智能体系。

    梁姝彤, 谢东锦, 李东, 张慧, 贾晓丰, 王飞跃, 李浥东, 李灵犀

    DOI:10.11834/jig.260100
    img
    摘要:灵巧手是人形机器人实现高维度、精细化物理交互的关键末端执行器,其高自由度、强接触非线性与多模态反馈耦合,使灵巧操作成为具身智能最具代表性的挑战任务之一。近年来,视觉-语言-动作模型与大语言模型等基础模型范式的兴起,结合扩散/流匹配等连续控制建模、强化学习与模仿学习的融合训练,以及高分辨率触觉、可变刚度与刚柔混合结构的发展,正推动灵巧手从“刚性高精度”的机械决定论走向“感知-学习-执行”闭环驱动的柔性智能体系。本文首先从历史视角系统回顾灵巧手机械结构与硬件范式的演进脉络,涵盖多指全驱动、欠驱动柔顺、腱绳传动以及软体与变刚度等代表性路线,并讨论其在尺寸重量、可靠性与可控性之间的权衡。其次,提出以感知能力演进为主线的五级灵巧智能分级框架(H1-H5),归纳各层级的关键使能技术、典型方法与能力边界,为评估“从可重复执行到开放世界任务规划,再到自主进化”的能力跃迁提供统一参照。进一步地,本文从真实交互与高保真仿真两个维度梳理训练数据来源与评测基准,强调数据管线与可诊断评估标准对任务泛化与可部署性的基础作用。最后,总结灵巧手走向通用化部署仍面临的机械可靠性与成本、实时推理与安全性、仿真可信化与标准化评测等关键挑战,并展望软硬件协同设计、多模态自监督预训练与世界模型驱动的长时序决策等研究方向。  
    关键词:灵巧手;具身智能;人形机器人;多模态触觉;视觉-语言-动作模型;任务泛化   
    35
    |
    11
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154038951 false
    更新时间:2026-04-08
    介绍了其在自监督学习领域的研究进展,相关专家提出了面向自监督学习的课程式动态数据剪枝方法,为提升自监督预训练效率提供解决方案。

    刘文昊, 张钊铭, 张晔, 郭裕兰

    DOI:10.11834/jig.250542
    img
    摘要:目的动态数据剪枝是提升自监督预训练效率的重要手段,但现有方法多基于瞬时损失进行剪枝,难以应对自监督训练中损失波动剧烈、优化不稳定的问题,易造成关键样本被误剪和模型性能退化。针对上述缺陷,本文提出了面向自监督学习的课程式动态数据剪枝方法。方法首先设计指数损失重要性表征,通过动量系数对样本历史损失做指数移动平均,获取时序平滑且对短期损失波动鲁棒的样本价值表征,避免因瞬时损失扰动而误判关键样本;在此基础上,进一步提出课程式动态剪枝策略。该策略通过一维聚类进行样本分组,形成从易到难的课程集合,进而引入滑动窗口机制来动态控制各课程的训练进度,引导模型渐进式学习以有效保障训练过程的稳定性。结果在8个二维图像与三维点云基准数据集上,采用掩码自编码器(masked autoencoder,MAE)、动量对比学习(momentum contrast,MoCo)、点云掩码自编码器(point cloud masked autoencoder,PointMAE)等主流预训练框架,结合视觉Transformer(vision transformer,ViT)、残差网络(residual network,ResNet)等骨干网络开展了5组系统的对比实验。实验结果显示,在更高的数据剪枝率下,本文方法的性能全面优于现有的动态剪枝方法。同时,与全量数据训练策略相比,本文方法在下游任务上取得了近乎无损的性能。消融实验也验证了本文方法中各核心组件的有效性。结论本文方法通过指数损失驱动的样本重要性度量与课程式动态剪枝策略,有效突破了现有数据剪枝方法在自监督学习场景的应用局限,在性能近乎无损的前提下大幅提升了自监督预训练效率(在ImageNet-1K数据集上最高可剪枝30.6%的训练数据),为视觉模型的高效自监督训练提供了可靠的技术支撑。  
    关键词:自监督学习;动态数据剪枝;动态课程学习;指数损失表征;高效预训练   
    23
    |
    21
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153982594 false
    更新时间:2026-04-07
    具身智能领域迎来新突破,专家构建“数据金字塔”,探索VLA模型瓶颈,提出“世界模型”新方向,推动系统架构升级,为具身智能发展开辟新路径。

    穆尧, 赵昊, 胡瑞珍, 张力, 李弘扬, 杨蛟龙, 王靖博, 韩磊, 苏永峰, 徐凯, 杨易, 李江, 戴若犁, 陈宝权, 刘烨斌, 弋力

    DOI:10.11834/jig.260059
    img
    摘要:具身智能作为人工智能发展的关键领域,正面临数据异构性、强物理约束及交互昂贵等挑战,难以直接复制大语言模型的“大规模预训练+规模定律”范式。本文从数据、模型、系统与评测四个维度全面梳理了具身智能的前沿技术演进。在数据层面,文章提出了“数据金字塔”结构,主张利用底层庞大的仿真与互联网视频数据构建物理常识,通过中层人类交互数据进行行为映射,最终以顶层少量真机数据实现技能落地。在模型层面,探讨了主流视觉-语言-动作模型(VLA)的扩展瓶颈,并指出“世界模型”作为具身预训练的新方向,能够通过模拟环境动力学与未来预演,赋予智能体更强的物理直觉与泛化能力。在系统层面,观察到架构正从单一端到端模型向类操作系统的“分层架构”演进,实现高层语义规划与底层运动控制的解耦。最后,本文审视了当前评测体系在真实性与可复现性上的挑战,并对行走与操作一体化及具身智能“ImageNet时刻”的到来进行了展望。  
    关键词:具身智能;数据金字塔;世界模型;VLA模型;分层控制架构;具身评测   
    27
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153982537 false
    更新时间:2026-04-07
    面向21世纪,专家探索新一代人工神经网络基础理论、模型和架构,为解决第四代ANN缺陷提供新方向,推动ANN从第四代跃升至第五代,奠定具身认知机器人广泛应用基础。

    鲍泓, 梁天骄, 郑颖

    DOI:10.11834/jig.260112
    img
    摘要:面向21世纪,为构建一种具有自适应结构、可解释、泛化强和能效高的人工神经网络(ANN),探索新一代ANN的基础理论、模型和架构。ANN从20世纪40年代首次提出,发展至今已80多年,并将延展至21世纪中叶。本文按五个维度特征将ANN划分成五个时代。当前,处在第四代ANN,其主要特征是数据拟合、深度学习、注意力机制和Transformer结构,以大语言模型为基础的ChatGPT为代表,通过了对话式图灵测试,但属于“黑箱”测试,并局限于离身智能的涌现。根源是基于规模扩展缩放定律的大语言模型本质上不对称性,缺乏对现实世界物理规律的理解,多模态、多形态输出智能呈锯齿型且能效低;而具身智能形态机器人的神经网络还缺少自主智能,只能按预设程序完成规定动作,ANN在离身智能和具身智能之间出现巨大鸿沟。为解决第四代ANN的这些重大缺陷,需要新的理论、模型和架构支撑。当前,围绕下一代ANN的发展方向和技术路线,出现了很多争论和分歧。本文追溯前四代ANN主流理论、模型和架构的发展,重点分析了几种第四代ANN及其增强版的特点,评述了面向第五代ANN的世界模型与联合嵌入预测架构、认知螺旋模型与智痕元胞网络架构。最后,以认知物理学理论和驾驶脑认知技术实践为基础,提出一种具有第五代ANN核心特征的具身认知物理神经网(E-CoPNN)轻量化架构。结论和意义:当今,构建面向21世纪的新一代ANN,在哲学上将从身心二元论转向具身知觉一元论;在理论上,将从20世纪的生物物理学拓展到21世纪的认知物理学;在模型上,将推动ANN研究范式从数据拟合转向结构重构;在应用上,将填补ANN发展中离身智能与具身智能的鸿沟;在代际上,将从第四代ANN跃升到具有类脑认知和自适应结构等特征的第五代ANN;并为实现会学习、自成长、自纠错、可交互的具身认知机器人广泛应用奠定基础,支撑认知为融合先导的四大科技“纳米-生物-信息-认知”(NBIC)聚合发展,提高人类智能能力,迎接认知革命。  
    关键词:人工神经网络(ANN);具身智能;离身智能;具身认知;认知物理学;具身认知物理神经网络(E-CoPNN);统一场论;智能场;人类注意力机制;选择性机制;驾驶脑认知   
    24
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153982493 false
    更新时间:2026-04-07
    智能驾驶大模型融合多模态学习,引领自动驾驶架构演进,提升系统鲁棒性与决策智能。报告梳理了国内外最新进展,分析我国优势短板,并提出未来发展建议,为我国汽车产业高质量发展提供关键支撑。

    胡建芳, 黄林江, 翟伟, 闫瑞松, 李成林, 郑伟诗, 赫然, 查正军, 熊红凯

    DOI:10.11834/jig.260085
    img
    摘要:智能驾驶大模型融合了视觉、语言与动作多模态学习,正引领自动驾驶从传统“感知—规划—控制”架构向端到端一体化演进。其统一表征、生成式推理及少样本泛化的能力,显著提升了智能驾驶系统的鲁棒性与决策智能。报告首先系统梳理了国际国内智能驾驶大模型领域的最新进展,包括决策规划、环境感知、视觉问答、数据生成等方面。其中,决策规划部分讨论了端到端可解释决策模型的兴起、多模态与序列化决策模型的融合以及世界模型与认知智能体的引入;环境感知部分从多模态感知与语义解释的融合、语言提示驱动的运动轨迹预测与行为理解两条主线出发进行探讨;视觉问答部分讨论了国内外研究者针对推理可解释性与决策验证提出的系列方法;数据生成部分则以数据来源为区分,探讨自动标注、生成式数据合成、世界模型、虚实一体仿真等手段如何解决自动驾驶数据收集成本高、长尾场景覆盖率不足的问题。在此基础上进行横向对比,分析了我国在数据资源、算力生态、算法创新与标准体系方面的优势与短板。面向未来,提出应强化基础研究与公共底座、完善可信AI评测体系、推进个性化驾驶与人机对齐、构建自主可控生态等建议。智能驾驶大模型已成为我国汽车产业高质量发展的关键突破口与人工智能应用的新高地。本文提及的算法及相关开源代码已汇总至:https://github.com/Ruisong-Yan/Intelligent-Driving-Foundation-Model,亦可通过https://www.scidb.cn/detail?dataSetId=3921ce7e24e44cf98428e3bc1494c410 获取。  
    关键词:智能驾驶;大模型;多模态学习;世界模型;端到端;可解释性   
    22
    |
    22
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153982454 false
    更新时间:2026-04-07
    介绍了其在情感计算与计算机视觉领域的研究进展,相关专家提出了时空融合的统一AU检测框架,为解决现有方法在空间关系建模和时间动态建模方面不足的问题提供了高效解决方案。

    黄海琳, 王加俊

    DOI:10.11834/jig.250503
    img
    摘要:目的面部动作单元(AU)检测是情感计算与计算机视觉中的重要研究问题,现有方法往往在空间关系建模和时间动态建模方面存在不足,导致检测的准确率与鲁棒性受限。为此,提出一种时空融合的统一AU检测框架,以同时捕捉AU间空间依赖与跨帧时间演化。方法本文在利用ResNet-18进行特征提取的基础上,设计了空间关系建模(SRM)模块与时间关系建模(TRM)模块。SRM通过图神经网络显式建模帧内AU的协同激活与对抗模式,TRM结合帧间差分与图建模以捕捉动态变化。进一步提出时空特征融合(SFF)策略,自适应平衡空间与时间特征的重要性。最终利用基于余弦相似度的分类模块完成AU识别,并采用加权交叉熵损失解决类别不平衡问题。结果在BP4D和DISFA两个公开数据集上的实验表明,所提方法在保持低计算与存储开销的同时,取得了先进水平的性能。在BP4D数据集上,平均F1-score达到66.00%,优于最新方法;在DISFA数据集上,平均F1-score为65.34%,接近最优结果。消融实验验证了SRM、TRM和SFF三者协同作用的重要性,不同AU的检测结果也表明该方法在动态AU识别方面优势显著。结论本文提出的时空融合AU检测框架,能够有效整合空间与时间两方面信息,提升检测的准确率和鲁棒性,同时具备轻量化的计算优势。该研究为复杂动态场景下的面部动作单元检测提供了一种高效的解决方案,对情绪识别及人机交互等应用具有积极意义。  
    关键词:面部动作单元;AU检测;时空建模;图神经网络;特征融合   
    18
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153981497 false
    更新时间:2026-04-07
    离散拉普拉斯算子是三维几何处理领域的核心微分算子,广泛应用于平滑、变形及参数化等任务。由于点云数据缺乏规范的拓扑连接,传统基于局部三角剖分的方法在处理稀疏或含噪数据时鲁棒性较差。现有的深度学习方法(如 NeLo)虽然能通过数据驱动在 K 近邻图上学习算子权重,但其输入依赖于点对的相对几何坐标,导致模型对点云的全局姿态高度敏感,不具备旋转不变性。此外,单一尺度的特征聚合难以兼顾局部几何细节保留与噪声抑制。针对上述问题,提出一种融合局部参考系与多尺度注意力机制的旋转鲁棒点云拉普拉斯算子学习网络。

    张逢骏

    DOI:10.11834/jig.260057
    img
    摘要:目的离散拉普拉斯算子是三维几何处理领域的核心微分算子,广泛应用于平滑、变形及参数化等任务。由于点云数据缺乏规范的拓扑连接,传统基于局部三角剖分的方法在处理稀疏或含噪数据时鲁棒性较差。现有的深度学习方法(如 NeLo)虽然能通过数据驱动在 K 近邻图上学习算子权重,但其输入依赖于点对的相对几何坐标,导致模型对点云的全局姿态高度敏感,不具备旋转不变性。此外,单一尺度的特征聚合难以兼顾局部几何细节保留与噪声抑制。针对上述问题,提出一种融合局部参考系与多尺度注意力机制的旋转鲁棒点云拉普拉斯算子学习网络。方法构建了一个端到端的深度学习框架。首先,为了从输入端消除全局姿态干扰,提出基于协方差分析的局部参考系(LRF)对齐模块,将每个点的局部邻域投影至旋转不变的规范空间。其次,设计双通道多尺度特征提取骨干网络,并行提取不同半径邻域图上的几何特征,并引入通道注意力机制(SE-Block)自适应地融合粗粒度与细粒度特征,在抑制噪声的同时增强对尖锐边角特征的感知。最后,在训练阶段引入旋转一致性损失函数,显式约束网络在不同姿态下的预测一致性。结果在公开的 ShapeNet 数据集及 ScanNet 真实扫描数据集上的对比实验表明,该方法生成的拉普拉斯算子具有显著的旋转鲁棒性和泛化能力。具体而言,在施加随机刚体旋转的 ShapeNet 测试集上,相比于基准模型 NeLo,本文方法的均方误差(MSE)降低了 27.6%,F值(F-measure)提升了 3.1%;同时,热扩散与平滑在极具挑战的 ScanNet 真实扫描点云任务中,该方法能更准确地保留模型的几何细节,边缘保持能力显著优于传统几何方法。数据集DOI:10.57760/sciencedb.31651。结论本文提出的融合局部参考系与多尺度注意力机制的方法,有效解决了现有神经拉普拉斯算子对姿态敏感及细节丢失的问题,为非受控场景下的点云几何处理提供了可靠的底层算子基础。离散拉普拉斯算子是三维几何处理领域的核心微分算子,广泛应用于平滑、变形及参数化等任务。由于点云数据缺乏规范的拓扑连接,传统基于局部三角剖分的方法在处理稀疏或含噪数据时鲁棒性较差。现有的深度学习方法(如 NeLo)虽然能通过数据驱动在 K 近邻图上学习算子权重,但其输入依赖于点对的相对几何坐标,导致模型对点云的全局姿态高度敏感,不具备旋转不变性。此外,单一尺度的特征聚合难以兼顾局部几何细节保留与噪声抑制。针对上述问题,提出一种融合局部参考系与多尺度注意力机制的旋转鲁棒点云拉普拉斯算子学习网络。  
    关键词:点云处理;拉普拉斯算子;图神经网络;局部参考系;注意力机制;旋转不变性   
    23
    |
    22
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153981403 false
    更新时间:2026-04-07
    具身智能领域迎来新突破,VLA模型融合视觉、语言与动作,为智能体在开放动态环境中的任务执行提供新思路,推动具身智能从理论走向应用。

    刘锐, 王文冠, 王俊, 杨易

    DOI:10.11834/jig.250544
    img
    摘要:具身智能作为人工智能与机器人学交叉的前沿领域,旨在使智能体通过与物理世界的动态交互来感知、推理并执行任务。然而,传统基于深度学习的级联式感知—控制模型在开放、动态环境下泛化能力不足,且高度依赖大规模标注数据。近年来,视觉—语言—动作模型(vision-language-action models, VLA)通过融合视觉感知、语言理解与动作生成,为具身智能的研究与应用提供了新的推动力。本文系统梳理了基于VLA的具身智能研究进展,从发展历程、模型架构、系统分类、训练与评估等方面展开综述。首先,文章追溯了视觉与语言基础模型的演进脉络,并阐述VLA概念的提出背景;随后,本文深入剖析VLA的关键技术模块,包括视觉编码、语言表征及动作词元化与解码机制;在此基础上,本文引入系统架构分类法,将现有工作归纳为单系统、双系统与层次化三类,并分析其设计权衡与适用场景;此外,本文总结了模型的预训练与后训练策略,并梳理了仿真及真实环境下的主流评测基准;最后,本文分析了VLA在实时推理效率、数据质量、环境泛化性与安全伦理等维度面临的挑战,并展望从被动感知到主动推理、持续学习、场景泛化与可靠部署等未来方向。本文旨在为相关研究者提供系统的技术参考,推动VLA在开放世界具身任务中的理论发展和应用落地。本文提及的算法、数据集和评估指标已汇总至https://github.com/DefaultRui/vision-language-action-models-for-embodied-AI。  
    关键词:具身智能;多模态大模型;视觉—语言—动作模型;强化学习;机器人感知与决策   
    23
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153981364 false
    更新时间:2026-04-07
    多模态情感识别领域迎来新突破,研究者提出可解释可逆解耦与自适应融合方法,有效解决模态异质性难题,显著提升情感识别性能,为复杂多模态场景应用提供有力支持。

    杨皎皎, 孙强, 朱霞天

    DOI:10.11834/jig.260004
    img
    摘要:目的多模态情感识别旨在融合文本、视觉与语音等模态信息来识别对象情感状态。然而,模态间固有的异质性问题使得情感语义与模态特有噪声纠缠,限制模型的可解释性。而且,现有融合策略难以充分捕捉模态间情感语义特征的细粒度关联,导致融合表示判别性不足。为此,提出一种多模态情感识别的可解释可逆解耦与自适应融合方法。方法设计IAMD(invertible attention mask-based disentanglement)模块,构建各模态特征表示与情感语义因子之间的可逆映射,并结合注意力掩码将隐式特征解耦为跨模态一致性的共享特征与保留各模态独有属性的特有特征。构建MIC(mutual information constraint)机制,使用互信息约束共享特征、特有特征和情感标签间的依赖关系,增强语义一致性建模同时减少模态噪声冗余。提出SGAFF(semantic-guided adaptive feature fusion)模块,利用共享特征的上下文信息对特有特征进行语义引导,实现共享与特有引导双分支的自适应融合。结果在CMU-MOSI数据集上,相较于DLF(disentangled language focused)模型,本文模型在平均绝对误差(mean absolute error,MAE)和七分类准确率(7-class accuracy,Acc-7)指标上分别提升了2.4%和2.9%;在CMU-MOSEI数据集上,相较于TMBL(Transformer-based multimodal binding learning)模型,在MAE和皮尔逊相关系数(Pearson correlation coefficient,Corr)上分别提升了2.6%和1.7%;在UR-FUNNY数据集上,相较于MISA(modality-invariant and specific analysis)模型,在F1值(F1-score,F1)上提升了5.6%。结论所提方法实现了情感语义信息与模态特有噪声的可解释解耦,并促进跨模态情感语义特征的细粒度交互。该方法适用于模态异质性较复杂的多模态场景及对情感识别指标有较高要求的任务。本文代码已开源至https://doi.org/10.57760/sciencedb.j00240.00138。  
    关键词:多模态情感识别;可解释;可逆解耦;注意力掩码;自适应融合   
    33
    |
    27
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153981324 false
    更新时间:2026-04-07
    随着神经形态视觉传感器技术的不断发展,脉冲相机作为一种基于积分–发放机制的连续时间成像设备,逐渐成为新型视觉感知的重要研究方向。专家们围绕连续时间脉冲表征的层级建模思想,对脉冲视觉领域进行了系统梳理与分类总结,并提出从“可恢复”到“可理解”的脉冲视觉表征层级框架,为连续时间视觉智能的发展提供参考。

    郑雅菁, 赵睿, 朱林, 刘俣伽, 黄铁军

    DOI:10.11834/jig.260128
    img
    摘要:随着神经形态视觉传感器技术的不断发展,脉冲相机作为一种基于积分–发放机制的连续时间成像设备,逐渐成为新型视觉感知的重要研究方向。不同于传统帧式图像,脉冲相机以连续二值脉冲流形式记录光强变化,具备超高时间分辨率、高动态范围及稀疏编码等特性,在高速运动、复杂光照以及微弱变化检测等场景中展现出独特优势。然而,其数据结构与统计分布显著区别于传统视觉数据,使得经典视觉算法难以直接适配,如何构建统一的连续时间表征与系统化算法体系成为该领域的重要研究问题。本文围绕连续时间脉冲表征的层级建模思想,对近年来脉冲视觉领域的代表性工作进行了系统梳理与分类总结,并提出从“可恢复”到“可理解”的脉冲视觉表征层级框架。该框架按照信息表征能力的提升,将现有研究划分为多个层次:层级0:面向脉冲相机成像机理与噪声特性的物理一致建模;层级1:从脉冲流恢复稳定视觉信息的二维光强与纹理重建任务;层级2:刻画强度变化与运动信息关系的连续时间时空耦合表征;层级3:利用脉冲数据完成目标检测、语义分割与多目标跟踪等视觉理解任务的结构与语义感知;层级4:基于神经隐式表示的三维场景建模与动态重建;层级5:支撑脉冲视觉研究发展的系统化基础设施与平台化工具链,包括数据集构建、模拟器设计、开源平台及统一评测协议等。在此基础上,本文进一步讨论面向实际应用的系统评测问题,从准确率、时延、吞吐率与能耗等多个维度总结现有方法的评估方式,并综述脉冲视觉开放生态在数据资源、算法工具与社区协作方面的发展情况。通过统计截至2026年的相关研究成果,并结合2025年举办的国际竞赛实例,分析开放基准与社区平台在推动任务标准化与方法演进方面的作用。最后,针对统一连续时间表征学习、多模态信息融合、系统指标驱动优化以及硬件–算法协同设计等关键问题进行了讨论,为连续时间视觉智能的发展提供参考。  
    关键词:SpikeCV;脉冲视觉;连续时间表征;神经形态视觉;高速运动;时空耦合建模;开源社区生态   
    38
    |
    53
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153578257 false
    更新时间:2026-03-31
    具身智能领域迎来新突破,专家构建三级金字塔式评测范式,为技术迭代与产业落地难题提供创新解决方案。

    李春一, 张建博, 肖嘉豪, 闫博闻, 郭晟毓, 叶桐瑞, 林维斯, 翟广涛

    DOI:10.11834/jig.250550
    img
    摘要:具身智能通过“身体—环境—任务”闭环交互,被视为迈向通用人工智能的核心路径。然而,与模型参数和训练数据的高速扩张形成鲜明对照,其评测体系仍处于“任务碎片化、指标多元化、平台封闭化”的自发状态,造成同一功能在不同研究中的性能差异超过十个百分点,却无法判定来源是算法创新、数据扩充还是评测偏差,严重阻碍了技术迭代与产业落地。本文围绕“从感知到执行”的完整链路,对2020—2025 年间发表于 CVPR、ICRA、NeurIPS、RSS、ICLR 等顶级会议与 Nature、IJRR、JMLR 等期刊的百余篇文献进行系统梳理,首次提出“静态数据集—仿真平台—真实机器人”三级金字塔式评测范式,并从感知、认知、决策、执行四个环节拆解出二十余项核心能力维度与量化指标,分别从方法学假设、适用边界、固有局限、成本—可信度曲线四个角度进行横向对比。文章进一步汇总了 46 套主流基在数据规模、任务类型、评估指标、开源程度、安全伦理考量等维度的差异。基于此,本文提出“能力导向、协议统一、三级协同”的未来框架:① 在任务层,由“功能对标”转向“能力对标”,建立可分解、可溯源、可加权的多维误差体系;② 在协议层,制定统一的场景描述、接口规范与指标定义,实现跨平台、跨任务、跨模型的可比性;③ 在系统层,构建可远程接入、7×24 小时运行的共享机器人集群,形成“仿真预训练—真机微调—在线更新”的闭环追踪,降低重复建设成本,打通从实验室到场景落地的最后一公里。本文最后讨论了安全伦理、文化偏见、能效评估等新维度如何纳入量化框架,并给出标准化路线图的短、中、长期目标。本文的工作为具身智能从“技术涌现”走向“科学共识”提供了可操作的评测基础设施与参考范式,具体的静态-仿真-真机榜单可在:https://opencompass.org.cn/embodied-intelligence中访问。  
    关键词:具身智能;评测体系;感知-认知-决策-执行;仿真平台;真机测试;仿真-现实一致性   
    68
    |
    70
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153578177 false
    更新时间:2026-03-31
    随着图像编辑技术发展,数字图像易被篡改,现有方法难以定位篡改区域。专家提出方向感知跨模态图像篡改定位框架 DA-CMTL,通过跨模态推理增强篡改区域边界和细粒度结构特征表达能力,实验结果表明该方法在复杂篡改类型及多重后处理条件下表现出更高的定位精度与稳定性,为图像篡改定位提供了一种具有较强鲁棒性和泛化能力的解决方案。

    薛峻凛, 唐云祁, 吴思慷, 余博雅

    DOI:10.11834/jig.260002
    img
    摘要:随着图像编辑技术和生成式模型的快速发展,数字图像在社交媒体、新闻传播和司法鉴定等场景中更易受到多类型篡改与多轮压缩、重采样等处理,导致篡改区域仅保留稀疏且弱激活的残差伪迹,并呈现明显的方向依赖性和模态不一致性。这类弱残差跨越语义区域,易被深层语义特征抹除,使现有方法在真实退化条件下难以稳定定位篡改区域。同时,现有研究普遍受到方向建模缺失、跨模态融合策略静态、空间与通道增强割裂等限制,难以充分挖掘在 红绿蓝(red, green, and blue,RGB) 外观与噪声残差中隐含的取证线索。针对上述问题,本文提出一种方向感知跨模态图像篡改定位框架 DA-CMTL(Direction-aware Cross-modal Multi-level Tampering Localization)。该框架以 RGB 图像域与噪声特征域为互补信息源,构建跨模态特征表示框架,引入方向感知机制以显式建模篡改区域在不同方向上的结构一致性。同时,通过跨模态推理模块对不同模态特征进行自适应交互与联合推断,从而增强对篡改区域边界和细粒度结构特征的表达能力。在多个公开图像篡改定位数据集上进行实验验证,结果表明,所提出的方法在 F1值(F1-score)和 交并比(intersection over union,IoU) 等评价指标上均优于多种主流篡改定位方法,尤其在复杂篡改类型及多重后处理条件下表现出更高的定位精度与稳定性。实验结果表明,方向感知跨模态推理机制能够有效提升模型对篡改区域结构信息的建模能力,为复杂场景下的图像篡改定位提供了一种具有较强鲁棒性和泛化能力的解决方案。代码已开源于https://www.scidb.cn/anonymous/cnFFZll2  
    关键词:图像篡改定位;跨模态特征融合;方向感知;深度学习;图像取证   
    34
    |
    68
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153577117 false
    更新时间:2026-03-31
    “”这段话,介绍了其在隐写分析领域的研究进展,相关专家构建了融合式隐写分析框架,为解决对抗隐写攻击问题提供了新的解决方案。

    马煊博, 张士豪, 田华伟

    DOI:10.11834/jig.260010
    img
    摘要:目的当前,基于深度学习的隐写分析方法相较于传统方法,虽在检测性能上展现出显著优势,却极易遭受对抗隐写方法的攻击。如何在隐写分析任务中协同发挥两类方法的优势,成为亟待解决的关键问题,基于此,提出一种融合式隐写分析框架。方法以基于SRM(Spatial Rich Model)手工特征的传统隐写分析方法与深度学习隐写分析方法Ye-Net作为基学习器,通过集成学习对两者的判别输出进行融合;同时,构建基于对抗迁移网络的深度分类器,该分类器依托特征提取器与域判别器的对抗博弈过程,提取非对抗域与对抗域间可共享的域不变特征,实现了对抗域真值标签未知场景下的模型有效训练。此外,模型基于MLP(Multi-Layer Perceptron)构建偏离样本识别模块,有效抑制训练过程中出现的负迁移现象,稳定域分布对齐过程,进一步提升模型在对抗扰动环境下的跨域泛化能力。结果实验结果表明,在不同嵌入率和不同强度的对抗隐写攻击下,所提融合隐写分析模型相较于SPAM(Subtractive Pixel Adjacency Matrix steganalysis)和SRM两种传统隐写分析模型错误率(Probability of Error,Pe)平均下降15.95%和6.06%,相较于深度学习隐写分析模型(Ye-Net、SRNet、LWENet)错误率平均下降了10.93%~19.50%,相较于针对对抗隐写方法的鲁棒性增强方法KDNFT(K‑times Dropout Neighboring Feature Transformer)错误率平均下降5.90%,在对抗隐写场景下达成当前SOTA的隐写分析性能。结论本文提出的融合式隐写分析框架,能够有效降低检测对抗样本隐写图像的综合错误率,为实现更加精准的高可靠隐写分析模型提供了新的可行路径。代码链接:https://doi.org/10.57760/sciencedb.j00240.00093  
    关键词:图像处理;隐写分析;深度学习;对抗隐写;集成学习;对抗迁移网络   
    30
    |
    69
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153576994 false
    更新时间:2026-03-31
    遥感高光谱图像分类面临标注数据稀缺、小样本模型易过拟合等挑战。为提升小样本条件下的模型鲁棒性与分类精度,研究者们开发了能够生成多样性训练样本并严格保持类别一致性的数据扩增技术,利用预训练语言模型生成多样性语义提示,显著提升模型在目标域上的分类准确率与泛化能力。

    何梦瑶, 何进荣, 刘寒池

    DOI:10.11834/jig.250585
    img
    摘要:目的遥感高光谱图像分类面临标注数据稀缺,小样本模型易过拟合等挑战,尤其在标注样本数量较少的情况下,模型泛化能力严重不足。为提升小样本条件下的模型鲁棒性与分类精度,需要研究有效的数据扩增与语义增强方法,利用预训练语言模型生成多样性语义提示,开发了能够生成多样性训练样本并严格保持类别一致性的数据扩增技术,旨在增强类别语义表示的丰富性,显著提升模型在目标域上的分类准确率与泛化能力。方法融合HyperBlend数据扩增与PromptMix语义增强方法。HyperBlend通过对同类图像进行裁剪-拼接-掩码,生成外观多样、语义一致的混合样本。PromptMix则利用BERT为每个类别生成多样性文本提示,并通过随机选择与正则化损失丰富语义表征。最终,通过融合分类、跨模态对齐、对比学习及多样性正则化损失进行端到端优化。结果在Indian Pines(IP)、Houston(HT)、Salinas(SA)和LK(WHU-Hi-LongKou)4个标准高光谱数据集上进行实验,取得了显著提升。IP数据集上,与SCFDA方法相比总体准确率(OA)提升3.8%,平均准确率(AA)提升2.67%,Kappa系数(KC)提升4.3%。SA数据集上,与MEDPL方法相比总体准确率(OA)提升1.16%,平均准确率(AA)提升0.84%,Kappa系数(KC)提升1.28%。LK与HT数据集上,分类性能与现有最佳结果SCFDA和MEDPL方法基本持平,保持了竞争力。结论提出HyperBlend方法,通过结构化图像混合与掩码操作,低成本生成高质量多样性训练数据;提出PromptMix机制,从语义层面引入多样性提示,增强模型语义判别能力。二者提升了模型的鲁棒性与泛化性能。方法实现简单,无需复杂结构或大量参数,为高光谱图像分析及少样本学习任务提供了实用参考。  
    关键词:高光谱图像(HSI);跨域小样本学习;HyperBlend数据扩增方法;PromptMix机制;多模态特征对齐   
    29
    |
    63
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153576853 false
    更新时间:2026-03-31
    介绍了其在乳腺病理图像分析领域的研究进展,相关专家提出自适应上下文特征聚合策略与多粒度跨域自适应模块,为解决有丝分裂细胞检测准确性与模型泛化能力问题提供解决方案。

    刘蓉, 唐奇伶, 王艳, 陈鹏舟, 舒畅, 王帅, 乐建炽

    DOI:10.11834/jig.260056
    img
    摘要:目的有丝分裂计数是评估浸润性乳腺癌恶性程度的核心量化指标,其检测精度直接关系到临床治疗决策与预后评估。近年来,无锚点检测方法采用逐像素预测的方式,结构简洁且计算效率高,在医学图像目标检测领域受到广泛关注。但由于缺乏区域聚合机制,该方法难以从背景中提取鲁棒性的、有判别性的特征,很大程度影响目标检测的性能。此外,乳腺病理图像因不同扫描设备而产生的域偏移问题,使模型在跨设备数据上性能显著下降,严重制约了模型的跨域泛化能力与临床普适性。方法针对上述挑战,本文提出了一种自适应上下文特征聚合策略,通过动态聚合与目标结构相匹配的上下文信息,有效提升了特征的表达能力与判别能力。其次,为提升模型在未知域的泛化能力,设计多粒度跨域自适应模块,实现图像、前景以及类别的特征对齐,提升模型在未知域数据中对有丝分裂细胞的检测性能。结果实验结果表明,所构建的网络在ICPR MITOSIS 2014数据集上达到了最优的F-score,相较于现有最先进方法提升了5.5%;同时在MIDOG 2021数据集中,取得了最高的召回率,降低了有丝分裂细胞漏检风险。结论本文通过自适应上下文特征聚合策略与多粒度跨域自适应模块,有效提升了有丝分裂细胞检测的准确性与模型泛化能力,为乳腺病理图像分析提供了更可靠的解决方案。  
    关键词:有丝分裂检测;自适应上下文;多粒度域对抗;类别域适应;病理图像分析   
    28
    |
    68
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153576808 false
    更新时间:2026-03-31
    在深度学习推动下,视觉感知系统在智能驾驶、安防监控、医疗诊断等领域取得显著进展。然而,现实场景中数据分布的极度不均衡、长尾样本的稀缺性及高昂的人工标注成本,已成为制约模型性能与泛化能力的关键瓶颈。平行图像作为基于平行系统理论发展而来的新型图像生成与建模方法体系,通过构建人工场景系统、开展计算实验推演及虚实平行执行,形成“建模—训练—反馈—优化”的闭环机制,为视觉感知系统提供了高质量、多样化、结构化的合成数据支撑。专家系统梳理了平行图像的理论基础与发展脉络,重点综述其在虚拟场景生成、多模态特征融合、虚实域迁移和异构知识驱动的平行推理等关键技术路径上的研究进展与应用探索。

    张慧, 田永林, 王雨桐, 苟超, 李轩, 王飞跃

    DOI:10.11834/jig.250231
    img
    摘要:在深度学习推动下,视觉感知系统在智能驾驶、安防监控、医疗诊断等领域取得显著进展。然而,现实场景中数据分布的极度不均衡、长尾样本的稀缺性及高昂的人工标注成本,已成为制约模型性能与泛化能力的关键瓶颈。平行图像作为基于平行系统理论发展而来的新型图像生成与建模方法体系,通过构建人工场景系统、开展计算实验推演及虚实平行执行,形成“建模—训练—反馈—优化”的闭环机制,为视觉感知系统提供了高质量、多样化、结构化的合成数据支撑。本文系统梳理了平行图像的理论基础与发展脉络,重点综述其在虚拟场景生成、多模态特征融合、虚实域迁移和异构知识驱动的平行推理等关键技术路径上的研究进展与应用探索。同时,结合当前生成式人工智能和大规模多模态基础模型的发展趋势,分析了平行图像在智能视觉系统演化中的融合潜力。最后,本文指出该领域面临的主要挑战,并对未来的研究方向和应用前景进行了展望。  
    关键词:平行图像;生成式人工智能;虚实融合;场景生成;数字孪生   
    25
    |
    54
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153576772 false
    更新时间:2026-03-31
    介绍了其在智能机器人领域的研究进展,相关专家探索了基于第一视角 RGB 图像的人体抓取动作序列自回归生成课题,提出了融合多模态信息的 Vision Transformer 架构,为解决缺乏三维模型下动作生成的精确性与物理合理性问题提供了有效方案。

    岑帜, 杨奕辉, 皮怀瑾, 彭思达, 周晓巍

    DOI:10.11834/jig.260063
    img
    摘要:目的本文的目的是实现基于第一视角 RGB 图像的人体抓取动作序列自回归生成,该任务在智能机器人、虚拟现实等领域中具有重要的应用意义。该任务的挑战在于其输入缺乏物体三维模型,需要仅依赖第一视角图像推理出自然与合理的抓取动作。方法本文提出了一种融合多模态信息的 Vision Transformer 架构,通过 DinoV2 提取富含语义的视觉特征,替代传统分块输入,同时编码动作姿态与视线方向,实现视觉与运动信息的深度融合。模型借助 Transformer 的多头自注意力机制建模全局上下文,同时引入预测最终抓取姿态和手部接触标签的辅助任务,通过复合损失函数优化训练。结果在公开数据集 GRAB 上的对比实验表明,本文方法在抓取姿态合理性上优势显著。抓取成功率达到了53.33%,大幅领先基线方法(12.12%)。在整体运动质量方面,本文方法在保持较高不穿模率(96.42%)的同时,有效抑制了动作抖动与脚步滑动。结论本文针对第一视角 RGB 图像下人体抓取动作序列自回归生成的难题,提出了融合多模态信息的 Vision Transformer 架构,有效解决了缺乏三维模型下动作生成的精确性与物理合理性问题。  
    关键词:人体全身动作生成;物体抓取;第一视角;人体姿态;人物交互   
    64
    |
    81
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153128547 false
    更新时间:2026-03-26
    多摄像头多目标跟踪领域迎来新突破,相关专家构建了基于强时空表征的统一感知框架,巧妙攻克了跨视角遮挡难题,显著提升了跟踪精度,为该领域发展注入新活力。

    王佳伟, 田璟, 苑子杨, 张晓典, 赵良瑾

    DOI:10.11834/jig.260068
    img
    摘要:目的多摄像头多目标跟踪(Multi-Camera Multi-Object Tracking, MC-MOT)在视频监控与自动驾驶中具有重要应用,但现有方法常因跨视角遮挡导致特征不连续,往往不得不依赖复杂的后端图优化算法进行补偿。方法本文提出一种基于强时空表征的统一感知框架,通过在特征提取阶段深度融合时空信息,得到高质量的目标特征,提升目标跟踪的效果。首先,利用包含相机内参和外参的几何投影模块,将多视角的2D图像特征提升并融合至统一的3D鸟瞰图(Bird’s-Eye-View, BEV)空间。其次,设计一种窗口化时空融合模块,利用交叉注意力机制让当前帧 BEV 特征(Query, Q)在局部窗口内动态聚合历史帧特征(Key/Value,K/V),实现特征去噪与时序平滑。最后,结合具有鲁棒性的时空表征,采用基于运动模型的简单卡尔曼滤波配合匈牙利算法,完成高精度的跨帧数据关联。结果在 Wildtrack 多视角数据集上的实验结果表明,该方法取得了极具竞争力的性能,其中 IDF1 为92.23%,相比基线提升2.04%,MOTA 为89.70%,提升1.8%,同时在 MultiviewX 上依然取得先进的跟踪结果。消融实验显示了引入窗口化时空融合模块的有效性。结论本文提出的强时空表征统一感知框架有效解决了多摄像头多目标跟踪中的特征对齐与长时遮挡问题。研究证明,端到端时空表征的构建在MC-MOT任务中展现出显著的性能增益,高质量的特征使得基础关联算法足以应对复杂的关联挑战,为该领域提供了一种高效、简洁的新基准。本文相关代码与数据集已在ScienceDB开放共享,DOI:https://doi.org/10.57760/sciencedb.j00240.00082  
    关键词:多目标跟踪;鸟瞰图;时空特征融合;带窗交叉注意力;卡尔曼滤波   
    72
    |
    111
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153128509 false
    更新时间:2026-03-26
0