首页|期刊导航|计算机工程|场景结构知识增强的协同显著性目标检测

场景结构知识增强的协同显著性目标检测OA北大核心

中文摘要

现有的协同显著性目标检测(CoSOD)方法通过挖掘组内一致性与组间差异性来学习判别性表征,这种范式因缺乏语义标签的引导导致所学表征的判别性受限,难以应对复杂的非协同目标的干扰。为了解决这一问题,提出一种新的场景结构知识增强的CoSOD模型SSKNet。SSKNet利用大模型mPlug构建目标间场景结构语义关系并通过分割一切模型(SAM)将这种结构语义关系转移到最终的协同显著性结果中。具体来说:首先,为了学习语义知识,引入图像场景理解大模型,对图像组中的图像进行理解,并得到表示结构语义的文本描述组,这些文本描述组以文本的形式描述图像的显著内容;接着,为了获取协同显著信息,设计协同提示提取(CoPE)模块,通过在一组描述文本中使用协同注意力机制获取协同显著文本;最后,为了将协同显著文本转化为协同显著掩码,引入SAM,将协同显著文本以文本提示的方式引导SAM分割协同显著目标,获取最终的协同显著检测掩码。在3个公开数据集CoSal2015、CoCA和CoSOD3k上的实验结果表明,SSKNet模型的综合评估指标Fβ的取值分别为0.910、0.750和0.887,达到了先进水平。

胡升龙;陈彬;张开华;宋慧慧

南京信息工程大学自动化学院,江苏南京210044南京信息工程大学自动化学院,江苏南京210044南京信息工程大学自动化学院,江苏南京210044南京信息工程大学自动化学院,江苏南京210044

计算机与自动化

场景结构知识大模型分割一切模型协同显著性目标检测深度学习

《计算机工程》 2025 (1)

P.31-41,11

国家自然科学基金(62276141)2024年江苏省研究生科研创新计划项目(KYCX24_1508)。

10.19678/j.issn.1000-3428.0070064

评论