首页|期刊导航|传感技术学报|基于语言和视觉融合Transformer的指代图像分割

基于语言和视觉融合Transformer的指代图像分割OA北大核心CSTPCD

中文摘要

针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能力。使用了卷积神经网络结构、双向门控循环单元Bi-GRU结构和自注意力机制相互结合的语言特征提取结构,挖掘深层次语义特征,消除语言表达的歧义性。构建了基于Transformer的特征对齐结构,以提升模型的分割细节和分割精度。最后,采用平均的交并比mIoU和在不同阈值的识别精度作为模型评估指标,通过实验证明所提模型可以充分融合多模态的特征,理解多模态特征的深层语义信息,模型识别结果更加准确。

作者：段勇;刘铁;

作者单位：沈阳工业大学信息科学与工程学院,辽宁沈阳110870

分类：计算机与自动化

中文关键词：深度学习指代图像分割自然语言处理注意力机制Transformer模型

刊名：《传感技术学报》 2024 (007)

页码/页数：P.1193-1201 / 9

基金： 辽宁省高等学校优秀科技人才支持计划(LR15045);辽宁省教育厅科学研究经费面上项目(LJKZ0139)。

DOI：10.3969/j.issn.1004-1699.2024.07.012

基于语言和视觉融合Transformer的指代图像分割OA北大核心CSTPCD

评论