首页|期刊导航|电子学报|基于跨模态引导和对齐的多模态预训练方法

基于跨模态引导和对齐的多模态预训练方法OA北大核心CSTPCD

中文摘要

现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法.

才华;易亚希;付强;冉越;孙俊喜

长春理工大学电子信息工程学院,吉林长春130022 长春中国光学科学技术馆,吉林长春130117长春理工大学电子信息工程学院,吉林长春130022长春理工大学空间光电技术研究所,吉林长春130022长春理工大学电子信息工程学院,吉林长春130022东北师范大学信息科学与技术学院,吉林长春130117

计算机与自动化

多模态预训练跨模态引导视觉序列压缩双流特征提取细粒度关系推理局部特征对齐

《电子学报》 2024 (10)

P.3368-3381,14

国家自然科学基金(No.61890963,No.U2341226)吉林省人才专项(No.20240602015RC)西安市飞行器光学成像与测量技术重点实验室开放基金(No.2023-13)。

10.12263/DZXB.20240271

评论