CLGLF:置信学习引导标签融合的多模态命名实体识别方法OA北大核心CSTPCD
为解决多模态命名实体识别中存在的视觉语义理解和多模态语义的偏差问题,本文提出了置信学习引导标签融合的多模态命名实体识别方法 .该方法调用BLIP-2预训练模型生成图像描述,将其与输入的文本拼接,进行图文联合编码实现多模态特征融合,对多模态表征和文本表征解码后得到候选标签和文本标签;在采用KL散度损失函数对齐两组标签的基础上,计算置信分数用来评估多模态表征质量,设置置信阈值辅助筛选出有偏差的候选标签,并使用相应位置的文本标签替换有偏差的候选标签,实现标签的融合,最终完成多模态命名实体识别.为了验证本文方法,在Twitter-2015和Twitter-2017多模态数据集上进行实验,并将实验结果与MSB、UMT等7种主流方法进行对比,实验结果证明了本文方法的有效性.
王海荣;王彤;徐玺;荆博祥;陈芳萍;
北方民族大学计算机科学与工程学院,宁夏银川750021 北方民族大学图像图形智能处理国家民委重点实验室,宁夏银川750021北方民族大学计算机科学与工程学院,宁夏银川750021
计算机与自动化
多模态命名实体识别图像描述置信学习多模态语义偏差信息抽取
《电子学报》 2024 (007)
P.2429-2437 / 9
宁夏自然科学基金(No.2023AAC03316);北方民族大学研究生创新项目(No.YCX23159)~~。
评论