融合多时间维度视觉与语义信息的图像描述方法OA北大核心CSTPCD
传统的图像描述方法仅使用当前时刻的视觉信息和语义信息来生成预测词,而没有考虑过去时刻的视觉信息和语义信息,从而导致模型输出的信息在时间维度上比较单一,因此生成的描述语句在准确性上有所欠缺。针对此问题,提出一种融合多时间维度视觉与语义信息的图像描述方法,有效地融合了过去时刻的视觉信息和语义信息,并设计一种门控机制动态地对两种信息进行选择利用。在MSCOCO数据集上进行实验验证,结果表明该方法能够更准确地生成描述语句,和当前最主流的图像描述方法进行对比,性能在各项评价指标上都得到了可观的提升。
陈善学;王程;
重庆邮电大学通信与信息工程学院,重庆400065
计算机与自动化
图像描述视觉信息语义信息时间维度门控机制
《数据采集与处理》 2024 (004)
P.922-932 / 11
评论