融合ELMo词嵌入的多模态Transformer的图像描述算法OA北大核心CSTPCD
Image Caption with ELMo Embedding and Multimodal Transformer
图像描述任务旨在针对一张给出的图像产生其对应描述.针对现有算法中语义信息理解不够全面的问题,提出了一个针对图像描述领域的多模态Transformer模型.该模型在注意模块中同时捕捉模态内和模态间的相互作用;更进一步使用ELMo获得包含上下文信息的文本特征,使模型获得更加丰富的语义描述输入.该模型可以对复杂的多模态信息进行更好地理解与推断并且生成更为准确的自然语言描述.该模型在Microsoft COCO数据集上进行了广泛的实验,实验结果表明,相比…查看全部>>
杨文瑞;沈韬;朱艳;曾凯;刘英莉
昆明理工大学 信息工程与自动化学院,昆明 650500昆明理工大学 云南省计算机重点实验室,昆明 650500昆明理工大学 信息工程与自动化学院,昆明 650500昆明理工大学 云南省计算机重点实验室,昆明 650500昆明理工大学 信息工程与自动化学院,昆明 650500
信息技术与安全科学
Transformer图像描述ELMo注意力机制
《计算机工程与应用》 2022 (21)
面向GPU云的粗糙集粒度融合方法和应用研究
223-231,9
国家自然科学基金(61971208,61671225,52061020,61702128)云南省应用基础研究计划项目重点项目(2018FA034)昆明理工大学人才培养项目(KKSY201703016).
评论