首页|期刊导航|通信学报|基于多维度和多模态信息的视频描述方法

基于多维度和多模态信息的视频描述方法OA北大核心CSCDCSTPCD

Video description method based on multidimensional and multimodal information

中文摘要

针对视频自动描述任务中的复杂信息表征问题,提出一种多维度和多模态视觉特征的提取和融合方法.首先通过迁移学习提取视频序列的静态和动态等多维度特征,并采用图像描述算法提取视频关键帧的语义信息,完成视频信息的特征表征;然后采用多层长短期记忆网络融合多维度和多模态信息,最终生成视频内容的语言描述.实验仿真表明,所提方法与目前已有方法相比,在视频自动描述任务中取得了较好的效果.

丁恩杰;刘忠育;刘亚峰;郁万里

中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008不来德大学电动学与微电子研究所,不来德 28359

信息技术与安全科学

视频描述多模态迁移学习长短期记忆网络循环神经网络

《通信学报》 2020 (2)

36-43,8

国家重点研发计划基金资助项目(No.2017YFC0804400,No.2017YFC0804401)

10.11959/j.issn.1000-436x.2020037

评论