基于多维度和多模态信息的视频描述方法OA北大核心CSCDCSTPCD
Video description method based on multidimensional and multimodal information
针对视频自动描述任务中的复杂信息表征问题,提出一种多维度和多模态视觉特征的提取和融合方法.首先通过迁移学习提取视频序列的静态和动态等多维度特征,并采用图像描述算法提取视频关键帧的语义信息,完成视频信息的特征表征;然后采用多层长短期记忆网络融合多维度和多模态信息,最终生成视频内容的语言描述.实验仿真表明,所提方法与目前已有方法相比,在视频自动描述任务中取得了较好的效果.
丁恩杰;刘忠育;刘亚峰;郁万里
中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008中国矿业大学物联网(感知矿山)研究中心,江苏徐州 221008不来德大学电动学与微电子研究所,不来德 28359
信息技术与安全科学
视频描述多模态迁移学习长短期记忆网络循环神经网络
《通信学报》 2020 (2)
36-43,8
国家重点研发计划基金资助项目(No.2017YFC0804400,No.2017YFC0804401)
评论