融合多模态特征的新闻短视频分类模型OACSTPCD
News Short Video Classification Model Fusing Multimodal Feature
视频分类是理解、归纳和检索视频数据的一个重要环节.新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系.针对上述问题,采用以音频模态为主,图像模态为辅的融合机制,提出了融合多模态特征的新闻短视频分类模型.为进一步利用音频为主的特点,采用两阶段训练方式,使用音频模态单独训练,音频和图像模态联合训练,利用图像信息修正分类结果,提升新闻短视频分…查看全部>>
曾祥玖;刘达维;刘逸凡;赵志滨;柳秀梅;任酉贵
东北大学 计算机科学与工程学院,沈阳 110169东北大学 计算机科学与工程学院,沈阳 110169东北大学 计算机科学与工程学院,沈阳 110169东北大学 计算机科学与工程学院,沈阳 110169东北大学 计算机科学与工程学院,沈阳 110169东北大学 计算机科学与工程学院,沈阳 110169||辽宁省自然资源事务服务中心,沈阳 110001
计算机与自动化
音画关系多模态特征融合新闻短视频分类
audio-visual relationshipmultimodal feature fusionnews short video classification
《计算机工程与应用》 2023 (14)
107-113,7
全国高等院校计算机基础教育研究会计算机基础教育教学研究项目(2022-AFCEC-236).
评论