融合多模态特征的新闻短视频分类模型OACSTPCD

News Short Video Classification Model Fusing Multimodal Feature

中文摘要

视频分类是理解、归纳和检索视频数据的一个重要环节.新闻短视频具有音频信息比图像信息更能完整地描述新闻事件的特点,但传统视频分类模型常常只考虑图像信息或融合了音频和图像的多模态信息,并没有考虑模态信息之间的主辅关系.针对上述问题,采用以音频模态为主,图像模态为辅的融合机制,提出了融合多模态特征的新闻短视频分类模型.为进一步利用音频为主的特点,采用两阶段训练方式,使用音频模态单独训练,音频和图像模态联合训练,利用图像信息修正分类结果,提升新闻短视频分…查看全部>>

作者：曾祥玖;刘达维;刘逸凡;赵志滨;柳秀梅;任酉贵

作者单位：东北大学计算机科学与工程学院,沈阳 110169东北大学计算机科学与工程学院,沈阳 110169东北大学计算机科学与工程学院,沈阳 110169东北大学计算机科学与工程学院,沈阳 110169东北大学计算机科学与工程学院,沈阳 110169东北大学计算机科学与工程学院,沈阳 110169||辽宁省自然资源事务服务中心,沈阳 110001

分类：计算机与自动化

中文关键词：音画关系多模态特征融合新闻短视频分类

英文关键词：audio-visual relationshipmultimodal feature fusionnews short video classification

刊名：《计算机工程与应用》 2023 (14)

页码/页数：107-113,7

基金：全国高等院校计算机基础教育研究会计算机基础教育教学研究项目(2022-AFCEC-236).

DOI：10.3778/j.issn.1002-8331.2208-0299

您当前未登录！

去登录

点击加载更多...

融合多模态特征的新闻短视频分类模型OACSTPCD

News Short Video Classification Model Fusing Multimodal Feature

评论