基于语言-视觉对比学习的多模态视频行为识别方法OA北大核心CSTPCD
以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧…查看全部>>
张颖;张冰冰;董微;安峰民;张建新;张强
大连民族大学计算机科学与工程学院,大连116600 大连民族大学机器智能与生物计算研究所,大连116600大连民族大学计算机科学与工程学院,大连116600 大连理工大学电子信息与电气工程学部,大连116024大连民族大学计算机科学与工程学院,大连116600 大连民族大学机器智能与生物计算研究所,大连116600大连民族大学计算机科学与工程学院,大连116600 大连民族大学机器智能与生物计算研究所,大连116600大连民族大学计算机科学与工程学院,大连116600 大连民族大学机器智能与生物计算研究所,大连116600大连理工大学电子信息与电气工程学部,大连116024
计算机与自动化
视频行为识别语言-视觉对比学习多模态模型时序建模提示学习
《自动化学报》 2024 (2)
P.417-430,14
国家自然科学基金(61972062)辽宁省应用基础研究计划(2023JH2/101300191)国家民委中青年英才培养计划资助。
评论