融合XLnet与DMGAN的文本生成图像方法OA北大核心CSTPCD
针对文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像存在语义不一致的问题,本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码,该模型在大规模语料库的预训练之下能够捕获大量文本的先验知识,实现对上下文信息的深度挖掘;然后在DMGAN模型生成图像的初始阶段和图像细化阶段均加入通道注意力模块,突出重要的特征通道,进一步提升生成图像的语义一致性和空间布局合理性,以及模型的收敛速度和稳定性。实验结果表明,所提出模型在CUB数据集上生成的图像相比原DMGAN模型,IS指标提升了0.47,FID指标降低了2.78,充分说明该模型具有更好的跨模态生成能力。
赵泽纬;车进;吕文涵;
宁夏大学物理与电子电气工程学院,宁夏银川750021
计算机与自动化
文本生成图像XLnet模型生成对抗网络通道注意力
《液晶与显示》 2024 (002)
P.168-179 / 12
国家自然科学基金(No.61861037)。
评论