基于生成对抗网络的维语场景文字修改网络OACSTPCD
通过对维语的场景文字检测与识别研究发现,人工采集标注自然场景文字图像是耗时耗力的,因此人工合成的数据是作为训练数据的主要来源。为获得更加真实的数据,本文提出一种基于生成对抗网络的维语场景文字修改网络,利用高效的Transformer模块构建网络,充分提取图像全局与局部特征来完成维语场景文字图像修改,并添加微调模块,对最终结果进行微调。采用WGAN思想策略训练模型,可有效应对模型崩溃以及梯度爆炸等问题。通过在英文-英文,英文-维文的文字修改实验来验证模型的泛化能力和鲁棒性,无论在客观评价指标(SSIM、PSNR)还是视觉上均取得不错效果,并在真实场景数据集SVT以及ICDAR 2013上进行了验证。
付鸿林;张太红;杨雅婷;艾孜麦提·艾瓦尼尔;马博;
新疆农业大学计算机与信息工程学院,新疆乌鲁木齐830052 新疆农业信息化工程技术研究中心,新疆乌鲁木齐830052 中国科学院新疆理化技术研究所多语种信息技术研究室,新疆乌鲁木齐830011新疆农业大学计算机与信息工程学院,新疆乌鲁木齐830052 新疆农业信息化工程技术研究中心,新疆乌鲁木齐830052中国科学院新疆理化技术研究所多语种信息技术研究室,新疆乌鲁木齐830011
计算机与自动化
生成对抗网络场景文字修改维语场景文字图像高效TransformerWGAN
《计算机与现代化》 2024 (001)
P.41-46 / 6
国家自然科学基金资助项目(U2003303);新疆天山创新团队项目(2020D14045);中国科学院青年创新促进会项目(科发人函字[2019]26号);新疆维吾尔自治区自然科学基金重点基金资助项目(2022D01D04);新疆维吾尔自治区重大科技专项(2022A02011)。
评论