基于双向长短期记忆网络与稀疏自注意力的票据文本识别方法OA北大核心CSTPCD
提出了一种基于双向长短期记忆网络(BiLSTM)与稀疏自注意力机制的票据文本识别方法。针对票据文本识别中面临的复杂布局、多变字体及背景噪声干扰等挑战,采用深度卷积神经网络进行预处理,准确提取文本区域,并将图像数据转换为序列数据输入到BiLSTM模型中。BiLSTM通过其双向结构,能够同时捕捉文本序列中的前向和后向信息,有效提高了文本理解的准确性。为了进一步提升识别性能,引入了稀疏自注意力机制,通过计算序列中不同位置之间的相关性得分,形成稀疏的注意力矩阵,从而捕捉文本中的长距离依赖关系。这种机制不仅降低了计算复杂度,还提高了模型对关键信息的关注度。实验结果表明,所提出的票据文本识别方法在处理复杂票据文本时表现出色,具有较高的识别精度和效率。与传统方法相比,所提方法能够更好地适应票据文本的多样性和复杂性,并在实际应用中展现出良好的鲁棒性和泛化能力。
冯宪伟;姚炜;
江苏经贸职业技术学院数字商务学院,江苏南京211168
电子信息工程
稀疏注意力机制双向长短期记忆网络票据文本识别光学字符识别
《传感技术学报》 2024 (011)
P.1946-1951 / 6
2024年度江苏省教育科学规划重点课题资助项目(B-a/2024/14);江苏高校“青蓝工程”项目(苏教师函[2022]29号);江苏经贸职业技术学院“领军人才”项目(经贸人[2021]28号)。
评论