基于深度学习的地址信息自动标注研究OA北大核心CSCDCSTPCD
Research of Address Information Automatic Annotation Based on Deep Learning
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chi-nese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.
凌广明;徐爱萍;王伟
武汉大学计算机学院,湖北武汉430072武汉大学计算机学院,湖北武汉430072武汉大学测绘遥感信息工程国家重点实验室,湖北武汉430079
信息技术与安全科学
深度学习自动标注地址信息K近邻语料库
《电子学报》 2020 (11)
2081-2091,11
国家重点研发计划资助(No.2017YFC0803700)
评论