数据驱动的中文实体抽取方法综述OA北大核心CSTPCD
中文实体抽取(Chinese named entity recognition,CNER)是中文信息抽取任务中的关键一步,是问答系统、机器翻译和知识图谱等下游任务的基础,其方法主要分为知识驱动和数据驱动两大类。然而基于规则、词典与机器学习的传统知识驱动方法存在忽视上下文语义信息、计算成本高和低召回率的问题,限制了CNER技术的发展。介绍了CNER的定义和发展历程。详细整理了CNER任务的典型数据集、训练工具、序列标注方式和模型评价指标。对基于数据驱动的方法进行了总结,将数据驱动的方法划分为基于深度学习、预训练语言模型和中文实体关系联合抽取等方法,并分析了数据驱动方法在不同领域的实际应用场景。对CNER任务的未来研究方向进行了展望,为新方法的提出提供一定参考。
肖蕾;陈镇家;
广东技术师范大学自动化学院,广州510450
计算机与自动化
中文实体抽取数据驱动深度学习知识图谱
《计算机工程与应用》 2024 (016)
P.34-48 / 15
广东省普通高校重点研究领域专项(2021ZDZX1033)。
评论