基于文本数据增强的中文水稻育种问句命名实体识别OA北大核心CSTPCD
针对现有水稻育种问答系统存在数据管理水平低、知识粒度大,水稻育种领域缺乏用于命名实体识别的标注数据、人工标注成本高等问题,提出了一种基于文本数据增强的方法来识别水稻育种问句的命名实体,通过构建水稻育种知识图谱,对水稻育种问句中的大类命名实体进行分类,从而增强实体边界,降低知识粒度。针对水稻育种数据标注成本高导致命名实体识别性能不佳的难点,通过在BERT-BILSTM-CRF模型中引入数据增强层,提出了DA-BERT-BILSTM-CRF模型。实验以标注的水稻育种问句为训练数据,将所提出的模型与其他基线模型进行比较。结果表明,本文方法在水稻育种问句中命名实体识别的单类别识别任务和整体识别任务上均优于其他方法,其中单类别识别精确率达到94.26%,F1值达到93.32%;整体识别精确率达到93.86%,F1值达到93.34%。
牛培宇;侯琛;
中国农业大学信息与电气工程学院,北京100083北京大学大数据分析与应用技术国家工程实验室,北京100871 北京大学长沙计算与数字经济研究院,长沙410205
计算机与自动化
水稻育种问答系统命名实体识别文本数据增强知识图谱
《农业机械学报》 2024 (008)
P.333-343 / 11
国家自然科学基金项目(62303472)。
评论