|国家科技期刊平台
首页|期刊导航|烟草科技|面向烟草领域的文本标注语料库构建

面向烟草领域的文本标注语料库构建OA北大核心CSTPCD

中文摘要

为快速获取烟草科技文献中的知识信息,通过交互式迭代学习的烟草知识实体标注与识别方法,构建了面向烟草领域的文本标注语料库,设计了适用于烟草领域的文本标注规范,并利用BERT+CRF(Bidirectional Encoder Representations from Transformers+Conditional Random Field)深度学习网络模型实现了烟草命名实体的识别和预标注,结合人工校对扩充了原始语料的规模,优化了模型性能。结果表明:语料标注一致性F1标注达92.4%;BERT+CRF模型识别能力优于常用的CRF、BiLSTM+CRF命名实体识别模型。该技术可为提升烟草领域文本分析和知识挖掘能力提供支持。

王永胜;刘亚丽;宗国浩;王迪;王锐;王金棒;李丰霖;贾楠;冯伟华;

中国烟草总公司郑州烟草研究院,郑州高450001江苏省烟草公司苏州市公司,江苏省苏州市215008

轻工业

烟草文本标注语料库文本分析知识服务

《烟草科技》 2024 (006)

P.99-106 / 8

河南省科技攻关项目“基于知识图谱的烟草病虫害专家系统构建技术研究”(232102210073);中国烟草总公司重大专项项目“烟草关联学科文献信息资源融合汇通平台研究与构建”[110202101031(SJ-02)];中国烟草总公司重点研发项目“烟草产业关键核心技术需求及技术预见研究”(110202102048);郑州烟草研究院青年人才托举工程项目“基于烟草科技文献的文本分析技术的研究”(602020CR0360)。

10.16135/j.issn1002-0861.2023.0320

评论