基于SciBERT-BiLSTM-CRF-wordMixup的软件实体识别研究OA北大核心CHSSCDCSSCICSTPCD
[目的/意义]软件在现代科学研究中发挥着重要作用,高效识别学术文献中的软件实体对深入认识软件的学术价值、促进软件可持续发展和学术生态体系均衡发展具有重要意义。[方法/过程]本研究首先对软件实体进行定义;然后基于小型知识库的程序辅助标注方案,构建软件实体识别领域语料库;在此基础上,提出改进的SciBERT-BiLSTM-CRF-wordMixup模型并对该模型的识别效果进行评估。[结果/结论]实验结果显示,本研究提出的改进模型SciBERT-BiLSTM-CRF-wordMixup在软件实体识别任务中表现最优,其整体F1值达到87.5%,说明该模型能够有效地从学术论文文本中识别出软件及其相关信息实体。
潘雪莲;钱雨菲;王宪雨;
南京大学信息管理学院,江苏南京210023
计算机与自动化
软件实体识别命名实体识别深度学习数据增强SciBERT
《现代情报》 2024 (010)
P.75-85 / 11
教育部人文社会科学研究青年基金项目“知识重组视角下学术流动对科研人员知识生产的影响机理研究”(项目编号:22YJC870011);国家自然科学基金青年项目“基于全文本数据的软件实体抽取与学术影响力研究”(项目编号:71704077)。
评论