面向在线健康社区UGC的医疗健康知识图谱构建研究——以小儿腹泻病为例OACSSCICSTPCD
构建面向在线健康社区用户生成内容(User Generated Content,UGC)数据的医疗健康知识图谱,探究基于用户潜在需求的健康知识抽取,对优化在线健康社区信息组织与检索,支撑在线健康社区知识服务创新具有重要意义。提出基于在线健康社区UGC数据的实体识别组合模型LDA-BERT-BiLSTM-CRF,首先利用LDA主题模型对在线健康社区UGC数据进行主题聚类分析从而提取实体类型,基于细分实体类型利用BERTBiLSTM-CRF模型进行命名实体识别;然后采用MC-BERT-CasRel模型抽取在线健康社区UGC数据中的重叠三元组,并通过SBERT模型实现实体对齐;最后利用Neo4j图数据库完成知识图谱的存储和可视化。以小儿腹泻病为例,基于所提方法最终构建包含939个实体和3224个关系的小儿腹泻病知识图谱。与目前主流模型进行对比实验,结果表明,所采用的组合模型LDA-BERT-BiLSTM-CRF与关系抽取模型MC-BERT-CasRel较传统方法知识抽取更准确,实体分类也更具针对性。
孟秋晴;郑铭瑞;田玥璐;刘逸品;王琼弟;
贵州财经大学信息学院,贵阳550025南京大学软件学院,南京210008
知识图谱构建在线健康社区用户生成内容LDA知识抽取
《数字图书馆论坛》 2024 (008)
P.9-18 / 10
贵州省科技厅科技计划“‘互联网+医疗’背景下基于用户特征挖掘的医疗资源推荐研究”(编号:黔科合基础-ZK[2021]一般336);贵州省教育厅青年科技人才成长项目“基于知识图谱的在线医疗社区信息推荐研究”(编号:黔教合KY字[2022]192号)资助。
评论