首页|期刊导航|计算机工程|基于知识图谱的Web信息抽取系统

基于知识图谱的Web信息抽取系统

王辉郁波洪宇肖仰华

计算机工程2017，Vol.43Issue(6)：118-124,7.

计算机工程2017，Vol.43Issue(6)：118-124,7.DOI:10.3969/j.issn.1000-3428.2017.06.020

基于知识图谱的Web信息抽取系统

Web Information Extraction System Based on Knowledge Graph

王辉 ¹郁波 ²洪宇 ³肖仰华²

作者信息

1. 上海电力学院经济与管理学院,上海200082
2. 复旦大学计算机科学技术学院,上海200433
3. 东华大学计算机科学与技术学院,上海201620
折叠

摘要

Abstract

In order to effectively extract huge amounts of Web information in multiple fields,a Web information extraction system is designed based on Chinese knowledge graph,CN-DBpedia.Firstly,webpage data items with noise are automatically labeled based on knowledge graph.Then,correct wrappers are induced and learned from labeling sets with errors by a fault-tolerant wrapper induction framework.Experimental results demonstrate that,compared with traditional information extraction method by manual annotation,the proposed system has higher precision and recall rate.It can significantly reduce human participation during the extraction process and flexibly apply to large-scale webpage information extraction tasks in multiple fields.

关键词

知识图谱/多领域/Web信息抽取/网页自动标注/容错/包装器归纳框架

Key words

knowledge graph/multi-field/Web information extraction/automatic webpage labeling/fault-tolerance/wrapper induction framework

分类

信息技术与安全科学

引用本文复制引用

王辉,郁波,洪宇,肖仰华..基于知识图谱的Web信息抽取系统[J].计算机工程,2017,43(6):118-124,7.

基金项目

上海市科技创新行动计划基础研究项目(15JC1400900) （15JC1400900）

上海市自然科学基金(13ZR1417700). （13ZR1417700）

计算机工程

OA北大核心CSCDCSTPCD

ISSN：1000-3428

访问量2

下载量0

段落导航