基于弱监督学习的中文百科数据属性抽取OA北大核心CSCDCSTPCD
Attribute Extraction of Chinese Online Encyclopedia Based on Weakly Supervised Learning
提出基于弱监督学习的属性抽取方法,利用知识库中已有结构化的属性信息自动获取训练语料,有效解决了训练语料不足问题。针对训练语料存在的噪声问题,提出基于关键词过滤的训练语料优化方法。提出n元模式特征提取方法,该特征能够缓解传统n-gram特征稀疏性问题。实验数据源来自互动百科,从互动百科信息盒中抽取结构化属性信息构建知识库,从百科条目文本中自动获取训练数据和测试数据。实验结果表明,关键词过滤能有效提高训练语料的质量,与传统n-gram特征相比,n元模…查看全部>>
An attribute extraction method based on weakly supervised learning is proposed in the paper. The training corpus is automatically acquired from natural language texts by using structured attribute information from knowledgebase. To solve the problem that noise exists in the training corpus, an optimization method based on keywords filtering is proposed.N-pattern features extraction method is proposed which can relieve to some extent the data sparsity problem…查看全部>>
贾真;杨燕;何大可
西南交通大学信息科学与技术学院成都 610031西南交通大学信息科学与技术学院成都 610031西南交通大学信息科学与技术学院成都 610031
信息技术与安全科学
属性抽取特征提取关系抽取弱监督学习
attribute extractionfeature extractionrelation extractionweakly supervised learning
《电子科技大学学报》 2014 (5)
藏文Web信息的社会网络动态演化机理研究
758-763,6
国家自然科学基金(61170111,61202043,61262058)
评论