基于词性加权和单词相似性的蛋白质交互识别OACSTPCD
Protein-protein Interaction Identification Based on POS Weighted and Word Similarity
与现有绝大多数以单个句子为依据的蛋白质自动识别方式不同,文中基于大规模语料库提出了引入句法和单词相似性这两个因素的蛋白质交互自动识别方法. 首先,采用基于特征的方法对蛋白质对签名档进行分类. 然后,使用分词工具对蛋白质对签名档进行词性标注,将不同词性的特征词语进行分组,并对每种词性进行加权. 最后,基于大规模语料库的方法计算得到单词相似性,根据单词在正、负类中频率的差别调整单词相似性矩阵. 实验结果表明,引入词性加权和单词相似性两个因素后,最终的…查看全部>>
Be different from the existing vast majority of Protein-Protein Identification ( PPI) based on a sentence,in this paper,put for-ward a new PPI identification method that introduces syntax and word similarity based on large-scale corpus. First of all,feature-based method is used to classify the protein signature. Then,a segmentation tool is used to Part-Of-Speech ( POS) tag protein signatures,so that,feature words based on different POS are grouped and differ…查看全部>>
吴红梅;牛耘
南京航空航天大学 计算机科学与技术学院,江苏 南京 210016南京航空航天大学 计算机科学与技术学院,江苏 南京 210016
信息技术与安全科学
大规模语料库蛋白质交互词性加权单词相似性
large-scale corpusprotein-protein interactionPOS weightdword similarity
《计算机技术与发展》 2015 (12)
基于抽象的软件符号模型检测研究
6-9,4
国家自然科学基金资助项目(61202132,61170043)
评论