基于组特征选择的两阶段猪表型预测方法研究OA
基因组选择(Genomic selection)指用全基因组分子标记数据,例如单核苷酸多态性(Single nucleotidepolymorphism,SNP)来估计育种值(Genomic estimated breeding values,GEBVs)。该技术正在改变畜禽和植物育种的估计方法。而准确估计育种值的关键在于能够根据给定的基因型数据准确估计表型值。然而,现有的动物表型值估计方法未能充分考虑并非所有SNP位点都具有生物学效应这一事实。本研究提出了一种基于组特征选择和机器学习的两阶段表型预测方法(Two-stage phenotype prediction method,TSPM)。该方法首先应用K-means聚类算法对特征进行分组,并选择与表型相关的特征组,随后在经过特征选择的数据集上运用核岭回归方法来预测表型值。为验证方法的有效性,本研究在实际数据集上,将本文提出的方法与包括基因组最佳线性无偏预测(Genomic best linear unbiasedprediction,GBLUP)和支持向量机回归(Support vector regression,SVR)在内的8种经典方法进行对比。试验结果表明,两阶段表型预测法比大部分机器学习方法的预测能力强,尤其在高遗传力性状上的预测精度尤为显著。与经典的GBLUP相比,本方法的准确性提高了3.86%。
陈奕菲;苏瑞琳;申振才;谭俊艳;钟萍
中国农业大学理学院,北京100083中国农业大学理学院,北京100083中国农业大学理学院,北京100083中国农业大学理学院,北京100083中国农业大学理学院,北京100083
畜牧业
猪组特征选择育种表型预测基因选择岭回归
《中国猪业》 2024 (6)
P.33-41,9
2024年度北京市级本科生创新训练项目(S202410019026)确定主要家畜品种鉴定的优化分析方法(19230535)。
评论