2型糖尿病发生与多溴联苯醚暴露的关系及其预测模型构建和评价OACSTPCD
目的分析2型糖尿病(T2DM)发生与多溴联苯醚(PBDEs)暴露的关系,通过机器学习方法构建T2DM发生的预测模型并进行评价。方法在NHANES数据库筛选出1425例研究对象,其中非T2DM患者1132例、T2DM患者293例。比较非T2DM患者与T2DM患者的临床资料,取有统计学差异的临床资料进一步进行boruta特征筛选,以明确T2DM发生与PBDEs的关系及其影响因素。将筛选出的T2DM发生影响因素输入R软件,并使用R软件creatDataPartition函数将数据按照80%训练集及20%验证集随机划分。使用逻辑回归、极致梯度提升(XGBoost)、轻量梯度提升、自适应增强、K近邻、朴素贝叶斯及支持向量机等7种算法构建机器学习模型,将训练集输入模型进行训练,将验证集输入模型使用十折交叉验证对进行模型进行内部验证。结合ROC曲线以及曲线下面积(AUC)对模型进行评价,选择新疆医科大学一附院内分泌科就诊的成人T2DM患者71例及健康体检者100例对效能最好的预测模型进行外部验证。使用SHAP工具分析高效能预测模型的可解释性,判断模型在决策过程中各个特征的重要性。结果T2DM患者BMI、腰围、受教育程度、有糖尿病家族史比例、血清高密度脂蛋白及血清BDE-28、BDE-47、BDE-99、BDE-183、BDE-209浓度均高于非T2DM患者(P均<0.05),Boruta特征筛选出腰围、BMI、糖尿病家族史及血清BDE-47、BDE-99、BDE-28、BDE-209、BDE-183作为T2DM发生的影响因素纳入机器学习算法建立T2DM发生的预测模型。在训练集及验证集的内部验证中,XGBoost模型AUC值均最高,且准确度、Kappa值、灵敏度及特异度均位于前列,故选择XGBoost模型作为高效能预测模型。外部验证结果显示,XGBoost模型的准确度为0.702、灵敏度为0.549、特异度为0.787、AUC(95%CI)为0.674(0.575~0.773)。SHAP工具对XGBoost模型的预测情况进行解释性分析结果显示,腰围、血清BDE-47为最重要的预测特征,同时血清BDE-99、BDE-209及BMI、糖尿病家族史在模型中具有较高的重要性,而血清BDE-28、BDE-183在模型中重要性相对较低。结论血清BDE-47、BDE-99、BDE-28、BDE-209、BDE-183为T2DM发生的独立影响因素,基于血清PBDEs及腰围、BMI、糖尿病家族史建立的XGBoost模型对T2DM发生的预测效能较高,在T2DM发生的预测方面具有一定价值。
马英杰;陈楠;阿尔娜·恰依马尔旦;刘早玲;
新疆医科大学公共卫生学院,乌鲁木齐830054
临床医学
2型糖尿病多溴联苯醚多溴联苯醚同系物机器学习预测模型
《山东医药》 2024 (017)
P.1-6 / 6
省部共建中亚高发病成因与防治国家重点实验室开放课题项目(SKL-HIDCA-2022-19);国家自然科学基金项目(82160605)。
评论