XGBoost-SHAP机器学习可解释框架用于轻度认知障碍分类研究

PDF(5845 KB)

中国卫生统计 ›› 2024, Vol. 41 ›› Issue (03) : 423-429.

易付良, 陈杜荣, 杨慧, 秦瑶, 韩红娟, 崔靖, 白文琳, 马艺菲, 张荣, 余红梅

作者信息 +

History +

摘要

目的利用机器学习算法对轻度认知障碍(mild cognitive impairment, MCI)亚型分类有利于患者的个性化治疗，而复杂模型常因分类过程的内部机制不可洞察而饱受诟病，本研究借助可解释技术梳理模型的输出结果，以期为相关领域研究者的决策提供统计支持。方法本研究联合极限梯度提升(eXtreme Gradient Boosting, XGBoost)与沙普利可加性(SHapley Additive exPlanations, SHAP)构建可解释性框架，用于遗忘型MCI(amnestic MCI, aMCI)和非遗忘型MCI(non-amnestic naMCI)的分类，并根据联合框架输出结果进行解读。结果联合框架输出aMCI和naMCI的最佳分界值为0.51,XGBoost分类准确率、灵敏度、特异度、F1值、AUC分别为92.81%、94.94%、90.54%、0.93、0.96。SHAP个性化预测结果，7号和31号示例个体被预测为aMCI的概率分别为0.27和0.91;全局性解释结果，不同个体随着CEREALL、ORIENT、CDRSUM、LCMF、RSUPMAR、RMEDORBF、LPOSCENM等指标的shapley值增大，患aMCI的风险越大，上述指标可以解释为aMCI发生的危险因素，而RENT、MMSEORDA、CRAFTVRS等则相反，可以解释为aMCI发生的保护因素。结论 XGBoost-SHAP联合框架用于MCI亚型分类效果较为理想，实现了特定个体不同特征预测效果的比较、不同个体给定特征预测能力的判断，为相关研究者打开了洞察复杂模型内在机制的大门。