基于刺突蛋白序列和机器学习方法预测冠状病毒宿主多分类

赵健, 王治博, 谢翟, 张力, 刘宏生

辽宁大学学报(自然科学版) ›› 2023, Vol. 50 ›› Issue (04) : 312-317. DOI: 10.16197/j.cnki.lnunse.2023.04.004

基于刺突蛋白序列和机器学习方法预测冠状病毒宿主多分类

  • 赵健, 王治博, 谢翟, 张力, 刘宏生
作者信息 +
History +

摘要

严重急性呼吸综合征冠状病毒2(SARS-COV-2)在2019年年底引起了新型冠状病毒肺炎(COVID-19)的全球大流行,冠状病毒跨物种传播到多种哺乳动物包括人类.因此,快速准确地预测冠状病毒宿主分类对于未来控制和防治流行病具有重要意义.本文从NCBI(National center for biotechnology information)病毒数据库收集刺突蛋白序列,使用CD-HIT软件去除重复数据得到3 216条序列,将其按照宿主分类分为6种样本,按照收集时间排序后以8∶2比例划分为训练集和测试集,使用分布描述符(CTDD)以及自然语言模型Seq2Vec来编码刺突蛋白序列特征,应用多种机器学习方法训练预测分类模型,并进行模型评估.在预测人类宿主方面,Seq2Vec-GCNN作为最佳模型其准确率高达99.37%,而在预测其他宿主分类时CTDD-RF表现极佳,准确率分别为猪类95.82%,禽类95.96%,骆驼98.33%,蝙蝠92.06%,其他哺乳动物94.01%.结果表明,使用机器学习方法基于刺突蛋白序列构建预测冠状病毒宿主分类模型是切实有效的.

关键词

机器学习 / 冠状病毒 / 刺突蛋白

中图分类号

R373

引用本文

导出引用
赵健, 王治博, 谢翟, 张力, 刘宏生. 基于刺突蛋白序列和机器学习方法预测冠状病毒宿主多分类. 辽宁大学学报(自然科学版). 2023, 50(04): 312-317 https://doi.org/10.16197/j.cnki.lnunse.2023.04.004

基金

沈阳市中青年科技创新人才支持计划项目(RC210216); 国家自然科学基金青年科学基金项目(82003655); 辽宁省教育厅面上项目(LJKZ0088); 辽宁省“兴辽英才计划”项目(XLYC2002045); 辽宁省重点研发计划项目(2019JH2/10300041)

评论

Accesses

Citation

Detail

段落导航
相关文章

/