基于超大人群二代测序数据的关联性分析方法评价

蒋昀珂, 沈思鹏, 陈峰

中国卫生统计 ›› 2025, Vol. 42 ›› Issue (03) : 401-405.

基于超大人群二代测序数据的关联性分析方法评价

  • 蒋昀珂, 沈思鹏, 陈峰
作者信息 +
History +

摘要

目的 本研究旨在评价二代测序数据中关联性分析方法。以往运用于全基因组关联性研究(genome-wide association study, GWAS)中的方法能否在全外显子测序数据中有良好的精确度,对于未来测序数据的挖掘有重要的意义。方法 利用英国生物样本库(UK biobank, UKB)45万人全外显子测序数据,模拟不同病例占比、不同亲缘关系占比的数据集,采用BOLT-LMM,SAIGE,fastGWA-GLMM和REGENIE四种常见的关联性分析算法对各种情景下的数据集进行模拟试验,评价指标主要是一类错误、运行时间和内存占用。根据不同情景下模拟试验结果,寻找效果最优的方法。结果 SAIGE和REGENIE在各种情况下均能较好的控制一类错误,计算效率也较高。面对亲缘关系占比高,亲缘关系复杂的数据时,fastGWA-GLMM表现较差。BOLT-LMM不适用于二元表型,不推荐用于实际工作。结论 综合比较,基于广义混合模型的SAIGE和基于机器学习的REGENIE适用于二代测序数据关联性分析。

关键词

关联性分析 / 二代测序 / 混合效应模型 / 模拟试验 / 效果评价

中图分类号

Q811.4 / R195.1

引用本文

导出引用
蒋昀珂, 沈思鹏, 陈峰. 基于超大人群二代测序数据的关联性分析方法评价. 中国卫生统计. 2025, 42(03): 401-405

基金

国家自然科学基金重点国际(地区)合作研究项目(82220108002);国家自然科学基金面上项目(82373685)

评论

Accesses

Citation

Detail

段落导航
相关文章

/