深度神经网络模型并行自适应计算任务调度方法

巨涛, 刘帅, 火久元, 张学军

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (12) : 3601-3613. DOI: 10.13229/j.cnki.jdxbgxb.20230164

深度神经网络模型并行自适应计算任务调度方法

  • 巨涛, 刘帅, 火久元, 张学军
作者信息 +
History +

摘要

针对大规模深度神经网络模型并行面临的内存消耗大、设备利用率低、训练时间长、模型难以收敛的问题,提出了一种面向深度神经网络模型并行的计算任务自适应调度方法。通过建立模型并行计算任务的多迭代异步并行管理机制,控制微批量单元具体调度过程,实现模型合理分区和计算资源合理分配,解决异步迭代时产生的梯度延迟更新问题;基于拓扑感知设计计算资源的分配机制,实现模型训练任务和计算资源的合理匹配;设计计算资源和模型任务的运行时调度策略,实现深度学习模型训练过程中计算与通信重叠的最大化,提高计算资源利用率。实验结果表明:与已有的模型并行方法相比,本文方法可以充分利用各GPU计算资源,在保证模型训练精度的同时,可以将大规模深度神经网络模型训练速度平均提高2.8倍。

关键词

并行计算 / 深度神经网络模型并行 / 流水线并行 / 异步并行 / 任务调度 / 计算通信重叠

中图分类号

TP183

引用本文

导出引用
巨涛, 刘帅, 火久元, 张学军. 深度神经网络模型并行自适应计算任务调度方法. 吉林大学学报(工学版). 2024, 54(12): 3601-3613 https://doi.org/10.13229/j.cnki.jdxbgxb.20230164

基金

国家自然科学基金项目(61862037,62262038); 兰州市人才创新创业项目(2021-RC-40); 兰州交通大学天佑创新团队项目(TY202002)

评论

Accesses

Citation

Detail

段落导航
相关文章

/