基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

高敬鹏, 王国轩, 高路

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (03) : 797-806. DOI: 10.13229/j.cnki.jdxbgxb.20220523

基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

  • 高敬鹏, 王国轩, 高路
作者信息 +
History +

摘要

针对完全合作型任务中,多智能体深度确定性策略梯度(MADDPG)算法存在信度分配以及训练稳定性差的问题,提出了一种基于异步合作更新的LSTM-MADDPG多智能体协同决策算法。基于差异奖励和值分解思想,利用长短时记忆(LSTM)网络提取轨迹序列间特征,优化全局奖励划分方法,实现各智能体的动作奖励分配;结合算法联合训练需求,构建高质量训练样本集,设计异步合作更新方法,实现LSTM-MADDPG网络的联合稳定训练。仿真结果表明,在协作捕获场景中,本文算法相较于QMIX的训练收敛速度提升了20.51%;所提异步合作更新方法相较于同步更新,归一化奖励值均方误差减小了57.59%,提高了算法收敛的稳定性。

关键词

人工智能 / 多智能体协同决策 / 深度强化学习 / 信度分配 / 异步合作更新

中图分类号

TP18

引用本文

导出引用
高敬鹏, 王国轩, 高路. 基于异步合作更新的LSTM-MADDPG多智能体协同决策算法. 吉林大学学报(工学版). 2024, 54(03): 797-806 https://doi.org/10.13229/j.cnki.jdxbgxb.20220523

基金

电子信息系统复杂电磁环境效应国家重点实验室项目(CEMEE2021G0001)

评论

Accesses

Citation

Detail

段落导航
相关文章

/