多智能体深度确定性策略梯度算法研究与改进

doi:10.13568/j.cnki.651094.651316.2023.05.08.0001

新疆大学学报（自然科学版中英文） ›› 2023, Vol. 40 ›› Issue (06) : 717-723. DOI: 10.13568/j.cnki.651094.651316.2023.05.08.0001

劳天成, 刘义, 范文慧

作者信息 +

History +

摘要

针对多智能体深度确定性策略梯度算法（MADDPG）在某些场景下，尤其是在部分可观察环境与稀疏奖励条件下，不一定能学习到最优策略的问题，采用观察叠加法和在深度网络中加入长短期记忆网络（Long Short-Term Memory, LSTM）层的方法对MADDPG算法进行了改进，通过含遮蔽区的捕食者-猎物场景验证了改进的算法在智能体决策上的有效性；引入后验经验回放（Hindsight Experience Replay, HER）方法对MADDPG算法进行了改进，通过合作通讯场景和合作导航场景的对比实验验证了改进的算法能够使智能体获得的高价值经验大大增加，可以提高MADDPG算法收敛速度，有助于智能体学习到最优策略．