多智能体深度确定性策略梯度算法研究与改进

劳天成, 刘义, 范文慧

新疆大学学报(自然科学版中英文) ›› 2023, Vol. 40 ›› Issue (06) : 717-723. DOI: 10.13568/j.cnki.651094.651316.2023.05.08.0001

多智能体深度确定性策略梯度算法研究与改进

  • 劳天成, 刘义, 范文慧
作者信息 +
History +

摘要

针对多智能体深度确定性策略梯度算法(MADDPG)在某些场景下,尤其是在部分可观察环境与稀疏奖励条件下,不一定能学习到最优策略的问题,采用观察叠加法和在深度网络中加入长短期记忆网络(Long Short-Term Memory, LSTM)层的方法对MADDPG算法进行了改进,通过含遮蔽区的捕食者-猎物场景验证了改进的算法在智能体决策上的有效性;引入后验经验回放(Hindsight Experience Replay, HER)方法对MADDPG算法进行了改进,通过合作通讯场景和合作导航场景的对比实验验证了改进的算法能够使智能体获得的高价值经验大大增加,可以提高MADDPG算法收敛速度,有助于智能体学习到最优策略.

关键词

多智能体 / 深度强化学习 / 部分可观察 / 稀疏奖励

中图分类号

TP18

引用本文

导出引用
劳天成, 刘义, 范文慧. 多智能体深度确定性策略梯度算法研究与改进. 新疆大学学报(自然科学版中英文). 2023, 40(06): 717-723 https://doi.org/10.13568/j.cnki.651094.651316.2023.05.08.0001

基金

国家重点研发计划“基于人工智能与区块链技术的生态环境新型治理体系研究与示范应用”(2021YFC1809000)

评论

Accesses

Citation

Detail

段落导航
相关文章

/