基于渐近式k-means聚类的多行动者确定性策略梯度算法

刘全, 刘晓松, 吴光军, 刘禹含

PDF(2696 KB)
PDF(2696 KB)
吉林大学学报(理学版) ›› 2025, Vol. 63 ›› Issue (03) : 885-894. DOI: 10.13413/j.cnki.jdxblxb.2024028

基于渐近式k-means聚类的多行动者确定性策略梯度算法

  • 刘全, 刘晓松, 吴光军, 刘禹含
作者信息 +
History +

摘要

针对深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering, MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果.

关键词

深度强化学习 / 确定性策略梯度算法 / k-means聚类 / 多行动者

中图分类号

TP18

引用本文

导出引用
刘全, 刘晓松, 吴光军, 刘禹含. 基于渐近式k-means聚类的多行动者确定性策略梯度算法. 吉林大学学报(理学版). 2025, 63(03): 885-894 https://doi.org/10.13413/j.cnki.jdxblxb.2024028

基金

国家自然科学基金(批准号:62376179); 新疆维吾尔自治区自然科学基金(批准号:2022D01A238); 江苏高校优势学科建设工程项目

评论

PDF(2696 KB)

Accesses

Citation

Detail

段落导航
相关文章

/