基于深度强化学习算法的车辆行为决策研究

陈名松, 张泽功, 吴冉冉, 吴泳蓉

桂林电子科技大学学报 ›› 2022, Vol. 42 ›› Issue (01) : 29-35. DOI: 10.16725/j.cnki.cn45-1351/tn.2022.01.008

基于深度强化学习算法的车辆行为决策研究

  • 陈名松, 张泽功, 吴冉冉, 吴泳蓉
作者信息 +
History +

摘要

针对传统的DDPG算法训练时间长和收敛速度慢的问题,提出一种将引导式学习和优选经验回放机制相结合融入DDPG的算法。改进的DDPG算法在训练初期的动作输出为引导式学习和策略网络共同作用的结果,后期引导式学习不再参与控制。同时引入经验池分离技术,将优势经验样本和劣势经验样本分开存储和固定比例随机抽取。在TORCS平台上进行车辆决策测试,结果表明,改进后的DDPG算法可有效减少训练时间,提升有效行驶距离,提高算法效率。

关键词

深度确定性策略梯度算法 / 引导式学习 / 优选经验回放 / TORCS

中图分类号

U463.6 / TP18

引用本文

导出引用
陈名松, 张泽功, 吴冉冉, 吴泳蓉. 基于深度强化学习算法的车辆行为决策研究. 桂林电子科技大学学报. 2022, 42(01): 29-35 https://doi.org/10.16725/j.cnki.cn45-1351/tn.2022.01.008

基金

认知无线电与信息处理教育部重点实验室主任基金(CRKH80102); 桂林电子科技大学研究生教育创新计划(2018YJCX29)

评论

Accesses

Citation

Detail

段落导航
相关文章

/