基于深度强化学习的无人驾驶船舶避碰行为决策方法

doi:10.16411/j.cnki.issn1006-7736.2024.01.002

PDF(11621 KB)

大连海事大学学报 ›› 2024, Vol. 50 ›› Issue (01) : 11-19. DOI: 10.16411/j.cnki.issn1006-7736.2024.01.002

基于深度强化学习的无人驾驶船舶避碰行为决策方法

关巍, 罗文哲, 崔哲闻

作者信息 +

History +

摘要

为解决无人驾驶船舶的多船避碰问题，结合船舶领域知识、国际海上避碰规则(COLREGs)及船舶操纵特性，提出一种基于深度确定性策略梯度(DDPG)算法的多船会遇避碰行为决策方法。采用门控循环单元(GRU)构建神经网络模型，并进行层归一化处理，可有效处理高维观测数据，提高了行为决策的效率。本文设计的奖励函数符合国际海上避碰规则，并考虑了尽量使用小舵角进行避让的船舶操纵习惯。多船会遇的仿真实验验证了本文避碰决策方法在灵活性和有效性方面的优势。