基于SAC算法的多交叉口交通信号控制研究

天津大学学报（自然科学与工程技术版） ›› 2024, Vol. 57 ›› Issue (01) : 105-111.

钱立军, 宣亮, 陈健, 陈晨

作者信息 +

History +

摘要

针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题，提出了基于柔性“行动器-评判器”(softactor-critic,SAC)的交叉口交通信号控制方法，并设计了相应的系统采样策略和回报函数．与原采样策略相比，新采样策略将相邻智能体的策略信息加入到系统状态中，使当前智能体能够得到更多的交叉口交通分布和合作策略信息．与原回报函数相比，新回报函数中引入空间折扣因子，缩小了相邻智能体的观察和回报值，使当前智能体更加关注和改善当前交通状况．随后在此基础上分别应用DQN和SAC算法设计交通信号控制方法．Webster配时法是利用相位流量数据开发的一种基于周期的固定相位长度交通信号方法，与DQN和SAC算法相比，其优化目标是降低交叉口延迟时间，不考虑交叉口排队长度．在城市交通模拟软件(simulation of urban mobility,SUMO)中构建一个时变交通流交通网络，并在其中分别对基于DQN、SAC和Webster配时法的信号配时控制方法进行仿真测试．仿真结果表明：基于SAC算法的交通信号控制方法与基于DQN算法和Webster配时法的交通信号控制方法相比，能够显著减少交叉口排队长度和平均延迟时间，具体来说，车辆平均排队长度分别减少了17.8%和28.2%，平均延迟分别减少了26.8%和36.3%，说明所提出的方法具有更好的控制效果．