题名基于多智能体强化学习的城市道路交通信号控制
作者刘皓
答辩日期2021-05-26
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师吕宜生
关键词交通信号控制 强化学习 多智能体 车联网
学位专业控制工程
英文摘要

随着社会经济的不断发展,汽车保有量迅速上升,城市道路交通拥堵问题日益突出。交通拥堵不仅增加了人们的出行时间,而且还带来了能源消耗、环境污染等一系列问题。交通拥堵已经成为城市进一步发展的瓶颈,是全世界许多国家亟待解决的一个难题。合理的交通信号灯控制方案能够减少交叉口处的排队长度,有助于缓解交通拥堵。但由于道路交通系统具有非线性、时变性、不确定性等特点,无法利用精确的数学模型对道路交通系统进行建模和优化控制。近年来,越来越多的学者利用强化学习无需被控对象数学模型、只需少量甚至无需先验知识、通用性强的特点来进行交通信号控制。

本文面向传统道路环境和车联网环境下的多路口交通信号控制问题,通过考虑多智能体间的通信和信息共享,设计了基于多智能体强化学习的交通信号控制方法,并在所构建的强化学习交通仿真环境中进行了实验验证。主要工作包括以下几个方面:

1. 针对现阶段交通信号控制问题实际场景实验成本高且容易造成不良后果的问题,本文首先面向交通信号控制问题进行了强化学习建模,然后搭建了面向基于强化学习的交通信号控制的仿真实验平台并建立了交通场景库。相关的实验和分析证明了建模的有效性以及使用仿真实验平台将强化学习应用于交通信号控制问题的可行性,为后续传统道路环境下和车联网环境下基于强化学习的交通信号控制问题研究提供了基础。

2. 针对城市大规模路网场景下交通信号控制中多智能体间如何进行信息共享、融合和通信以及如何进行协同控制的问题,本文提出了一种考虑邻近路口信息共享的多路口协同 PPO(Proximal Policy Optimization)控制方法。该方法利用城市道路环境下各交叉口之间的时空关系,融合目标路口周围邻近路口的状态特征和策略特征作为邻近路口间相互传递并共享的消息(Message),实现基于邻近路口信息共享的多路口协同控制。相关的数值仿真实验结果表明,带有通信机制(信息共享)的多智能体强化学习有助于提升路网整体的交通信号控制性能。

3. 针对完全车联网环境下考虑完全观测时可选状态多和状态难以表示的问题,本文提出了一种基于 COPPO(Completely Observable Proximal Policy Optimization)的多路口协同控制方法。该方法通过考虑完全观测的特点,将完全观测下准确的车辆位置和速度信息构成状态矩阵,使用卷积神经网络(Convolutional Neural Network, CNN)来进行特征提取。该方法在仿真场景中进行了验证,相较于部分观测控制具有更好的控制效果。

语种中文
页码80
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/45040]  
专题自动化研究所_复杂系统管理与控制国家重点实验室_先进控制与自动化团队
推荐引用方式
GB/T 7714
刘皓. 基于多智能体强化学习的城市道路交通信号控制[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace