基于深度强化学习的群体协同决策方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	基于深度强化学习的群体协同决策方法研究
作者	吴士广
答辩日期	2022-05-24
文献子类	博士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	易建强 ; 蒲志强
关键词	群体系统协同决策深度强化学习多智能体强化学习图注意力网络
学位名称	工学博士
学位专业	控制理论与控制工程
英文摘要	群体智能是指许多个体（智能体）通过交互、协作涌现出复杂群体行为的一种智能形态，为很多极具挑战性问题提供了崭新的解决方案，在城市安防、应急救援、军事对抗等领域，具有广泛的应用前景和价值。群体协同决策是群体智能的一个重要问题，受到了诸多领域科研人员的关注。然而，由于群体环境复杂动态多变，提升群体协同决策能力的难度与复杂度较大。近年来深度强化学习由于其较强的自学习和探索能力，为群体协同决策问题提供了新思路。但现有的深度强化学习方法在提升合作、对抗等场景下的群体协同决策能力，仍有诸多问题和挑战。为此，本文以提升群体协同决策能力为研究目标，按照个体数量由少到多、群体任务由简单到复杂、群体协作对象由同构到异构的研究过程，围绕合作、对抗两类典型场景开展研究。首先从群体环境中局部观测、局部通信的特性出发，研究基于图神经网络与注意力机制的群体协同决策方法；其次针对复杂多任务的合作场景，研究基于领域知识与数据共同驱动的群体协作决策方法；再次针对群体对抗环境中对手策略不可知问题，研究基于关系图推理的群体协作对抗方法；最后针对群体对抗环境中多样性策略需求，研究基于认知驱动的群体多样性策略学习方法。本文的主要工作与创新点归纳如下： 1. 针对群体环境中局部观测、局部通信带来的信息动态多变问题，提出了基于图神经网络与注意力机制的群体协作决策方法。一方面，利用先验知识对观测信息进行分组，设计了观测分组注意力网络对分组后的信息进行分别地处理，以提高智能体在动态环境下处理动态变化信息能力。另一方面，基于图注意力机制，设计了意图通信网络，将智能体的观测意图进行传递，提高智能体对环境的理解，促进智能体之间合作。仿真结果表明该方法可以有效处理动态环境下的信息动态变化问题，提高智能体在动态环境下的协同决策能力。 2. 针对复杂多任务的群体协同策略难以学习问题，以多目标覆盖且连通保持任务为背景，提出了基于领域知识与数据共同驱动的群体协同决策方法。基于连通保持和目标覆盖的领域知识，设计了两阶段的奖励函数用于引导连通保持下的协同覆盖策略学习，逐步提升策略性能。此外，基于连通保持控制模型，设计了连通性保证的动作过滤器，以滤除导致群体通信链路断开的动作，从而保证协同覆盖策略中连通保持的可靠性。仿真和实物实验结果都表明该方法既能覆盖尽可能多的目标，又能保证群体的通信拓扑连通。 3. 针对群体对抗环境中对手策略不可知问题，提出了基于关系图推理的协作对抗决策方法。基于图注意力机制分别设计了智能体图推理和对手图推理，以提取智能体层面和对手层面的表征信息。此外，基于推理得到的对手层面表征通过内在奖励对对手的未来状态进行预测，从而有效处理对手动作空间未知问题。仿真结果表明该方法可以有效处理对手策略不可知问题，提高智能体在对抗环境下的协同决策能力。 4. 针对群体对抗环境中多样性策略难以学习问题，提出了基于认知驱动的群体多样性策略学习方法。基于智能体的局部轨迹设计了态势认知模块和自我认知模块。此外，分别设计了基于互信息理论的正则化项来保证态势认知学习和自我认知学习的有效性和准确性。最后，设计了认知参数化机制将智能体的两种认知编码成具有智能体个性的决策参数，以促进多样性策略生成。仿真结果表明提出方法能够学习有效的认知，并且学习到有效的多样性策略，从而提升学习速度和学习性能。总体而言，本文从提高群体在合作、对抗两类典型场景的协同决策能力出发，深入研究合作环境下信息动态多变性和复杂多任务的协同策略难以学习，以及对抗环境下对手策略不可知和多样性策略难以学习等问题，提出了一系列基于深度强化学习的群体协同决策方法，所取得的研究成果具有重要理论和实际应用价值。
语种	中文
页码	158
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/48716]
专题	毕业生_博士学位论文
通讯作者	吴士广
推荐引用方式 GB/T 7714	吴士广. 基于深度强化学习的群体协同决策方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们