CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于深度强化学习的群体协同决策方法研究
作者吴士广
答辩日期2022-05-24
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师易建强 ; 蒲志强
关键词群体系统 协同决策 深度强化学习 多智能体强化学习 图注意力网络
学位名称工学博士
学位专业控制理论与控制工程
英文摘要

  群体智能是指许多个体(智能体)通过交互、协作涌现出复杂群体行为的一 种智能形态,为很多极具挑战性问题提供了崭新的解决方案,在城市安防、应急 救援、军事对抗等领域,具有广泛的应用前景和价值。群体协同决策是群体智 能的一个重要问题,受到了诸多领域科研人员的关注。然而,由于群体环境复杂 动态多变,提升群体协同决策能力的难度与复杂度较大。近年来深度强化学习 由于其较强的自学习和探索能力,为群体协同决策问题提供了新思路。但现有 的深度强化学习方法在提升合作、对抗等场景下的群体协同决策能力,仍有诸 多问题和挑战。为此,本文以提升群体协同决策能力为研究目标,按照个体数 量由少到多、群体任务由简单到复杂、群体协作对象由同构到异构的研究过程, 围绕合作、对抗两类典型场景开展研究。首先从群体环境中局部观测、局部通 信的特性出发,研究基于图神经网络与注意力机制的群体协同决策方法;其次针 对复杂多任务的合作场景,研究基于领域知识与数据共同驱动的群体协作决策 方法;再次针对群体对抗环境中对手策略不可知问题,研究基于关系图推理的群 体协作对抗方法;最后针对群体对抗环境中多样性策略需求,研究基于认知驱动 的群体多样性策略学习方法。本文的主要工作与创新点归纳如下:

  1. 针对群体环境中局部观测、局部通信带来的信息动态多变问题,提出了 基于图神经网络与注意力机制的群体协作决策方法。一方面,利用先验知识对 观测信息进行分组,设计了观测分组注意力网络对分组后的信息进行分别地处 理,以提高智能体在动态环境下处理动态变化信息能力。另一方面,基于图注意 力机制,设计了意图通信网络,将智能体的观测意图进行传递,提高智能体对环 境的理解,促进智能体之间合作。仿真结果表明该方法可以有效处理动态环境 下的信息动态变化问题,提高智能体在动态环境下的协同决策能力。

  2. 针对复杂多任务的群体协同策略难以学习问题,以多目标覆盖且连通保 持任务为背景,提出了基于领域知识与数据共同驱动的群体协同决策方法。基 于连通保持和目标覆盖的领域知识,设计了两阶段的奖励函数用于引导连通保 持下的协同覆盖策略学习,逐步提升策略性能。此外,基于连通保持控制模型, 设计了连通性保证的动作过滤器,以滤除导致群体通信链路断开的动作,从而保证协同覆盖策略中连通保持的可靠性。仿真和实物实验结果都表明该方法既能 覆盖尽可能多的目标,又能保证群体的通信拓扑连通。

  3. 针对群体对抗环境中对手策略不可知问题,提出了基于关系图推理的协 作对抗决策方法。基于图注意力机制分别设计了智能体图推理和对手图推理, 以提取智能体层面和对手层面的表征信息。此外,基于推理得到的对手层面表 征通过内在奖励对对手的未来状态进行预测,从而有效处理对手动作空间未知 问题。仿真结果表明该方法可以有效处理对手策略不可知问题,提高智能体在 对抗环境下的协同决策能力。

  4. 针对群体对抗环境中多样性策略难以学习问题,提出了基于认知驱动的 群体多样性策略学习方法。基于智能体的局部轨迹设计了态势认知模块和自我 认知模块。此外,分别设计了基于互信息理论的正则化项来保证态势认知学习 和自我认知学习的有效性和准确性。 最后,设计了认知参数化机制将智能体的 两种认知编码成具有智能体个性的决策参数,以促进多样性策略生成。仿真结 果表明提出方法能够学习有效的认知,并且学习到有效的多样性策略,从而提升 学习速度和学习性能。

  总体而言,本文从提高群体在合作、对抗两类典型场景的协同决策能力出 发,深入研究合作环境下信息动态多变性和复杂多任务的协同策略难以学习,以 及对抗环境下对手策略不可知和多样性策略难以学习等问题,提出了一系列基 于深度强化学习的群体协同决策方法,所取得的研究成果具有重要理论和实际 应用价值。

语种中文
页码158
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48716]  
专题毕业生_博士学位论文
通讯作者吴士广
推荐引用方式
GB/T 7714
吴士广. 基于深度强化学习的群体协同决策方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace