CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名融合信息素机制的大规模多智能体协同技术
作者JiaHui Zhang
答辩日期2023-06
文献子类硕士
关键词大规模多智能体协同 多智能体强化学习 信息素机制 知识蒸馏
英文摘要

近年来,多智能体协同决策是人工智能的研究热点之一,其中,多智能体强化学习将深度强化学习算法和多智能体结合,取得了较大的研究进展和应用。而在大规模多智能体强化学习中,随着智能体数量的增加,智能体的联合状态和动作空间会呈指数级增长,且环境的动态变化也会更加复杂。这类问题不适用于一般数量的多智能体强化学习方法,需要进行特定的研究和探索。本研究利用信息素机制能有效表示群体态势、信息交换效率高等特点,设计了一种信息素机制,并将它与多智能体强化学习算法融合,为大规模多智能体的协同合作提供了一种新的思路和方法,具体的工作内容如下:

设计了一种面向群体协同和信息共享的信息素机制。由于数量庞大,大规模的智能体之间独立通信的难度较大,而信息素对智能体之间的通信要求不高,还能表示群体的态势信息。本研究以智能体的不同动作为维度,将当前状态的不同动作对应的环境奖励作为该智能体当前产生的信息素,并在与环境大小相同的媒介中进行传播和衰减,附近的其他智能体在附近位置感知到该信息素,在信息素和局部观察的同时作用下作出决策,提高智能体的决策和学习效率,实现多智能体的信息共享和高效协同。

设计了一种融合全局信息素的大规模多智能体强化学习框架GPQ。在大规模智能体环境中,智能体往往只能获得局部观察信息,全局信息素表示了全部智能体当前的态势信息,可以为智能体提供额外的信息。GPQ同时处理智能体的局部观察信息和全局信息素分布,并利用卷积注意力提取全局信息素的特征,让智能体高效地与周围智能体合作完成任务。

设计了一种融合局部信息素的大规模多智能体强化学习框架LPQ。在实际情况中,全局信息素会面临智能体的信息素感知范围有限、全局信息素特征过多从而计算资源增加的问题。LPQ通过知识蒸馏的方法,将智能体在全局信息素输入下学习到的策略转移到局部信息素输入的场景中,让智能体在执行阶段既能用局部信息素输入来帮助自己进行决策,减少网络规模,又能保持从全局信息素输入中学习到的决策能力。

经过实验证明,本研究提出的信息素机制和网络模型可以有效提升大规模多智能体的协同效率,在鲁棒性、数量拓展性等方面优于基准算法,在大规模多智能体对战中胜率更高,为大规模多智能体系统的协同提供了一种新的思路和方向。

语种中文
页码84
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52167]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
JiaHui Zhang. 融合信息素机制的大规模多智能体协同技术[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace