融合信息素机制的大规模多智能体协同技术

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 硕士学位论文

题名	融合信息素机制的大规模多智能体协同技术
作者	JiaHui Zhang
答辩日期	2023-06
文献子类	硕士
关键词	大规模多智能体协同多智能体强化学习信息素机制知识蒸馏
英文摘要	近年来，多智能体协同决策是人工智能的研究热点之一，其中，多智能体强化学习将深度强化学习算法和多智能体结合，取得了较大的研究进展和应用。而在大规模多智能体强化学习中，随着智能体数量的增加，智能体的联合状态和动作空间会呈指数级增长，且环境的动态变化也会更加复杂。这类问题不适用于一般数量的多智能体强化学习方法，需要进行特定的研究和探索。本研究利用信息素机制能有效表示群体态势、信息交换效率高等特点，设计了一种信息素机制，并将它与多智能体强化学习算法融合，为大规模多智能体的协同合作提供了一种新的思路和方法，具体的工作内容如下：设计了一种面向群体协同和信息共享的信息素机制。由于数量庞大，大规模的智能体之间独立通信的难度较大，而信息素对智能体之间的通信要求不高，还能表示群体的态势信息。本研究以智能体的不同动作为维度，将当前状态的不同动作对应的环境奖励作为该智能体当前产生的信息素，并在与环境大小相同的媒介中进行传播和衰减，附近的其他智能体在附近位置感知到该信息素，在信息素和局部观察的同时作用下作出决策，提高智能体的决策和学习效率，实现多智能体的信息共享和高效协同。设计了一种融合全局信息素的大规模多智能体强化学习框架GPQ。在大规模智能体环境中，智能体往往只能获得局部观察信息，全局信息素表示了全部智能体当前的态势信息，可以为智能体提供额外的信息。GPQ同时处理智能体的局部观察信息和全局信息素分布，并利用卷积注意力提取全局信息素的特征，让智能体高效地与周围智能体合作完成任务。设计了一种融合局部信息素的大规模多智能体强化学习框架LPQ。在实际情况中，全局信息素会面临智能体的信息素感知范围有限、全局信息素特征过多从而计算资源增加的问题。LPQ通过知识蒸馏的方法，将智能体在全局信息素输入下学习到的策略转移到局部信息素输入的场景中，让智能体在执行阶段既能用局部信息素输入来帮助自己进行决策，减少网络规模，又能保持从全局信息素输入中学习到的决策能力。经过实验证明，本研究提出的信息素机制和网络模型可以有效提升大规模多智能体的协同效率，在鲁棒性、数量拓展性等方面优于基准算法，在大规模多智能体对战中胜率更高，为大规模多智能体系统的协同提供了一种新的思路和方向。
语种	中文
页码	84
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/52167]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	JiaHui Zhang. 融合信息素机制的大规模多智能体协同技术[D]. 2023.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们