知识数据混合驱动的策略学习及在兵棋决策中的运用

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 硕士学位论文

题名	知识数据混合驱动的策略学习及在兵棋决策中的运用
作者	刘轩
答辩日期	2022-05-17
文献子类	硕士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	倪晚成
关键词	复杂对抗环境认知智能知识数据混合驱动状态回溯分层决策陆战兵棋
学位名称	工学硕士
学位专业	计算机应用技术
英文摘要	人工智能技术从感知智能逐渐迈进聚焦强智能体理解、推理、决策等能力的认知智能时代。深度神经网络支持下的数据驱动策略学习成为人工智能领域的前沿热点，涌现出AlphaGo，AlphaStar，OpenAI Five， Deepstack等诸多达到甚至超过人类水平的智能体。但复杂对抗环境，尤其是不完美信息复杂对抗环境中的决策问题远未得到解决。复杂对抗环境带来的超高维的状态、动作空间和长时间等导致了巨大的探索空间，需要消耗海量的计算资源；不确定性信息集和稀疏奖励等问题导致了低效的评估体系问题，使得智能体的训练难以向更优策略收敛。针对复杂不完美信息对抗环境下的智能决策问题，本文提出了一种基于OODA决策环理论模型的即时策略对抗智能体框架；设计了融合历史态势信息的态势表示学习方法，增强智能体的态势认知能力；将决策模块划分为数据驱动的上层宏观策略学习和知识驱动的底层微观操作规则两个层级，提出了一种将知识引入学习模型的技术途径；并以陆军战术兵棋为验证环境，实现了一个具备较强对抗能力且能快速收敛的智能体。本文具体研究内容如下：（1）设计了基于OODA环的知识数据混合驱动智能体决策框架，将智能体决策生命周期设计为由“感知 – 推理 – 决策 – 控制”四个阶段构成的往复循环过程。相较于端到端的智能体决策框架，对单次决策循环中各阶段核心功能解耦，组合实现更灵活，有助于开展对智能体构建和策略学习关键技术轻量化研究，为知识、数据的融合奠定基础。并依此构建简单兵棋智能体实例，充分论证了决策框架的理论价值和可行性；进行复杂对抗环境下奖励塑造方法研究，推动智能体策略学习过程，为后续智能体决策生命周期相应阶段的优化奠定基础。（2）针对复杂对抗环境下关键要素繁多导致的状态空间高维，和信息不完全导致的真实状态不确定性带来的态势认知挑战，提出了一种基于注意力机制的状态回溯态势表示方法。该方法利用状态特征的空间聚集分布特性，采用以CNN为核心的单帧态势抽取模型，并在此基础上，充分利用状态间的时序耦合依赖关系，构建历史态势序列，借助两种注意力机制单向注意力回溯和全注意力回溯自动进行时序融合，避免了时序关系高难度、复杂的显式建模。相比起仅基于当前态势进行决策的智能体，基于该方法认知态势的智能体，由于充分利用了历史态势信息，具备更出色的状态回溯能力，进而在直接对抗结果中胜率分别为81%和65%。此外，还对智能体对历史态势序列的关注程度深入分析，有效论证了单向注意力回溯模式下的智能体对关键帧态势的捕获能力。（3）针对庞大的探索空间与低效的策略评估体系的特性导致的决策难、收敛难挑战，吸收了知识、数据两类驱动方法的优势，优化智能体决策阶段，提出了基于任务知识体系的知识数据混合驱动分层决策方法，将智能体决策阶段划分为：数据驱动的上层宏观策略决策和知识驱动的底层微观操作决策，并相应调整了智能体训练流程。在真实兵棋推演环境下，仅采用最终奖励回传作为驱动训练该方法构建的智能体，与知识驱动的强智能体“紫冬智剑”直接对抗，胜率高达89%。同比基于原始动作空间决策，较完备奖励塑造训练的智能体，增幅22%，且能快速收敛。证明了该方法通过知识的引入，缩减了决策广度，避免了冗余探索；并通过动作联结，降低了决策深度，便于奖励回传。
语种	中文
页码	99
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/48801]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	刘轩. 知识数据混合驱动的策略学习及在兵棋决策中的运用[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们