面向机械臂控制的强化学习方法研究

CORC > 沈阳自动化研究所 > 中国科学院沈阳自动化研究所 > 机器人学研究室

题名	面向机械臂控制的强化学习方法研究
作者	胡亚洲 1,2
答辩日期	2020-12-01
授予单位	中国科学院沈阳自动化研究所
授予地点	沈阳
导师	王文学
关键词	机器人控制强化学习值函数近似优势函数自由能原理
学位名称	博士
其他题名	Reinforcement Learning Algorithms for Robotic Manipulator Control
学位专业	机械电子工程
英文摘要	强化学习（Reinforcement Learning，RL）是通过智能体（Agent）不断地对所处环境（Environment）进行探索和利用并根据奖励（reward）进行的一种经验学习。由于其具有自主学习能力且能够模拟人类和动物的学习过程而被认为是一种能有效解决控制与决策问题的机器学习方法。RL 已被广泛应用在工业制造、游戏博弈、生物医药、经济决策等领域中，尤其在机器人控制方面取得了巨大的成功，如ANYmal 机器人、机械手Dynamixel Claw 等。然而，将强化学习应用在机械臂控制上仍有一些亟待解决的问题，比如维度灾难、动力学转移模型不精确、学习目标不明确以及探索与利用的平衡等等。因此，开展面向机械臂控制的RL 技术方面的研究，具有较为重要的理论意义及工程应用指导价值。本文通过阅读、分析和综合国内外RL、机器人控制等相关的技术报告及文献资料，开展面向机械臂控制的RL 方法的研究。主要的贡献集中在以下几个方面：(1) 提出了基于核函数的强化学习方法。基于模型的强化学习（Model-based Reinforcement Learning, MBRL）具有样本利用率高、学习速度快的特性，但依赖转移模型，且其学习性能易受模型精度的影响；无模型的强化学习（Model-free Reinforcement Learning, MFRL）无需先验知识和转移模型参与优化，但算法的收敛速度慢、样本需求量大。本研究提出了基于核函数的强化学习方法，建立了描述训练样本内部规律的核函数模型，重新定义了强化学习的状态，构建了机器人动作和状态的转移模型，实现了MBRL 和MFRL 优势的结合。实验验证了该方法在机械臂的跟踪控制任务中具有训练时间少、跟踪误差小、能耗低等优点。(2) 提出了基于神经网络的强化学习方法。根据神经网络函数近似技术，提出了基于神经网络的强化学习方法，构建了一种强化学习神经网框架，实现了强化学习中状态、控制策略和性能评价的在线估计；利用值函数优化技术实现了对状态、动作和评价网络的优化，降低了模型精度和对连续信息离散化导致的维度灾难对学习性能的影响。实验验证了该方法在非线性条件下具有一定的鲁棒性。(3)提出了数据驱动的双优势网络模型预估强化学习方法。基于模型预估控制（Model Predictive Control, MPC）能够通过对未来信息的评估实现对控制策略学习的特点，提出了双优势模型预估强化学习方法，建立了双优势导向网络加快了学习过程；引入双优势导向网络对抗学习机制，打破了训练数据的关联性，避免了陷入局部最优和不收敛的现象。实验验证了该方法能够在安全约束条件下实现较好的跟踪和运动控制。(4)提出了基于自由能的强化学习方法。借鉴人脑的工作机理，结合能够有效平衡探索与利用关系的自由能原理构建了基于贝叶斯的控制策略概率模型和基于交叉熵的自由能目标函数，一定程度上实现了强化学习中探索与利用的平衡关系，并在具有系统参数不确定和外界扰动的条件下通过实验验证了该方法的有效性。
语种	中文
产权排序	1
页码	120页
内容类型	学位论文
源URL	[http://ir.sia.cn/handle/173321/27978]
专题	沈阳自动化研究所_机器人学研究室
作者单位	1.中国科学院沈阳自动化研究所 2.中国科学院大学
推荐引用方式 GB/T 7714	胡亚洲. 面向机械臂控制的强化学习方法研究[D]. 沈阳. 中国科学院沈阳自动化研究所. 2020.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们