题名基于时空信息分析的人的姿态与行为感知
作者司晨阳
答辩日期2021-05-19
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师谭铁牛
关键词多视角人体图像合成 对抗学习 人的行为识别 人体姿态 半监督学习
学位专业模式识别与智能系统
英文摘要

基于计算机视觉的人体感知技术是一个复杂和重要的研究课题,且具有非常大的科学价值。美国著名心理学家艾伯特. 赫拉伯恩曾经提出:信息交流的结构=7% 语言+38% 语调语速+55% 表情和动作,因此在人体感知任务中对姿态行为的表示与理解尤其重要。虽然相关研究已经取得了一些进展,但是现有方法和技术仍然存在着不足之处,相关理论和技术研究具有较大改善的空间。

      时空信息是人体姿态行为的基本构成元素,在非受限环境下,人体图像视频在空间和时间域的复杂状态为基于视觉的人体感知带来了巨大的挑战。本论文围绕如何设计有效的学习方法来对人体姿态行为的时空信息进行学习与理解的问题展开,系统深入地重点研究了人体时空结构信息:首先针对空间多视角感知层面,研究了多视角人体动作图像合成中姿态理解与表达的问题;接着分别以时空层次感知和时空协同感知为依据,深入探索了人的行为序列数据中自动提取行为时空特征的难题;最后,针对人的行为感知中严重依赖大量标注数据的现象,探讨了半监督时空感知的研究问题。本文取得的研究成果主要包含以下四项:

  1. 多视角人体动作图像合成任务涉及了人体空间多视角感知的难题。为此,本文提出基于人体姿态的多视角人体动作图像合成方法,通过对低维度人体姿态的分析和理解,以解决人体动作的多变性、不同视角下人体二维姿态的巨大差异性给多视角人体图像合成带来的挑战。此外,为了保证合成新视角图像的外观特性与原始视角图像的一致性,该方法提出设计模块化网络和多阶段对抗学习的策略确保人体图像具有正确的外观。具体而言,该方法包含了三个阶段,由低维人体姿态逐步合成最终的高维人体图像。在第一阶段,姿态转换网络根据输入的原视角人体骨架和目标视角信息来合成目标视角的人体骨架数据。在第二阶段,前景转换网络根据预测的目标视角人体骨架信息与原视角下的人体外观信息来合成目标视角下的人体前景图像。最后在第三阶段,一个背景转换网络用于生成具有清晰背景的目标图像。为了解决均方误差损失函数引起的图像模糊的问题,在多阶段使用对抗训练提升图像合成质量。

  2. 基于骨架的行为识别是从给定的骨架视频数据中提取运动特征用于预测人的行为类别,为了解决如何高效地从骨架序列中提取复杂的时空特征,提出了层级空间推理和时序叠加学习网络,以时空层次感知的方式分别建模人体的空间结构特征和时序动态特征。人的行为发生是由人体各个部位协调完成的,例如行走需要腿和手臂的相互协调完成,该模型中的层级空间推理网络利用一个层级残差图神经网络挖掘人体的空间结构依赖关系,进而有效地表示人体的空间特征。此外,人体的时序运动信息在行为识别中是另一个非常重要的判别依据,模型中的时序叠加学习网络可以获取长时间骨架序列的详细运动特征。在训练过程中,进一步提出一个基于视频片段的增量损失函数可以进一步提升时序叠加学习网络的学习能力,为解决长序列优化问题提供了一种有效的方法。

  3. 上述工作中已经证明了描述人体的空间结构依赖关系和时序动态特征对行为识别是非常重要的信息,虽然该方法在行为识别上表现出非常优秀的性能,但是忽略了时间域和空间域的协同感知。考虑到人体骨架视频天然具备多种依赖关系,即每一帧内的空间依赖关系、不同帧之间的时序依赖关系、还有空间域和时间域的同现关系,提出一个注意增强的图卷积递归神经网络用于基于骨架的行为识别任务。图卷积递归神经网络不仅可以有效地捕获骨架序列的空间依赖关系和时序动态特征,而且可以探索空间域和时间域同步发生的依赖关系。此外,该模型采用视觉注意机制来自适应地选择与运动类别相关的关节点信息,而且加强这些信息在网络中的传递,促使学习到更具有判别性的细节运动特征。

  4. 针对人的行为识别领域需要依赖大量的标注数据来训练模型的现状,探讨了半监督的行为识别任务。自监督学习已经被证明可以利用辅助任务(Pretext Task)从大规模无标签数据中学习到丰富的语义特征。因此,本论文首次提出将自监督学习和半监督人的行为识别任务结合,即基于对抗的自监督学习方法,该方法通过对抗学习和探索近邻一致性将自监督学习耦合到半监督行为识别任务中。具体而言,首先设计了一个有效的自监督方法学习无标签数据的语义信息,即通过探索邻域内的样本关系来提高对基于骨架的行为识别任务的表征学习能力。又进一步提出了通过对抗训练的正则化用于解决有标签样本和无标签样本的表征分布不一致问题。大量实验证明,在半监督的行为识别任务中,提出的方法与现有的半监督方法相比具有更好的性能。

      综上所述,本论文围绕人体的空间多视角感知、时空层次感知与、时空协同感知和半监督时空感知的科学问题展开了深入研究,并在多视角人体图像合成、人的行为识别和半监督行为识别等人体感知任务中取得了优越的性能。

 

语种中文
页码142
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/44443]  
专题自动化研究所_智能感知与计算研究中心
通讯作者司晨阳
推荐引用方式
GB/T 7714
司晨阳. 基于时空信息分析的人的姿态与行为感知[D]. 中国科学院自动化研究所. 中国科学院大学. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace