CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名面向分类和检索的视觉表达学习
作者赵放
学位类别工学博士
答辩日期2015-05-21
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师王亮
关键词表达学习 主题模型 深度学习 视觉分类 视觉检索 Representation Learning Topic Model Deep Learning Visual Classification Visual Retrieval
其他题名Learning Visual Representation Towards Classification and Retrieval
学位专业模式识别与智能系统
中文摘要随着社会迈入数字化信息时代,快速增长的图像和视频量给数据管理和分析带来了巨大挑战,使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉特征的选择是这些技术中的关键环节。传统的特征提取框架依赖于手工设计的特征,不能直接反映出对视觉分类和检索至关重要的语义信息。相比之下,近些年发展起来的表达学习模型可以自动的挖掘数据中的统计结构和相关性,学习更为抽象的语义表达。 本文针对分类和检索问题,着重研究单层和深度学习模型的视觉特征表达学习,提出了新的表达学习模型,并用于处理复杂视觉数据。主要研究内容和创新点如下: 1、提出了一种基于无向主题模型的紧凑视频主题表达用于网络视频检索。该方法通过聚合词袋表示中视觉单词中不同的主题特征,将无向主题模型中的二进制隐含单元扩展为非负线性隐含单元,使其能够表示主题间的相对强度,从而更具区分力。同时,为了提高表达的可解释性,引入稀疏约束正则项控制主题的稀疏性。进一步,开发了一种随机梯度下降算法用于训练扩展的无向主题模型。与原始词袋表示和其他主题表达相比,提出的主题表达在检索性能和维度降低上都有着更好的表现。 2、提出了一种类相关受限玻尔兹曼机模型来学习无结构的群体行为和事件的中层语义表达,并用于视频分类和检索。该方法将稀疏贝叶斯学习与受限玻尔兹曼机(RBM) 结合来学习具有区分力的与视频类相关的稀疏隐含特征;用非负线性单元替换RBM中的二进制随机隐含单元来更好的解释复杂视频内容,并使得提出的模型能够进行变分推理;开发了一种有效的变分EM算法用于模型的参数估计和推理。相比其它的一些隐变量概率图模型,提出的模型所学到的类相关特征提供了对视频数据更具有区分力的语义描述,在分类准确率和检索精度上获得了最好结果,尤其是在只使用很少的有标签训练样本的情况下。 3、提出了一种基于深度语义排序的方法来学习哈希编码,并用于多标签图像分类和检索。该方法利用深度卷积神经网络来构建一种多层的非线性哈希函数,并且根据图像的多标签信息推导出图像间的语义相似度排序用于这种深度哈希函数的监督学习。在此基础上,使用一种基于代理损失函数的策略来解决模型学习过程中非光滑的多变量排序度量优化问题。提出的哈希编码能够保留多标签数据中复杂的多级语义结构,在排序质量上要优于当前一些最好的哈希编码方法,并且具有很好的分类效果。
英文摘要As the society has entered the digital information age, the rapid growth of the amount of images and videos has brought great challenges to visual data management and analysis, thus the intelligent visual classification and retrieval technologies attract more and more attention. The selection of visual features is the key step of these techniques. The traditional feature extraction framework relies on hand-crafted features, and it can not directly reflect semantic information which is very important for visual classification and retrieval. In contrast, representation learning is able to automatically discover the statistical structure and correlation of data and learn more abstract semantic representation. This paper focuses on visual representation learning of single and deep models for the classification and retrieval, proposes new representation learning models for complex visual data. The main studies and innovations are as follows: 1. Propose an unsupervised approach based on an undirected topic model to discover a compact topical video descriptor for web video retrieval. Through aggregating different topic features of words in a bag-of-words, we generalize binary topic units in the undirected topic model to nonnegative real-valued units which are more expressive about relative strength of topics. Also, to make the descriptor more interpretable, we impose an L1 regularizer on hidden unit activations to control the topical sparsity. Compared with the BoW and other topical representations, the proposed compact descriptor has better performance in web video retrieval. 2. Propose a Relevance Restricted Boltzmann Machine to learn a low-dimensional latent semantic representation for unstructured group activities and events classification and retrieval.Our model is a variant of the Restricted Boltzmann Machine (RBM) with a number of critical extensions: sparse Bayesian learning is incorporated into the RBM to learn features which are relevant to video classes, i.e., discriminative; binary stochastic hidden units in the RBM are replaced by rectified linear units in order to better explain complex video contents and make variational inference tractable for the proposed model; and an efficient variational EM algorithm is formulated for model parameter estimation and inference. The relevant features learned by our model provide better semantic and discriminative description for videos than a number of alternative supervised latent variable models, and ...
语种中文
其他标识符201218014628085
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/6670]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
赵放. 面向分类和检索的视觉表达学习[D]. 中国科学院自动化研究所. 中国科学院大学. 2015.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace