CORC  > 自动化研究所  > 中国科学院自动化研究所
题名基于关系学习与知识迁移的多媒体内容理解与应用
作者宋亚光
答辩日期2023-05-20
文献子类博士
关键词多媒体内容理解 多模态 关系学习 知识迁移 个性化
英文摘要

随着移动互联网和社交媒体的快速发展,网络多媒体数据的获取和传输变的更为便捷,多媒体大数据应运而生。海量的多媒体数据亟需智能的多媒体内容理解技术。多媒体内容理解是一个融合多媒体数据低级特征信息和高层语义信息的过程,其最终目的是服务于使用者的需求。高效的多媒体内容理解技术可以使计算机智能地完成各种多媒体相关的任务,如多媒体检索与推荐、多媒体问答等,因此开展本研究具有重要的理论意义和应用价值。

网络多媒体数据具有(1)语义鸿沟,(2)模态多样,(3)分布差异大,(4)用户需求繁杂多变等特点。这些特征在多媒体数据中表现为纷繁复杂的关系与知识结构,因此为多媒体内容的智能理解带来了巨大的挑战。事实上,针对多媒体内容中复杂多样的关系模式以及蕴含的知识进行学习对深入理解多媒体内容是至关重要的。因此,本文以面向关系学习与知识迁移的深度学习方法为技术基础,首先针对多媒体数据内部关系,研究基于层级关系的多模态紧致表达。进一步为了应对快速迭代的多媒体数据,针对多媒体数据不同模态以及不同领域知识之间的关联,研究基于关系知识指导的多模态模型增量学习以及基于多模态预训练模型的隐含知识迁移。最后探索了属性关系驱动的多模态个性化表示,并将这些多媒体内容理解方法应用到多媒体相关的检索、问答与推荐应用中。

论文的主要工作和创新点归纳如下:
1. 基于层级关系的多模态紧致表达。随着互联网和社交媒体的迅速发展,网络多媒体数据呈爆发式增长,这给多媒体检索等应用带来了极大的挑战。除了巨大的数据规模,网络多媒体平台上产生的多模态时序数据在时间维度上往往存在大量信息冗余。现有的多媒体内容理解方法难以有效解决语义表示的信息冗余问题,难以获取更优的细粒度紧致语义表示,从而导致多媒体应用无法满足用户更精细化的需求,例如更细粒度的内容检索和呈现。为了应对上述挑战,本文首先提出了一站式多媒体内容呈现任务,并进一步提出了基于层级图的多模态紧致表达框架。该框架利用图神经网络挖掘不同层级数据之间的关联性,完成特征之间的融合,最终得到紧致的多模态表示。在一站式多媒体内容呈现任务上,该方法优于现有方法,验证了其学习多媒体内容紧致表示的有效性。

2. 关系知识指导的多模态模型增量学习。随着社会的快速发展和各种多媒体应用提供的便利性,网络多媒体应用中的数据不断涌现并快速迭代。新数据中可能包含新的模态形式,因此需要模型具备持续学习的能力,既能高效地从新的模态中获取知识,同时不会忘记已有模态中的信息。目前的研究主要关注于单模态场景中类别语义不断变化的问题,缺乏对多媒体应用中模态不断变化场景的研究。因此,本文首先定义了模态增量学习场景。进一步,本文构建了可用于统一建模不同模态数据的模态增量基础模型,并基于不同任务和模态之间的关联,提出了原型关系建模算法,用于缓解旧模态知识的遗忘并辅助新模态语义的学习。在模态增量任务上的实验结果验证了本方法的有效性。

3. 基于多模态预训练模型的隐含知识迁移。由于互联网的快速发展和智能设备的普及,用户可以在不同的时间和地点上传各种形式的信息,使得多媒体大数据具备分布差异大的特点。在特定分布的多媒体数据上训练得到的模型,面对真实场景下未知分布的测试数据时,其泛化性能无法得到保证。因此,本文提出了一种基于多模态预训练模型的隐含知识迁移方法。该方法在仅有多模态预训练模型的条件下,预测预训练形式的数据分布,将多模态预训练模型中的通用知识迁移到下游多模态任务模型中。实验结果表明,在视觉问答分布外泛化任务上,本方法可以有效提升多模态模型的泛化能力和鲁棒性。

4. 属性关系驱动的多模态个性化表示学习。多媒体内容理解的最终目的是服务用户。对于多媒体个性化服务,由于多媒体数据量巨大、用户个性化需求多样,仅有用户与多媒体信息的交互往往是不够的,因此如何结合用户与多媒体内容本身的属性信息进行统一的建模便成为关键的问题。目前部分现有方法虽然考虑了多媒体内容的属性信息,但通常只进行了单独的建模以及简单的融合,忽略了属性之间的复杂关系。为了解决该问题,本文提出一种基于自监督异构图网络的多模态个性化表示框架,利用自监督学习与图卷积神经网络以隐式和显式方式对用户-内容-属性异构图进行了复杂关系和用户兴趣建模,在多媒体推荐任务上的实验结果优于已有方法,验证了本方法的有效性。

语种中文
页码124
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/51937]  
专题中国科学院自动化研究所
推荐引用方式
GB/T 7714
宋亚光. 基于关系学习与知识迁移的多媒体内容理解与应用[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace