CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于序列自注意机制的通用视觉模型研究
作者陈志扬
答辩日期2024-05-13
文献子类博士
关键词图像识别 注意力机制 基础视觉模型 通用视觉模型
英文摘要

随着深度神经网络的快速发展,近年来通用人工智能技术已经取得了重大的研究突破。特别是基于序列自注意机制的通用语言模型,例如ChatGPT,通过在大规模数据集上学习训练,已经在众多自然语言处理任务上展现出了优秀的模型性能和广泛的适用性。与此同时,作为自然界中最为常见的信息载体之一,准确地感知和理解图像内容对于实现更全面的通用人工智能至关重要。因此,构建能够普遍理解图像信息、执行多样化视觉任务的通用视觉模型,已经成为了通用人工智能研究领域的一个核心挑战。

 

本文致力于构建具备广泛视觉任务处理能力的通用视觉模型,特别是探索如何在序列自注意机制的基础上,通过创新的模型架构和训练算法设计,实现能够在常见视觉任务上保持较高性能,并可以灵活处理多样化需求的通用视觉模型。该模型的构建过程主要面临以下挑战。首先,不同视觉任务在任务定义和输入图像内容上存在显著差异,目前缺乏适应多样化视觉输入的通用图像编码网络,以及能够覆盖多样化输出形式的解码结构;其次,通用视觉模型的图像细节感知能力尚显不足,在复杂场景中难以确保输出内容的准确性,存在“幻觉”现象;此外,通用视觉模型计算复杂度往往较高,难以在资源受限的实际场景中应用部署。针对上述挑战,本文首先以序列自注意机制为基本工具,构建具备广泛视觉任务处理能力的通用视觉编码-解码模型。然后,本文探讨了该模型在面对复杂开放场景及资源受限环境时的模型设计和训练策略,以提升模型效率和实用性。

 

本文的主要研究成果和贡献归纳如下:

 

1. 针对序列自注意机制难以感知二维空间结构、图像特征能力较弱这一问题,本文提出了一种基于可形变自注意力的通用特征编码结构。该结构旨在为通用视觉模型提供更为精确的图像特征表示。通过引入可形变划块方法,所提出的自注意视觉编码器能够在特征序列编码阶段动态调整图像块的尺寸和位置,以捕获图像中详尽的局部语义信息,进而有效地提取通用图像特征。在图像分类、目标检测等视觉任务的实验中,基于可形变自注意力的通用特征编码结构显著提升了这些任务的性能,验证了该编码器结构的广泛适用性和有效性。

 

2. 针对计算机视觉任务的输出形式复杂多样,单个模型难以统一解码不同任务输出这一问题,本文提出了一种能覆盖大多数视觉任务的通用任务定义形式:以物体为基本单元,基于图像和类别提示输入的多序列生成任务。基于此定义,本文设计了一种语言引导的视觉目标级自注意解码结构。该结构能够将类别文本标签作为输入,然后以序列这一通用输出格式为图像中每个物体生成符合不同任务要求的结果。通过调整输入类别,以及输出序列内的具体内容,该解码结构具备了解码不同视觉任务输出的能力。实验表明,所提出的视觉解码结构在多个经典视觉任务上取得了与专用模型相媲美的性能水平,并且额外的类别输入也进一步提升了模型在开放环境中的可控性和通用性。

 

3. 针对通用视觉模型对图像的局部细粒度信息感知能力弱这一问题,本文对通用视觉模型中普遍存在的“幻觉”现象进行深入研究,并从构造高质量训练数据、引入像素级视觉监督两方面提升通用视觉模型的细粒度理解能力。一方面,基于图像中的细节物体关系标注,本文构建了更关注图像细粒度和抽象关系特征的图文指令微调数据;另一方面,本文引入物体的像素级掩码预测损失作为辅助监督,显式地引导模型聚焦于与上下文高度相关的区域。这些方法均能够增强其在图文多模态输入下的细粒度图像理解能力。此外,本文划分了不同的“幻觉”类型,提出了能为通用视觉模型提供更详细“幻觉”指标的评测数据集。实验表示,本文方法能有效地提升通用视觉模型输出结果的准确性,缓解“幻觉”现象。

 

4. 针对通用视觉模型参数量和计算复杂度高,难以在资源受限的实际场景中部署这一问题,本文提出了一种通用的视觉自注意模型轻量化方法。本文首先对通用视觉模型的复杂度进行深入分析,指出高维全连接模块普遍对计算量有着较大需求。因此,本文提出了一种轻量化的稀疏全连接模块。该模块是一个即插即用的模块,能够普遍减少不同视觉自注意模型的计算量。一方面,该模块通过引入分组线性层和通道混洗操作,减少了高维全连接层在通道间的计算量,另一方面,该模块在空间维度下采样以融合局部特征,使得不同图像块之间可以共享相似特征运算,从而在不影响模型性能前提下,大幅减少其参数量和计算量。在一系列视觉模型上的实验,均充分验证了该模块的有效性和通用性,具备为通用视觉模型提升效率的能力。

语种中文
页码132
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/56643]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
陈志扬. 基于序列自注意机制的通用视觉模型研究[D]. 2024.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace