题名 | 基于注意与记忆机制的视觉描述 |
作者 | 王君波 |
答辩日期 | 2019-12 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 谭铁牛 |
关键词 | 视觉描述 注意与记忆机制 长序列建模 模态相关性 关系学习 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 视觉描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其任务目标是利用计算机生成一段文字去描述图像或视频里的视觉内容。随着基础设备和互联网的普及,视觉描述在人机交互、盲人导航、跨模态检索等场景中具有很多的应用需求。该任务对于人类来说非常容易,但是对于机器却具有非常大的挑战性。首先它需要算法去检测出视觉内容中的目标、属性、行为、关系等细节信息,还需要一个强大的语言模型来生成语法结构合理的句子,最后还需要算法能够准确合理地将这些视觉信息映射到语言模型能够理解的语义空间。传统的视觉描述方法一般都是通过端到端的深度卷积网络和递归神经网络来完成从视觉内容到文本的生成,而并不能很好地对视觉内容和文本元素之间的映射关系进行建模。鉴于注意与记忆机制在视觉模态与语言模态之间的对应关系建模的有效性,本论文将从注意与记忆机制出发来探索更加有效的视觉描述算法。本论文的具体工作概况如下:
本文提出的一系列方法解决了视觉描述领域的许多重要问题,并在许多不同的视觉描述基准数据集上取得了很好的实验结果。同时,本文的研究工作也指出了视觉描述技术应用于实际场景的一些关键问题,进而为后续的研究提供了一些参考方向。 |
语种 | 中文 |
页码 | 132 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/28357] |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 王君波. 基于注意与记忆机制的视觉描述[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2019. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论