题名融合置信度的图像文本翻译方法研究
作者伍凌辉
答辩日期2022-05-19
文献子类硕士
授予单位中国科学院大学
授予地点中国科学院大学
导师周玉
关键词置信度 图像文本翻译 鲁棒性神经机器翻译
学位名称中国科学院大学
学位专业模式识别与智能系统
英文摘要

图像文本翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。目前主 流的图像文本翻译系统通常由相互独立的光学字符识别 (Optical Character Recog nition, OCR) 和机器翻译(Machine Translation, MT)模型级联组成。OCR 模型将 图像文本识别成转录文本,MT 模型将转录文本翻译成目标语言。然而在级联模 型中存在着广泛的误差累积的问题,即 OCR 输出的转录文本噪声会引起后续翻 译的错误。然而无论是当前的级联式模型还是缓解噪声文本对翻译影响的鲁棒 性神经机器翻译方法都没有考虑到 OCR 模型输出的置信度信息。因此本文以置 信度为切入点,针对级联模型中的误差累积问题展开相关研究,主要研究内容可 归纳如下两点:

(1) 提出了一种基于置信度门控注意力的图像文本机器翻译方法 目前为缓解噪声文本带来的问题,鲁棒性机器翻译主要采用以下两种方法: 1)使用合成噪声文本,以模拟 OCR 转录带来的噪声;2)利用干净文本和噪声 文本的对比学习,拉近噪声文本和干净文本的分布。未能考虑以下问题:1)忽 视来自 OCR 模型的置信度信息,未能考虑 OCR 和 MT 系统的有效融合;2)仅 采用合成噪声,类型单一,无法覆盖实际噪声类型。针对以上的问题,本文提出 了一种基于置信度门控注意力的图像文本机器翻译方法。不同于以往的级联模 型方法,本文所提方法能将 OCR 字符识别的置信度融入到后续翻译框架中,能 够缓解 OCR 识别错误对后续翻译的影响。此外本文还针对 OCR 转录文本噪声 的特点,设计了相应监督文本来给模型提供子词粒度的对比损失。实验表明,所 提出的方法能够显著提升级联式图像文本翻译模型的翻译性能。

(2) 提出了一种融合置信度和图像信息的图像文本机器翻译方法图像信息能够对置信度较低的单词提供额外信息,为此本文提出了融合置信度和图像信息的图像文本机器翻译方法。通过引入图像编码器来编码图像信息并通过置信度对不同的子词融合图像信息以补充由于引入置信度带来的损失。但由于图像信息中存在着背景,字体颜色等冗余信息,会对模型的泛化性能带来影响。因此本文通过在图像编码器端引入对比学习,使得相同的字符有着相同的表示,从而提升模型的泛化性能。实验表明,在引入图像信息后,所提方法能够进一步提升级联式图像文本翻译模型的翻译性能。

语种中文
页码77
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48562]  
专题模式识别国家重点实验室_自然语言处理
推荐引用方式
GB/T 7714
伍凌辉. 融合置信度的图像文本翻译方法研究[D]. 中国科学院大学. 中国科学院大学. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace