融合置信度的图像文本翻译方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 模式识别国家重点实验室 > 自然语言处理

题名	融合置信度的图像文本翻译方法研究
作者	伍凌辉
答辩日期	2022-05-19
文献子类	硕士
授予单位	中国科学院大学
授予地点	中国科学院大学
导师	周玉
关键词	置信度图像文本翻译鲁棒性神经机器翻译
学位名称	中国科学院大学
学位专业	模式识别与智能系统
英文摘要	图像文本翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。目前主流的图像文本翻译系统通常由相互独立的光学字符识别 (Optical Character Recog nition, OCR) 和机器翻译（Machine Translation, MT）模型级联组成。OCR 模型将图像文本识别成转录文本，MT 模型将转录文本翻译成目标语言。然而在级联模型中存在着广泛的误差累积的问题，即 OCR 输出的转录文本噪声会引起后续翻译的错误。然而无论是当前的级联式模型还是缓解噪声文本对翻译影响的鲁棒性神经机器翻译方法都没有考虑到 OCR 模型输出的置信度信息。因此本文以置信度为切入点，针对级联模型中的误差累积问题展开相关研究，主要研究内容可归纳如下两点： (1) 提出了一种基于置信度门控注意力的图像文本机器翻译方法目前为缓解噪声文本带来的问题，鲁棒性机器翻译主要采用以下两种方法： 1）使用合成噪声文本，以模拟 OCR 转录带来的噪声；2）利用干净文本和噪声文本的对比学习，拉近噪声文本和干净文本的分布。未能考虑以下问题：1）忽视来自 OCR 模型的置信度信息，未能考虑 OCR 和 MT 系统的有效融合；2）仅采用合成噪声，类型单一，无法覆盖实际噪声类型。针对以上的问题，本文提出了一种基于置信度门控注意力的图像文本机器翻译方法。不同于以往的级联模型方法，本文所提方法能将 OCR 字符识别的置信度融入到后续翻译框架中，能够缓解 OCR 识别错误对后续翻译的影响。此外本文还针对 OCR 转录文本噪声的特点，设计了相应监督文本来给模型提供子词粒度的对比损失。实验表明，所提出的方法能够显著提升级联式图像文本翻译模型的翻译性能。 (2) 提出了一种融合置信度和图像信息的图像文本机器翻译方法图像信息能够对置信度较低的单词提供额外信息，为此本文提出了融合置信度和图像信息的图像文本机器翻译方法。通过引入图像编码器来编码图像信息并通过置信度对不同的子词融合图像信息以补充由于引入置信度带来的损失。但由于图像信息中存在着背景，字体颜色等冗余信息，会对模型的泛化性能带来影响。因此本文通过在图像编码器端引入对比学习，使得相同的字符有着相同的表示，从而提升模型的泛化性能。实验表明，在引入图像信息后，所提方法能够进一步提升级联式图像文本翻译模型的翻译性能。
语种	中文
页码	77
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/48562]
专题	模式识别国家重点实验室_自然语言处理
推荐引用方式 GB/T 7714	伍凌辉. 融合置信度的图像文本翻译方法研究[D]. 中国科学院大学. 中国科学院大学. 2022.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们