融入置信度的文本图像翻译研究
伍凌辉2,3; 马聪2,3; 韩旭2,3; 赵阳2,3; 张亚萍2,3; 周玉1,2,3
刊名中文信息学报
2022
页码0
关键词置信度 文本图像翻译 鲁棒性神经机器翻译
英文摘要

文本图像翻译旨在将嵌在图像中的源端语言文本翻译成目标语言。文本图像翻译系统通常由相互独立的光学字符识别(Optical Character Recognition, OCR)和机器翻译(Machine Translation, MT)模型级联组成。OCR模型将文本图像识别成转录文本,MT模型将转录文本翻译成目标语言。由于OCR模型转录文本存在噪声,而MT模型对噪声文本表现不佳,文本图像翻译系统性能远不如纯文本机器翻译系统。为缓解噪声文本带来的问题,鲁棒性机器翻译主要采用以下两种方法:1)使用合成噪声文本,以模拟OCR转录带来的噪声;2)利用干净文本和噪声文本的对比学习,拉近噪声文本和干净文本的分布。未能考虑以下问题:1)忽视来自OCR模型的置信度信息,未能考虑OCRMT系统的有效融合;2)仅采用合成噪声,类型单一,无法覆盖实际噪声类型。3)仅采用句子粒度的粗粒度对比损失,忽略细粒度的词的对比信息。为解决这上述问题,该文提出一种融合置信度信息的文本图像翻译方法,充分利用转录文本中每个字符输出的概率分布得到每个词的置信度信息,使级联式文本图像翻译系统中的OCR模型和机器翻译模型产生更有效的融合,同时针对OCR转录文本的噪声特点,设计一种能提供词粒度的对比信息的监督文本,提升模型性能。实验表明,所提方法在中译英以及英中文本图像翻译任务上相较于传统的管道式模型取得显著的提升。

语种中文
内容类型期刊论文
源URL[http://ir.ia.ac.cn/handle/173211/48593]  
专题模式识别国家重点实验室_自然语言处理
通讯作者周玉
作者单位1.凡语 AI 研究院 北京中科凡语科技有限公司,北京 100190
2.中国科学院自动化研究所 模式识别国家重点实验室,北京 100190
3.中国科学院大学 人工智能学院,北京 100049
推荐引用方式
GB/T 7714
伍凌辉,马聪,韩旭,等. 融入置信度的文本图像翻译研究[J]. 中文信息学报,2022:0.
APA 伍凌辉,马聪,韩旭,赵阳,张亚萍,&周玉.(2022).融入置信度的文本图像翻译研究.中文信息学报,0.
MLA 伍凌辉,et al."融入置信度的文本图像翻译研究".中文信息学报 (2022):0.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace