题名 | 面向跨领域场景的句子匹配关键技术研究 |
作者 | 白桂荣 |
答辩日期 | 2022-05-25 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 赵军 |
关键词 | 自然语言处理,句子匹配,跨领域场景,领域自适应 |
学位名称 | 工学博士学位 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 句子匹配是人工智能和自然语言处理中的一个重要研究任务,在信息检索、智能问答、自动摘要等众多应用中都发挥着重要作用,它旨在让计算机判断两段文本之间是否具有某种特定的语义关系,例如蕴涵关系、复述关系、问答关系等。随着互联网产业的快速发展和网络数据的爆炸式增长,人们迫切需要更精细的语义匹配技术支撑精准信息的获取。因此,近年来句子匹配受到了学术界和产业界的持续关注。 随着深度学习的迅猛发展,基于数据驱动的神经网络方法在句子匹配任务中取得了良好的效果,成为目前处理句子匹配的常用方案。在真实场景中,训练好的神经网络模型常常需要被应用于新领域,但新领域中的数据分布往往和模型之前学习到的数据分布存在很大差异,会引起领域偏移问题。如果直接使用原来训练好的神经网络模型在新领域中进行测试,句子匹配的性能会不可避免地急剧下降。同时,新领域通常缺乏标注数据,依赖标注数据的神经网络方法难以直接在新领域上进行训练。因此,如何在缺乏标注数据的跨领域场景下缓解句子匹配任务面临的领域偏移问题是一个重要的挑战。根据缓解领域偏移问题角度的不同,本文从标注数据获取、无监督训练和外部资源引入三个方向,研究面向跨领域场景的句子匹配关键技术。本文的主要研究成果和创新点如下: 1. 提出了一种基于预训练语言模型的句子匹配标注数据采样策略 针对句子匹配任务在新领域上数据标注成本高的问题,本文提出了一种新的主动学习方法来指导数据的采样和标注。为了降低标注数据的成本,主动学习方法的目标在于提供一种标注数据采样策略,在标注预算有限的情况下优先采样对模型性能提高更大的样本来进行标注。传统的主动学习方法通常利用样本在模型中的不确定性作为样本采样准则来衡量样本的标注优先级。这种采用单一准则的方法忽略了其它潜在的样本采样准则,并在面对有特定偏置的数据时可能效果很差。为此,本文提出了一种基于预训练语言模型的主动学习方法,该方法能够从预训练语言模型中挖掘语言学规律,丰富主动学习中的样本采样准则,从不确定性、噪声性、覆盖性和多样性等多个方面评价样本标注的优先级。此外,针对句子匹配任务的特点,本文还引入了编辑距离来捕捉两个句子间的差异并增强样本表示。本文在多个不同领域的句子匹配数据集上进行了实验,实验结果表明该方法的效果优于基线方法,可以有效降低为新领域标注数据的成本。 2. 提出了一种基于自监督学习的句子匹配领域自适应方法 针对跨领域场景下句子匹配任务缺乏目标领域标注数据的问题,本文提出了一种基于自监督学习的句子匹配领域自适应方法。传统的无监督领域自适应方法的目标函数通常存在优化困难的问题。为此,本文从语言模型、领域特性和句子匹配任务特点等三个方面设计自监督任务,利用更容易优化的自监督学习目标来缩小源领域和目标领域之间的分布差异。此外,针对优化过程中不同数据的训练难度不同的问题,本文还提出了一种基于课程学习的训练框架。该框架先从容易的训练数据中学习一个基本模型,再从困难的训练数据中学习一个更好的模型。实验表明该方法缓解了句子匹配任务中未知的新领域缺乏标注数据的问题,提高了句子匹配模型在跨领域场景中的性能。 3. 提出了一种借助外部知识的句子匹配领域自适应方法 针对传统无监督领域自适应方法缺乏必要的监督信息和领域迁移能力有限的问题,本文提出了一种基于知识指导的跨领域句子匹配方法。外部知识中包含了不同领域间的差异和联系,引入外部知识可以提供额外的信息帮助模型更好地弥合领域间的鸿沟。因此,本文研究了如何借助外部知识促进无监督领域自适应。本文提出的方法通过图神经网络,将外部知识融入无监督领域自适应的训练过程,帮助模型借助外部知识来处理不同领域的差异和联系。此外,为了降低训练难度,该方法在原来的领域对抗网络的基础上,将样本表示分离为样本相关的基础表示和领域相关的偏差表示,改进领域无关表示的计算方式。在多个跨领域句子匹配实验中,该方法比基线方法有明显提升,表明借助外部知识能提高跨领域场景下句子匹配模型的性能。 |
语种 | 中文 |
页码 | 104 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/48662] |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 白桂荣. 面向跨领域场景的句子匹配关键技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论