CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名面向中文社交媒体的命名实体识别方法研究
作者江洲钰
答辩日期2022-08-19
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师宗成庆
关键词命名实体识别 社交媒体分析 信息抽取 时序偏移 对比学习
学位名称工学硕士
学位专业模式识别与智能系统
英文摘要

命名实体识别旨在从非结构化文本中识别出实体区间和类别,是一项基础性的自然语言处理任务,面向中文社交媒体进行命名实体识别则兼具实际应用意义与研究意义。相较于规范文本,社交媒体数据更迭快,新词和新的表达方式将给命名实体识别带来挑战。然而现有研究较少考虑这种动态性,对动态性造成的影响缺乏评估与针对性的解决方案。本文以社交媒体数据的动态性作为切入点展开相关研究,主要研究内容可归纳为如下两点:

(1)提出了一种面向时序偏移的中文社交媒体命名实体识别方法

随时间变化的数据迭代是社交媒体动态性的重要体现,但目前的评测数据集没有时序信息,无法支持对时序相关问题的研究。为验证时序的影响,本文构建了一套带有日粒度时间戳的中文社交媒体命名实体识别数据集,并对时序偏移问题进行了深入分析。结果表明,时序偏移的一大特点表现为新来数据中存在大量未见实体,而现有主流命名实体识别方法对未见实体识别较差。本文继而提出了一种“时序采样替换”的数据增强方法,在训练样本中依据时序远近设置采样概率进行实体替换以获取新样本,从而提升模型对实体上下文语义特征的建模能力。实验表明,相较于基线方法,该数据增强方法可以带来有效性能提升,且对具体模型、具体语言不敏感。

(2)提出了一种基于对比学习的中文社交媒体命名实体识别方法

借助外部词典融合字词特征是提升中文命名实体识别性能的有效方法,然而在上述针对时序偏移的评测中,这类方法收效甚微。本文认为原因在于静态的外部词典与动态的社交媒体数据间的“静态-动态”不匹配问题,此问题将导致输入词序列中存在大量与答案实体不完全匹配的词,引起边界冲突和语义冲突,最终影响模型性能。针对这一问题,本文提出了一种基于对比学习的中文社交媒体命名实体识别方法,充分利用不完全匹配词的细粒度边界监督信息以缓解边界冲突,通过数据内全局监督信息缓解语义冲突。实验结果证明,本文提出的方法在多个数据集上可达到当前最优,在社交媒体数据上效果尤为显著。

上述两种方法分属数据维度与模型维度的改进,作用独立。实验证明,组合两种方法后可在社交媒体数据上获得更佳效果。

语种中文
页码58
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/49698]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
江洲钰. 面向中文社交媒体的命名实体识别方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace