CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名面向公共卫生事件在线仇恨言论的检测与挖掘研究
作者刘林
答辩日期2023-05-21
文献子类硕士
关键词仇恨言论检测 突发公共卫生事件 新冠疫情 社会污名 仇恨言论纠正
英文摘要

在移动互联网时代,伴随着信息的分享更加简便,网络上的仇恨内容也逐渐增加,成为了一个不容忽视的社会问题。特别是在突发公共卫生事件的背景下,社交媒体上传播的仇恨言论加剧了对弱势群体的污名化,甚至引发了在现实世界造成伤害的担忧。开发有效的算法来感知和审查网络社区的仇恨言论,对于维护一个健康的网络环境,遏制突发公共卫生事件期间的不良社会行为至关重要。本文旨在应用并改进深度学习和自然语言处理领域的先进技术,分别从社会污名检测与挖掘、多语言仇恨言论检测、跨语言仇恨言论检测和仇恨言论纠正四个方面展开研究。本文的主要工作内容和贡献总结如下:

1.基于社交媒体数据的社会污名检测与挖掘。污名是仇恨言论在突发公共卫生事件场景下的典型表达形式。对社会污名进行及时全面地感知有助于制定有针对性的干预措施。传统的叙事性调查和定性分析已经不能胜任信息时代的需要。因此,本文通过构建深度学习模型在千万级COVID-19相关的社交媒体数据中自动识别社会污名,加速关键态势信息的感知获取。随后,本文通过对COVID-19早期的污名化内容进行语义、时间和空间等角度的统计分析概述社会污名的流行特征,为有关部门和公共卫生专业人员应对突发公共卫生事件下的社会污名提供参考。

2.基于知识集成和半监督学习的多语言仇恨言论检测方法。当前大多数仇恨言论检测任务仅限于单一语言数据,而仇恨言论问题具有全球性,检测多种语言中的仇恨言论具有重要应用价值。本文采用了一种知识集成方法,结合多语言预训练模型提取的文本表示和领域词表提取的仇恨词特征,提高了模型的检测性能和可解释性。同时,本文还引入了一种基于自训练的半监督学习算法,利用丰富的无标注数据优化模型,提高了模型的泛化能力。实验结果显示,本文提出的方法能够取得有竞争力的多语言仇恨言论检测表现。

3.基于跨语言迁移学习的仇恨言论检测方法。本文提出了一种跨语言迁移学习方法,旨在构建针对缺乏标注数据的低资源语言的高性能仇恨言论检测模型。具体地,该方法使用多语言预训练模型生成不同语言文本的向量表示,并使用跨语言对比学习进一步将源语言和目标语言文本的向量表示映射到相同的语义空间中。最后,通过联合训练双语分类损失和跨语言对比损失提高模型的仇恨言论检测和跨语言知识迁移能力。实验结果表明,本文提出的方法提高了跨语言仇恨言论检测性能,优于基准方法。

4.基于文本风格转换的仇恨言论纠正方法。本文使用基于掩码-填充框架的文本风格转换技术对仇恨言论进行自动纠正,旨在提供有效的解决方案以遏制在线仇恨言论的流行。首先,该方法采用词袋模型训练逻辑回归分类器,标记每段文本中潜在的仇恨词。随后,该方法利用预训练语言模型和条件掩码语言模型任务对被遮盖的标记进行填充,生成非仇恨文本。实验结果表明,本方法在仇恨言论纠正正确率、语义内容保存度和生成文本流畅性方面表现良好,具有实际应用价值。

语种中文
页码78
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/51874]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
刘林. 面向公共卫生事件在线仇恨言论的检测与挖掘研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace