面向社交媒体的事件检测与流行度预测方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 复杂系统管理与控制国家重点实验室 > 互联网大数据与安全信息学研究中心

题名	面向社交媒体的事件检测与流行度预测方法研究
作者	陈观淡
答辩日期	2019-05-25
文献子类	博士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	毛文吉
关键词	社交媒体分析事件检测流行度预测事件相关关系表示学习
学位专业	社会计算
英文摘要	随着互联网的发展和普及，社交媒体已经成为了人们发表个人观点、分享信息、表达情感、评论时事的重要平台。社交媒体传播速度快、覆盖范围广和易于获取等特点，使其成为人们获取信息的一个重要来源。面向社交媒体的事件检测可以有效定位用户关注的主题事件，从海量网络数据中自动筛选事件信息。用户的交互行为通常使得某些事件受到更多的关注，即拥有更高的流行度。面向社交媒体的流行度预测则可以进一步分析事件的传播发展趋势，即利用事件传播的早期信息预测未来一段时间内讨论该事件的用户生成内容的数量。面向社交媒体的事件检测及其流行度预测是社会媒体分析与智能领域极具重要性的研究课题，同时有助于政府部门、企业商家及个人获取重要的舆情动向和决策依据，在国家与社会公共安全、商业领域等具有重要的研究意义和应用价值。基于表示学习的方法采用数据驱动的方式学习数据的高层表示，避免了繁琐的特征工程。近年来，基于表示学习的方法在图像识别、语音识别等多个领域取得了巨大的成功。本论文聚焦社交媒体中事件检测与流行度预测问题，研究建立基于表示学习的事件检测与流行度预测方法，并利用Twitter社交媒体平台数据对所提出的事件检测与流行度预测方法进行了实验验证。本论文的主要贡献包括： 1. 以往主要的事件检测相关研究中或者采用启发式的相似度量函数，或者依赖于词袋模型假设，难以得到较优的模型。基于表示学习的方法虽然更容易进行优化，但可解释性较弱。本论文针对社交媒体数据，提出一种结合隐空间向量表示与关键词表示的事件检测模型。该模型结合了隐空间向量表示易于优化以及关键词表示可解释性较好的特点，同时学习事件向量表示、微博与事件的相似度量函数、及事件关键词表示。 2. 以往子事件检测相关研究中大多忽略了背景事件信息。另外，由于数据集标注费时费力，目前还没有一个较大的子事件检测公开数据集。因此，本论文提出一种基于非监督深度学习的子事件检测模型。该模型首先通过最大化文本生成概率进行子事件检测；同时考虑到数据稀缺问题，利用大规模外部数据预训练模型参数并迁移到子事件检测模型中。 3. 事件流行度往往受用户网络、文本内容、时间等多个因素的影响，并且这些因素之间存在复杂的交互关系。以往主要的相关研究中或者只关注其中部分信息，或者需要繁琐的特征工程。因此，本论文提出一种基于信息融合的流行度预测模型。针对社交媒体中丰富的文本、用户以及时间序列信息，分别建立编码器学习其隐式表示，并通过信息融合进行流行度预测。 4. 以往流行度预测相关研究中往往忽略了子事件及其他关联事件对于流行度的影响。因此，本论文提出一种基于事件相关关系的流行度预测模型。该模型利用事件的文本和用户信息挖掘事件与子事件及事件之间的关联关系，进而建立子事件编码器和关联事件编码器来分别学习子事件及其他关联事件表示，用于流行度预测。
语种	中文
页码	114
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/23799]
专题	自动化研究所_复杂系统管理与控制国家重点实验室_互联网大数据与安全信息学研究中心
推荐引用方式 GB/T 7714	陈观淡. 面向社交媒体的事件检测与流行度预测方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2019.