CORC  > 兰州理工大学  > 兰州理工大学
题名基于R & Python的股市文本挖掘及预测研究
作者Almadhagi Rafat Abdullah Qaid Mahmood
答辩日期2019
导师朱昶胜
关键词金融新闻 R语言 文本挖掘 情绪分析 VAR模型
学位名称硕士
英文摘要随着网络时代的飞速发展,互联网上的财经新闻数据和股票评论信息已经成为了舆情数据的重要组成部分之一,这些非结构型文本数据中包含着许多能够对未来股市波动进行预测的情绪信息的,而这信息资讯在一定程度上能够影响投资者对未来股票市场的投资决策。本文基于文本挖掘技术和机器学习方法,利用Python语言爬取上证180(SSE 180)股市非结构化评论数据作为研究对象,利用R语言在情感字典的基础上计算每日情感指数,使用Spearman相关系数及Granger因果检验对预测模型的影响因子进行相关性分析,结合Wind数据库的收盘价和成交量等相关交易指标,构建回归模型对一定时间范围内的股票收益进行预测。基于R&Python的股市文本挖掘及预测研究的具体内容如下:1.采用网络爬虫技术获取股评文本数据,并对其进行分词、去停用词等数据预处理工作,利用文本向量化表示方法将非结构文本转换为结构型特征矩阵。在情感字典的基础上,根据每日的财经新闻计算情感指数。2.运用Spearman相关系数对新闻情绪与股市收益、收盘价和成交量的同步性、超前性和滞后性进行相关分析,通过Granger因果检验进一步验证新闻情绪值与股市收益之间的因果关系,通过脉冲响应分析及方差分解方法分析财经新闻对股票收益的贡献率。研究结果表明,新闻情绪值在滞后收盘价中接近峰值,在提前收盘价中接近最小值,新闻情绪值与股票收益之间存在双向格兰杰因果关系,在滞后期为3时,新闻情绪值对股票收益的贡献率达到了高点。3.根据支持向量回归(SVR)算法构建财经新闻与股票收益率之间的回模型预测股票收益率,结果表明SVR预测模型准确率较高,平均绝对误差为0.004。利用支持向量机(SVM)模型构建每日情感指数与股票收益之间的预测模型,实验发现SVM模型的预测准确率达到89%。
语种中文
页码74
URL标识查看原文
内容类型学位论文
源URL[http://ir.lut.edu.cn/handle/2XXMBERH/95550]  
专题兰州理工大学
作者单位兰州理工大学
推荐引用方式
GB/T 7714
Almadhagi Rafat Abdullah Qaid Mahmood. 基于R & Python的股市文本挖掘及预测研究[D]. 2019.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace