摘要:当今时代,人们在主动地寻找数据,在寻找数据的过程中又会产生新的数据,数据不断累积。随着各种技术的进步和大范围使用,大量的数据以越来越多不同的形式不断出现。从海量数据中获取可以进行研究的有用信息时,选择如何获取信息的方法至关重要。
大数据时代的来临,传统的统计思想方法是否应该被摒弃是当前一个热门且有意义的课题。本文按照“问题驱动—文献研究—数据查找—模型搭建—结论得出”的技术路线展开,在第二章分别对统计思想方法与大数据进行了研究综述,介绍了统计思想和大数据的发展进程以及基本内容;在第三章中介绍了相关原理,如相关分析、STR模型以及参数估计原理等;在第四章中研究标准普尔500指数的交易量与百度搜索指数之间是否存在关系,通过运用平滑转换回归模型(smooth transition regression,STR)模型,发现它们之间的关系不是线性的,并进一步介绍该模型在大数据分析中是如何使用的。通过研究STR模型,我们发现,大数据分析仍需要统计思想,并且统计思想方法是大数据分析成功的关键,扎实的统计知识、良好的统计建模思想和计划对于解决大数据难题更为重要。
本文的创新点在于:研究标普500指数交易量与搜索指数之间的关系,并建立STR模型,国内相关研究还较少;且以STR模型 为例论证大数据时代仍需要统计思想,体现了统计思想在大数据中的应用。
本文最终得出的结论有:搜索指数与股票交易量息息相关,搜索指数发生改变,股票交易量也会随之发生波动;用高斯-牛顿迭代法进行模型的参数估计会产生较大的误差,甚至只得到局部最优的结果;本文的研究结果充分说明:大数据时代仍需要统计思想,要以科学的统计思想为指导,提高大数据中有效信息的利用率。
最后,对模型参数估计的寻优以及使用多种搜索引擎的搜索数据进行研究将是下一步的主要方向。
关键词:标普500;STR模型;统计思想方法;大数据
目录
摘要
ABSTRACT
1 引言-6
1.1 选题背景-6
1.2主要研究内容及意义-6
2 统计思想与大数据研究综述-8
2.1 统计思想综述-8
2.1.1统计的发展历程-8
2.1.2 统计思想的基本内容-9
2.2 大数据分析研究综述[5]-9
2.2.1 大数据的定义-9
2.2.2 大数据的发展历程-10
2.2.3 大数据的关键技术-10
2.3 统计思想在大数据中的应用-11
2.3.1 大数据技术与统计思想的共同特征-11
3 理论介绍-13
3.1 相关分析与回归分析-13
3.2 单位根检验-13
3.3 格兰杰因果检验-14
3.4 STR模型-15
3.3 参数估计原理-16
3.3.1 高斯-牛顿迭代法-16
4 模型建立与参数估计-17
4.1 数据来源及预处理-17
4.1.1 数据来源-17
4.1.2数据预处理-17
4.1.3 格兰杰因果关系检验-18
4.2模型建立-18
4.2.1滞后阶数的确定-18
4.2.2 线性检验及模型选择-20
4.3 参数估计-21
4.3.1 非线性最小二乘法估计参数-21
4.4 结论-22
5 结论与反思-23
5.1 主要结论-23
5.2 后期反思-23
参考文献-24
致谢-26