摘要: 随着计算机和通信技术的发展,数据量急剧增加,人类进入大数据时代,并且数据以爆炸性增长的趋势渗透在社会的各行各业中。对数据进行预处理是大数据分析中不可或缺的重要部分,如何从海量的数据中提取有价值的信息是目前世界最关注的焦点,本文主要学习了三种大数据处理方法—主成分分析法、聚类方法、OD矩阵方法,并运用SPSS软件对全国31个城市的综合竞争力情况进行了主成分分析和聚类分析,以验证主成分分析法和聚类分析法的有效性。通过此次学习,学会对个别大数据进行数据挖掘处理。
关键词:大数据;大数据预处理方法;SPSS
目录
摘要
Abstract
第一章 绪论-1
1.1 大数据的背景介绍-1
1.2 数据挖掘中算法的背景介绍-2
1.2.1 降维技术及主成分分析法的背景介绍-2
1.2.2 聚类分析背景介绍-3
1.2.3 OD矩阵背景介绍-3
1.3 章节介绍-3
第二章:大数据处理的几种方法-4
2.1主成分分析法-4
2.1.1 基本原理-4
2.1.2 主成分的计算步骤及分析过程-4
2.1.3主成分的分析过程-5
2.1.4 图像论证-5
2.2聚类分析-6
2.2.1系统聚类分析-7
2.2.2 KMEANS聚类法-8
2.3 OD矩阵-8
第三章、主成分聚类法的实例分析-9
3.1 考察全国31个城市的综合竞争力排名-10
3.2 为什么要进行主成分聚类分析?-10
3.3 模型建立-10
(1)数据标准化处理-11
(2)对原始数据进行主成分分析,求相关系数矩阵R-11
(3)计算R的特征值-12
(4)计算相关系数矩阵R的特征向量-13
(5)计算各主成分得分-14
(6)根据主成分函数表达式,计算综合得分-15
(7)聚类分析-16
(8)各方法的排序结果-18
(9)结论-19
结 论-20
参 考 文 献-21
附录1 全国31个城市的综合竞争力指标数据-21
致 谢-23