摘要:随着互联网的环境推动和海量数据的增加,尤其当公司做大到要上市的时候,会面临一个很大的问题:由于数据量的庞大,从开始整理数据,到做数据报表,往往会花费大量的时间。慢慢的大数据概念进入人们的视野中。随着数据量的快速增加,公司需要根据自身的需求搭建合适的大数据平台。
大数据平台主要的功能就是对数据的处理和分析,是处理大数据的一种基础设施。现在全球都在发展和完善大数据平台的功能。从目前的发展现状来看,大数据平台主要应用于传统信息技术企业、新兴互联网企业、高效研究院这三大阵营。
本文利用Hadoop集群搭建了平台,介绍了搭建完成的大数据分析平台各个模块的功能。互联网行业中常见的数据处理方式有数据预处理、数据分析和数据预测,选用了数据拼接、各省份访问次数统计和业绩预测三个案例。经过平台的处理后,得到想要的结果,且都能实现平台的各个方面功能。
关键词 大数据平台;分布式;Hadoop;数据处理
目录
摘要
Abstract
1 绪论-1
1.1 大数据的相关概念-1
1.2 国内外发展状况-2
1.3 本文的研究内容-3
2 大数据平台及其搭建-4
2.1 Hadoop简介-4
2.2 大数据平台的搭建-4
2.2.1 Common-4
2.2.2 HDFS-9
2.2.3 MapReduce-12
2.2.4 YARN-13
3 大数据平台对互联网行业的影响-16
3.1 谷歌-16
3.2 FaceBook-16
3.3 百度、腾讯、阿里巴巴-17
4 大数据平台在互联网行业的实际应用-18
4.1 数据的预处理-18
4.1.1 数据拼接-18
4.1.2 运行结果-19
4.2 数据的分析-20
4.2.1 省份统计-20
4.2.2 运行结果-21
4.3 预测未来业绩-22
4.3.1 数据清洗与访问次数统计-22
4.3.2 最小二乘曲线拟合-23
4.3.3 求解过程及结果分析-25
结论-27
致谢-28
参考文献-29
附录-30