摘要:本文介绍了分布式计算平台Hadoop生态圈的内容。首先介绍的是Hadoop的由来与发展;然后,通过对Hadoop核心架构HDFS,MapReduce和Yarn的介绍,详细剖析了Hadoop的分布式架构与MapReduce的执行原理。其中,还对MapReduce编程进行了描述并且用MapReduce实现了pagerank算法的并行化。其次本文还对Hadoop的生态圈的各种技术与框架进行了介绍。最后,本文利用Hadoop完成了一个项目,即通过对网站日志数据的统计分析,获得网站的pv浏览量,注册用户数,跳出率等指标,最后将上述过程进行了自动化部署。
关键词:分布式计算;数据分析;Hadoop
目录
摘要
Abstract
一、引言-1
(一)Hadoop的产生与发展-1
(一)项目研究的原因与意义-1
二、 Hadoop的介绍与核心架构-2
(一)Hadoop的版本和变迁-2
(二)Hadoop的分布式存储:HDFS-2
(三)Hadoop的并行计算模型:MapReduce-3
(四)Hadoop的资源调度平台:Yarn-3
三、HDFS的使用-4
(一)利用shell命令远程调用HDFS操作-4
(二) 利用java代码调用HDFS操作- 4
四、MapReduce原理与编程-5
(一)MapReduce的原理与过程-5
(二)MapReduce的简单案例:WordCount-6
(三)MapReduce的序列化与自定义数据类型-6
(四)利用MapReduce实现pagerank算法的并行化-8
五、Hadoop的生态圈-10
(一)分布式集群的协调工具:Zookeeper-10
(二)基于Hadoop的数据仓库:Hive-10
(三)传统数据库与Hadoop的桥梁:Sqoop-10
六、项目的介绍与过程-10
(一)项目环境的搭建与安装-10
(二)项目使用的各种工具版本-15
(三)网站日志分析的数据来源与需求-15
(四)利用Hadoop分析解决的过程-16
(五)项目过程自动化部署的实现 19
七、 总结-21
(一)项目的总结-21
(二)对新技术的渴望-21
致 谢-22
参 考 文 献-23