基于Hadoop的数据分析.docx

需要金币：1000 个金币
资料目录：论文助手 > 论文(New) > 本科论文 >
转换比率：金钱 X 10=金币数量，例100元=1000金币
论文格式：Word格式(*.doc)
更新时间：2020-11-18
论文字数：6938
课题出处：（将大紫）提供原创资料
资料包括：完整论文

摘要：本文介绍了分布式计算平台Hadoop生态圈的内容。首先介绍的是Hadoop的由来与发展；然后，通过对Hadoop核心架构HDFS，MapReduce和Yarn的介绍，详细剖析了Hadoop的分布式架构与MapReduce的执行原理。其中，还对MapReduce编程进行了描述并且用MapReduce实现了pagerank算法的并行化。其次本文还对Hadoop的生态圈的各种技术与框架进行了介绍。最后，本文利用Hadoop完成了一个项目，即通过对网站日志数据的统计分析，获得网站的pv浏览量，注册用户数，跳出率等指标，最后将上述过程进行了自动化部署。

关键词：分布式计算；数据分析；Hadoop

摘要

Abstract

一、引言-1

（一）Hadoop的产生与发展-1

（一）项目研究的原因与意义-1

二、 Hadoop的介绍与核心架构-2

（一）Hadoop的版本和变迁-2

（二）Hadoop的分布式存储：HDFS-2

（三）Hadoop的并行计算模型：MapReduce-3

（四）Hadoop的资源调度平台：Yarn-3

三、HDFS的使用-4

（一）利用shell命令远程调用HDFS操作-4

（二）利用java代码调用HDFS操作- 4

四、MapReduce原理与编程-5

（一）MapReduce的原理与过程-5

（二）MapReduce的简单案例：WordCount-6

（三）MapReduce的序列化与自定义数据类型-6

（四）利用MapReduce实现pagerank算法的并行化-8

五、Hadoop的生态圈-10

（一）分布式集群的协调工具：Zookeeper-10

（二）基于Hadoop的数据仓库：Hive-10

（三）传统数据库与Hadoop的桥梁：Sqoop-10

六、项目的介绍与过程-10

（一）项目环境的搭建与安装-10

（二）项目使用的各种工具版本-15

（三）网站日志分析的数据来源与需求-15

（四）利用Hadoop分析解决的过程-16

（五）项目过程自动化部署的实现 19

七、总结-21

（一）项目的总结-21

（二）对新技术的渴望-21

致谢-22

参考文献-23

提示：本站支持手机（IOS，Android）下载论文，如果手机下载不知道存哪或打不开，可以用电脑下载，不会重复扣费