摘要:毋庸置疑大数据时代已经来临,而大数据本身并非是人们所想象的那样仅仅是数据量问题。由于大数据本身所具有的复杂性,给其存储和处理带来了巨大挑战。此外,大数据本身所隐藏的价值也是人们所关注的方面。在目前主流的大数据处理工具中,Apache Hadoop无疑是一个备受追捧的开源框架。本文将研究Hadoop大数据存储和处理的解决方案,包括其基础的HDFS文件系统及其非关系型数据库Hbase,还有其分布式大数据处理编程框架Mapreduce。在此研究的基础上,通过相关的数据预测方法建立模型,得到了相应的预测结果。大数据时代下,其信息管理研究不仅包括其存储和处理,也包括获取包含在海量数据中的潜在价值。
关键词: 大数据 信息管理 MapReduce HDFS
目录
摘要
Abstract
1 绪论-1
1.1 背景概述-1
1.2 研究内容-2
1.3 研究意义-2
1.4 论文结构-3
2大数据存储-4
2.1大数据存储的现状-4
2.2 HDFS文件系统概述-5
2.2.1设计理念-6
2.2.2文件操作-8
2.2.3异常处理-11
2.3 HBase简介-12
2.3.1非结构化和半结构化数据-12
2.3.2 HBase架构-13
2.3.1 HBase数据模型-14
3大数据处理-14
3.1 移动数据和移动计算-16
3.2 MapReduce编程框架-16
3.2.1 基本思想-16
3.2.2 主要功能-17
4 实战大数据分析处理-19
4.1 Hadoop安装和开发环境配置-19
4.2数据获取和处理分析-21
4.2.1 数据来源-21
4.2.2 数据分析-21
4.3分析结果呈现-24
4.4 数据趋势预测-27
4.4.1预测步骤-27
5 结论和展望-31
5.1论文主要工作与不足-32
5.2未来工作展望-32
致谢-33
参考文献-34