摘要:在数据量不断增加,特别是非结构化数据日益增加的今天,大数据应用受到更加广泛的关注。许多公司和组织积累了大量数据,同时不断产生新的数据,这些数据的量级达到了PB、EB甚至ZB级别,超出了常规传统数据库的数据处理能力范围,因而不得不寻找新的方式存储、处理它们。分布式数据库系统的海量数据存储、处理能力正是大数据应用所需要的,所以对分布式数据库在大数据中的应用有其研究必要性。
本文首先分析了大数据时代的来临及其对现有的索引和数据库技术的影响,并介绍了这一时代索引与数据库的创新与发展。然后通过基于Hadoop分布式文件系统的HBase与传统关系型数据库的对比了解分布式数据库系统在大数据应用方面的优势在于:数据存储量大、扩展容易、容错性强。最后通过搭建得到广泛部署应用的Hadoop与HBase数据库验证HBase的主要特点:存储量大、面向列、稀疏、自动分区、数据类型单一。
关键词:Hadoop;大数据;HBase;分布式数据库
目录
摘要
Abstract
1 绪论-1
1.1 研究背景与意义-1
1.2 国内外现状-1
1.3 大数据时代-1
1.3.1 大数据时代的到来-1
1.3.2 大数据时代到来的原因-1
2 大数据时代的数据库分析-3
2.1 大数据特性-3
2.2 大数据时代的影响与发展-3
2.2.1 大数据时代对索引与数据库的影响-3
2.2.2 大数据时代索引与数据库的创新与发展-4
2.3 HBase数据库介绍-5
2.3.1 HBase的特点-6
2.3.2 HBase与传统数据库的区别-6
2.3.3 HBase的高并发和实时处理数据-8
3 案例需求分析-10
3.1 采用Hadoop集群优劣-10
3.2 Hadoop生态系统-11
3.3 Hadoop在互联网的应用-12
4 Hadoop单一部署-14
4.1 Hadoop集群部署拓扑图-14
4.2 安装操作系统Centos-15
4.3 Hadoop 安装与配置-21
5 HBase安装与配置-25
6 HBase的优化-31
致谢-33
参考文献-34