hadoop架构两地部署可以实现数据互为备份一致吗

如题所述

推荐答案 2016-02-24

大数据平台架构设计沿袭了分层设计的思想，将平台所需提供的服务按照功能划分成不同的模块层次，每一模块层次只与上层或下层的模块层次进行交互（通过层次边界的接口），避免跨层的交互，这种设计的好处是：各功能模块的内部是高内聚的，而模块与模块之间是松耦合的。这种架构有利于实现平台的高可靠性，高扩展性以及易维护性。比如，当我们需要扩容Hadoop集群时，只需要在基础设施层添加一台新的Hadoop节点服务器即可，而对其他模块层无需做任何的变动，且对用户也是完全透明的。
整个拉卡拉大数据平台按其职能划分为五个模块层次，从下到上依次为：
运行环境层：
运行环境层为基础设施层提供运行时环境，它由2部分构成，即操作系统和运行时环境。
(1)操作系统我们推荐安装REHL5.0以上版本(64位)。此外为了提高磁盘的IO吞吐量，避免安装RAID驱动，而是将分布式文件系统的数据目录分布在不同的磁盘分区上，以此提高磁盘的IO性能。
(2)运行时环境的具体要求如下表：

名称版本说明
JDK

1.6或以上版本

Hadoop需要Java运行时环境，必须安装JDK。

gcc/g++

3.x或以上版本

当使用Hadoop Pipes运行MapReduce任务时，需要gcc编译器，可选。

python

2.x或以上版本

当使用Hadoop Streaming运行MapReduce任务时，需要python运行时，可选。

基础设施层：
基础设施层由2部分组成：Zookeeper集群和Hadoop集群。它为基础平台层提供基础设施服务，比如命名服务、分布式文件系统、MapReduce等。
(1)ZooKeeper集群用于命名映射，做为Hadoop集群的命名服务器，基础平台层的任务调度控制台可以通过命名服务器访问Hadoop集群中的NameNode，同时具备failover的功能。
(2)Hadoop集群是大数据平台的核心，是基础平台层的基础设施。它提供了HDFS、MapReduce、JobTracker和TaskTracker等服务。目前我们采用双主节点模式，以此避免Hadoop集群的单点故障问题。
基础平台层：
基础平台层由3个部分组成：任务调度控制台、HBase和Hive。它为用户网关层提供基础服务调用接口。
(1)任务调度控制台是MapReduce任务的调度中心，分配各种任务执行的顺序和优先级。用户通过调度控制台提交作业任务，并通过用户网关层的Hadoop客户端返回其任务执行的结果。其具体执行步骤如下：
任务调度控制台接收到用户提交的作业后，匹配其调度算法；
请求ZooKeeper返回可用的Hadoop集群的JobTracker节点地址；
提交MapReduce作业任务；
轮询作业任务是否完成；
如果作业完成发送消息并调用回调函数；
继续执行下一个作业任务。

作为一个完善的Hadoop集群实现，任务调度控制台尽量自己开发实现，这样灵活性和控制力会更加的强。
(2)HBase是基于Hadoop的列数据库，为用户提供基于表的数据访问服务。
(3)Hive是在Hadoop上的一个查询服务，用户通过用户网关层的Hive客户端提交类SQL的查询请求，并通过客户端的UI查看返回的查询结果，该接口可提供数据部门准即时的数据查询统计服务

温馨提示：答案为网友推荐，仅供参考

当前网址：http://55.wendadaohang.com/zd/F4LL4IR88Gc4e884LRR.html

相似回答

大家正在搜

hadoop 大数据架构 hadoop部署架构 hadoop大数据平台架构 hadoop部署架构图 hadoop集群架构 hadoop整体架构 hadoop架构技术 hadoop体系架构 hadoop原理与架构