51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

Linux搭建Hadoop-2.7.2分布式集群

Hadoop 简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),其中一个组件是HDFSHDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Hadoop 优点

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。文章源自小柒网-https://www.yangxingzhen.cn/7546.html

Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。文章源自小柒网-https://www.yangxingzhen.cn/7546.html

Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。文章源自小柒网-https://www.yangxingzhen.cn/7546.html

Hadoop 还是可伸缩的,能够处理PB级数据。文章源自小柒网-https://www.yangxingzhen.cn/7546.html

此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。文章源自小柒网-https://www.yangxingzhen.cn/7546.html

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:文章源自小柒网-https://www.yangxingzhen.cn/7546.html

  • 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 。
  • 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  • 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 。
  • 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 。
  • 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。文章源自小柒网-https://www.yangxingzhen.cn/7546.html

系统准备:

操作系统:CentOS Linux release 7.8.2003
文章源自小柒网-https://www.yangxingzhen.cn/7546.html

软件版本:

hadoop:hadoop-2.7.2.tar.gz
文章源自小柒网-https://www.yangxingzhen.cn/7546.html

JDK:jdk-8u181-linux-x64.tar.gz
文章源自小柒网-https://www.yangxingzhen.cn/7546.html

集群规划:

|--------|-------------------------------|---------------| | 节点名称 | 操作系统 | IP地址 | | master | CentOS Linux release 7.8.2003 | 172.168.1.157 | | node1 | CentOS Linux release 7.8.2003 | 172.168.1.158 | | node2 | CentOS Linux release 7.8.2003 | 172.168.1.159 |

一、JAVA环境部署

1、安装包准备

版本:jdk-8u181

下载地址:https://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html

2、安装步骤

1)解压JDK软件包

[root@localhost ~]# tar zxf jdk-8u181-linux-x64.tar.gz -C /usr/local

2)配置系统环境变量

[root@localhost ~]# vim /etc/profile

加入以下内容

export JAVA_HOME=/usr/local/jdk1.8.0_181
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin

执行source /etc/profile使其生效

3)使用java、javac等命令验证是否安装成功

[root@master ~]# java -version

java version "1.8.0_181"

Java(TM) SE Runtime Environment (build 1.8.0_181-b13)

Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

二、Hadoop安装

1)配置主机名(所有节点)

[root@localhost ~]# hostnamectl set-hostname master

[root@localhost ~]# hostnamectl set-hostname node1

[root@localhost ~]# hostnamectl set-hostname node2

2)配置hosts文件

[root@master ~]# vim /etc/hosts

添加以下内容

172.168.1.157	master
172.168.1.158	node1
172.168.1.159	node2

3)配置免密钥

[root@master ~]# ssh-keygen

输入三次确定

[root@master ~]# ssh-copy-id root@master

[root@master ~]# ssh-copy-id root@node1

[root@master ~]# ssh-copy-id root@node2

4)拷贝hosts文件到各节点

[root@master ~]# scp /etc/hosts root@node1:/etc/

[root@master ~]# scp /etc/hosts root@node2:/etc/

5)下载Hadoop

[root@master ~]# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6)解压

[root@master ~]# tar xf hadoop-2.7.2.tar.gz -C /usr/local

7)配置环境变量

[root@master ~]# vim /etc/profile

加入以下内容

export Hadoop_Home=/usr/local/hadoop-2.7.2
export PATH=$PATH:$Hadoop_Home/bin

[root@master ~]# source /etc/profile

8)拷贝/etc/profile文件到各节点

[root@master ~]# scp /etc/profile root@node1:/etc/

[root@master ~]# scp /etc/profile root@node2:/etc/

三、Hadoop配置

1)配置hadoop-env.sh

[root@master ~]# cd /usr/local/hadoop-2.7.2/etc/hadoop/

[root@master hadoop]# vim hadoop-env.sh

加入以下内容

export JAVA_HOME=/usr/local/jdk1.8.0_181
export HADOOP_PREFIX=/usr/local/hadoop-2.7.2

2)配置yarn-env.sh

[root@master hadoop]# sed -i '/HADOOP_YARN_USER/iexport JAVA_HOME=/usr/local/jdk1.8.0_181/' yarn-env.sh

3)配置core-site.xml

[root@master hadoop]# mkdir /usr/local/hadoop-2.7.2/tmp

[root@master hadoop]# vim core-site.xml

加入以下内容

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://master:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/mnt/hadoop/tmp</value>
	</property>
</configuration>

4)配置hdfs-site.xml

[root@master hadoop]# vim hdfs-site.xml

加入以下内容

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:/mnt/hadoop/dfs/name</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:/mnt/hadoop/dfs/data</value>
	</property>
</configuration>

5)配置mapred-site.xml

[root@master hadoop]# vim mapred-site.xml

加入以下内容

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>master:10020</value>
	</property>
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>master:19888</value>
	</property>
</configuration>

6)配置yarn-site.xml

[root@master hadoop]# vim yarn-site.xml

加入以下内容

<configuration>
<!-- Site specific YARN configuration properties -->
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
	</property>
	<property>
		<name>yarn.resourcemanager.address</name>
		<value>master:8032</value>
	</property>
	<property>
		<name>yarn.resourcemanager.scheduler.address</name>
		<value>master:8030</value>
	</property>
	<property>
		<name>yarn.resourcemanager.resource-tracker.address</name>
		<value>master:8031</value>
	</property>
	<property>
		<name>yarn.resourcemanager.admin.address</name>
		<value>master:8033</value>
	</property>
	<property>
		<name>yarn.resourcemanager.webapp.address</name>
		<value>master:8088</value>
	</property>
</configuration>

7)配置slaves

[root@master hadoop]# vim slaves

加入以下内容

master
node1
node2

8)拷贝Hadoop安装目录到两个Slave节点

[root@master hadoop]# scp -r /usr/local/hadoop-2.7.2/ root@node2:/usr/local

[root@master hadoop]# scp -r /usr/local/hadoop-2.7.2/ root@node1:/usr/local

9)在slave节点执行source /etc/profile

[root@node1 ~]# source /etc/profile

[root@node2 ~]# source /etc/profile

四、Hadoop使用

1)格式化NameNode

Master节点上,执行如下命令

[root@master hadoop]# hdfs namenode -format

2)启动HDFS(NameNode、DataNode)

Master节点上,执行如下命令

[root@master hadoop]# cd ../../sbin

[root@master sbin]# ./start-dfs.sh

Starting namenodes on [master]

master: starting namenode, logging to /usr/local/hadoop-2.7.2/logs/hadoop-root-namenode-master.out

node1: starting datanode, logging to /usr/local/hadoop-2.7.2/logs/hadoop-root-datanode-node1.out

master: starting datanode, logging to /usr/local/hadoop-2.7.2/logs/hadoop-root-datanode-master.out

node2: starting datanode, logging to /usr/local/hadoop-2.7.2/logs/hadoop-root-datanode-node2.out

Starting secondary namenodes [0.0.0.0]

0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop-2.7.2/logs/hadoop-root-secondarynamenode-master.out

3)使用jps命令查看进程(所有节点)

[root@master sbin]# jps

3267 NameNode

3403 DataNode

3581 SecondaryNameNode

3726 Jps

[root@node1 ~]# jps

1799 DataNode

1882 Jps

[root@node2 ~]# jps

2837 DataNode

2921 Jps

4)启动 Yarn(ResourceManager 、NodeManager)

[root@master sbin]# ./start-yarn.sh

starting yarn daemons

starting resourcemanager, logging to /usr/local/hadoop-2.7.2/logs/yarn-root-resourcemanager-master.out

node1: starting nodemanager, logging to /usr/local/hadoop-2.7.2/logs/yarn-root-nodemanager-node1.out

master: starting nodemanager, logging to /usr/local/hadoop-2.7.2/logs/yarn-root-nodemanager-master.out

node2: starting nodemanager, logging to /usr/local/hadoop-2.7.2/logs/yarn-root-nodemanager-node2.out

5)使用jps命令查看进程(所有节点)

[root@master sbin]# jps

3267 NameNode

4211 Jps

3892 NodeManager

3786 ResourceManager

3403 DataNode

3581 SecondaryNameNode

[root@node1 ~]# jps

2050 Jps

1799 DataNode

1927 NodeManager

[root@node2 ~]# jps

2837 DataNode

3173 Jps

3050 NodeManager

6)查看HDFS信息

浏览器输入http://172.168.1.157:50070

7)查看Yarn信息

浏览器输入http://172.168.1.157:8088

8)停止Yarn及HDFS

[root@master sbin]# ./stop-yarn.sh

[root@master sbin]# ./stop-dfs.sh

至此,Hadoop分布式集群搭建完毕。
继续阅读

历史上的今天

11 月
14

赞(0)
未经允许不得转载:工具盒子 » Linux搭建Hadoop-2.7.2分布式集群