hadoop 入门笔记 - 青衫不改

环境准备

配置静态ip

vim /etc/sysconfig/network-scripts/ifcfg-ens32

ifcfg-ens32

# 网络类型为以太网
TYPE=Ethernet
# 设置固定ip，dhcp 改为 static
# BOOTPROTU=dhcp
BOOTPROTU=static
# 网卡设备名，一定要跟文件名一致
DEVICE=ens32
# 网卡设备名，一定要跟文件名一致
NAME=ens32
# 设定网卡随网络服务启动
# ONBOOT=no
ONBOOT=yes
# 固定ip
IPADDR=192.168.40.91
# 网关
GATEWAY=192.168.40.254
# 子网掩码
NETMASK=255.255.255.0
# DNS地址
DNS1=8.8.8.8
DNS2=114.114.114.114

重启网络服务，使生效

# 重启网络服务
service network restart

修改主机名

vim /etc/hostname

hostname

hadoop91  # reboot重启生效

修改hosts文件

vim /etc/hosts

hosts

# ip要和网卡配置中的静态ip一致，域名要和hosts文件中的主机名一致
192.168.40.91 hadoop91
192.168.40.92 hadoop92
192.168.40.93 hadoop93

重启网络服务，使生效

# 重启网络服务
service network restart

关闭防火墙

# 关闭防火墙
service iptables stop
# 禁用防火墙，开机自启关闭
chkconfig iptables off
# 查看防火墙状态
service iptables status
# 查看开机自启列表
chkconfig --list iptables

在关闭防火墙到时候，出现：

Redirecting to /bin/systemctl stop  iptables.service
Failed to stop iptables.service: Unit iptables.service not loaded.

解决方法：

centos7开始默认用的是firewalld，这个是基于iptables的，虽然有iptables的核心，但是iptables的服务是没安装的。所以你只要停止firewalld服务即可：

# 安装防火墙
yum install firewalld firewall-config

# 停止防火墙
sudo systemctl stop firewalld

# 禁用防火墙，开机自启关闭
sudo systemctl disable firewalld

创建用户

# 添加用户
useradd hisign
# 设置密码
passwd hisign

配置用户root权限

修改/etc/sudoers

# 用户 haung 可以不用密码使用sudo
hisign    ALL=(ALL)    NOPASSWD: ALL

该文件为root用户的只读文件，可以在root用户修改完后强制保存

# ESC后，:wq! 强制保存
:wq!

创建文件夹

创建文件夹/opt/software、/opt/module用于存放安装包和安装软件

sudo mkdir /opt/software /opt/module

修改文件夹所有者

sudo chown hisign:hisign /opt/software /opt/module

安装jdk

首先到官网上下载你想要的jdk

# 进入目录
cd /opt/software

# 解压到指定目录
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module

配置环境变量

sudo vim /etc/profile

输入大写的 G 跳转到文件末尾，在最后面添加：

# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

执行profile文件

source /etc/profile

这样可以使配置不用重启即可立即生效。

检查新安装的jdk

java -version

显示：

java version "1.8.0_144"
Java(TM) SE Runtime Environment (build 1.8.0_144-b01)
Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode)

安装hadoop

hadoop历史版本下载地址

https://archive.apache.org/dist/hadoop/common/

# 进入目录
cd /opt/software

# 解压到指定目录
tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module

配置环境变量

sudo vim /etc/profile

输入大写的 G 跳转到文件末尾，在最后面添加：

# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行profile文件

source /etc/profile

这样可以使配置不用重启即可立即生效。

检查新安装的jdk

hadoop version

到此安装结束

hadoop目录结构

drwxr-xr-x. 2 hisign hisign   194 5月  22 2017 bin
drwxr-xr-x. 3 hisign hisign    20 5月  22 2017 etc
drwxr-xr-x. 2 hisign hisign   106 5月  22 2017 include
drwxr-xr-x. 3 hisign hisign    20 5月  22 2017 lib
drwxr-xr-x. 2 hisign hisign   239 5月  22 2017 libexec
-rw-r--r--. 1 hisign hisign 15429 5月  22 2017 LICENSE.txt
-rw-r--r--. 1 hisign hisign   91 5月  22 2017 NOTICE.txt
-rw-r--r--. 1 hisign hisign  1366 5月  22 2017 README.txt
drwxr-xr-x. 2 hisign hisign  4096 5月  22 2017 sbin
drwxr-xr-x. 4 hisign hisign    31 5月  22 2017 share

重要目录

bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
sbin目录：存放启动或停止Hadoop相关服务的脚本
share目录：存放Hadoop的依赖jar包、文档、和官方案例

hadoop运行模式

本地运行模式

官方Grep案例

在hadoop-2.7.2文件下面创建一个input文件夹

mkdir input

将Hadoop的xml配置文件复制到input

cp etc/hadoop/*.xml input

执行share目录下的MapReduce程序

bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
grep input output 'dfs[a-z.]+'

查看输出结果

cat output/*

显示

1  dfsadmin

官方WordCount案例

在hadoop-2.7.2文件下面创建一个wcinput文件夹

mkdir wcinput

在wcinput文件下创建一个wc.input文件

touch wcinput/wc.input

编辑wc.input文件

vi wcinput/wc.input

在文件中添加以下内容

hadoop yarn
hadoop mapreduce
atguigu
atguigu

执行share目录下的MapReduce程序

bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
wcinput \
wcoutput

查看输出结果

cat wcoutput/*

显示

atguigu 2
hadoop  2
mapreduce       1
yarn    1

伪分布式运行模式

启动HDFS并运行程序

配置集群

配置 hadoop-env.sh

vim etc/hadoop/hadoop-env.sh

hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置 core-site.xml

vim etc/hadoop/core-site.xml

core-site.xml

<configuration>
    <!-- 指定HDFS中NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop91:9000</value>
    </property>

    <!-- 指定Hadoop运行时产生文件的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    </property>
</configuration>

配置 hdfs-site.xml

vim etc/hadoop/hdfs-site.xml

hdfs-site.xml

<configuration>
    <!-- 指定HDFS副本的数量 -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

启动集群

格式化NameNode（第一次启动时格式化，以后就不要总格式化）

bin/hdfs namenode -format

启动NameNode

sbin/hadoop-daemon.sh start namenode

启动DataNode

sbin/hadoop-daemon.sh start datanode

查看集群

查看是否启动成功

[hisign@hadoop91 hadoop-2.7.2]$ jps
2807 NameNode
3098 Jps
2892 DataNode

注意：jps是JDK中的命令，不是Linux命令。不安装JDK不能使用jps

web端查看HDFS文件系统

http://hadoop91:50070/dfshealth.html#tab-datanode

如果能看，看hosts文件是否配置hadoop91

查看产生的Log日志

说明：在企业中遇到Bug时，经常根据日志提示信息去分析问题、解决Bug。

ls opt/module/hadoop-2.7.2/logs

思考：为什么不能一直格式化NameNode，格式化NameNode，要注意什么？

注意：格式化NameNode，会产生新的集群id,导致NameNode和DataNode的集群id不一致，集群找不到已往数据。所以，格式NameNode时，一定要先删除data数据和log日志，然后再格式化NameNode。

操作集群

在HDFS文件系统上创建一个input文件夹

bin/hdfs dfs -mkdir -p /user/hisign/input

将测试文件内容上传到文件系统上

bin/hdfs dfs -put wcinput/wc.input /user/hisign/input/

查看上传的文件是否正确

bin/hdfs dfs -ls  /user/hisign/input/

bin/hdfs dfs -cat  /user/hisign/input/wc.input

运行MapReduce程序

bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input/ \
/user/hisign/output

查看输出结果

bin/hdfs dfs -cat /user/hisign/output/*

显示

atguigu 2
hadoop  2
mapreduce       1
yarn    1

将测试文件内容下载到本地

bin/hdfs dfs -get /user/hisign/output/part-r-00000 ./wcoutput/

删除输出结果

bin/hdfs dfs -rm -r /user/hisign/output

启动YARN并运行程序

配置集群

配置 yarn-env.sh

vim etc/hadoop/yarn-env.sh

yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置 yarn-site.xml

vim etc/hadoop/yarn-site.xml

yarn-site.xml

<configuration>
    <!-- Reducer获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- 指定YARN的ResourceManager的地址 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop91</value>
    </property>
</configuration>

配置 mapred-env.sh

vim etc/hadoop/mapred-env.sh

mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置 mapred-site.xml

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

vim etc/hadoop/mapred-site.xml

mapred-site.xml

<configuration>
    <!-- 指定MR运行在YARN上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

启动集群

启动前必须保证NameNode和DataNode已经启动

# 查看是否启动
jps

2807 NameNode
8217 Jps
2892 DataNode

# 启动 NameNode
sbin/hadoop-daemon.sh start namenode
# 启动 DataNode
sbin/hadoop-daemon.sh start datanode

启动ResourceManager

sbin/yarn-daemon.sh start resourcemanager

启动NodeManager

sbin/yarn-daemon.sh start nodemanager

操作集群

YARN浏览器查看页面

http://hadoop91:8088/cluster

bin/hdfs dfs -rm -R /user/hisign/output

执行MapReduce程序

bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input  \
/user/hisign/output

查看运行结果

bin/hdfs dfs -cat /user/hisign/output/*

显示

atguigu 2
hadoop  2
mapreduce       1
yarn    1

配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下

配置 mapred-site.xml

vim etc/hadoop/mapred-site.xml

mapred-site.xml

<configuration>
	<!-- 历史服务器端地址 -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop91:10020</value>
    </property>
    <!-- 历史服务器web端地址 -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop91:19888</value>
    </property>
</configuration>

启动历史服务器

sbin/mr-jobhistory-daemon.sh start historyserver

查看历史服务器是否启动

jps

查看JobHistory

http://hadoop91:19888/jobhistory

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下：

配置 yarn-site.xml

vim etc/hadoop/yarn-site.xml

yarn-site.xml

<configuration>
    <!-- 日志聚集功能开启 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!-- 日志保留时间设置7天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

关闭NodeManager 、ResourceManager和HistoryServer

sbin/yarn-daemon.sh stop resourcemanager

sbin/yarn-daemon.sh stop nodemanager

sbin/mr-jobhistory-daemon.sh stop historyserver

启动NodeManager 、ResourceManager和HistoryServer

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

sbin/mr-jobhistory-daemon.sh start historyserver

删除HDFS上已经存在的输出文件

bin/hdfs dfs -rm -R /user/hisign/output

执行WordCount程序

bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input \
/user/hisign/output

查看日志

http://hadoop91:19888/jobhistory

完全分布式运行模式

虚拟机准备

vmware中的完整克隆是基于指定的虚拟机克隆出相同的一份出来，不必再安装。但是我们要保证三个地方不能一样，一个是主机名称（hostname），还有一个是ip地址，所以我们在克隆后要对这三个地方进行修改。这里以centos为例

# 修改主机名
vim /etc/hostname
##########################
# hadoop91
hadoop92

# 修改静态ip
vim /etc/sysconfig/network-scripts/ifcfg-ens32
##########################
# 修改静态ip
# IPADDR=192.168.40.91
IPADDR=192.168.40.92

重启生效

reboot

集群分布脚本

scp 安全拷贝

定义：

scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

基本语法

#命令 递归  要拷贝的文件路径/名称  目的用户@主机:目的路径/名称
scp   -r   $pdir/$fname          $user@hadoop$host:$pdir/$fname

案例

1、在hadoop91上，将hadoop91中/opt/module目录下的软件拷贝到远程服务器hadoop92上。

[hisign@hadoop91 /]$ scp -r /opt/module root@hadoop92:/opt/module

2、在hadoop93上，将远程服务器hadoop91服务器上的/opt/module目录下的软件拷贝到本地。

[hisign@hadoop93 opt]$sudo scp -r hisign@hadoop91:/opt/module /opt/module

3、在hadoop93上操作将hadoop91中/opt/module目录下的软件拷贝到hadoop94上。

[hisign@hadoop93 opt]$ scp -r hisign@hadoop91:/opt/module root@hadoop94:/opt/module

注意：拷贝过来的/opt/module目录，别忘了在hadoop92、hadoop93、hadoop94上修改所有文件的，所有者和所有者组。

sudo chown hisign:hisign -R /opt/module

4、将hadoop91中/etc/profile文件拷贝到hadoop92的/etc/profile上。

[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop92:/etc/profile

5、将hadoop91中/etc/profile文件拷贝到hadoop93的/etc/profile上。

[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop93:/etc/profile

6、将hadoop91中/etc/profile文件拷贝到hadoop94的/etc/profile上。

[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop94:/etc/profile

注意：拷贝过来的配置文件别忘了 source /etc/profile 使生效。

rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

基本语法

# 命令 选项参数  要拷贝的文件路径/名称  目的用户@主机:目的路径/名称
rsync   -av     $pdir/$fname         $user@hadoop$host:$pdir/$fname

案例

把hadoop91机器上的/opt/software目录同步到hadoop92服务器的root用户下的/opt/目录

rsync -av /opt/software/ hadoop92:/opt/software

xsync 集群分布脚本

1、需求：循环复制文件到所有节点的相同目录下

2、需求分析：

rsync命令原始拷贝：

rsync -av   /opt/module        root@hadoop93:/opt/

期望脚本：

xsync 要同步的文件名称

说明：在/home/hisign/bin这个目录下存放的脚本，hisign用户可以在系统任何地方直接执行。

3、脚本实现

在/home/hisign目录下创建bin目录，并在bin目录下xsync创建文件，文件内容如下：

mkdir -p  /home/hisign/bin
cd /home/hisign/bin
# 新建脚本
vim xsync

在该文件中编写如下代码

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=91; host<94; host++)); do
    echo ------------------- hadoop$host --------------
    rsync -av $pdir/$fname $user@hadoop$host:$pdir
done

修改脚本 xsync 具有执行权限

chmod 777 xsync

调用脚本形式：xsync 文件名称

xsync /home/hisign/bin

注意：如果将xsync放到/home/hisign/bin目录下仍然不能实现全局使用，可以将xsync移动到/usr/local/bin目录下。

sudo mv /home/hisign/bin/xsync /usr/local/bin

集群配置

集群部署规划

	hadoop91	hadoop92	hadoop93
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

配置集群

核心配置文件

配置core-site.xml

[hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop
[hisign@hadoop91 hadoop]$ vi core-site.xml

在该文件中编写如下配置

<configuration>
    <!-- 指定HDFS中NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop91:9000</value>
    </property>

    <!-- 指定Hadoop运行时产生文件的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    </property>
</configuration>

HDFS配置文件

配置hadoop-env.sh

[hisign@hadoop91 hadoop]$ vi hadoop-env.sh

hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置hdfs-site.xml

[hisign@hadoop91 hadoop]$ vi hdfs-site.xml

在该文件中编写如下配置

<configuration>
    <!-- 指定HDFS副本的数量 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!-- 指定Hadoop辅助名称节点主机配置 -->
    <property>
          <name>dfs.namenode.secondary.http-address</name>
          <value>hadoop93:50090</value>
    </property>
</configuration>

YARN配置文件

配置yarn-env.sh

[hisign@hadoop91 hadoop]$ vi yarn-env.sh

yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml

[hisign@hadoop91 hadoop]$ vi yarn-site.xml

在该文件中增加如下配置

<configuration>
    <!-- Reducer获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- 指定YARN的ResourceManager的地址 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop92</value>
    </property>
</configuration>

MapReduce配置文件

配置mapred-env.sh

[hisign@hadoop91 hadoop]$ vi mapred-env.sh

mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置mapred-site.xml

[hisign@hadoop91 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hisign@hadoop91 hadoop]$ vi mapred-site.xml

在该文件中增加如下配置

<configuration>
    <!-- 指定MR运行在YARN上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

在集群上分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-2.7.2/

查看文件分发情况

cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/hdfs-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/mapred-site.xml

集群单点启动

如果集群是第一次启动，需要格式化NameNode

[hisign@hadoop91 hadoop-2.7.2]$ hdfs namenode -format

在hadoop91上启动NameNode

[hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start namenode
[hisign@hadoop91 hadoop-2.7.2]$ jps

显示

14849 Jps
14782 NameNode

在hadoop91、hadoop92以及hadoop93上分别启动DataNode

[hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop91 hadoop-2.7.2]$ jps

显示


14936 Jps
14873 DataNode
14782 NameNode

[hisign@hadoop92 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop92 hadoop-2.7.2]$ jps

显示

14013 DataNode
14045 Jps

[hisign@hadoop93 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop93 hadoop-2.7.2]$ jps

显示

13739 DataNode
13774 Jps

思考：每次都一个一个节点启动，如果节点数增加到1000个怎么办？

早上来了开始一个一个节点启动，到晚上下班刚好完成，下班？

SSH免密登录

原理：

https://www.cnblogs.com/haojun/p/11131432.html

工作原理如下图所示：

ssh免密登录

生成公钥和私钥：

[hisign@hadoop91 /]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

[hisign@hadoop91 /]$ cd ~/.ssh/
[hisign@hadoop91 .ssh]$ ll

显示

总用量 12
-rw-------. 1 hisign hisign 1675 11月  9 09:58 id_rsa
-rw-r--r--. 1 hisign hisign  397 11月  9 09:58 id_rsa.pub
-rw-r--r--. 1 hisign hisign  372 11月  9 09:15 known_hosts

将公钥拷贝到要免密登录的目标机器上

ssh-copy-id可以把本地主机的公钥复制到远程主机的authorized_keys文件上，ssh-copy-id命令也会给远程主机的用户主目录（home）和~/.ssh, 和~/.ssh/authorized_keys设置合适的权限。

# 给用户hisign配置免密登录
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop91
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop92
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop93

注意：在hadoop92和hadoop93上把上面的操作都再执行一遍，三台服务器就能互相之间进行免密登录了。如果想要其他用户也能进行免密登录，切换到其他用户执行上操作即可。

群起集群

配置slaves

[hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop
[hisign@hadoop91 hadoop]$ vim slaves

在该文件中增加如下内容：

hadoop91
hadoop92
hadoop93

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

同步所有节点配置文件

xsync slaves

启动集群

1、如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

[hisign@hadoop91 hadoop-2.7.2]$ bin/hdfs namenode -format

2、启动HDFS

[hisign@hadoop91 hadoop-2.7.2]$ sbin/start-dfs.sh

[hisign@hadoop91 hadoop-2.7.2]$ jps
18627 DataNode
18836 Jps
18495 NameNode
[hisign@hadoop92 hadoop-2.7.2]$ jps
15957 Jps
15883 DataNode
[hisign@hadoop93 hadoop-2.7.2]$ jps
15891 SecondaryNameNode
15787 DataNode
15932 Jps

3、启动YARN

[hisign@hadoop92 hadoop-2.7.2]$ sbin/start-yarn.sh
16004 ResourceManager
16106 NodeManager
15883 DataNode
16205 Jps

注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。

4、Web端查看SecondaryNameNode

http://hadoop93:50090/status.html

查看集群

jps能查看当前节点的java进程，但是节点多了，得切换到别的节点去查看，所以写个shell脚本查看所有节点的java进程

说明：在/home/hisign/bin这个目录下存放的脚本，hisign用户可以在系统任何地方直接执行。

在/home/hisign目录下创建bin目录，并在bin目录下jpsall创建文件，文件内容如下：

mkdir -p  /home/hisign/bin
cd /home/hisign/bin
# 新建脚本
vim jpsall

在该文件中编写如下代码

#!/bin/bash
# 循环
for((host=91; host<94; host++)); do
    echo ------------------- hadoop$host --------------
    ssh hadoop$host "jps" | grep -v Jps
done

修改脚本 jpsall 具有执行权限

chmod +x jpsall

调用脚本形式：jpsall 文件名称

jpsall

注意：如果将xsync放到/home/hisign/bin目录下仍然不能实现全局使用，可以将jpsall移动到/usr/local/bin目录下。

sudo mv /home/hisign/bin/jpsall /usr/local/bin

集群基本测试

1、上传文件到集群

上传小文件

[hisign@hadoop91 hdoop-2.7.2]$ hdfs dfs -mkdir -p /user/hisign/input
[hisign@hadoop91 hdoop-2.7.2]$ hdfs dfs -put wcinput/wc.input /user/hisign/input

上传大文件

bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/hisign/input

2、上传文件后查看文件存放在什么位置

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-917863227-192.168.40.91-1604892333948/current/finalized/subdir0/subdir0/

3、查看HDFS在磁盘存储文件内容

[hisign@hadoop91 subdir0]$ ll
总用量 194552
-rw-rw-r--. 1 hisign hisign        45 11月  9 12:25 blk_1073741825
-rw-rw-r--. 1 hisign hisign        11 11月  9 12:25 blk_1073741825_1001.meta
-rw-rw-r--. 1 hisign hisign 134217728 11月  9 12:29 blk_1073741826
-rw-rw-r--. 1 hisign hisign   948583 11月  9 12:29 blk_1073741826_1002.meta
-rw-rw-r--. 1 hisign hisign  63439959 11月  9 12:29 blk_1073741827
-rw-rw-r--. 1 hisign hisign    495635 11月  9 12:29 blk_1073741827_1003.meta

[hisign@hadoop91 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce
atguigu
atguigu

4、拼接

[hisign@hadoop91 subdir0]$ cat blk_1073741825 >> tmp.file
[hisign@hadoop91 subdir0]$ cat blk_1073741827 >> tmp.file

5、下载

[hisign@hadoop91 subdir0]$ cd -
[hisign@hadoop91 hadoop-2.7.2]$ pwd
/opt/module/hadoop-2.7.2

bin/hadoop fs -get /user/hisign/input/hadoop-2.7.2.tar.gz ./

集群启动/停止

各个服务组件逐一启动/停止

（1）分别启动/停止HDFS组件

hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode

（2）启动/停止YARN

yarn-daemon.sh start / stop resourcemanager / nodemanager

各个模块分开启动/停止（配置ssh是前提）常用

（1）整体启动/停止HDFS

start-dfs.sh  / stop-dfs.sh

（2）整体启动/停止YARN

start-yarn.sh / stop-yarn.sh

sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager

sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager

sbin/start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode、DataNode

sbin/stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode

sbin/hadoop-daemons.sh start namenode 单独启动NameNode守护进程

sbin/hadoop-daemons.sh stop namenode 单独停止NameNode守护进程

sbin/hadoop-daemons.sh start datanode 单独启动DataNode守护进程

sbin/hadoop-daemons.sh stop datanode 单独停止DataNode守护进程

sbin/hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程

sbin/hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程

sbin/start-yarn.sh 启动ResourceManager、NodeManager

sbin/stop-yarn.sh 停止ResourceManager、NodeManager

sbin/yarn-daemon.sh start resourcemanager 单独启动ResourceManager

sbin/yarn-daemons.sh start nodemanager 单独启动NodeManager

sbin/yarn-daemon.sh stop resourcemanager 单独停止ResourceManager

sbin/yarn-daemons.sh stopnodemanager 单独停止NodeManager

sbin/mr-jobhistory-daemon.sh start historyserver 手动启动jobhistory

sbin/mr-jobhistory-daemon.sh stop historyserver 手动停止jobhistory

集群时间同步

时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。

时间服务器配置

必须root用户

1、检查ntp是否安装

[root@hadoop91 ~]# rpm -qa|grep ntp
ntp-4.2.6p5-29.el7.centos.2.x86_64
ntpdate-4.2.6p5-29.el7.centos.2.x86_64

如果没有安装，先安装

yum install ntp -y

2、修改ntp配置文件

[root@hadoop91 ~]# vi /etc/ntp.conf

修改1，授权192.168.40.0-192.168.40.255网段上的所有机器可以从这台机器上查询和同步时间

# restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

修改2，集群在局域网中，不使用其他互联网上的时间

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst为

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

增加如下内容，当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步

server 127.127.1.0
fudge 127.127.1.0 stratum 10

3、修改/etc/sysconfig/ntpd 文件

[root@hadoop91 ~]# vim /etc/sysconfig/ntpd

增加内容如下（让硬件时间与系统时间一起同步）

SYNC_HWCLOCK=yes

4、重新启动ntpd服务

# 查看服务状态
[root@hadoop91 ~]# service ntpd status

# 启动服务
[root@hadoop91 ~]# service ntpd start

# 停止服务
[root@hadoop91 ~]# service ntpd stop

# 重启服务
[root@hadoop91 ~]# service ntpd restart

5、设置ntpd服务开机自启

[root@hadoop91 ~]# chkconfig ntpd on

其他机器配置

必须root用户

1、在其他机器配置10分钟与时间服务器同步一次

[root@hadoop91 ~]#  crontab -e

编写定时任务如下：

*/10 * * * * /usr/sbin/ntpdate hadoop91

2、修改任意机器时间

[root@hadoop91 ~]#  date -s "2017-9-11 11:11:11"

3、十分钟后查看机器是否与时间服务器同步

[root@hadoop91 ~]#  date

说明：测试的时候可以将10分钟调整为1分钟，节省时间。

*/1 * * * * /usr/sbin/ntpdate hadoop91

大数据

hadoop 大数据

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

代码片段上一篇

Linux - 安装 ElasticSearch 下一篇