hadoop分布式集群安装
  ILwIY8Berufg 2023年11月02日 52 0

hadoop 分布式集群安装(使用普通用户hadoop)

集群规划:


HDFS

YARN

hadoop01

namenode+datanode

nodemanager

hadoop02

datanode+secondarynamenode

nodemanager

hadoop03

datanode

nodemanager+resourcemanager

1.上传安装包
put c:/hadoop-2.7.6.tar.gz
2.解压安装包
tar -zxvf hadoop-2.7.6.tar.gz -C /home/hadoop/apps
3.配置环境变量

输入

sudo vi /etc/profile

在最后两行加上

export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

hadoop分布式集群安装_hadoop

重新加载配置文件

source /etc/profile

验证

hadoop version

hadoop分布式集群安装_xml_02

4.修改hadoop配置文件
cd /home/hadoop/apps/hadoop-2.7.6/etc/hadoop
4.1修改hadoop-env.sh

输入,并将JAVA_HOME的值进行更改

vi hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_73

hadoop分布式集群安装_hdfs_03

4.2修改core-site.xml (hadoop的核心配置文件)

输入

vi core-site.xml

在configuration标签中加入

<property>
    <!--hadoop hdfs的访问入口 namenode的访问入口-->
 <name>fs.defaultFS</name>
 <value>hdfs://hadoop01:9000</value>
</property>

<property>
    <!--hadoop namenode的管理数据的存储位置  namenode所在的节点本地-->
 <name>hadoop.tmp.dir</name>
 <value>/home/hadoop/data/hadoopdata</value>
</property>

hadoop分布式集群安装_xml_04

4.3修改hdfs-site.xml (hdfs的相关配置文件)

输入

vi hdfs-site.xml

同样的加入

<property>
 <name>dfs.namenode.name.dir</name>
 <value>/home/hadoop/data/hadoopdata/name</value>
<description>namenode 管理数据存储目录</description>
</property>

<property>
 <name>dfs.datanode.data.dir</name>
 <value>/home/hadoop/data/hadoopdata/data</value>
<description>datanode 的数据存储目录 真实数据</description>
</property>

<property>
<name>dfs.replication</name>
 <value>2</value>
<description>数据存储副本个数</description>
</property>

<property>
 <name>dfs.secondary.http.address</name>
 <value>hadoop02:50090</value>
<description>secondarynamenode 运行节点的信息,和 namenode 不同节点</description>
</property>

hadoop分布式集群安装_xml_05

4.4修改mapred-site.xml (mapreduce的配置)

先复制

cp mapred-site.xml.template mapred-site.xml

输入

vi mapred-site.xml

同样的加入

<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

hadoop分布式集群安装_hdfs_06

4.5修改yarn-site.xml (yarn的相关配置)

输入

vi yarn-site.xml

同样的加入

<property>
 <!--resourcemanager节点-->
 <name>yarn.resourcemanager.hostname</name>
 <value>hadoop03</value>
</property>
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
<description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
</property>

hadoop分布式集群安装_hadoop_07

4.6增加slaves(从节点)

输入

vi slaves

加入

  • hadoop01
  • hadoop02
  • hadoop03
5.远程发送配置安装包
scp -r hadoop-2.7.6 hadoop02:/home/hadoop/apps/
scp -r hadoop-2.7.6 hadoop03:/home/hadoop/apps/
6.远程发送配置文件
sudo scp /etc/profile hadoop02:/etc/
sudo scp /etc/profile hadoop03:/etc/

三台机器同时执行

source /etc/profile
hadoop version
7.格式化hdfs

在namenode(hadoop01)的节点执行

hdfs namenode -format

注意:格式化不成功不能启动

一旦格式化报错修正报错重新格式化

hadoop分布式集群安装_xml_08

出现has been successfully formatted.则成功

注意:成功的格式化只能进行一次

8.启动hadoop

在hadoop启动文件夹里启动

cd /home/hadoop/apps/hadoop-2.7.6/sbin

在任意节点启动hdfs

start-dfs.sh

在resourcemanager(hadoop03)节点启动yarn

start-yarn.sh

验证:

jps

hadoop分布式集群安装_xml_09

网页:

  • hdfs:
    http://hadoop01:50070
  • yarn:
    http://hadoop03:8088
  • hadoop分布式集群安装_hadoop_10

9.安装过程注意的问题
9.1某一个进程启动不了

单独启动没有的进程

hdfs进程单独启动命令

hadoop-daemon.sh start namenode

yarn进程单独启动命令:

yarn-daemon.sh start resourcemanager
9.2看日志文件

在路径$HADOOP_HOME/logs/下有两个日志文件

  • hadoop-hadoop-namenode-hadoop01.log
  • yarn-hadoop-nodemanager-hadoop01.log
    一般问题写在最后一百行,查看最后一百行内容
tail -100 hadoop-hadoop-datanode-hadoop01.log
9.3格式化问题

如果已经成功格式化了一次,再此格式化会出现ID冲突的问题

首先停止所有

stop-all.sh

然后删除三个机器上的/home/hadoop/data

rm -rf /home/hadoop/data

最后重新格式化

hadoop namenode -format
【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

ILwIY8Berufg
最新推荐 更多

2024-05-31