服务器搭建Hadoop详细指南
环境准备
- 硬件要求
Hadoop集群的性能与服务器硬件配置直接相关,建议最低配置如下:
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| CPU | 4核以上 | 8核+(主节点)/4核+(从节点) |
| 内存 | 8GB | 16GB+(主节点)/8GB+(从节点) |
| 存储 | 1TB(主节点)+ 500GB/从节点 | SSD优先,HDD需RAID优化 |
| 网络 | 千兆网卡,静态IP | 万兆网卡(大规模集群) |
- 软件依赖
- 操作系统:CentOS 7+/Ubuntu 18+(推荐Linux发行版)。
- JDK:Hadoop 3.x需Java 8+,建议安装OpenJDK 11。
- SSH:需配置免密登录(主节点与从节点之间)。
安装步骤
-
安装JDK

# 下载并解压 wget https://download.java.net/java/GA/jdk11/0d4d7c3b80b449498b91705b0a6e6ec3/jdk-11_linux-x64_bin.tar.gz tar -zxvf jdk-11_linux-x64_bin.tar.gz -C /usr/local/ # 配置环境变量 echo "export JAVA_HOME=/usr/local/jdk-11" >> /etc/profile echo "export PATH=$JAVA_HOME/bin:$PATH" >> /etc/profile source /etc/profile
-
配置SSH免密登录
- 在主节点生成密钥:
ssh-keygen -t rsa - 将公钥复制到所有从节点:
ssh-copy-id user@slave1 - 测试免密登录:
ssh user@slave1 "ls /home"
- 在主节点生成密钥:
-
上传Hadoop安装包
- 官网下载Hadoop二进制包(如
hadoop-3.4.0.tar.gz),上传至主节点/opt目录。 - 解压并配置环境变量:
tar -zxvf hadoop-3.4.0.tar.gz -C /opt/ echo "export HADOOP_HOME=/opt/hadoop-3.4.0" >> /etc/profile echo "export PATH=$HADOOP_HOME/bin:$PATH" >> /etc/profile source /etc/profile
- 官网下载Hadoop二进制包(如
核心配置文件修改
Hadoop的核心配置文件位于$HADOOP_HOME/etc/hadoop,需根据集群架构修改以下文件:

| 配置文件 | 关键参数 | 示例值 |
|---|---|---|
core-site.xml |
fs.defaultFS(NameNode地址) |
hdfs://master:9000 |
hdfs-site.xml |
dfs.replication(副本数) |
3 |
dfs.namenode.name.dir(NameNode存储路径) |
/opt/hadoop-3.4.0/data/namenode |
|
dfs.datanode.data.dir(DataNode存储路径) |
/opt/hadoop-3.4.0/data/datanode |
|
yarn-site.xml |
yarn.resourcemanager.hostname |
master |
yarn.nodemanager.aux-services |
mapreduce_shuffle |
|
mapred-site.xml |
mapreduce.framework.name |
yarn |
mapreduce.jobtracker.address |
master:8032 |
启动Hadoop集群
-
格式化NameNode(仅首次启动时执行)
hdfs namenode -format
-
启动集群
- 主节点执行:
start-dfs.sh # 启动HDFS(NameNode+DataNode) start-yarn.sh # 启动YARN(ResourceManager+NodeManager)
- 验证状态:
- HDFS Web界面:
http://master:9870 - YARN Web界面:
http://master:8088
- HDFS Web界面:
- 主节点执行:
常见问题与解决
| 问题 | 解决方案 |
|---|---|
| 集群启动失败 | 检查SSH免密配置; 关闭防火墙( systemctl stop firewalld);确保 JAVA_HOME正确。 |
| 数据块副本数不足 | 检查dfs.replication是否≥3;确保所有DataNode正常连接。 |
| YARN任务提交失败 | 检查mapred-site.xml中JobTracker地址;确认ResourceManager已启动。 |
FAQs
Q1:Hadoop集群中主节点宕机怎么办?
A1:Hadoop默认无高可用(HA)配置时,主节点宕机会导致集群不可用,需通过配置HDFS HA(如Active/Standby模式)或YARN高可用(启用ResourceManager HA)来避免单点故障。

Q2:如何扩展Hadoop集群?
A2:新增从节点后,只需将新节点的SSH公钥加入主节点~/.ssh/authorized_keys,并在主节点执行hadoop-daemon.sh start nodemanager即可自动加入集群。
小编有话说
- 版本兼容性:Hadoop 3.x与2.x配置差异较大,需注意
etc/hadoop目录下的worker脚本已弃用,改用nodemanager。 - 安全加固:生产环境建议启用Kerberos认证,并限制
root用户操作Hadoop服务。 - 日志排查:问题定位优先查看
$HADOOP_HOME/logs目录下的namenode.log、datanode.log和`yarn.
以上内容就是解答有关“服务器搭建hadoop”的详细内容了,我相信这篇文章可以为您解决一些疑惑,有任何问题欢迎留言反馈,谢谢阅读。
【版权声明】:本站所有内容均来自网络,若无意侵犯到您的权利,请及时与我们联系将尽快删除相关内容!