小坨的Spark分布式集群环境搭建小笔记

Tania ·

更新时间:2024-11-10

· 635 次阅读

文章目录写在前面搭建好Hadoop集群环境安装Spark（Master节点上操作）配置环境变量（Master节点上操作）Spark配置（Master节点上操作）配置Worker节点启动Spark集群（在Master节点上操作）关闭Spark集群（在Master节点上操作） 写在前面

这里采用2台机器（节点）作为实例来演示如何搭建Spark集群，其中1台机器作为Master节点，另外一台机器作为Slave1节点（即作为Worker节点）。

集群环境

Centos6.4

Hadoop2.7.7

java 1.8 （请确保java版本在1.8以上，否则会踩坑，反正我后面踩了）

搭建好Hadoop集群环境

Spark分布式集群的安装环境，需要事先配置好Hadoop的分布式集群环境。如果没有配置好Hadoop的分布式集群环境，请参考小坨的在CentOS6.4搭建hadoop集群的实践笔记进行Hadoop分布式集群搭建。

安装Spark（Master节点上操作）

Spark下载地址 http://spark.apache.org/downloads.html

在这里插入图片描述

请选择对应自己Hadoop安装版本的Spark安装包进行下载

下载完成后，执行以下命令

sudo tar -zxf ~/下载/spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.4.5-bin-hadoop2.7 ./spark
sudo chown -R hadoop ./spark

配置环境变量（Master节点上操作）

vi ~/.bashrc

添加如下配置

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

使配置生效

source ~/.bashrc

Spark配置（Master节点上操作）

配置slaves文件
将 slaves.template 拷贝到 slaves

cd /usr/local/spark/
cp ./conf/slaves.template ./conf/slaves

编辑slaves内容，设置Worker节点，把默认内容localhost替换成如下内容

Slave1    #Slave1是主机名，在Hadoop安装配置的时候已做好IP地址映射

配置spark-env.sh文件
将 spark-env.sh.template 拷贝到 spark-env.sh

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh，添加以下内容

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.100.10

SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址

配置Worker节点

把配置好的spark文件夹（/usr/local/spark）分发到Slave1节点上

在Master主机上执行如下命令

cd /usr/local/
tar -zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz Slave1:/home/hadoop

在Slave1上执行以下操作

sudo tar -zxf ~/spark.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/spark

记个bug

当在Slave1上执行sudo tar -zxf ~/spark.master.tar.gz -C /usr/local这一步时报出一个错误

在这里插入图片描述
原因是当在Slave1节点上进行解包的时候，Slave1和Master的时间不一致

只需要在解压命令加上m选项，就能解决问题

sudo tar -zmxf ~/spark.master.tar.gz -C /usr/local

有关此报错背后更详细的解答，可戳链接：解决tar命令出现“time stamp XXX in the future”的办法

启动Spark集群（在Master节点上操作）

在启动Spark集群之前，要先启动Hadoop集群，在Master节点上执行命令

start-all.sh

再启动Spark集群

先启动Master节点

#我这里还没有为start-master.sh等命令配置好Path
cd /usr/local/spark/sbin
./start-master.sh

再记个bug

在执行tart-master.sh命令时报了个错误，假如你的是java版本是1.8以上的，那恭喜你跳过这个bug

在这里插入图片描述

搜了一圈博客后发现是java版本不匹配的问题，原本用的是java 1.7，然后我新安装了java 1.8，把Java的环境配置变量指向新安装的java1.8。但是此时在控制台输入java -version 和javac -version 指向的还是旧的Java 版本，死活没有用我新安装的，嗯这是个历史遗留问题，我们需要手动的把它更正过来。这里不一步一步演示怎么更正，详细请戳：centos修改jdk之后无法生效问题。请不要忘记在Slave1节点也把Java版本更换过来。

Master和Slave1节点都更换Java版本之后，在Master节点再次执行命令

cd /usr/local/spark/sbin
./start-master.sh

集群是正常启动了，在Master节点上运行jps命令，可以看到多了个Master进程

在这里插入图片描述
启动所有Slave节点（这里只有个Slave1）
在Master节点上执行以下命令

./start-slaves.sh

在Slave1上运行jps命令，可以看到多了个Worker进程

在这里插入图片描述

关闭Spark集群（在Master节点上操作）

关闭Master节点

./stop-master.sh

关闭Worker节点

./stop-slaves.sh

关闭Hadoop集群

stop-all.sh

作者：阿坨

环境搭建环境集群 spark

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Redis 有序集合(sorted set)

Petra 2020-05-22

602

Ubuntu不进入休眠模式的方法

Delfina 2020-08-10

716

Laravel访问出错提示：`Warning: require(/vendor/autoload.php): failed to open stream: No such file or di解决方法

Ava 2021-07-28

543

css中定位中的absolute和relative是什么意思

Chloe 2021-05-31

592

Three.js引用和环境搭建过程详解

Penelope 2023-05-13

1529

Mac安装Python3.10和配置环境的详细教程

Olivia 2023-05-13

1489

spark大数据任务提交参数的优化记录分析

Anna 2023-05-13

776

如何利用Fiddler模拟恶劣网络环境

Thalia 2023-05-13

1679

spark中使用groupByKey进行分组排序的示例代码

Tricia 2023-05-23

1807

java获取和设置系统变量问题(环境变量)

Ilona 2023-06-08

936

Windows 环境搭建 PostgreSQL 逻辑复制高可用架构数据库服务

Tia 2023-07-17

1417

Spark删除redis千万级别set集合数据实现分析

Tia 2023-07-20

1955

浅谈Redis分片集群搭建及其原理

Jennifer 2023-07-20

1748

JupyterNotebook切换conda虚拟环境的实现步骤

Rhea 2023-07-20

931

JupyterNotebook调用指定的虚拟环境的实现示例

Hazel 2023-07-20

1769

JupyterNotebook切换虚拟环境的三种方法

Habiba 2023-07-20

785

Python虚拟环境安装及操作命令详解

Kamiisa 2023-07-20

106

VS2019上配置CUDA的环境步骤

Bianca 2023-07-20

889

linux 和 dockerfile 中配置环境变量的方式总结

Nafisa 2023-07-21

1261

Docker部署Nginx设置环境变量的实现步骤

Irene 2023-07-21

338

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座