spark 集群使用手册

采用浪潮集群搭建Spark的四个节点(cu01,cu02,cu03,cu04),Spark和hadoop已经安装好。使用hadoop 的yarn集群管理器。
1.启动hadoop

[wangj@mu01 ~]$ssh cu01           #进入主节点
[wangj@controller ~]$ cd /opt/software/hadoop/
[wangj@controller hadoop]$ cd hadoop-2.7.4/
[wangj@controller hadoop-2.7.4]$ sudo ./sbin/start-all.sh
#启动hadoop

这里写图片描述
启动hadoop之后的日志,说明没有错误。

  1. 启动spark节点
[wangj@controller hadoop-2.7.4]$ cd ../
[wangj@controller hadoop]$ cd spark-2.1.1/
[wangj@controller spark-2.1.1]$ sudo ./sbin/start-master.sh
[wangj@controller spark-2.1.1]$ sudo ./sbin/start-slaves.sh

这里写图片描述
上图为spark节点启动成功后的日志,
3.查看当前进程

[wangj@controller spark-2.1.1]$ sudo jps

这里写图片描述

4.进入spark shell ,启动spark应用程序
退出shell使用:quit命令

[wangj@controller ~]$ cd /opt/software/hadoop/spark-2.1.1/
[wangj@controller spark-2.1.1]$ sudo ./bin/spark-shell

这里写图片描述

在shell界面执行命令,
这里写图片描述

parallelize函数表示并行计算。第二个参数是slices,表示数据集切分的份数。Spark将会在集群上为每一份数据起一个任务。典型地,你可以在集群的每个CPU上分布2-4个slices. 一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。然而,你也可以通过传递给parallelize的第二个参数来进行手动设置。(例如:sc.parallelize(data, 10)

可以使用pyspark接口进入python程序的shell界面

[wangj@controller spark-2.1.1]$ sudo ./bin/pyspark

这里写图片描述

5.程序结束,关闭spark和hadoop需要按照一定的顺序

[wangj@controller spark-2.1.1]$ sudo ./sbin/stop-master.sh
[wangj@controller spark-2.1.1]$ sudo ./sbin/stop-slaves.sh
[wangj@controller spark-2.1.1]$ cd ../hadoop-2.7.4/
[wangj@controller hadoop-2.7.4]$ sudo ./sbin/stop-all.sh

这里写图片描述

至此,hadoop和spark已经关闭。

下一步开始研究如何执行python程序以及调用python的机器学习模块等内容。

本站公众号
   欢迎关注本站公众号,获取更多程序园信息
开发小院