admin 管理员组

文章数量: 1086019


2024年2月20日发(作者:rectangle函数的参数)

构造分布式的Spark1.0.2集群

1,下载Scala 2.10.4,具体下载地址:

/download/

在Ubuntu机器上Scala会帮助我们自动选择“”进行下载;

2,安装和配置Scala

我们需要在SparkMaster、SparkWorker1以及SparkWorker2上分别安装Scala,Scala的安装和配置具体参考 :Spark实战高手之路-第一章 第三步

解压下载的scala压缩文件

配置/etc/profile

添加SCALA_HOME变量

export SCALA_HOME=/home/hadoop/scala

export PATH=$PATH:$SCALA_HOME/bin

保存退出,执行source /etc/profile

使用 scp 命令将scala 安装到其它机器上

scp –r scala hadoop@linux02:/home/hadoop/hadoop/

在每台机器上安装完成后可以进行一下验证:

3,下载Spark 1.0.2,具体下载地址:

/dyn//spark/spark-1.0.2/

4,在SparkMaster上安装和配置Spark 1.0.2集群

把下载后“”解压到“/usr/local/spark”目录之下:

修改spark的名字

mv spark-1.0.2-bin-hadoop2 spark

配置 /etc/profile 添加SPQARK_HOME变量

export SPARK_HOME=/home/hadoop/spark

export PATH=$PATH:$SPARK_HOME/bin

进入spark的conf目录:

第一步修改slaves文件,首先打开该文件:

我们把slaves文件的内容修改为:

将work机器添加上去

第二步:配置

首先把te?拷贝到:

打开“”文件:

添加JAVA_HOME、SCALA_HOME、HADOOP_HOME、HADOOP_CONF_DIR、和SPARK_MASTER_IP这些变量

修改后的配置文件的内容如下所示:

5,使用 scp 命令将spark 复制到其它机器上

scp –r spark hadoop@linux02:/home/hadoop/hadoop/saprk

启动SPARk

进入spark的sbin目录,执行

使用jps命令可以看到

master机器上多了:master、work两个进程

在其它机器上多了work进程

我们可以进入Spark集群的Web页面,访问SparkMaster:8080

我们进入Spark的bin目录,使用“spark-shell”控制台

时我们进入了Spark的shell世界,根据输出的提示信息,我们可以通过“SparkMaster:4040” 从Web的角度看一下SparkUI的情况

测试Spark集群

上传一个文件到hdfs中

hadoop fs –put haoop/tmp/in

然后可以在进入到spark-shell:

val file = le("hdfs://linux01:8010/user/hadoop/hadoop/tmp/in")

val count = p(line => (" ")).map(word =>(word,1)).reduceByKey(_+_)

最后 提交 t();

从控制台可以看到的程序运行状况

构建Spark的IDE开发环境


本文标签: 机器 安装 文件 下载 集群