admin 管理员组文章数量: 1086019
2024年2月20日发(作者:rectangle函数的参数)
构造分布式的Spark1.0.2集群
1,下载Scala 2.10.4,具体下载地址:
/download/
在Ubuntu机器上Scala会帮助我们自动选择“”进行下载;
2,安装和配置Scala
我们需要在SparkMaster、SparkWorker1以及SparkWorker2上分别安装Scala,Scala的安装和配置具体参考 :Spark实战高手之路-第一章 第三步
解压下载的scala压缩文件
配置/etc/profile
添加SCALA_HOME变量
export SCALA_HOME=/home/hadoop/scala
export PATH=$PATH:$SCALA_HOME/bin
保存退出,执行source /etc/profile
使用 scp 命令将scala 安装到其它机器上
scp –r scala hadoop@linux02:/home/hadoop/hadoop/
在每台机器上安装完成后可以进行一下验证:
3,下载Spark 1.0.2,具体下载地址:
/dyn//spark/spark-1.0.2/
4,在SparkMaster上安装和配置Spark 1.0.2集群
把下载后“”解压到“/usr/local/spark”目录之下:
修改spark的名字
mv spark-1.0.2-bin-hadoop2 spark
配置 /etc/profile 添加SPQARK_HOME变量
export SPARK_HOME=/home/hadoop/spark
export PATH=$PATH:$SPARK_HOME/bin
进入spark的conf目录:
第一步修改slaves文件,首先打开该文件:
我们把slaves文件的内容修改为:
将work机器添加上去
第二步:配置
首先把te?拷贝到:
打开“”文件:
添加JAVA_HOME、SCALA_HOME、HADOOP_HOME、HADOOP_CONF_DIR、和SPARK_MASTER_IP这些变量
修改后的配置文件的内容如下所示:
5,使用 scp 命令将spark 复制到其它机器上
scp –r spark hadoop@linux02:/home/hadoop/hadoop/saprk
启动SPARk
进入spark的sbin目录,执行
使用jps命令可以看到
master机器上多了:master、work两个进程
在其它机器上多了work进程
我们可以进入Spark集群的Web页面,访问SparkMaster:8080
我们进入Spark的bin目录,使用“spark-shell”控制台
时我们进入了Spark的shell世界,根据输出的提示信息,我们可以通过“SparkMaster:4040” 从Web的角度看一下SparkUI的情况
测试Spark集群
上传一个文件到hdfs中
hadoop fs –put haoop/tmp/in
然后可以在进入到spark-shell:
val file = le("hdfs://linux01:8010/user/hadoop/hadoop/tmp/in")
val count = p(line => (" ")).map(word =>(word,1)).reduceByKey(_+_)
最后 提交 t();
从控制台可以看到的程序运行状况
构建Spark的IDE开发环境
版权声明:本文标题:spark 安装步骤 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1708401149a522792.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论