Spark集群部署

数据库 Spark
本文将为您介绍如何在虚拟机环境部署Spark集群。集群上已经成功部署了Hadoop2.2,软件环境为64位Ubuntu12.04 LTS。

1. 安装环境简介

硬件环境:两台四核cpu、4G内存、500G硬盘的虚拟机。

软件环境:64位Ubuntu12.04 LTS;主机名分别为spark1、spark2,IP地址分别为1**.1*.**.***/***。JDK版本为1.7。集群上已经成功部署了Hadoop2.2,详细的部署过程可以参见另一篇文档Yarn的安装与部署。

2.  安装Scala2.9.3

1)在/home/test/spark目录下面运行wget http://www.scala-lang.org/downloads/distrib/files/scala-2.9.3.tgz命令,下载scala的二进制包。

      2) 解压下载后的文件,配置环境变量:编辑/etc/profile文件,添加如下内容:

  1. export SCALA_HOME=/home/test/spark/scala/scala-2.9.3 
  2. export PATH=$SCALA_HOME/bin 

      3)运行source /etc/profile使环境变量的修改立即生效。在spark2上执行相同的操作,安装scala。

3. 下载编译好的spark文件,地址为:http://d3kbcqa49mib13.cloudfront.net/spark-0.8.1-incubating-bin-hadoop2.tgz。下载后解压。

4.配置conf/spark-env.sh环境变量,添加如下内容:

  1. export SCALA_HOME=/home/test/spark/scala/scala-2.9.3 

5. 在/etc/profile中配置SPARK_EXAMPLES_JAR以及spark的环境变量:添加如下内容:

  1. export SPRAK_EXAMPLES_JAR=/home/test/spark/spark-0.8.1-incubating-bin-hadoop2/examples/target/scala-2.9.3/spark-examples_2.9.3-assembly-0.8.1-incubating.jar 
  2. export SPARK_HOME=/home/test/spark/spark-0.8.1-incubating-bin-hadoop2 
  3. export PATH=$SPARK_HOME/bin 

6. 修改/conf/slaves文件,在文件中添加如下内容:

  1. spark1 
  2. spark2 

7.使用scp命令将上述文件拷贝到spark节点的相同路径下面scp -rspark-0.8.1-incubating-bin-hadoop2 test@spark2:/home/test/spark:

8. 在spark1上启动spark集群,并检查进程是否成功启动。如下master和worker已经成功启动。

使用浏览器打开http://1**.**.*.***:8080/,其显示如下所示:


可以看到集群中的两个slave节点已经成功启动。

9.        运行spark自带的例子:./run-exampleorg.apache.spark.examples.SparkPi spark://master:7077,其结果如下所示:

在web界面能看到刚才运行的job如下所示:

 

 

原文链接:http://blog.csdn.net/zhxue123/article/details/19199859

 

责任编辑:彭凡 来源: CSDN博客
相关推荐

2016-11-29 09:23:17

Spark集群部署

2014-07-04 10:01:08

Spark集群

2014-04-16 13:47:43

SparkYarn

2014-04-16 14:04:34

SparkStandalone

2021-06-26 07:40:45

Greenplum集群部署

2023-06-06 19:24:06

KubernetesSpark

2013-07-11 13:39:23

Hadoop

2014-12-22 09:57:27

Spark分布式数据集大数据

2017-03-31 14:25:19

手动docker swar集群

2023-11-07 07:30:18

Hadoop高可用

2021-01-15 08:07:30

Ceph octopu集群运维

2020-03-06 16:00:04

KubernetesSpark容器

2014-01-07 11:24:45

SparkHadoop

2023-06-12 07:41:16

dockerspark集群

2014-07-17 14:09:31

Spark

2016-01-07 09:36:20

Docker容器

2017-05-04 09:01:45

达观数据Docker部署

2021-10-13 08:53:53

Zookeeper存储系统

2022-09-06 14:23:53

zookeeperHbase

2017-01-11 16:57:51

大数据大数据集群监控
点赞
收藏

51CTO技术栈公众号