收藏官网首页
查看: 9478|回复: 3

1分钟学大数据分析--搭建本地开发环境

36

主题

69

帖子

265

积分

中级会员

Rank: 3Rank: 3

积分
265
跳转到指定楼层
楼主
发表于 2015-10-13 00:37:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
汉枫LPB120模块
本帖最后由 feel 于 2015-10-13 00:46 编辑

在做数据分析的时候,我们开发的程序经常需要调试,而我们的spark 集群环境在公司内网服务器,及生产环境。调试及其不方便。为此写下这篇文章方便开发者。我自己的机器是mac ,当然你可以可以用linux 系统,windows 还是算了。
基本的环境:java .scala. idea
java ,scala 环境的配置相信每个开发者都会。不会的自行google
打开本机远程登入配置
spark 环境搭建
1. 下载 spark
  1. macbook:~ feel$ wget -c   http://apache.dataguru.cn/spark/spark-1.5.1/spark-1.5.1-bin-hadoop2.6.tgz
复制代码
2.  解压  
  1. macbook:~ feel$ tar -zxf  spark-1.5.1-bin-hadoop2.6.tgz
复制代码
3.配置spark全局环境变量
  1. export  SPARK_HOME=/Users/feel/opt/spark

  2. export PATH=.:$SPARK_HOME/bin/:$PATH
复制代码
4.配置spark 单机运行环境
配置spark-env.sh
  1. macbook:conf feel$ cat spark-env.sh
  2. #!/usr/bin/env bash


  3. export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.7.0_79.jdk/Contents/Home

  4. export SCALA_HOME=/Users/feel/opt/scala

  5. export  SPARK_HOME=/Users/feel/opt/spark


  6. export SPARK_MASTER_IP=localhost
  7. export SPARK_MASTER_PORT=7077
  8. export  SPARK_WORKER_CORES=2
  9. export  SPARK_WORKER_MEMORY=2g
  10. export  SPARK_WORKER_INSTANCES=1

  11. export SPARK_LOG_DIR=${SPARK_HOME}/log
  12. export SPARK_WORKER_DIR=${SPARK_HOME}/log/run/work
  13. export SPARK_LOCAL_DIRS=${SPARK_HOME}/localdirs
  14. export SPARK_CONF_DIR=${SPARK_HOME}/conf
  15. export SPARK_PID_DIR=${SPARK_HOME}/log
复制代码
5.配置本机无密钥登入
6.最后启动
  1. macbook:spark feel$ sbin/start-all.sh
  2. starting org.apache.spark.deploy.master.Master, logging to /Users/feel/opt/spark/log/spark-feel-org.apache.spark.deploy.master.Master-1-macbook.out
  3. localhost: starting org.apache.spark.deploy.worker.Worker, logging to /Users/feel/opt/spark/log/spark-feel-org.apache.spark.deploy.worker.Worker-1-macbook.out
复制代码
idea 开发环境

建立scala 工程项目

log4j.  这里无语了。不能贴代码,报不良信息


spark 测试代码
object sparktest {

  def main(args: Array[String]) {


    val sparkConf = new SparkConf().  //
           setAppName("WeaterheaterStreaming"). //
           setMaster("local"). //
           set("spark.scheduler.mode", "FAIR"). //
           set("spark.default.parallelism","16")  //

    val sc = new SparkContext(sparkConf)   // new context


      val rdd = sc.parallelize(List(1,2,3,4,5))
         rdd.foreach(println _)

      sc.stop()

  }

可以查看运行结果;

至此我们的开发和调试环境就基本完工了。
是不是想也动手也试试。非常抱歉的是,写过很多。都提交不了。最后把能删的都删了  。(非法字符,文字限制等等) 。。。。。。。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

加入Q群 返回顶部

版权与免责声明 © 2006-2024 Gizwits IoT Technology Co., Ltd. ( 粤ICP备11090211号 )

快速回复 返回顶部 返回列表