• Spark 설정하기

    spark 환경설정

    .hosts파일에 master와 slave노드들의 ip를 기재하는데,

    $ 루프백 ip
    $ master ip
    $ Slave1 ip
    $ …
    $ Slaven ip

    위와 같이 기재.

    .bash_profile파일에 다음 코드 입력

    $ export HADOOP_CONF_DIR=~/hadoop/etc/hadoop $ export YARN_CONF_DIR=~/hadoop/etc/hadoop

    Spark 설정

    ${SPARK_DIR}/conf/spark-env.sh.template 을 복사하여 같은 경로에 spark-env.sh 파일을 생성합니다.

    파일을 열고, 다음 변수를 추가합니다.

    $ export HADOOP_CONF_DIR=${HADOOP_DIR}/etc/hadoop

    Yarn-client와 연결

    다음 명령어가 정상적으로 수행되는지 확인합니다. 단, 수행하기 이전에 Hadoop 2.5.1 과 Yarn이 정상적으로 수행되고 있어야합니다.

    $ ${SPARK_DIR}/bin/spark-shell –master yarn-client
    중간에 에러 메시지 없이
    $ scala>
    위와 같이 뜨면 설치 완료.

    bash_profile 수정사항 전체 코드는 아래와 같다.

    $ export ONOS_ROOT=~/onos
    $ source $ONOS_ROOT/tools/dev/bash_profile
    $
    $ export ONOS_IP=192.168.0.100
    $ export ONOS_APPS=drivers,openflow,proxyarp,mobility,fwd
    $ export HADOOP_CONF_DIR=~/hadoop/etc/hadoop
    $ export YARN_CONF_DIR=~/hadoop/etc/hadoop
    $ export SPARK_HOME=”/home/link/spark”
    $
    $ export PYSPARK_DRIVER_PYTHON=/home/link/anaconda2/bin/jupyter
    $ export PYSPARK_DRIVER_PYTHON_OPTS=”notebook –NotebookApp.
    $ open_browser=False –NotebookApp.ip=’*’ –NotebookApp.port=8880″
    $ export PYSPARK_SUBMIT_ARGS=”–master local[2]”
    $ export LD_LIBRARY_PATH=”$LD_LIBRARY_PATH:/usr/local/cuda/lib64″
    $ export CUDA_HOME=/usr/local/cuda
    $ export PYTHONPATH=/home/link/spark/python/lib/py4j-0.10.3-src.zip
    $ export PATH=”$SPARK_HOME/bin:$PATH”

    spark 명령어

    미리 만들어 놓은 jar파일을 실행하는 spark-submit 명령어

    $ ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master >yarn >–deploy-mode cluster –driver-memory 4g –executor-memory 2g –>executor->cores 1 ./examples/jars/spark-examples_2.11-2.0.2.jar 10

    python파일도 실행이 가능하다.

    $ ./bin/spark-submit –master yarn –deploy-mode cluster –driver-memory 4g >–executor-memory 2g –num-executors 10 –executor-cores 4 >./examples/python/titleSortedWords.py 10

    pyspark(pyspark명령어에 jupyter환경을 연결한 상태)를 yarn을 통해서 jupyter를 실행하는 명령어

    $ pyspark –master yarn –deploy-mode client –driver-memory 4g –executor->memory 4g –num-executors 10 –executor-cores 8

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax

%d 블로거가 이것을 좋아합니다: