Инструкция по установке Docker
Образ с предустановленным Apache Spark
Инструкция по установке Apache Spark
- Установите Docker Engine на вашу локальную машину: https://docs.docker.com, для windows
- Вы можете скачать и станровить готовый образ (i), либо собрать докер-образ самостоятельно (ii).
- Скачайте собранный образ по ссылке и установите его выполнив команду
docker load -i <путь к скачанному файлу/spark-doker.tar>
- Для сборки докер-образа склонируйте репозиторий и выполните команду:
docker build --no-cache --rm --tag spark - < ./docker/Dockerfile
- Скачайте собранный образ по ссылке и установите его выполнив команду
- После завершения установки образа в списке докер-образов должен появится образ с именем
spark:latest
. Для получения списка образов выполните командуdocker images
- Запустите контейнер, выполнив команду
docker run -p 8888:8888 -it spark
- В случае успешного выполнения операций в браузере по адресу http://127.0.0.1:8888 должен быть доступен ноутбук с примерами к занятиям
- Для работы с Apache Spark необходимо наличие следующих пакетов
- Java SE Development Kit https://www.java.com
- Scala Build Tool http://www.scala-sbt.org
- Python 2.7 https://www.python.org
- Jupiter Notebook http://jupyter.org
- Скачать дистрибутив Apache Spark с официального сайта
- Распаковать скаченный дистрибутив в директорию /opt/spark-2.1.0-bin-hadoop2.7
- В файл ~/.bashrc добавить следующие строки
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
- Проверить корректность установки можно с помощью следующего кода
from pyspark import SparkContext
sc = SparkContext('local', 'test app')
a = range(10)
a = sc.parallelize(a)
print(a.reduce(lambda x, y: x + y))