share facebook facebook twitter menu hatena pocket slack

DockerではじめるPySpark

河村 敏貴

WRITTEN BY 河村 敏貴

最近Sparkの勉強を始めました。
手軽に試せる環境としてPySparkをJupyter Notebookで実行できる環境を作ればよさそうです。
環境構築に手間取りたくなかったので、Dockerで構築できないか調べてみるとDocker Hubでイメージが提供されていましたので、それを利用することにしました。
今回は導入からサンプル実行までやってみたいと思います。

環境

Mac Sierra
Docker for Mac

導入手順

Dockerイメージの取得

以下のコマンドを実行してイメージを取得してください。
イメージのサイズが約5GBあるのでディスク容量には気をつけてください

docker pull jupyter/pyspark-notebook

Dockerの起動

notebookのデータを保存しておくために、ローカルに適当なディレクトリを作成してDockerのマウント先を作ります。
以下コマンドを実行してDockerを起動します。

docker run -p 8888:8888 -v ローカルボリュームのフルパス:/home/jovyan/work jupyter/pyspark-notebook start-notebook.sh --NotebookApp.token=''

Jupyterの起動

Dockerの起動完了後、以下のアドレスにアクセスします
http://localhost:8888/

正常に起動していれば以下のような画面が表示されます

右端のNewボタンからPython3を選択します

新規に開いた画面に以下のコードを入力します

from pyspark.context import SparkContext
sc = SparkContext()

data = sc.parallelize([1, 2, 3, 4, 5])
print(data.count())
sc.stop()

Runボタンをクリックし実行結果が表示されれば成功です

後は色々とサンプルを動かしてみてください。
Dockerで手軽に試せるのはいいですね。

元記事はこちら

DockerではじめるPySpark

河村 敏貴

河村 敏貴

クラウド業界に興味を持ち、業務系のアプリエンジニアからインフラエンジニア見習いに転身しました。日々新しい技術に触れることができる環境でもがきつつも楽しい毎日を過ごしています。 河村 敏貴

cloudpack

cloudpackは、Amazon EC2やAmazon S3をはじめとするAWSの各種プロダクトを利用する際の、導入・設計から運用保守を含んだフルマネージドのサービスを提供し、バックアップや24時間365日の監視/障害対応、技術的な問い合わせに対するサポートなどを行っております。
AWS上のインフラ構築およびAWSを活用したシステム開発など、案件のご相談はcloudpack.jpよりご連絡ください。