Hadoop Sparkを簡単にセットアップし、試してみる方法をまとめました.

1.前提

Dockerを利用します.まだインストールを済ませていない方はこちらから.

Hadoopは事前に用意しておく必要はありません.

 

2.Sparkのインストール

Sparkが利用可能なdockerのイメージファイルを取得します.

イメージファイルを実行すると、sparkがインストールされたCentOSのコンソールが表示される.

Sparkがインストールされた場所まで移動する.

 

Sparkを対話モードで起動させる.

Scalaを利用する場合

 

Pythonを利用する場合

 

起動ができれば、Sparkの利用は完了です.

適当なサンプルコードを実行してみてください.

 

注意

Sparkの公式にあるサンプルコードを実行しようとすると、count()のところでエラーが発生する

 エラー

org.apache.hadoop.mapred.InvalidInputException:

Input path does not exist: hdfs://sandbox:9000/usr/local/spark/README.md

これは、/usr/local/hadoop/etc/hadoop/core-site.xmlに記載のされているfs.defaultFSの設定が原因です.

このプロパティ自体をコメントアウトすれば正常に実行できるようになります.

 

2 thoughts on “5分で試す、Hadoop Spark

Leave a Reply

Your email address will not be published. Required fields are marked *