Hadoop Sparkを簡単にセットアップし、試してみる方法をまとめました．

1．前提

Dockerを利用します．まだインストールを済ませていない方はこちらから．

Hadoopは事前に用意しておく必要はありません．

2．Sparkのインストール

Sparkが利用可能なdockerのイメージファイルを取得します．

<span class="line">docker pull sequenceiq/spark:latest</span>

1	<span class="line">docker pull sequenceiq/spark:latest</span>

イメージファイルを実行すると、sparkがインストールされたCentOSのコンソールが表示される．

<span class="line">docker run -i -t -h sandbox sequenceiq/spark /etc/bootstrap.sh -bash</span>

1	<span class="line">docker run -i -t -h sandbox sequenceiq/spark /etc/bootstrap.sh -bash</span>

Sparkがインストールされた場所まで移動する．

<span class="line">cd /usr/local/spark</span>

1	<span class="line">cd /usr/local/spark</span>

Sparkを対話モードで起動させる．

Scalaを利用する場合

<span class="line">./bin/spark-shell
</span>

1 2	<span class="line">./bin/spark-shell </span>

Pythonを利用する場合

./bin/pyspark

1	./bin/pyspark

起動ができれば、Sparkの利用は完了です．

適当なサンプルコードを実行してみてください．

注意

Sparkの公式にあるサンプルコードを実行しようとすると、count()のところでエラーが発生する

<span class="n">scala</span><span class="o">&gt;</span> <span class="k">val</span> <span class="n">textFile</span> <span class="k">=</span> <span class="n">sc</span><span class="o">.</span><span class="n">textFile</span><span class="o">(</span><span class="s">"README.md"</span><span class="o">)</span>
scala&gt; textFile.count()

scala> val textFile = sc.textFile("README.md")

scala> textFile.count()

エラー

org.apache.hadoop.mapred.InvalidInputException:

Input path does not exist: hdfs://sandbox:9000/usr/local/spark/README.md

これは、/usr/local/hadoop/etc/hadoop/core-site.xmlに記載のされているfs.defaultFSの設定が原因です．

このプロパティ自体をコメントアウトすれば正常に実行できるようになります．

  <configuration>
      <!-- <property>
          <name>fs.defaultFS</name>
          <value>hdfs://sandbox:9000</value>
      </property> -->
  </configuration>

<!-- <property>

<name>fs.defaultFS</name>

<value>hdfs://sandbox:9000</value>

</property> -->

</configuration>

M	T	W	T	F	S	S
« Nov				Jan »
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

AICS

An Individual Changes the Society

5分で試す、Hadoop Spark

1．前提

2．Sparkのインストール

エラー

2 thoughts on “5分で試す、Hadoop Spark”

Leave a Reply Cancel reply