自分が初めてSparkについて学んだ際に利用した情報サイトをまとめました.
1.概要編
https://spark.apache.org/ 公式サイト.まずはここでダウンロードを.
http://www.cloudera.co.jp/products-services/cdh/apache-spark.html Cloudera社による紹介
http://itpro.nikkeibp.co.jp/atcl/column/14/081900045/082000003/ NTT DATAがSparkを使う理由.実際の運用に基づく意見が書いてあります.
http://www.ne.jp/asahi/hishidama/home/tech/scala/spark/ プログラミングのことを調べるとよく行き着くサイト.Hadoop/Sparkの比較が秀逸です.
2.実装編
docker で始めるSpark dockerをインストールすれば、簡単に始められる方法です
https://spark.apache.org/docs/latest/quick-start.html 公式のQuickStart.実装を始めるならまずはここから.
https://spark.apache.org/docs/latest/programming-guide.html もう少し踏み込んだプログラミングガイド.
http://www.ibm.com/developerworks/jp/opensource/library/os-spark/ Scalaの簡単な使い方から、Sparkを利用した実装まで紹介されています.2011年とちょっと古いため、最新のSparkとは異なる部分もあるかと思います.
http://spark-summit.org/wp-content/uploads/2014/07/A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson.pdf Sparkの内部を説明しています.チューニングの手順を具体例で示してくれています.
3. Spark SQL / Spark Streaming / Spark GraphX
http://www.intellilink.co.jp/article/column/bigdata-kk01.html Spark Streamingについての説明.簡単な記事ながら、Twitterの情報をウィンドウ集計するという実用性の高いトピックを扱っています.
http://www.ne.jp/asahi/hishidama/home/tech/scala/spark/streaming.html Sparl Streaming のAPI説明.貴重な日本語の情報源です.
http://www.ne.jp/asahi/hishidama/home/tech/scala/spark/sql.html Spark SQLのAPI説明.
4. Scalaで実装するならこれも
http://www.scala-lang.org/api/current/index.html Scalaの標準ライブラリのScaladocです.