Google、SparkとHadoopのマネージドサービス、Cloud Dataprocを提供開始 | TechCrunch Japan

Googleは、Google Cloud Platformのビッグデータサービス群に新たな製品を今日追加する。新サービスのGoogle Cloud Dataprocは現在ベータ版で、データ処理エンジンのSparkやHadoopフレームワークをバーチャルマシン上で直接管理し、Googleプラットフォーム上のデータパイプラインを統合するCloud Dataflowのような完全マネージド型サービスとの中間に位置する。

Google Cloud Platformの製品管理責任者、Greg DeMichillieは私に、DataprocユーザーはHadoopクラスターを90秒以内に立ち上げることが可能で ― 他のサービスより著しく速い ― Googleはクラスター上のバーチャルCPU料金を毎時1セントしか課金しないと言った。これはバーチャルマシンとデータストレージを運用するのにかかる費用に上乗せされるものだが、DeMichilleはGoogleの低価格のプリエンプティブル・インスタンスを利用すれば計算コストを若干節約できると言った。課金は分単位で、最低10分から。

Dataprocでここまで速くクラスターを立ち上げられることから、ユーザーは必要に応じて一時的クラスターを設定することができる上、マネージド型のためGoogleがユーザーに代って運営できる。

「この分野ではあらゆる規模に適合する製品はない。これは当社の総合的ポートフォリオにとって極めて重要な製品だと考えている」とDeMichilleは言った。

KciNhA1_PKSnFIsuVnhhvwmCPGiLfaOfGhPfBAT0I7eykLJI3f1SQcyhRyZs1b5LOUe1yA=s2048

このサービスは標準的なSparkおよびHadoopのディストリビューション(微調整あり)を使用しているため、事実上どの既存Hadoopベース製品とも互換があり、ユーザーは現行業務を容易にGoogleの新サービスに移行できるはずだ。

DeMichillieとGoogleのビッグデータ製品マネージャー、James Maloneは私に、Googleは同社のネットワークインフラのおかげでサービスのスピードを保証できるが、加えてSparkの問題(同社がこのサービスに利用しているオープンソースのYARNリソースマネージャーに関連する)を修復し、最適なイメージを構築したことも貢献していると話した。

DeMichillieは、一部のユーザーはデータパイプラインや処理アーキテクチャーの完全制御を望んでおり、そのために各自のバーチャルマシンを運用、管理したがるだろうと認識している。彼は、Dataprocのユーザーにとって独自インフラを設定するのと比べて実質的なトレードオフはないと考えている。

当然ながら、DataprocはGoogleの他のクラウドサービス、BigQueryCloud StorageCloud BigtableCloud Logging、およびCloud Monitoringとも統合されている。

[原文へ]

(翻訳:Nob Takahashi / facebook