先月、GoogleがTensorFlowをインテグレートしたクラウド機械学習サービスのα版をリリースした。このサービスは、TensorFlowライブラリをGoogle Cloud Platform (GCP)上でスケールさせて動かしたいというニーズの高まりに応えるものだ。
Googleは自らのビッグデータおよびアナリティクスプラットフォームと機械学習を密にインテグレートするという発表の中で、HadoopとSparkのマネージドサービスであるDataprocなどと統合して、TensorFlowの利用をスケールさせるための新機能について説明している。オープンソース主導のTensorFlowとそのGCPとのインテグレーションは、一般に利用できるマネージドクラウドサービス上で「ユーザーが独自の分散学習アルゴリズムを実行する」ことを可能にするものだ。
そのPaaSの要になるのが、TensorFlowと言語の翻訳・画像および音声の認識用にプレトレーニング済みの多数のモデルだ。TensorFlow ServingとKubernetesを組み合わせ、外部ロードバランサーとpodによるDockerオーケストレーションを活用することで、「何千ものコアにトレーニングをスケールする」ことができる。例として、パッケージされたTensorFlowリソースを複製することで、トレーニングされたInception-v3モデルを実行できることが書かれている。リソースには、TensorFlow ServingベースのgRPCサーバーと「2700万以上のパラメータ」を持ち「推論ごとに57億の浮動小数点演算」を処理するモデルが含まれている。
Dockerとのインテグレーションは、今年初めに発表されたTensorFlow Servingが目指している継続的トレーニングパイプラインの一環として、新しいモデルバージョンパッケージングとデプロイメントを可能にする。TensorFlowとKubernetesのチュートリアルでは、デモと学習を目的に、Inceptionに基づいたTensorFlowとKubernetesのパイプラインを作成することができる。
発表では、新しいデータ処理パイプラインのプロジェクト提案、Apache Beamについても言及された。これはバッチ処理とストリーム処理のオプションを提供し、大規模なTensorFlowの学習データセットを配信するパイプラインのニーズを満たす可能性がある。しかも、Spark、Flink、Dataflowベースのシステムとの互換性がある。Googleは、メンテナンス性と技術的負債の観点から、密結合した機械学習システムの性質に関する論文を発表している。GCPによるTensorFlowの利用増加を観察することで、彼らはさらなる機械学習の標準化の可能性とその導入に注意を向けるだろう。