TeradataがIoTデータのリアルタイム解析に対応した新ソフトウェアを発表

2015年のPartners User Group Conferenceで,Teradataは,IoT(Internet of Things)データの大規模ストリームのリアルタイムな取り込み(Ingestion)と分析(analysis)という,2つの機能のソフトウェアを新たに発表した。Teradata Listenerソフトウェアは,さまざまなIoTデータストリームを複数同時に,かつリアルタイムに“listen”することができる。収集されたデータは,複数の分析プラットフォームに伝搬される。新しいTeradata Aster Analytics on HadoopソフトウェアはTeradata Aster Analyricsを使用して,大量のIoTデータストリームに対応可能な,スケーラブルな分析機能を提供する。

Listenerソフトウェアはオープンソースソフトウェア(Kafka, Cassandra, Elasticsearch, Mesosなど)と,Dockerやマイクロサービス, RESTful APIをベースとしたTeradata独自のソフトウェアを組み合わせて設計されている。GUIを使用して,入力データストリームと内部データパイプライン,出力データの送信先を構成することや,モニタダッシュボードで,実行中のプロセスの完全かつ透過的な全体像を見ることが可能だ。さらに,RESUfulなAPIが用意されているので,モニタやレポート,分析などを独自に行うこともできる。現在のベータ版では,完全なAPIドキュメントがまだ用意されていないが,Listener Curl Scriptのブログ記事で,APIへのアクセス方法が提供されている。

新しいTeradataプラットフォームはElasticのELKスタックといくつか共通点があるが,対処しようとしている問題の細かな部分に技術的な相違がある。ListenerはElasticsearchを内蔵してLogstashのような転送パイプライン機能を実現すると同時に,Kibanaのようなデーラフロー監視と可視化コンポーネントも持っている。ELKスタックが対応していない問題の中で,Teradaの新プラットフォームによって解決されるのは,数学的アルゴリズムの並列化である。正しい最終結果を求めるためには,アルゴリズムに対してすべてのデータを同時に提供できなくてはならない。これが,Teradata Aster Analytics on Hadoopが実現する技術的革新,すなわち,考え得るすべてのアルゴリズムが使用する,大量なIoTデータ入力の解析に適用可能な,ビッグデータのスケーラビリティなのだ。

解析ツールはもともと,Hadoopのような分散環境で動作するようには設計されていない。ツールの提供する分析処理は,ほとんどの場合,入力データセット全体を使って結果を生成する必要があるからだ。データと解析処理が複数サーバに分散されている場合,各サーバ上で解析ソフトウェアが個別に動作し,複数の結果が返されることになる。(解析の内容によっては)それらの結果をひとつにマージする,数学的に有効な手段が存在しないことも考えられる。データの部分集合を使用した演算結果の集計に基づいて,統計的に正しい答を推測するという方法も考えられるが,入力データセット全体を使用した実際の値を求めることはできない。実際に正しい値が必要な場合,従来の方法を使っていたのでは,誤りの可能性を含んだ推測値以外に,解析処理を並列化する方法は存在しないのだ。

Aster Analytics on Hadoopはこの問題を,Aster Analyticsソフトウェアを直接Hadoopに統合することで解決する。Asterプロセスエンジン(“vWorkers”と呼ばれる)が用意され,Hadoop YARNデータオペレーティングシステムによって管理される。AsterはHadoop内でネイティブプロセスとして動作するので,HDFS(Hadoop Distributed File System)全体のデータにアクセスすることができる。これにより,解析結果が複数であったり,不正である問題が解決される。それと同時に,Aster AnalyticsをHadoopを実行することで,分析処理がスケーラブルでないという問題も解決できるのだ。

Teradata Listenerは現在,ベータ版が提供されている。製品版のリリースは,2016年の第一四半期が予定されている。Teradata Aster Analytics on Hadoopのリリースは,2016年第二四半期の予定だ。いずれも自身で保有するデータセンタ,あるいはクラウドプラットフォームで実行することができる。