編集部記:Slater Victoroffは、Crunch Networkのコントリビューターである。 Slater Victoroffは、Indico Data SolutionsのCEOである。
私のカスタマーはいつも嘘をつく。何を購入できるかについては嘘を付かない。どの程度カスタマーサービスが必要かに関しても嘘を付かないし、どのくらいの期間で料金を支払えるかについても嘘をつかない。
彼らは、持っているデータ量に関して嘘を付くのだ。
最初、妙なクライアントが一人いるだけだと思った。そのクライアントは毎月十億単位のコールを処理し、「大量のデータストリーム」があると話した。そのような大量のデータを分析するには、高額な費用がかかると私が説明すると、本当のことを話し始めた。彼らは、次の数ヶ月で日に100万コールになるようにしたいと言った。そのような前向きの目標を達成できたとしても、最初に主張したデータ量の100分の1にも満たない。
このような主張をするのは、このクライアントだけではなかった。企業が実際に取り扱うデータ量は、彼らが主張するデータ量の100分の1程度であるという法則を私は見出した。
企業は保有するデータセットの量を誇張する。釣り人が釣った魚の大きさを誇張するのと同じようなことだ。彼らは、止めどないテラバイト単位の情報があると主張する。そう主張する理由は明白だ。情報量が多ければ多いほど良いことだと考えているのだ。
マーケティング資料を見て、データ量が会社に千里眼を与えると思うのだ。従業員のパフォーマンスから自社のカスタマーベースの好みまで、ありとあらゆることに関する深い洞察が得られるという。データが多いほど、人がどのように意思決定をし、何を購入し、何に気持ちが動くかが分かるようになる。そうだろう?
しかし、マーケティング資料とは釣り人のように誇張しているのだ。多くの企業は主張するほどデータを保持していない。そして典型的に、彼らが所有するデータのほんの一部からしか深い洞察は得られないものだ。
何故企業はデータ量を偽るのか?自社を大企業のように見せたいからだ。Amazon、Facebook、Googleのような企業が大量のデータを収集して所有しているという話を聞いているのだろう。企業はそのような大量のデータを集めるリーチがないにも関わらず、更にはデータを購入する資金がある訳でもないが、そのトレンドに乗りたいと考えているし、他社にもそう思われたい。データアナリストのCathy O’Neilが最近投稿したブログ記事にはこう記されている。多くの人は「普通のテクノロジー企業にデータを振りかければ、次のGoogleになると考えている」と。
しかし大企業でも、大量に集めたデータのほんの一部しか利用していない
ビッグデータは「ビッグ」でもなく、良いデータは更に少ない。
Twitterは、 一日8テラバイトの情報を処理している。その数値は、ツイートから何か洞察を得ようとしている小さな企業を圧倒するだろう。しかし、ツイートの実際のコンテンツはどのくらいのデータ量だろうか?Twitterのユーザーは 毎日5億のツイートをしていて、ツイートの平均文字数は60文字だという。簡単な計算をすると、実際のテキストコンテンツはたった30ギガバイト分だ。8テラバイトの1%の更に半分にも満たない。
このパターンは他でも見られる。Wikipediaはインターネット上で最も多くのテキストデータを保持しているが、全てのテキストデータは一つのUSBに収まる程度だ。世界中にある全ての音楽も600ドル程度で購入できるディスクドライブに収めることができる。似たような例は他にもあるが、重要なことは、ビッグデータは「ビッグ」でもなく、良いデータは更に少ないということだ。
もし大量のデータセットが役に立たないのなら、何故それが話題になるのだろうか?何故なら、全ての人の役に立たないということではないからだ。ディープラーニングのモデルを使用することで、ノイズとサインを区別し、専門家が体系化するまで数ヶ月かかるようなパターンを見つけたりすることができる。しかし、一般的なディープラーニングモデルは、ラベルが付いた大量のデータが必要だ。そして、大量のデータセットにラベルを付けるには、何万ドルもの費用と何ヶ月もの期間を要する。その仕事はFacebookやGoogleといった大企業が行うべきだろう。多くの小さな企業はこのことに気づかず、購入しても使い道のない大量のデータ容量を取得するのだ。
このような企業には別の選択肢がある。既に保持しているデータから価値を見出すことができる。
確かに、ほとんどのディープラーニングのアルゴリズムは大量のデータセットを必要とする。しかし、私たちは人が推論するように、少量のデータからでも傾向を導きだすようにそれを設計することができる。転移学習を用いることで、大量のデータセットでアルゴリズムを精錬した後に少量のデータ分析を行うことができる。これで学習プロセスが100倍から1000倍も効果的になる。
ビジネス目的に転送学習を活用しているスタートアップをいくつか取り上げる。
これらのサービスを利用するのにプログラマーである必要もない。Blockspringでユーザーはコードを一行も書かずとも、ExcelのスプレッドシートだけでAPIを組み合わせることができる。
このような選択肢がある中、テラバイト級の大量のデータを購入する意味が薄れる。また、誇張する必要もまるでない。
データの未来は「ビッグ」ではなく「スモール」なことは明確だ。
[原文へ]