Microsoft Cognitive Servicesが4月末に顔認識、コンピュータビジョン、コンテンツモデレーションのAPIをリリースした。
Cognitive Servicesは、開発者が画像認識、音声認識、翻訳、その他の機能をアプリケーションに組み込むことが可能となる、多数のAPIとサービスを包含する。これらのAPIは、人工知能や機械学習の機能を自ら開発せずとも自身のアプリケーションに組み込むことを可能とする。
Face APIは人間の顔を検出し、識別する。Microsoftは、2つの画像が同一人物の写真かどうかを判定することができる。(Uberのようにドライバーを検証するような技術を使用している会社に有用である。)Face APIでは見た目の類似性に基づいて人々をグループにまとめることも可能である。年配の人たちと若者たちを別のカテゴリーに分けることがユースケースの例として挙げられる。以前タグ付けされた人である場合、Face APIは新たな画像内でその人を認識する。加えて、顔に表れている感情をも検知する。
コンピュータビジョンAPIは、画像内のコンテンツに応じてタグを付ける。例えば、この画像は「水」「スポーツ「スイミング」「プール」というタグが返される。 更には、画像が成人向けやわいせつなコンテンツを含むかどうかについても検知する。
Computer Vision APIは、ランドマークや著名人を認識することが可能な2つのドメイン固有モデルがある。
Computer Vision APIでは画像を文章で表現することも可能であり、「ベンチに座っている人」がその表現の一例である。Microsoftはさらに、手書きの文字の検出、抽出、読み取りが可能な手書き文字認識を追加している。ポストイットのメモや備忘リストを、APIがコンピュータで読み取り可能なテキストに変換するいくつかのユースケースが提示されている。
Content Moderator APIは、アプリのテキストや画像等のインプット情報をモデレートするのに活用できる。攻撃的になり得る画像や望ましくない画像を検出したり、画像内の攻撃的な言葉を見つけることができる。100以上の言語における不敬の言葉を検出することが可能となっている。Content Moderator APIではさらに、個人を特定できる情報 (PII) の可能性の有無をチェックする。ビデオのモデレートは現在プレビューモードではあるが、ビデオ内の成人向けコンテンツを検知できる。
これらのAPI自体は2015年4月から既にアルファ版として公開されていたが、一般使用可能版として公開されるにあたり、多数の機能が追加された。これらのAPIは視覚、音声、言語、検索、および知識に関する25のCognitive Services API群の一部である。全てのAPIは限られたデータでは無料で使用できる。オンラインデモページでは、自身のデータに対してAPIの機能がどのように作用するか、ユーザ自身の画像で検証することも可能である。月に30,000画像以上を認識させたいユーザの場合、1,000画像あたり0.65ドル(0.55ユーロ)から1.5ドル(1.27ユーロ)程度の料金となるだろう。