1:
中国の人工知能研究が日本を一気に抜き去った理由
国立情報学研究所教授 新井紀子
コンピューターで人間の頭脳を代替する人工知能(AI)の研究競争が世界で 熾烈 さを増してきた。
中でも中国の伸長が著しく、AIで東京大学合格をめざす日本のプロジェクトを模倣した中国版
「難関大学突破プロジェクト」も始まった。産業応用を狙うと言い、技術交流を日本側に持ちかけてきた。
中国側の狙いはどこにあるのか。日本側のプロジェクト・ディレクターである新井紀子・国立情報学研究所(NII)教授に
寄稿してもらった。
http://www.yomiuri.co.jp/fukayomi/ichiran/20151016-OYT8T50057.html
■正直想定外だった中国の参入
1980年代初頭に茨城県つくば市を訪れたことがある。研究機関らしい巨大なビルが点在する広大な
空き地の上を、建設作業車が土埃を上げて雑草をなぎ倒して行く。あの頃のつくば市によく似ている。
それが私の中国・合肥の第一印象である。
私は2015年7月、合肥にある「iFLYTEK」(アイフライテック;科大迅飛)という新興IT企業で開催される
“中国版「ロボットは東大に入れるか」”のキックオフミーティングで基調講演を務めるため、改修されたばかりの
合肥駅に降り立った。
合肥へは上海から“中国版新幹線”で約3時間。今回通訳を務めてくれたiFLYTEKの系列企業の中国人社長は、
日本で起こった新幹線内焼身自殺事故のことに触れながら、「中国の新幹線は、日本の新幹線より速いし安全」と強調した。
ただし、合肥に到着したのは、予定より1時間半遅れの夜8時をだいぶ過ぎたころだった。
私が大学入試をベンチマークとした人工知能プロジェクト「ロボットは東大に入れるか」(通称:東ロボ)を
立ち上げたのは2011年の春のことである。当時、コンピューター将棋のプロジェクトはあったが、言葉を
理解し問題解決を図る人工知能の大型プロジェクトは、日本にはなかった。
続きます
2:
人工知能が新聞の科学欄に取り上げられることさえ滅多になかったのである。当初、「国立情報学研究所は
ドラえもんを目指しているのか?」と冗談半分に語られることも多かったが、2013年に大手予備校の模試を
受験し、日本の大学の約半数に「合格可能性80%」と判定された頃から、だいぶ風向きが変わった。今や、
人工知能に関連する記事を新聞や雑誌に見ない日のほうが珍しい。
そんな折、iFLYTEKからのメールが届いた。そこには、中国でも難関大学を目指す人工知能の国家プロジェクト
(プロジェクト名称:高考機器人)を始める、ついてはキックオフミーティングで基調講演を行ってもらえないか、
と書かれていた。
中国が東ロボに関心を寄せている、という噂は聞いていた。だが、国家プロジェクトというのは初耳であるし、
その招待状が(大学ではなく)企業から届くというのも不思議なことである。国立情報学研究所では、事情に
詳しい中国人の教授や広報担当者を交えて真偽について確認した上で、担当者と面会することになった。
国立情報学研究所にやってきた担当者によれば、中国ではここ数年「東ロボ」に注目し、情報を収集してきたのだという。
そして、人工知能の主要な研究者を集めて、“中国版東ロボ”を国家プロジェクトとしてスタートしたのだと説明した。
国家プロジェクトと言っても国がすべての研究費を用意するのではない。中国では“863”と呼ばれる応用分野の
プロジェクトで、ビジネス展開を狙ってiFLYTEKと国が共同出資するそうだ。
私の気持ちには穏やかならざるものがあった。大学入試をターゲットとして選んだのは、紙の上での大学入試に
アメリカ国民がさほど関心をもっていないからであり、日本らしい人工知能研究が進められるのではないか、
と思ったからである。中国が参入してくるとは正直、想定外であった。
続きます
3:
■人海戦術でビッグデータを磨き上げた中国
「東ロボ」がスタートした2011年は、ビッグデータ上の機械学習の威力を様々な形で私たちが目撃することに
なった年でもある。IBMのワトソンがクイズ番組「ジェパディ!」のチャンピオンを破ったのも、Googleの自動運転車が
ネバダ州で公道を走る許可を得たのもこの年である。2013年には日本で第2回電王戦が開催され、
コンピューター将棋がトッププロ棋士を破った。
こうして並べると、日本も人工知能で世界のトップを走っているという気がするが、実際はそうではない。
アメリカだけでなく、既に中国も日本の前を走っている。
技術の遅れが問題なのではない。機械学習の基礎となっているのは統計の理論である。統計だけで物事を
当てようとなれば、必要なのは何を差し置いてもデータである。データが集まらなければ、コンピューターが
どれほど早かろうが、並列計算の理論が発達しようが、いかんともしがたい。ところが、日本はビッグデータが
極めて集まりにくい国なのである。
Googleはゼロ年代から、電話番号問い合わせサービスを無料化する代わりに問い合わせの際の音声を
録音し、その十数年のデータの上で機械学習をすることにより、音声認識精度を向上させた。また、写真管理
サービスを提供していたPicasaを買収し、膨大な写真データを収集することで、人や物を識別し、分類する
精度を向上してきた。日本では想像がつかないようなサービスを世界に向けて無料で提供することにより
巨大なデータを集積する、という手法は、ベンチャーへの巨額投資の道筋がついているアメリカならではだといえる。
ヨーロッパはどうか。ヨーロッパの国々にはGoogleやAmazonのような企業はあまり見当たらない。
しかし、ヨーロッパは国際外交発生の地。ISO(国際標準化機構)など国際標準の基準作りや、最近では
「忘れられる権利」の検討など、制度設計に滅法強い。
では、中国ではどうか。政府の権限が極めて強い中国では、アメリカとは全く別の手法でビッグデータを集めることに成功している。
続きます
4:
中国では、国家公務員や教員に採用されるためには、標準的な中国語を話せることが必要条件であり、
そのための試験がある。年間100万人以上が受験するとも言われる標準中国語のスピーキングテストの
音声データを集めることを中国政府は決定した。そのビッグデータを元に、標準的な中国語を話せるか否かを
判定するための音声認識器を開発したのが、iFLYTEKである。
このビッグデータを背景にiFLYTEKは音声認識精度を年々上げ、音声認識の世界的ベンチマークで1位を獲得。
今や中国のスマートフォンの7割にiFLYTEKの音声認識技術が搭載され、大学入試の英語スピーキングテストの
採点にも乗り出している。“中国版東ロボ”の狙いもこのあたりにありそうだ。
しかも、中国のビッグデータにはアメリカにはない優れた点がある。
データというのはただやみくもに集めるだけでは、どうしてもゴミが混じる。ゴミが混じれば、機械の精度は下がる。
機械は、有用なデータとゴミデータを見分けることができず、どちらも同じように学習してしまうからである。
どうするか。中国はなんと人海戦術を使って、悪いデータをピッキングして取り除くなどの前処理をすることによって、
一段と精度を上げたのである。いまや、人工知能の一級の国際会議にもっとも論文を通しているのはアメリカではない。
中国なのだ。
■ビッグデータが集まらない日本
さらに日本には不利なことが起こった。それは2012年に花開いた深層学習(ディープ・ラーニング)である。
深層学習も機械学習のひとつだが、従来の手法以上にデータ量を要求するのである。深層学習を使って
Googleが作ったシステムが、人間からの明示的な働きかけなしに猫が写っている写真を識別したことから、
「概念を獲得するコンピューターへの一歩ではないか」という人工知能研究者も日本では少なくない。
マーケット至上主義のアメリカ。そして、政府が号令をかければ好きなだけデータを集められ、人海戦術で
それをクリーニングできる中国。振り返れば、日本はスマートメーターの情報共有すら遅々として進まない
お寒い状況である。
続きます
ナギ:ルンバの人工知能は元々地雷除去のために開発されたらしいですが、「俺も若い頃は人命のために無茶やってたけどな。今はこうやってお前さんの部屋きれーにしてる。まあ汚なさ具合はある意味戦場だが、平和っていいもんだな」って語る元ベテラン傭兵みたいで、恰好いいと思って涙しました。
— アイナナコピペbot (@ai7copype) 2015, 10月 20
(´-`).。oO( 「中国の人工知能研究が日本を一気に抜き去った」話.最近深層学習で自然言語処理にかなり進展があって,「音声や画像などに関する分類問題」に限らないのでして.新井さんも「中国の研究者」も深層学習研究を真剣にフォローしているのでしょうかね… )
— Yuta Kashino (@yutakashino) 2015, 10月 20
Siriに聞いてはいけない「ゾルタスクゼイアン」について調べてたらアプリがフリーズしまくりました。今の都市伝説のテーマは口裂け女とかではなく人工知能とは……
— nameko (@godblessnameko) 2015, 10月 18
人工知能によって仕事が奪われるという話があって、その後気仙沼ニッティングの話を聞いた。仕事は奪われるだけでなく、作れると。新しい仕事は見た目が必ずしも革新的なものではないのだなあ。 新しく定義してやるだけで出来そうなこともありそう #未来メディア
— billyeah (@billyeah) 2015, 10月 18
5:
アメリカと中国、そして老獪な外交官のように振る舞うヨーロッパに囲まれて、たった1億2千万人しか話さない
日本語を母語とする日本の研究者が、人工知能研究で何をし得るか。どうやってGDP(国内総生産)に
貢献できるのか。研究者であれば、誰もが同じことを悩んでいることだろう。
悩んだ末に私がひねり出したアイデアが、サイズは小さくてもゴミがない質の良いデータ、例えば教科書や
過去の試験問題から深く知識を読み取り、問題を解決する人工知能という枠組みだった。日本は世界でも
類を見ない丁寧な大学入試試験を実施している国である。アメリカのSATは同じ問題を繰り返し使うが、
日本では過去に出題された問題を再度使うことは決してない。
日本人は、それが当たり前だと思っているけれど、各大学が個別の筆記試験を課すような入試をしているのは、
先進国の中では日本だけなのである。過去20年のすべての日本の大学の入試問題とすべての教科書会社の
教科書を集めても、ビッグデータと呼べるようなデータ量には程遠い。でも、だからこそ日本の要素技術が光る
プロジェクトになり得るのではないか。そう考えてスタートしたのが「東ロボ」だった。
だが、「東ロボ」もいつまでも日本の専売特許というわけにはいかなかった。中国という巨大な競争相手が
出現したのである。考えてみれば、日本以上に大学入試熱が高いのだから、中国が大学入試をターゲットにした
人工知能に関心を持つのは当然のことである。
しかも、中国は3年間30億円という巨費を投じて研究をするという。対