【レポート】世界最強の囲碁棋士にも勝ち越し - 半年足らずで劇的に強くなったAlphaGo | ニコニコニュース

画像提供:マイナビニュース
マイナビニュース

碁は、盤面が大きく250の150乗程度のバリエーションがあり、すべてをシミュレーションして評価することは事実上不可能である。また、将棋やチェスのように駒に役割が無く、石の配置だけで形勢の有利不利ができるのであるが、その評価が難しいなどの困難があり、人間の有段者に勝てるようになるには少なくとも10年はかかると見られていた。

このような状況で、2015年10月にGoogle DeepMindのAlphaGoが、 3度ヨーロッパチャンピオンになった経歴を持つFan Hui氏(プロ2段)と対戦し、5勝0敗で勝利したのは驚くべきニュースで、コンピュータ碁の歴史に残る画期的な出来事であった。

碁に限らないが、対戦ゲームの場合、Arpad Elo(アルパッド イーロ)教授が考案したElo Ratingシステムを使ってプレイヤーの評価とランキングが作られている。この評価システムでは、プロ棋士の初段が評価値2800程度で、プロ棋士最高位の9段は3500程度になる。

2015年10月の対戦の時のFan Hui氏の評価は2950程度で、AlphaGoは8GPUのシステムでは、2900程度と若干劣る評価であった。このシステムを176GPUに増強し、スコアを3140に引き上げてFan Hui氏と対戦して5勝0敗という成績を上げている。なお、このシステムは1202CPUと176GPUと書かれているがCPUはコア数で数えているのではないかと思われる。とすると、19インチラック2本程度の研究室レベルの規模のマシンと思われる。

AlphaGoでは、盤上の石の配置と次の指し手を入力として、その手の良し悪しを評価する「ポリシーネットワーク」と、石の配置だけから勝ち負けを評価する「バリューネットワーク」という2種類のニューラルネットワークを使っている。ポリシーネットワークは、精度の高いネットワークと、精度は劣るが計算時間の短いネットワークという2つのネットワークがある。

これらのネットワークは、プロの対戦などの棋譜を入力として、教師有り学習を行い、その後AlphaGo同士を対戦させる強化学習を行っている。

ゲームソフトの基本的なアルゴリズムは「Monte Carlo Tree Search(MCTS)」で、2種類のネットワークを使って勝率の高そうな手を選んでいく。しかし、同程度に良い手がある場合は、それらの複数の手の先をそれぞれ探索するので評価するケースが増加して行く。

AlphaGoは、1つの手を評価するには、高速のポリシーネットワークを使って勝敗が決するまでプレイを進めて(Rollout)勝敗を求める。そして、最初の手から広がったツリーの末端での勝ちが多い手に高い評価を与える。

AlphaGoは、このRolloutの結果、バリューネットワークの結果、高精度のポリシーネットワークの結果を総合して、次の手を決めている。

画像認識などの場合は、入力画像をニューラルネットに入力すれば認識結果が出てくるので、非常に短時間で認識ができるが、MCTSの場合は、広がった探索の各ステップごとにニューラルネットを使う必要があり、長い処理時間がかかる。2016年3月に行われた世界最高クラスの棋士であるLee Sedol氏(プロ九段)との対戦のWeb中継を見ていたが、AlphaGoは一手ごとに10~20秒くらい考え込んでいた。

ということは、コンピュータの能力が高くなれば、その分、探索の範囲を広げたり、ニューラルネットをより精緻にして精度を上げるということが可能になると考えられる。

2016年3月24日時点の全世界1719人(+AlphaGo)の囲碁棋士のランキングを掲載しているWebサイト「Go Ranking」では、以下の図のようになっている。

Lee Sedol 9段との対戦の前には、Lee Sedol氏本人も、大部分のプロ棋士もLee Sedol氏の圧勝を予想していた。しかし、結果は、AlphaGoの4勝1敗で終わった。

プロ棋士らは、2015年10月にFan Hui氏と対戦したElo Ratingで3140のAlphaGoを想定し、これならLee Sedol氏の圧勝と考えたのであろう。

しかし、Google DeepMind側に立って考えると、やるからには勝とうと考えるはずである。そして、Lee Sedol氏のElo Ratingは分かっているので、それを超えるシステムを作ろうと最大限の努力を行ったことは疑いない。具体的にどのような改良を行ったのかは発表されていないが、CPUやGPUの数を増やしてシステムの処理能力を上げているのは、ほぼ間違いないと思われる。この能力アップを使って、ニューラルネットワークの精度を改善し、MCTSのサーチ範囲を広げるなどの改良を行っているのではないかと思われる。

結果として、Elo Ratingを2015年10月のFan Hui氏との対戦時の3140から3584と大幅に引き上げており、この半年足らずの間で、劇的に強くなっている。人間のプロ棋士の場合は、半年でこれほど強くなることは考えられず、その点でプロ棋士らの読み違いがあったと考えられる。

(Hisa Ando)