藤井聡太の強さ、アルファ碁と共通の仕組みか…AIがプロ棋士に勝つのは当たり前
2.ビッグデータの登場…膨大なデータで学習できる。その点において、グーグルやフェイスブックのような継続的に新しいデータが収集できるビジネスをしている企業は、IBMのようなビッグデータを収集する仕組みのない企業に対して、AIの研究・育成において大きく優位に立つことができる。
3.テクノロジーの進歩…ニューラルネットワークにおいてニューロン(神経細胞)の層や数を増やすことによって深層学習が可能になったことや、また、機械学習に強化学習を採用するようになったことも重要な進歩だ。強化学習ではコンピュータがあるタスクを繰り返し実行し、どの決定が最大の報酬をもたらしたかを記憶することで、どの決定が優れているかを自ら学習していくことが可能になる。強化学習は、最初に書いた行動心理学からアイデアを得ている。犬はご褒美がもらえるから芸をする。どの芸がより大きなご褒美をもたらすか学習するから、より難しい芸をマスターするようになる。機械も同じで、どの選択判断が最大の報酬をもたらすかを学習すれば、行動の選択肢と報酬をチェックすることで、みずから意思決定(選択)することができるようになる。
アルファ碁の学習方法
ここで、世界でトップクラスの囲碁名人に勝ったアルファ碁の仕組みをチェックしながら、深層学習や強化学習が、どのように活用されたかをまとめてみる。
アルファ碁はグーグルが2014年に買収した英ディープマインドが開発した。16年3月に当時「世界一の囲碁棋士」といわれていた韓国のイ・セドル九段に4勝1敗で勝利している。そして、17年5月25日にも世界最強とされる中国の柯潔(カ・ケツ)九段に勝利を収めた。
最初にアルファ碁の学習の仕方を説明する。
1.まず、プロの棋士が実際に試合した16万件の囲碁データベースからの3000万種類の手が、アルファ碁のニューラルネットワークに入力され、教師つき学習をする。
2.その後、アルファ碁は自分とは少し異なるバージョンのニューラルネットワークと繰り返し数百万回の試合をした。そのさい、アルファ碁は、強化学習手法によって、各試合ごとに自分にとって最大の報酬(この場合は、盤上で最大の陣地を獲得することができた手、つまり勝利をもたらした手)を記憶していった。それによって、アルファ碁は自分独自のレパートリーを獲得することができるようになった。
3.次いで、アルファ碁対アルファ碁の試合で使われた手をもう一つのニューラルネットワークに入力し、一手一手が最終的に勝利をもたらすかどうか、その確率を予測するように訓練させた。この時使われた手法はモンテカルロ木探索で、勝利する確率を計算した。人間ではない機械による数百万の手を2番目のニューラルネットワークに入力して、結果を予測するように訓練したわけで、これが直感を可能にしたと開発者は考えている。
4.つまり、2つのニューラルネットワークが一緒になって、局面ごとに手の最適化をする。一つのニューラルは、その局面でベストな選択肢の数を狭める。ついで、もうひとつのニューラルが、各選択肢がもたらす終局での勝率を計算する。このとき、使うのがモンテカルロ木探索手法だ。各選択肢が最終的にどのような結果をもたらすかを、すべの枝(可能性)をたどって計算することはコンピュータでも天文学的な時間がかかるので無理(打つ手の選択肢の多い囲碁のゲームの木の枝の総数は10の360乗、将棋は10の220乗、チェスは10の120乗。だから、AIは最初にチェスで人間に勝利をおさめ、次いで将棋、最後に囲碁で勝利した)。それで、可能性が高い枝をいくつかほとんど無作為に選んで、最終的結果の勝率を計算。その結果で、各選択肢に重みをつけ、ベストな選択肢(打つ手)を決定する。
この学習の仕方をみても、アルファ碁が人間のプロの名人に勝利を収めることは当然であるとわかるだろう。いくら幼いころから将棋をうち、多くの経験をしているといっても(そして、むろん、過去の名勝負の手についても勉強して知識としてもっていても)、16万件の試合のなかの3000万種の手を記憶することはできないだろう。人間の脳はそこまで容量がない。
アルファ碁にしても、名人に勝ったとされるほかのAIにしても、碁に特化したAIだ。そのうえ、コンピュータは24時間寝ないでご飯も食べないで勉強できる。プロの名人になる条件に、子供のころからなるべく多くの経験を積むことがあるとしたら、それだけでAIに負けてしまう。