Topics
AIが人間のプロを超えた瞬間
テキサスホールデムをはじめ、将棋や囲碁などの高い思考能力を伴う「マインドスポーツ」にまつわるギモンを、専門家が紐解く連載「マインドスポーツアカデミア」。 今回は「なぜあらゆるゲームのAIが世界中で研究されているのか」を、AIについて研究する山本雅人氏に伺った。ゲームAIは1990年代から急速に進歩し、この約30年の中で様々なマインドスポーツがAI化に成功してきた。現在、ポーカーAIの研究・開発も進んでいるという。ゲームAIは今後、どのように進化していくのだろうか。
――そもそも、ゲームAIとはどのような仕組みで動作しているのでしょうか?
将棋やオセロのようなボードゲームの場合、AIは盤面の状態をデータとして認識しています。相手が手を打ってきたらその盤面をもとに、自分にとって有利になる手を打ち返すのです。
ただ、単にそれだけだと自動で打ち返してくるコンピュータ対戦と変わりはないですよね。ゲームAIの面白いところは、20手ほど先のアクションまでを深く予測し、あらゆるパターンの中から一番勝率の高い手を決めることなのです。
ゲームAI同士の将棋の対局では、次の一手を決めるまでに2時間くらいかかることもあります。実際には0.001秒単位の速さで答えを出すこともできるのですが、その手で本当に良いのか、先に起きるアクションをシミュレーションしているんです。
そして「その局面がどちらにどれほど有利な状況か」をより精度高く判断するために、ゲームAIはディープラーニングと呼ばれる学習を通し、盤面の評価精度を上げる訓練を重ねます。
――AIはどういった訓練を行なっているのでしょうか?
とにかく試合を何度も繰り返します。プロ棋士に迫る強さの将棋AIが生まれた当初は、プロ棋士が過去に行った試合を何万回と教え込み、局面の優劣を判断する評価関数のパラメータを自動調整してきました。
そして実際の対局では、数手先までの盤面の変化の中で可能な限り自分に可能性がある手を選び、自分にもっとも有利な手を見つける作業を行なっていました。
ただ、最近ではコンピュータ同士を対戦させて「勝った方の局面の評価を上げる」方法で効率良く学習させています。将棋のルールしか知らない、いわば赤ん坊のように弱い状態から始めるのですが、だいたい2〜3日ほどでプロ棋士を超えられるほどの腕前に成長します。
――そんなに短期間で上達するんですね!しかし、たくさん年月をかけて訓練を重ねた方がパワーアップするのでは?
それが、必ずしもそういうわけではないんです。対局を長期間繰り返すうちに、現実ではほとんど起きないような局面も学習する「過学習」に陥ってしまうことがあります。
学習をしすぎることで、頻繁に起きるはずの局面でも勝率計算の精度が下がってしまうこともあるんです。それがディープラーニングの難しいところなんですね。
ゲームAIにおける「最強の神様」を目指すには
――では、AIの強さやクオリティを担保するのはどういった要素なのでしょう?
全ての局面で100%に近い勝率の手を打てるようプログラミングがされていることです。我々の言葉では「評価関数」というのですが、評価関数の精度が高くなるほどゲームAIは強くなります。それにはどういった学習をさせるかが重要。また「探索」といって、いかに先の手までを読むことができるかもポイントになります。
仮にコンピュータAIに「神様」のような存在がいるとするなら「この手を指せば勝つ/負ける」という判断が初手の瞬間に分かるはずなんです。実は、いずれの研究者もそういった「神様」の状態を求めようとしています。後手が決まった瞬間にAIが投了してしまう、という笑い話もありますが。(笑)
――でも局面が解析されて「神様」に近づくほど、そういった笑い話があちこちで頻発しそうな気もします。
だから「勝率を上げる手」だけではなく「相手が選択を間違うかもしれない手」をあえて打っていくような学習も重ねていく必要があります。
▲コンピュータAI同士が六角形(ヘックス)のセルに石を交互に置くゲーム。自分の色のついたボードの対辺を自分の色の石で繋げたプレイヤーが勝ち。引き分けが存在せず、一方のプレイヤーが勝利すると、他方は必ず負ける。
コンピュータAI同士が対戦する「HEX」という国際的なゲームでは、すでに「先手が必勝である」と決まっています。すると、先手になった方は「絶対に間違わないこと」に集中し、後手になった方は「絶対に相手を間違わせること」に集中するようになります。一回でも先手がミスをすれば、後手が逆転できる可能性が生まれる。
将棋や囲碁などはまだ「先手と後手のどちらが必勝か」といった解析ができていませんが、そのうちHEXと同様の戦略が生まれるかもしれません。
ゲームAIの進歩が コミュニケーション研究にも繋がる可能性
――将棋や囲碁はじめ、オセロやチェスなど様々なゲームがAI化していますが、解析が難しいボードゲームやカードゲームの特徴はありますか?
可能な局面・シチュエーションの個数が多ければ多いほど難しいとされています。
縦・横・斜めのいずれかを制した方が勝ちである「マルバツゲーム」なら、9個のマス目にマルバツを置くパターンが対称性などを考慮すると全部で数千通り。他のボードゲームに比べると圧倒的に局面のパターンが少ないです。現在全ての局面における解析が終わり、先手、後手どちらでも,最善を尽くせばず引き分け以上の結果を出せることが判明しました。ポーカーもリミテッドホールデムのヘッズアップ(二人対戦ルールのポーカー)ならすでに解析が済んでいるんですよ。
一方で将棋や囲碁は可能な局面のパターンが天文学的な数字になるので、解析が非常に難しいです。
――チェスも駒の配置パターンが多くて複雑そうですよね。
確かにチェスは将棋と似た駒の配置が多いのですが、相手に取られた駒が使えなくなるので、ゲームの終盤では局面のパターンが減り、計算が速くなるんです。それに対し、将棋は最後まで盤面が複雑。ゲームの性質やルールの問題も、AI化の難易度に関わってきます。
そういったあらゆる要素から、一番AI化が難しいとされていたのは囲碁でした。「終盤の候補手が減っていく」という意味ではチェスやオセロに近いのですが、もともとのマス目が多いので、他のボードゲームより圧倒的に局面のパターンが多いんです。
しかし、ここ5年〜10年であらゆるディープラーニングの成功事例が生まれ、研究のスピードが一気に上がりました。一つのゲームが解明されると、徐々に他のゲームへと知見が展開されていきます。今ではポーカーや人狼といった人同士のコミュニケーションを挟むゲームでも、AIの研究が進みつつあります。
――ポーカーや人狼は、心理的な駆け引きも発生するぶんAI化が難しそうですね。
人狼やポーカー、そして麻雀は言語処理や顔色、喋り方の変化などの心理戦の影響があるので、非常に難しいですね。しかも参加者が複数人いる。最善の手を考えるとき「誰と誰がグルの可能性がある」といった別の要因も考えないといけないので急に難しくなります。だからこそ、研究テーマとしてはやりがいがあります。
▲山本氏の研究室では、オリンピックの正式種目であるカーリングの戦術を考えるAI「じりつくん」を研究・開発。カーリングの作戦を練る際に効果を発揮することを期待されている。リアルスポーツのトレーニングでも、AIの力が活用される未来は遠くない。
――今後ゲームAIはどのように進歩・発展していくと思いますか?
これからは、いかに人間の思考回路に踏み込んで学習させるかが鍵になってくると思います。
そのうちポーカーAIの領域でも「これくらいの額をかけてくるのは不安だからでは?」といった心理状況や、相手が嘘をついている可能性を視野に入れたAIなどが登場する可能性はあります。実際、現在は人狼AIのプラットフォームを立ち上げる研究の一環で「人の嘘を見抜くAIは作れるのか」という研究をしているグループもあるんです。
ゲームAIは膨大な情報群の中から最適解を見つけ出すことに長けています。なかなか日常生活に現れることはありませんが、今でも医学の分野などに、システムが応用されていたりもするんです。
今後、ポーカーや人狼などのゲームAIが進歩していくことで、人の感情やコミュニケーションにまつわる研究にも繋がるかもしれません。将来的にはゲーム領域に限らず、現実で嘘をつく人を見破ることにも応用できたり、相手の心理の変化を見抜くような研究にも応用できるようになるはず。社会やヒトに直結する進化を見せるほど、その展開範囲は広がっていくと思います。
■プロフィール
山本雅人
北海道札幌市出身。北海道大学大学院情報科学研究院情報理工学部門自律系工学研究室教授。
1996年、北海道大学大学院工学研究科 システム情報工学専攻 博士後期課程 修了。米国Duke大学 客員研究員などを経て、2012年より現職。人工生命,人工知能,ゲーム情報学,最適化、などを専門に研究を行う。ゲームAIの成功例であるバックギャモンの歴代日本チャンピオンの一人でもある。
初心者でも楽しめる!
m HOLD'EM
エムホールデム
iOS/Android