どう違ってて、どう似てるのかな? 人工知能の学習と人間の学習。

昨日、勤務校で開催された人工知能の研究者の方の講演会について、ちょっとメモ。お話ししてくださったのは、人工知能を使ってゲーム(将棋・囲碁)の研究をされている若手の研究者の方。内容は、「探索」から「機械学習」の「教師あり学習」へ、そこから「強化学習」へという、人工知能の進展を、一般の方向けに平易に解説してくださるものでした。僕はなんとなく「人間の学習と人工知能の学習ってどう違うのかな」を気にしながら聞いてたのだけど、以下は素人による印象メモなので、話半分どころか3分の1で読んでね。

「動機を持つ」ことが、人間の強みであり弱み?

印象的だったのは、「動機(やる気)の有無に左右される」ことって人間の弱みなんだなあということ。強化学習の初期、人工知能は膨大な失敗のデータを蓄積してそこから最適化していく。インベーダーゲームみたいなシンプルなゲームも、最初はとても下手。でも試行錯誤を繰り返すことで、驚異的に上達していく。一方、大多数の人間はこの「学習初期」の段階で精神的に挫折するので、動機をどう上げたり維持したりするかを考える必要がなる。そこが教育の面白さでもあるけど、何度失敗してもへこたれないタフなコンピュータ、強いわ…。

一方でこのデータ蓄積に必要な計算コストの高さが欠点。日本全体の予算を使ってもGoogleのAlpha Go Zeroの予算とは到底比べものにならないので、ほんと「竹槍とB29」の世界なんですね…。そりゃあ、優秀な人はGoogleやらMicrosoftやらに行くわ…。

わざと「ランダムな行動」を入れる

一方、人間の学習のアナロジーで捉えられそうなことも。例えば、強化学習では、人間が環境だけ用意して、そこでの報酬を最大化するふるまいをするように人工知能が学習するのだけど、この時、一定の確率でわざとランダムな行動を入れるようにプログラムを組むそうなのです。

こんなことをするのも、人工知能がいったん「これが報酬最大」と判断した行動を取り続けると、長期的に見ると報酬が最大にならなくなることがあるからだそう。なるほど、これって人間が「俺はこれが得意」ってそればかり学習すると、他について学ぶ機会を損失して、トータルでの学力が最大化されない、みたいなものかな? と思って聞いてました。「学習者の選択に関係なく与えられるもの」って大事なんだなあ…。

最近は随分「人間らしい」んだな…という驚き

講演の最後は、最近の人工知能研究の話も。最近では「興味に基づく探索」(人工知能が一定の選好を持つと探索が進む)、「同時学習」(囲碁と将棋の両方を同時に学ぶとどちらにも効果がある)、「カリキュラム学習」(学習しやすい順番で学ぶと効果が高い)、「転移学習」(学んだことが他の場面にも転移する)なども研究されているそうで、随分「人間らしい」領域に踏み込んでいるんだなと驚きました(まあ、そういう研究を選んで紹介してくださったのですが)。

また、単に将棋が強いだけでなく、「相手の実力に応じて、相手がこの手を打てばわざと勝たせてあげる、指導者的な将棋をさす」人工知能の可能性についても話が及びました。研究者によっても意見は分かれているみたいだし、データの取りにくさから論文が書きにくいという壁はあるみたいだけど、個人的にはこれも実現しそうな印象。いずれ人間を読んで気分良く勝たせる「接待将棋」をする人工知能も出てくるかねえ。

今回のエントリは、講演者の方はバリバリの研究者の方とはいえ、「一般市民向けの講演を聞いた素人の感想」なので、内容の正確性はあまり信頼しないでくださいね。ちなみに、人工知能と将棋については、将棋AIポナンザの開発者の方の次の本も平易で面白い。今回再読して、講演の良い予習になりました。おすすめです。

[読書] 最初の一冊にぴったり! 山本一成「人工知能はどのようにして「名人」を超えたのか?」

2017.07.04

この記事のシェアはこちらからどうぞ!