No.197 - 囲碁とAI:趙治勲 名誉名人の意見 [技術]
2016年3月、韓国のイ・セドル九段とディープマインド社の「アルファ碁」の5番勝負がソウル市内で行われ、アルファ碁の4勝1敗となりました。イ・セドル九段は世界のトップクラスの棋士です。コンピュータはその棋士に "勝った" ことになります。この5番勝負とアルファ碁については次の三つの記事に書きました。
その8ヶ月後の2016年11月に、今度は日本最強の囲碁プログラム、DeepZenGoと趙治勲名誉名人の3番勝負(第2回 囲碁電王戦)が開催され、趙名誉名人の2勝1敗となりました(11/19, 11/20, 11/23の3戦)。"人間側" の勝利に終わったわけですが、日本の囲碁プログラムが互先でプロ棋士に勝ったのは初めてです。第1回 囲碁電王戦(2014)ではプロ2人とアマ名人相手に1勝もできなかったことを考えると、格段の進歩だと言えます。
以上の、アルファ碁 対 イ・セドル九段、DeepZenGo 対 趙名誉名人の棋戦を、趙名誉名人本人が振り返ったコラム記事が新聞に掲載されました。実際に囲碁プログラムと互先で戦ったトップ棋士の意見として貴重なものです。また大変に興味深い内容だったので、以下にそれを紹介したいと思います。
なお、DeepZenGo の前身は日本の有名な囲碁プログラム、"Zen" です(市販されている)。それに深層学習を取り入れた強化版が DeepZenGo です。以下、Zen と DeepZenGo を区別せずに "Zen" と書きます。趙名誉名人の記事もそうなっています。Zen の開発者は尾島陽児氏と加藤英樹氏(開発チーム代表)で、強化版の開発にあたっては深層学習の権威である松尾豊・東大准教授の研究室が協力しました。
イ・セドル九段 対 アルファ碁
まず趙さんはアルファ碁とイ・セドル九段の対局にふれ、その数ヶ月前に欧州チャンピオンに勝ったときと比べて、アルファ碁が急速に強くなったことを説明します。
ここで趙さんが強調しているのは「アルファ碁は短期間で急激に強くなった」ということです。20年・200年・2000年という数字が出てきますが、これは趙さん独特の表現でしょう。なおアルファ碁と欧州王者との対戦は2015年10月、イ・セドル九段との対戦は2016年3月なので、その間は4~5ヶ月あります。趙さんが「2ヶ月間で」と書いているのは勘違いだと思います。
そのイ・セドル九段とアルファ碁の対局(5回戦)ですが、第1局、第2局と、イ・セドル九段はアルファ碁に連敗を喫してしまいます。この戦いを趙さんは次のように解説しています。
第1局と第2局の敗戦をふまえ、イ・セドル九段は第3局で対局の方針を変えたと趙さんは言います。
3連敗したあとの第4局で、イ・セドル九段は妙手を放って勝ちます。
続く第5局はアルファ碁の勝ちに終わり、結局4勝1敗でアルファ碁が勝利しました。この棋戦全体を、趙さんは次のように振り返っています。
イ・セドル九段の敗戦の理由
趙治勲名誉名人といえば、歴代最多のタイトル獲得(74回)を誇り、第25世本因坊でもあるトップ棋士です。その趙さんが考えるイ・セドル九段の敗戦の理由は、
という極めて人間的なものです。「セドルが平常心で打てば、力量はアルファ碁に勝っていた」と趙さんが書いているのは(対戦当時のアルファ碁では)その通りなのでしょう。
逆にアルファ碁は、平常心というか、"心" はないので常に "平常" だったと言うべきです。趙さんも書いているように、人間なら「逆転して有利になった」と思った瞬間、浮き足立って逆に悪い手を打ってしまうことがあるのですが、そういうこともない。動揺、焦り、浮き足立つ、疲れ、うっかり、 ・・・・・・ そういうものに一切関係がありません。
アルファ碁を甘くみていたとの趙さんの見解ですが、しかしこれはやむをえないとも言えます。「欧州王者を下した時のアルファ碁を見るかぎり、アルファ碁は弱かった(趙さん)」のだから・・・・・・。No.181「アルファ碁の着手決定ロジック(2)」に書いたように、アルファ碁を開発したディープマインド社が英雑誌「Nature」に投稿した論文によると、欧州王者を下した時のアルファ碁の棋力はプロ五段相当です。イ・セドル九段に比べると断然弱い。従って趙さん自身も「周囲にはセドルが100%間違いなく勝つと断言していた」わけです。イ・セドル九段も、またイ・セドル九段の周囲も、おそらくそう思っていたでしょう。
しかしアルファ碁は急速に強くなった。その詳細は明らかではありませんが、自己対戦を繰り返して強化学習をさらにやったのかも知れないし、ハードウェアを増強してより深く読めるようになったのかも知れない。そのどうであれ、ここでわかることは「急速に強くなることがある。それがAI」ということです。人間の天才が20年かかる進歩(趙さんの表現)を数ヶ月で成し遂げることもあり得る。
趙さんによるとアルファ碁には弱点もあって、それは「最後の詰めが甘い」ことです。趙さんは「イ・セドル九段と対戦した時のアルファ碁には勝つ自信がある、その後に欠点を克服したと聞くが、どこまで強くなっているのか試したい」と書いています。
「どこまで強くなっているのか試したい」とあるように、趙さんはアルファ碁と対戦してみたいと公言していました。その対局は実現していませんが、日本製の囲碁AI、Zen との対戦が実現する運びになりました。
趙治勲名誉名人 対 Zen
イ・セドル九段とアルファ碁との対戦の8ヶ月後の2016年11月、日本最強の囲碁プログラム Zen と趙さんの対局が実現することになりました。冒頭に書いたように、深層学習で強化した Zen(正式名:DeepZenGo)です。なお、以下の引用の 《第1局》 《第2局》 《第3局》 は記事に付け加えたものです。
趙治勲名誉名人は Zen との対戦の経験をふまえて、AIの棋力について、次のように書いています。
AIによって囲碁は発展する
趙治勲名誉名人はコラムのまとめとして、AIによって囲碁界は発展するだろという主旨の見解を述べています。
このくだりで趙さんは、トーナメントプロ、レッスンプロ、アマチュアのそれぞれで、"AIの使い方" や "AIに対する向き合い方" があることを述べています。AI技術を使うと囲碁のアマチュアに対する完全個別指導がいつでも行える環境を作れる可能性があるわけです。これは囲碁人口を増やすことにつながります。
趙さんの "自信" の背景にあるのは、囲碁がとてつもなく奥深いものだという絶対の確信でしょう。この奥深さは、次のように表現されています。
井山裕太 六冠の意見
趙治勲名誉名人に続いて、井山裕太 六冠(六冠は2017.1 現在)の意見も付け加えておきたいと思います。井山さんは囲碁プログラムと互先で戦った経験はありませんが、2017年3月に DeepZenGo と戦う予定があります。また言うまでもなく現代日本の最強の棋士であり、その方が AI をどういう風に見ているかは重要でしょう。
ちなみにこの朝日新聞の記事の中で井山 六冠は、「アルファ碁は、うわさレベルではさらに強く、とてつもないレベルに達していると聞きます」と発言しています。まさにその通りのようで、2016年末から 2017年初頭にかけて "新アルファ碁" が 囲碁対局サイトの「東洋囲碁」と「野狐囲碁」に登場し、トッププロと対戦して60連勝しました。井山 六冠もその中の一人だとされます。
これはもちろん早碁ですが、持ち時間が十分ある碁ではどうなのでしょうか。それでも「ものすごく強いだろう」という大方の推測です。日本棋院は所属の棋士に全60局の棋譜を配布するとありました。"新アルファ碁" は日本だけでなく中国、韓国の棋士によって徹底的に研究されるでしょう。"新アルファ碁" とトッププロとの本格対局も予定されているようなので、注視したいと思います。
AIの "大局感"
これ以降は趙治勲名誉名人と井山裕太 六冠の意見についての感想です。
趙治勲名誉名人と井山裕太 六冠の意見に共通することは、二人とも AI囲碁にポジティブなことです。それは、囲碁のプロフェッショナルとして、
という意欲・意識だと思います。では AI のどこが強いのか。二人の意見を総合してその強さを一言でいうと「大局感」だと思います。
などをまとめると「大局感に優れている」ということだと思うのです。我々は普通、コンピュータの得意なところは細部の緻密な計算やヨミだと考えます。全体を見渡してマクロ的・直感的にものごとを把握するのは苦手だと考えるのが普通です。しかし囲碁の AI は逆です。全体を俯瞰する大局感の方が優れていて、細部に関しては「最後の詰めが甘い(趙)」とか「部分的には最善ではない(井山)」のです。
その理由を考えてみると、次のようだと想像できます。DeepZenGo も基本的にアルファ碁のロジックにのっとっているそうなので(日経ITpro 2016.11.09 の記事による)No.180-181「アルファ碁の着手決定ロジック」に沿って考えてみます。
アルファ碁の基本ロジックは「モンテカルロ木検索 - Monte Carlo Tree Search : MCTS」です。MCTSでは局面の勝率を判定しながら、有力な候補手を次々と木探索するのですが、局面の勝率を推定するのに使われるのが「ロールアウト(=プレイアウト)」です。ロールアウトとは、とにかく一定のロジックに従って終局までプレーしてみて勝ち負けを判定し、それを多数繰り返えし、その勝率を局面の勝率とするというものです。
No.180-181で書いたように、アルファ碁は独自の rollout policy でロールアウトをします。しかしそれだけではありません。policy network と value network という2つの多層ニューラルネットワーク(Deep Neural Network。DNN)をもっています。その働きは次の通りです。
というものです。そしてアルファ碁の勝率判定は rollout policy を使ったロールアウトによる勝率判定と、value networkによる勝率判定ををミックスして行われています。
結局のところ「アルファ碁の勝率判定はロールアウトによる」と言えるでしょう。ロールアウトは「とにかく終局まで打ってみたらどうなるか」というシミュレーションです。これを候補手(合法手)について、手の有力度合いに従って繰り返し、勝率の高い手を選ぶ。
つまり、常に白紙の状態で、終局までを見据えて(=最後までヨセて)最適な手を選んでいるのがアルファ碁です。一切の "こだわり" がない。これが「自然体」とか「真っ白なキャンバスに自由にデッサンしているよう」という趙名誉名人の感想や、「部分的に最善でなくても全体では遅れていない、むしろリードしている」という井山 六冠の発言につながり、それが大局感に優れていると見えるのだと思います。
AI は意味を説明できるか
趙名誉名人の新聞コラムの中に、AI によって囲碁の裾野が広がるという主旨の発言がありました。つまり「AI によって一人一人に合わせた教え方や、かゆいところに届く指導ができる。アマチュアが強くなり裾野が広がる」との主旨です。これは果たしてどこまで正しいのでしょうか。
もちろん、アマチュアを指導する囲碁の先生が、AI を参考にしながら指導するのは可能であり、大いに役立つと思います。しかし AI だけがアマチュアを指導する(=AI指導碁)というのは、どうなのでしょう。
"AIの先生" が打つべき候補手を数手示し、それぞれの勝率を示すのはいつでも可能です。しかし、たとえば候補手① の勝率は 60%、候補手② の勝率は 50%としたとき、①が 10%だけ勝る理由を AI は説明できるのでしょうか。「②は相手の厚みに近寄り過ぎていて攻められる恐れがある、①のように控えるのが正しい」というようにです。また逆に「形勢が悪いので、思い切って相手の厚みに近寄ってでも模様を張る①が正解」という風にです。結論だけを言われても、人は納得はできないのです。
"捨て石" に関して言うと、趙名誉名人は、AI は捨て石がうまいと語っています。これは井山 六冠の「部分的に最善でなくても全体ではリードしている」という発言とも関係しているのでしょう。では、なぜその場面で石を捨てるのがいいのか、石を助けずに別の場所に打つのがより勝率をあげるのか、AI は説明できるでしょうか。「捨てたと見える石も完全に死んだわけではなく、あとあとの進行でこういう風に有効に生かせるから」というような、"捨てる理由" を説明できるかという問題です。
もちろん中には説明できるケースもあるでしょう。No.180-181「アルファ碁の着手決定ロジック」でもわかるように、シチョウに取られないようにするとか、ナカデで死なないようにするとか、ダメヅマリを回避するとか、そういった理由は説明できそうです。しかしこれらはアマチュアの囲碁初級者でも分かる理由です。かつ、局所的・部分的な打ち手に関する理由です。AI が得意なのは局所的・部分的ではなく、大局的な最善手を打つことでした(趙、井山両氏による)。その大局的な最善手について、そう打つ理由を AI は説明できるでしょうか。
このあたり、現代のAIの本質的な問題点がありそうです。「なぜだか分からないし、理由はさだかではないが、結構正しい」のが AI の出す回答だということがよくある。囲碁のプロなら AIが打つ手の意味を即座に解説できたとしても、AI 自身は分かっていない。逆に言うと、意味を無視して膨大なデータを統計的に処理するからこそ、AIの有効性や可能性があると言えるのでしょう。
もちろん囲碁に限っていうと、AI のヨミ筋はコンピュータに蓄えられているので、そのヨミ筋の解析から打ち手の理由や意味を解説できるようになるかもしれません。ただしこれは機械学習では無理でしょう。「ある局面における次の一手とその意味」を蓄積したビッグデータが存在しないからです。「ある局面と次の一手」というデータは膨大にあるけれども・・・・・・。従って人間が教え込む必要があるのですが、かなりの難作業ではないでしょうか。
アルファ碁が打った手の意味を真に解説できるのは、開発会社のディープマインド社の社員ではなく、アルファ碁の棋譜を詳しく研究したプロ棋士だと確信します。
ここで思い出すのは、前回の No.196「東ロボにみるAIの可能性と限界」で引用した、国立情報学研究所の新井教授("ロボットは東大に入れるか" プロジェクトのリーダ)の発言です。新井教授は中高生向けに講演するとき次のように話すそうです。
人間は普通、暗黙であれ意識的であれ、意味・意図・理由を持って(込めて)行動します。だからこそ、良い結果の経験を蓄積したり、逆に悪い結果から反省をして進歩するわけです。無意味に(意味も分からずに)行動していたのでは進歩がありません。
囲碁とAIというテーマで見えてくるもの、それはやはり「機械学習によるAI」の驚くべき可能性と、その裏にある課題、ないしは限界だと思いました。
ディープマインド | |||
アルファ碁の着手決定ロジック(1) | |||
アルファ碁の着手決定ロジック(2) |
その8ヶ月後の2016年11月に、今度は日本最強の囲碁プログラム、DeepZenGoと趙治勲名誉名人の3番勝負(第2回 囲碁電王戦)が開催され、趙名誉名人の2勝1敗となりました(11/19, 11/20, 11/23の3戦)。"人間側" の勝利に終わったわけですが、日本の囲碁プログラムが互先でプロ棋士に勝ったのは初めてです。第1回 囲碁電王戦(2014)ではプロ2人とアマ名人相手に1勝もできなかったことを考えると、格段の進歩だと言えます。
以上の、アルファ碁 対 イ・セドル九段、DeepZenGo 対 趙名誉名人の棋戦を、趙名誉名人本人が振り返ったコラム記事が新聞に掲載されました。実際に囲碁プログラムと互先で戦ったトップ棋士の意見として貴重なものです。また大変に興味深い内容だったので、以下にそれを紹介したいと思います。
なお、DeepZenGo の前身は日本の有名な囲碁プログラム、"Zen" です(市販されている)。それに深層学習を取り入れた強化版が DeepZenGo です。以下、Zen と DeepZenGo を区別せずに "Zen" と書きます。趙名誉名人の記事もそうなっています。Zen の開発者は尾島陽児氏と加藤英樹氏(開発チーム代表)で、強化版の開発にあたっては深層学習の権威である松尾豊・東大准教授の研究室が協力しました。
イ・セドル九段 対 アルファ碁
まず趙さんはアルファ碁とイ・セドル九段の対局にふれ、その数ヶ月前に欧州チャンピオンに勝ったときと比べて、アルファ碁が急速に強くなったことを説明します。
|
ここで趙さんが強調しているのは「アルファ碁は短期間で急激に強くなった」ということです。20年・200年・2000年という数字が出てきますが、これは趙さん独特の表現でしょう。なおアルファ碁と欧州王者との対戦は2015年10月、イ・セドル九段との対戦は2016年3月なので、その間は4~5ヶ月あります。趙さんが「2ヶ月間で」と書いているのは勘違いだと思います。
そのイ・セドル九段とアルファ碁の対局(5回戦)ですが、第1局、第2局と、イ・セドル九段はアルファ碁に連敗を喫してしまいます。この戦いを趙さんは次のように解説しています。
|
第1局と第2局の敗戦をふまえ、イ・セドル九段は第3局で対局の方針を変えたと趙さんは言います。
|
3連敗したあとの第4局で、イ・セドル九段は妙手を放って勝ちます。
|
続く第5局はアルファ碁の勝ちに終わり、結局4勝1敗でアルファ碁が勝利しました。この棋戦全体を、趙さんは次のように振り返っています。
|
イ・セドル九段の敗戦の理由
趙治勲名誉名人といえば、歴代最多のタイトル獲得(74回)を誇り、第25世本因坊でもあるトップ棋士です。その趙さんが考えるイ・セドル九段の敗戦の理由は、
アルファ碁を甘く見ていために、動揺し、平常心を失った |
という極めて人間的なものです。「セドルが平常心で打てば、力量はアルファ碁に勝っていた」と趙さんが書いているのは(対戦当時のアルファ碁では)その通りなのでしょう。
逆にアルファ碁は、平常心というか、"心" はないので常に "平常" だったと言うべきです。趙さんも書いているように、人間なら「逆転して有利になった」と思った瞬間、浮き足立って逆に悪い手を打ってしまうことがあるのですが、そういうこともない。動揺、焦り、浮き足立つ、疲れ、うっかり、 ・・・・・・ そういうものに一切関係がありません。
アルファ碁を甘くみていたとの趙さんの見解ですが、しかしこれはやむをえないとも言えます。「欧州王者を下した時のアルファ碁を見るかぎり、アルファ碁は弱かった(趙さん)」のだから・・・・・・。No.181「アルファ碁の着手決定ロジック(2)」に書いたように、アルファ碁を開発したディープマインド社が英雑誌「Nature」に投稿した論文によると、欧州王者を下した時のアルファ碁の棋力はプロ五段相当です。イ・セドル九段に比べると断然弱い。従って趙さん自身も「周囲にはセドルが100%間違いなく勝つと断言していた」わけです。イ・セドル九段も、またイ・セドル九段の周囲も、おそらくそう思っていたでしょう。
しかしアルファ碁は急速に強くなった。その詳細は明らかではありませんが、自己対戦を繰り返して強化学習をさらにやったのかも知れないし、ハードウェアを増強してより深く読めるようになったのかも知れない。そのどうであれ、ここでわかることは「急速に強くなることがある。それがAI」ということです。人間の天才が20年かかる進歩(趙さんの表現)を数ヶ月で成し遂げることもあり得る。
趙さんによるとアルファ碁には弱点もあって、それは「最後の詰めが甘い」ことです。趙さんは「イ・セドル九段と対戦した時のアルファ碁には勝つ自信がある、その後に欠点を克服したと聞くが、どこまで強くなっているのか試したい」と書いています。
「どこまで強くなっているのか試したい」とあるように、趙さんはアルファ碁と対戦してみたいと公言していました。その対局は実現していませんが、日本製の囲碁AI、Zen との対戦が実現する運びになりました。
趙治勲名誉名人 対 Zen
イ・セドル九段とアルファ碁との対戦の8ヶ月後の2016年11月、日本最強の囲碁プログラム Zen と趙さんの対局が実現することになりました。冒頭に書いたように、深層学習で強化した Zen(正式名:DeepZenGo)です。なお、以下の引用の 《第1局》 《第2局》 《第3局》 は記事に付け加えたものです。
電王戦第3局(2016.11.23)の趙治勲名誉名人(右)と開発チームの加藤英樹代表
(site: newswitch.jp)
|
|
趙治勲名誉名人は Zen との対戦の経験をふまえて、AIの棋力について、次のように書いています。
|
AIによって囲碁は発展する
趙治勲名誉名人はコラムのまとめとして、AIによって囲碁界は発展するだろという主旨の見解を述べています。
|
このくだりで趙さんは、トーナメントプロ、レッスンプロ、アマチュアのそれぞれで、"AIの使い方" や "AIに対する向き合い方" があることを述べています。AI技術を使うと囲碁のアマチュアに対する完全個別指導がいつでも行える環境を作れる可能性があるわけです。これは囲碁人口を増やすことにつながります。
趙さんの "自信" の背景にあるのは、囲碁がとてつもなく奥深いものだという絶対の確信でしょう。この奥深さは、次のように表現されています。
|
井山裕太 六冠の意見
趙治勲名誉名人に続いて、井山裕太 六冠(六冠は2017.1 現在)の意見も付け加えておきたいと思います。井山さんは囲碁プログラムと互先で戦った経験はありませんが、2017年3月に DeepZenGo と戦う予定があります。また言うまでもなく現代日本の最強の棋士であり、その方が AI をどういう風に見ているかは重要でしょう。
|
|
ちなみにこの朝日新聞の記事の中で井山 六冠は、「アルファ碁は、うわさレベルではさらに強く、とてつもないレベルに達していると聞きます」と発言しています。まさにその通りのようで、2016年末から 2017年初頭にかけて "新アルファ碁" が 囲碁対局サイトの「東洋囲碁」と「野狐囲碁」に登場し、トッププロと対戦して60連勝しました。井山 六冠もその中の一人だとされます。
これはもちろん早碁ですが、持ち時間が十分ある碁ではどうなのでしょうか。それでも「ものすごく強いだろう」という大方の推測です。日本棋院は所属の棋士に全60局の棋譜を配布するとありました。"新アルファ碁" は日本だけでなく中国、韓国の棋士によって徹底的に研究されるでしょう。"新アルファ碁" とトッププロとの本格対局も予定されているようなので、注視したいと思います。
AIの "大局感"
これ以降は趙治勲名誉名人と井山裕太 六冠の意見についての感想です。
趙治勲名誉名人と井山裕太 六冠の意見に共通することは、二人とも AI囲碁にポジティブなことです。それは、囲碁のプロフェッショナルとして、
・ | 強い相手と対戦してみたい | ||
・ | 囲碁の神様がいるなら、それを感じてみたい | ||
・ | そのことによって自らも進歩したい |
という意欲・意識だと思います。では AI のどこが強いのか。二人の意見を総合してその強さを一言でいうと「大局感」だと思います。
・ | AIの序盤の布石は素晴らしい(趙)。 | ||
・ | Zen もアルファ碁同様、石の捨て方がうまい(趙)。 | ||
・ | 部分的に最善でなくても全体では遅れていない、むしろリードしている(井山)。 |
などをまとめると「大局感に優れている」ということだと思うのです。我々は普通、コンピュータの得意なところは細部の緻密な計算やヨミだと考えます。全体を見渡してマクロ的・直感的にものごとを把握するのは苦手だと考えるのが普通です。しかし囲碁の AI は逆です。全体を俯瞰する大局感の方が優れていて、細部に関しては「最後の詰めが甘い(趙)」とか「部分的には最善ではない(井山)」のです。
その理由を考えてみると、次のようだと想像できます。DeepZenGo も基本的にアルファ碁のロジックにのっとっているそうなので(日経ITpro 2016.11.09 の記事による)No.180-181「アルファ碁の着手決定ロジック」に沿って考えてみます。
アルファ碁の基本ロジックは「モンテカルロ木検索 - Monte Carlo Tree Search : MCTS」です。MCTSでは局面の勝率を判定しながら、有力な候補手を次々と木探索するのですが、局面の勝率を推定するのに使われるのが「ロールアウト(=プレイアウト)」です。ロールアウトとは、とにかく一定のロジックに従って終局までプレーしてみて勝ち負けを判定し、それを多数繰り返えし、その勝率を局面の勝率とするというものです。
No.180-181で書いたように、アルファ碁は独自の rollout policy でロールアウトをします。しかしそれだけではありません。policy network と value network という2つの多層ニューラルネットワーク(Deep Neural Network。DNN)をもっています。その働きは次の通りです。
◆ | policy network 囲碁のルール上許されるすべての手について、次に打つ手としての有力度合いを数値(確率分布)で示すDNN。 | ||
◆ | value network 局面の勝率を推定するDNN。膨大な局面のサンプルをもとに policy network を使ってロールアウトした事前シミュレーションに基づいて作成される。 |
というものです。そしてアルファ碁の勝率判定は rollout policy を使ったロールアウトによる勝率判定と、value networkによる勝率判定ををミックスして行われています。
結局のところ「アルファ碁の勝率判定はロールアウトによる」と言えるでしょう。ロールアウトは「とにかく終局まで打ってみたらどうなるか」というシミュレーションです。これを候補手(合法手)について、手の有力度合いに従って繰り返し、勝率の高い手を選ぶ。
つまり、常に白紙の状態で、終局までを見据えて(=最後までヨセて)最適な手を選んでいるのがアルファ碁です。一切の "こだわり" がない。これが「自然体」とか「真っ白なキャンバスに自由にデッサンしているよう」という趙名誉名人の感想や、「部分的に最善でなくても全体では遅れていない、むしろリードしている」という井山 六冠の発言につながり、それが大局感に優れていると見えるのだと思います。
AI は意味を説明できるか
趙名誉名人の新聞コラムの中に、AI によって囲碁の裾野が広がるという主旨の発言がありました。つまり「AI によって一人一人に合わせた教え方や、かゆいところに届く指導ができる。アマチュアが強くなり裾野が広がる」との主旨です。これは果たしてどこまで正しいのでしょうか。
もちろん、アマチュアを指導する囲碁の先生が、AI を参考にしながら指導するのは可能であり、大いに役立つと思います。しかし AI だけがアマチュアを指導する(=AI指導碁)というのは、どうなのでしょう。
"AIの先生" が打つべき候補手を数手示し、それぞれの勝率を示すのはいつでも可能です。しかし、たとえば候補手① の勝率は 60%、候補手② の勝率は 50%としたとき、①が 10%だけ勝る理由を AI は説明できるのでしょうか。「②は相手の厚みに近寄り過ぎていて攻められる恐れがある、①のように控えるのが正しい」というようにです。また逆に「形勢が悪いので、思い切って相手の厚みに近寄ってでも模様を張る①が正解」という風にです。結論だけを言われても、人は納得はできないのです。
"捨て石" に関して言うと、趙名誉名人は、AI は捨て石がうまいと語っています。これは井山 六冠の「部分的に最善でなくても全体ではリードしている」という発言とも関係しているのでしょう。では、なぜその場面で石を捨てるのがいいのか、石を助けずに別の場所に打つのがより勝率をあげるのか、AI は説明できるでしょうか。「捨てたと見える石も完全に死んだわけではなく、あとあとの進行でこういう風に有効に生かせるから」というような、"捨てる理由" を説明できるかという問題です。
もちろん中には説明できるケースもあるでしょう。No.180-181「アルファ碁の着手決定ロジック」でもわかるように、シチョウに取られないようにするとか、ナカデで死なないようにするとか、ダメヅマリを回避するとか、そういった理由は説明できそうです。しかしこれらはアマチュアの囲碁初級者でも分かる理由です。かつ、局所的・部分的な打ち手に関する理由です。AI が得意なのは局所的・部分的ではなく、大局的な最善手を打つことでした(趙、井山両氏による)。その大局的な最善手について、そう打つ理由を AI は説明できるでしょうか。
このあたり、現代のAIの本質的な問題点がありそうです。「なぜだか分からないし、理由はさだかではないが、結構正しい」のが AI の出す回答だということがよくある。囲碁のプロなら AIが打つ手の意味を即座に解説できたとしても、AI 自身は分かっていない。逆に言うと、意味を無視して膨大なデータを統計的に処理するからこそ、AIの有効性や可能性があると言えるのでしょう。
もちろん囲碁に限っていうと、AI のヨミ筋はコンピュータに蓄えられているので、そのヨミ筋の解析から打ち手の理由や意味を解説できるようになるかもしれません。ただしこれは機械学習では無理でしょう。「ある局面における次の一手とその意味」を蓄積したビッグデータが存在しないからです。「ある局面と次の一手」というデータは膨大にあるけれども・・・・・・。従って人間が教え込む必要があるのですが、かなりの難作業ではないでしょうか。
アルファ碁が打った手の意味を真に解説できるのは、開発会社のディープマインド社の社員ではなく、アルファ碁の棋譜を詳しく研究したプロ棋士だと確信します。
ここで思い出すのは、前回の No.196「東ロボにみるAIの可能性と限界」で引用した、国立情報学研究所の新井教授("ロボットは東大に入れるか" プロジェクトのリーダ)の発言です。新井教授は中高生向けに講演するとき次のように話すそうです。
|
人間は普通、暗黙であれ意識的であれ、意味・意図・理由を持って(込めて)行動します。だからこそ、良い結果の経験を蓄積したり、逆に悪い結果から反省をして進歩するわけです。無意味に(意味も分からずに)行動していたのでは進歩がありません。
囲碁とAIというテーマで見えてくるもの、それはやはり「機械学習によるAI」の驚くべき可能性と、その裏にある課題、ないしは限界だと思いました。
No.196 - 東ロボにみるAIの可能性と限界 [技術]
No.175「半沢直樹は機械化できる」で、国立情報学研究所の新井紀子教授をリーダとする「ロボットは東大に入れるか」プロジェクト(略称 "東ロボくん")の話を書きました。東ロボくんの内容ではなく、プロジェクトのネーミングの話です。つまり、
の2点です。
「ロボットは東大に入れるか」プロジェクトは2011年に開始され、2013年からは模擬試験を受験しています。2016年11月14日、今年の成果発表会が開催されました。以下はその内容です。
東大は無理、MARCH・関関同立は合格可能
まず、新井教授が朝日新聞デジタルに寄稿した文章から引用します。
この合格可能性判定は、ベネッセコーポレーションの「進研模試」(大学入試センター試験模試)で行われました。東ロボくんの5教科8科目の成績は525点であり(950点満点。全国平均:437.8)、偏差値は57.1でした。
やはり東大合格は無理、今のAI技術では、というのが新井教授の所感です。しかし「MARCH・関関同立」なら合格可能性80%以上というのは、それはそれですごいことではないでしょうか。ちなみに、全国の大学を対象とした東ロボくんの合格可能性は以下の通りでした。
どの大学のどの学部が合格可能なのか、個別の発表はありませんでしたが、「MARCH・関関同立」については学部・学科の平均として、ないしは一部の学部・学科が80%ラインに入っているということでしょう。また国公立大学でも、23大学の30学部・53学科で合格可能性80%以上と判定されていることも注目すべきです。この結果で、プロジェクトの当初目標が達成されたと新井教授は言います。
6年目に「MARCH・関関同立に合格」という目標は達成されたようです。これは "よくやった" とも言えるし、逆に言うと、アッと驚くようなブレイク・スルーは無かったとも言えます。ディープマインド社の "アルファ碁" は世界トップクラスの棋士を破ってAI研究者たちをアッと言わせたのですが(No.174「ディープマインド」、No.180-182「アルファ碁の着手決定ロジック」)、そういうわけにはいかなかった。これはもちろん、碁と違って大学入試には多種の科目があり、科目ごとにAIの適用技術が違うからでしょう。大学入試は総合的な知力の勝負です。特に難関国立大学はそうです。
従って東ロボくんが東大や「MARCH・関関同立」に入れる・入れないということより、科目に得手・不得手があって、そこが明らかになったことにこそ、「東ロボくん」というプロジェクトの意義がありそうです。その、科目別成績は次のようです。
東ロボくんの科目別成績
昨年と比較すると、科目合計の偏差値で 0.7 ポイント下がっていますが、全体的には昨年同様の成績と言えるでしょう。上がった科目もあり、下がったものもあります。
得意科目をみると、世界史の66.3という偏差値が光っています。世界史は、教科書やインターネットなどから歴史記述や文献を大量に集め、それをもとに回答するという「従来からの得意分野」のようです。不得意科目は、英語、特にリスニングです。なぜ不得意かについては新井教授の解説があるので、それをあとで紹介します。
とにかく、東大に合格するためには最低でも100点満点で80点以上は必須ということなので、東ロボくんは "東大合格にはほど遠い" ということが分かります。
また東ロボくんは、東大の2次試験模試も受験しました。その成績が次です。
センター模試とは違って世界史が全国平均をわずかに上回る程度の成績です。これは「問題の趣旨を理解できなかったり、時代や地域を取り違えたりして取りこぼした」そうです(毎日新聞デジタル。2016.11.14による)。
一方、数学(理系)は偏差値76.2という立派な成績、というより凄い成績です。この数学の数字だけをみると、全国で最難関の東大理Ⅲに合格できそうです。東大理Ⅲに合格する人の数学の偏差値は70代後半から80越えのあたりだと言います。しかも東大理Ⅲの受験生で差が付くのは数学です。そこをAIは突破した。
しかし、理Ⅲを含め東大は "一芸" で入れるような大学ではありません。そこが難しいところです。数学だけでは東大理Ⅲクラスだが、受験科目全体ではMARCH・関関同立レベルであるところが、AIという技術を象徴していると思います。
センター模試に成績にもどりますと、全体的に昨年と似た成績であり、1年間の "猛勉強" の成果は(試験結果で見る限りでは)あまりなかったと言えるでしょう。この結果を踏まえて新井教授は以下のように語っています。
要は、東大は断念ということです。しかし新井教授の話にあるように、東ロボくんの目的は「AIの可能性と限界」を明らかにすることでした。AIの可能性というのは「AIの威力」と言ってもいいと思います。全く問題文の「意味」を把握していない東ロボくんが、MARCH・関関同立に合格できる。このAI技術の威力はすごいと思います。逆にいうと、問題文の意味を把握している(はずの)受験生がMARCH・関関同立に合格するのはどういう意義があるのだろう、と考えてしまうわけです。要するにMARCH・関関同立の受験問題を解くというレベルにとどまっている限り、人間の(その部分の)能力はAIに代替されるだろうということです。これはひとつの警鐘です。
それでは逆に、東ロボくんで見えた「AIの限界」とはどういうことでしょうか。ここが核心です。
AIの限界
東ロボくんで見えてきた「AIの限界」について、新井教授は日経産業新聞に大変分かりやすい解説を寄稿していました。それを紹介したいと思います。
まず新井教授が持ち出すキーワードは、ネットワーク社会でしばしば見られる現象を示す「ロングテール」という、ちょっと意外な用語です。
アマゾン・ドッド・コムは、もともと書籍の販売から始まりました。街の書店だと、1年に数冊しか売れない本を置くのはビジネスの効率を下げるので限界があります。しかし地価の安いところに巨大な物流倉庫を作り、本を在庫してネットで販売すれば、ほとんど売れない本でも利益が出る。アマゾンが創造したビジネスモデルです。結果として「あまり売れない多数の本 = ロングテール」に光が当たるわけで、本に関して言えばこれが本来の文化のありかたでしょう。ちなみに、iTunes Music Store ではすべての曲が一度はダウンロードされたという話を以前に聞いたことがありますが、同類の現象です。この "ロングテール" が入試問題とどういう関係があるのでしょうか。
半数以上の問題は分類できない問題であると分析されています。分類できないとは、同一傾向の問題が他にないか、あったとしてもわずかなので、分類を始めるとキリがないということでしょう。つまり半数以上の入試問題はロングテールを構成しているわけです。
この説明でロングテールの意味が明確になるとともに、東ロボくんがなぜリスニングが不得意か(他の教科と比べて)が理解できます。リスニングの問題というのは、実は「リスニングもある常識推論の問題」なのですね。だから、毎年新しい "ジャンル" の問題が作れる。高校3年生の常識の範囲に限っても、ほとんど無尽蔵に新しいジャンルの問題を出せるわけです。デコレーションケーキの作り方、ダンスパーティーへの誘い方、ハンバーガー店での注文の仕方の3つには何の関連性もないのだから・・・・・・。リスニングの問題というのは問題の本質を分析すると、リスニングというジャンルでは括れない、一つ一つがそれぞれ違う "ロングテールの典型" ということです。そして東ロボくんはロングテールに弱い。
ちなみに、会話文(複文)の完成問題は、たとえば次のようなものです(これは今まで引用してきた日経産業新聞に新井教授が寄稿した記事ではありません)。
これが単なる英文解釈でないことは明らかでしょう。それぞれの発話の意図を理解し、会話として自然な人間の感情の流れを答える問題です(正解は④)。
AIの限界の一つは「無尽蔵にある状況への対応」です。少なくとも現代のAI技術では、そこに限界がある。今のAI技術の主流を極く簡単に言うと「問題に関連するビッグデータを収集し、統計手法で答えを導く」というものだからです。
従って、たとえば世界史の論述問題は東ロボくんの得意分野になります(今回の東大模試では "取りこぼした" ようですが)。高校3年生がアクセスしうる世界史の情報には限度があり、かつ高校3年生に出題してよい世界史の知識レベルや事実の数にも限度があるからです。従って、例をあげると「732年、フランク王国の軍はトゥールとポアティエの間で侵攻してきたウマイヤ朝のイスラム軍を破りました。この戦いの結果がその後の西ヨーロッパに与えた影響を、政治と経済の観点から200字以内で述べなさい」というような論述問題は得意なはずです(全く仮想の問題です)。
しかし統計手法には限界があるというのが新井教授の主旨です。英語の単文の「穴埋め問題」や「語順を正しくする問題」を、ビッグデータをもとに90%以上の正解率で解くため、東ロボくんは500億の単文を収集したわけです。インターネットの発達があったからこそ出来たことでしょう。例文(単文)をネットから自動収集できる。しかし、この手法を会話文を完成させる問題には適用できません。適用するには500億の "複文の会話サンプル" が必要であり、その収集は現実的に不可能だからです。実現のためには全く違うアプローチのAI技術を開発する必要があるが、その技術開発のコストは、それがもたらす成果に全く見合わないと考えられます。新井教授の結論は次のとおりです。
東ロボくんの意義
新井教授の解説を読んで、AIのプロジェクトに大学入試の模試を選んだ理由がわかりました。試験問題は基本的に一度きりなのですね。全く同じ問題は出ない。もちろん科目によっては過去問に類似しているケースもあるでしょう。しかし問題作成者は、まず自分の知識に照らして過去にないはずの問題を複数個作成し、次に手分けして本当に過去に出題されていないのかを徹底的に検証すると思います。特定の受験生に有利にならないようにするためです。この検証でOKとなった問題だけが出題される。一度きりの問題が出るテストが、毎年決まった時期に行われ、成績の履歴がトレースできるのは大学入試の模試しかない。だから東ロボくんなのです。
ちょっと話を広げますと、我々は人生やビジネスにおいてさまざまな "問題" に答えを出し、意志決定する必要が出てきます。もちろん同じ(ないしは類似の)問題も多いのですが、中には1回きりという場合もあります。類似の問題であっても、シチュエーションが違うという意味で初めての問題もある。そして大事なことは、人生においてもビジネスおいても、重要な問題ほど1回きりの問題なのです。経験のない状況で答えを見つける必要がある。それが人生であり、社会です。
東ロボくんの模試で分かったことは、東ロボくんの目的である「AIの可能性と限界を明らかにする」ということの意義です。
AIについては "アバウトな" 言説が充満しています。2030年には人間の頭脳を越えるとか、人間を越えることは絶対に無理だとか、いろいろあります。しかしそれらはどれも実証的データにもとづく推定ではありません。No.175「半沢直樹は機械化できる」で紹介したオックスフォード大学の「雇用の未来」も、あくまでAI専門家の「AIに置き換えられる仕事、置き換えられない仕事」という "意見" の集約です。それらに反して東ロボくんは、数年をかけて、入試問題という範囲ではあるが、実際にAIのプログラムを開発し、その可能性と限界を明白な成績とともに検討してきたわけです。
その可能性と限界ですが、一般的にはAIの可能性(威力)について目にする事が多いと思います。このブログでも、
などがそうでした。従来ありえなかった推論をコンピュータがやってしまう。これらの特徴は、いずれもビックデータの解析をもとにした推論だということです。碁の世界チャンピオンに勝ったアルファ碁も、アマチュア高段者が打った16万局の囲碁データを出発点にしています。これらの例だけでなく、現代のAI研究の主流はビックデータの解析による推論です。
一方で我々はAIの限界の具体例を目にすることは少ないというか、ほとんど無いといってもいいでしょう。しかし東ロボくんは、数年かけて丹念に、AIの可能性とともに限界をも明らかにしてきました。
新井教授が日経産業新聞への寄稿で、英語の文章完成問題における単文と複文の大きな溝を述べていました。単文のビッグデータは何とか得られるが、複文では実質上無理である。論理上可能であってもコストの視点で無理という話でした。ビックデータが得られないか、実用上リーズナブルなコストで得られる見込みのない問題は、現代主流のAI技術では無力なのです。こういった実証的研究の大切さを示したこと、それが東ロボくんというプロジェクトの意義でしょう。
意味を理解すること
AIに使われているのは、コンピュータ・サイエンスを含む、広い意味での数学です。東ロボくんのプロジェクト・リーダである新井教授も数学者です。
数学を割り切って分類すると「論理」と「統計」の二つでしょう。「統計」と「統計以外のすべて」と言った方がいいかも知れません。ビックデータをもとにした推論は統計のジャンルであり、現代の主流の(華々しい成果を出している)AIは統計に偏っています。
一方、人間の行動はそれだけではありません。論理の部分も重要視します。問題の意味を理解し、原則はこうだからとか、そもそもの目的はこうだからとか、こういう理由だからこうするとか、意図を込めて意志決定したり、行動したりします。新井教授は中高校生向けの講演のとき、最後は次のように締めくくるそうです。
この最後の「みなさん」から始まる一行を確信をもって中高生に言える。これが『ロボットは東大に入れるか』の大きな成果だと思いました。
3つの余談
プロジェクトの目的とは無関係ですが、東ロボくんで分かったことは、「MARCH・関関同立」に入学する学力と東大に入る学力には大きな差があり、その差は連続的変化ではなく不連続な落差だということです。なぜなら、東ロボくんが東京大学に入学できる日は、現在のAI技術だと永遠に来ないのだから・・・・・・。AIと人間の学力を同じ土俵で比較はできない思いつつも、「80%の確率で合格」と「永遠に合格できない」との差は決定的だと思いました。そこで思ったのは、東大と「MARCH・関関同立」の間にある大学です。おそらく京大は「落差の東大側」でしょう。では、たとえば早稲田と慶応はどうか。落差のMARCH側なのか東大側なのか。もちろん学部によるでしょうが、ちょっと気になりました。
2つ目の余談は、今回の成果発表会に、デンソーが開発した "解答代筆ロボット" である「東ロボ手くん」が登場したことです。ボールペンで筆記ができるロボットアームです。No.176 「将棋電王戦が暗示するロボット産業の未来」に書いたように、デンソーは将棋電王戦のために「電王手さん」という "代指しロボット" を開発しています。そしてこのロボットは「人間の手と指の微妙な動きを完全に模擬できるロボットを開発するという、デンソーの大きな企業目標の一つとして位置づけられているのかも」と書きました。今回の「東ロボ手くん」もその一環でしょう。ここまで来たら、次には囲碁電王戦のために "代打ちロボット" を是非開発してもらいたい。碁石は丸みがあるので難しそうですが、デンソーの技術力をもってすれば可能でしょう。日本の "3大AIチャレンジ"(東ロボくん、将棋電王戦、囲碁電王戦)のすべてに参戦してこそ、デンソーのロボット技術の優秀性が証明されるはずです。特に囲碁は欧米、中国、韓国に広まっているので、"代打ちロボット" が活躍できる場はグローバルです。デンソーはあとには引けないはずです。
3つ目の余談です。日経産業新聞への寄稿文で新井教授は「東ロボくん」を「東ロボ」と "呼び捨て" にしています。これはおそらく「自分の身内は呼び捨てにする」という、日本語の慣習に忠実に書いているのでしょう。これでちょっと思い出しました。私は新井教授の講演を一回だけ聞いたことがあるのですが、彼女は講演に熱が入ってくると「東ロボ」とも言わずに「うちの子」と、母親的雰囲気の言い方になってしまうのですね。「呼び捨て」なり「うちの子」なり、新井教授がプロジェクトに賭けた意気込みを感じました。
本文中に東ロボくんが挑戦した英語のリスニングの問題が出てきます。その問題が新井教授の著書「ロボットは東大に入れるか」(イースト・プレス。2014)にあります。それを紹介します。
このリスニングでは、父親の誕生日ために息子が母親とバースデー・ケーキを手作りする場面が英語で流されます。デコレーション・ケーキにブルーベリーを飾るやり方について息子が母に尋ね、母が答えます「クリームとクリームの間にブルーベリーをひとつずつ置いてちょうだい」。
この英語の会話のリスニングは、東ロボくんは完璧でした。東ロボくんは英語のリスニングが得意なのです。音声認識の最先端の研究は、たとえば新宿駅の雑踏でスマホでしゃべった音声の中から本人のものだけを聞き分けたり、またオーケストラの中からヴィオラの音だけを取り出すといったものです。雑音や余計な音が全くないセンター入試など、東ロボくんにとっては朝飯前なのです。
しかし設問は「できあがったケーキはどれか、4つのイラストから選びなさい」というものでした。これが東ロボくんは全くできなかった。
言うまでもなく正解は ② なのですが、考えてみると不思議なイラストです。「ブルーベリーがのったデコレーション・ケーキ」など、受験生は言うに及ばす、ほどんどの日本人は見たことがないはずです。ブルーベリーがどういうものか知っている受験生は多いとは思いますが、食べた記憶がある人は少数ではないでしょうか。そのブルーベリーは直径が1cm程度ですが、そうするとこのイラストのケーキの直径は12cm程度になります。デコレーション・ケーキとしては小さすぎる。父親の誕生日のためとしては不思議な大きさです。
しかしそんなことは人間の受験生にとっては関係ないのです。極端にはブルーベリーとクリームの意味を知らなくてもよい。「ケーキ」が分かりさえすれば、ケーキの上に2種類のモノが交互に並んでいるイラストを答えればよいのです。要するに、英語のリスニングができたとしたら人間の受験生はまず間違いなく正解する問題です。
しかし東ロボくにとっては難しいというより、無理です。「ロボットは東大に入れるか」の本には、国立情報学研究所の画像認識の専門家の「絶対に無理だね」との発言がありました。画像認識の主流はたくさんの教師画像を集めてコンピュータに学習させるというものですが、そもそもブルーベリーがのったケーキなど人間も見たことがないのです。さらに、画像認識で研究が進んでいるのは「写真画像の認識」です。イラストは人間が恣意的に描くものであり、同じモノを描いたとしてもバラツキが大きすぎます。写真画像の認識より圧倒的に難しい。ということは、東ロボくんが漫画を読むのはまず出来ないことにもなります。
まるで東ロボくんの弱点を知っている人が作ったかのような問題ですが、もちろん、センター試験の英語のリスニングにケーキを作る場面が出るのはこれ1回きりです。そして類似の問題は無限に考えられる。つまり、イラストを選ぶ形で出される英語のリスニングの問題は、東ロボくんは今後とも正解出来ないことになるのです。
◆ | プロジェクトの存在感を出すために、是非とも "東大" にしたかったのだろう(本来なら "ロボットは大学に入れるか" でいいはず)。 | ||
◆ | 新井教授は「ロボットは東大に入れない」と思っているのではないか。その証拠にプロジェクト名称が疑問形になっている。 |
の2点です。
「ロボットは東大に入れるか」プロジェクトは2011年に開始され、2013年からは模擬試験を受験しています。2016年11月14日、今年の成果発表会が開催されました。以下はその内容です。
国立情報学研究所ニュース(NII Today)No.60(2013.6)。特集「ロボットは東大に入れるか」の表紙
|
東大は無理、MARCH・関関同立は合格可能
まず、新井教授が朝日新聞デジタルに寄稿した文章から引用します。
|
この合格可能性判定は、ベネッセコーポレーションの「進研模試」(大学入試センター試験模試)で行われました。東ロボくんの5教科8科目の成績は525点であり(950点満点。全国平均:437.8)、偏差値は57.1でした。
やはり東大合格は無理、今のAI技術では、というのが新井教授の所感です。しかし「MARCH・関関同立」なら合格可能性80%以上というのは、それはそれですごいことではないでしょうか。ちなみに、全国の大学を対象とした東ロボくんの合格可能性は以下の通りでした。
調査対象 | 合格可能性80%以上 | |||||
大学 | 学部 | 学科 | 大学 | 学部 | 学科 | |
国公立 | 172 | 576 | 2096 | 23 | 30 | 53 |
私立 | 584 | 1753 | 4309 | 512 | 1343 | 2993 |
計 | 756 | 2329 | 6405 | 535 | 1373 | 3046 |
(site : pc.watch.impress.co.jp より)
どの大学のどの学部が合格可能なのか、個別の発表はありませんでしたが、「MARCH・関関同立」については学部・学科の平均として、ないしは一部の学部・学科が80%ラインに入っているということでしょう。また国公立大学でも、23大学の30学部・53学科で合格可能性80%以上と判定されていることも注目すべきです。この結果で、プロジェクトの当初目標が達成されたと新井教授は言います。
|
「東ロボくん」2016年成果報告会のポスター
|
従って東ロボくんが東大や「MARCH・関関同立」に入れる・入れないということより、科目に得手・不得手があって、そこが明らかになったことにこそ、「東ロボくん」というプロジェクトの意義がありそうです。その、科目別成績は次のようです。
東ロボくんの科目別成績
大学入試センター模試の成績
ベネッセコーポレーション「進研模試」
ベネッセコーポレーション「進研模試」
(カッコ内は昨年の成績)
得点 | 全国平均 | 偏差値 | |
英語(筆記) | 95(80) | 92.9 | 50.5(48.4) |
英語(リスニング) | 14(16) | 26.3 | 36.2(40.5) |
国語(現代文+古文) | 96(90) | 96.8 | 49.7(45.1) |
数学 I A | 70(75) | 54.4 | 57.8(64.0) |
数学Ⅱ B | 59(77) | 46.5 | 55.5(65.8) |
世界史 B | 77(76) | 44.8 | 66.3(66.5) |
日本史 B | 52(55) | 47.3 | 52.9(54.8) |
物理 | 62(42) | 45.8 | 59.0(46.5) |
合計(950点満点) | 525(511) | 437.8 | 57.1(57.8) |
朝日新聞(2016.11.15)
昨年と比較すると、科目合計の偏差値で 0.7 ポイント下がっていますが、全体的には昨年同様の成績と言えるでしょう。上がった科目もあり、下がったものもあります。
得意科目をみると、世界史の66.3という偏差値が光っています。世界史は、教科書やインターネットなどから歴史記述や文献を大量に集め、それをもとに回答するという「従来からの得意分野」のようです。不得意科目は、英語、特にリスニングです。なぜ不得意かについては新井教授の解説があるので、それをあとで紹介します。
とにかく、東大に合格するためには最低でも100点満点で80点以上は必須ということなので、東ロボくんは "東大合格にはほど遠い" ということが分かります。
また東ロボくんは、東大の2次試験模試も受験しました。その成績が次です。
東大2次試験向け模試
代々木ゼミナール・論述式
代々木ゼミナール・論述式
得点 | 全国平均 | 偏差値 | |
世界史 | 16 | 14.5 | 51.8 |
数学(文系) | 46 | 19.9 | 68.1 |
数学(理系) | 80 | 30.8 | 76.2 |
朝日新聞(2016.11.15)
センター模試とは違って世界史が全国平均をわずかに上回る程度の成績です。これは「問題の趣旨を理解できなかったり、時代や地域を取り違えたりして取りこぼした」そうです(毎日新聞デジタル。2016.11.14による)。
一方、数学(理系)は偏差値76.2という立派な成績、というより凄い成績です。この数学の数字だけをみると、全国で最難関の東大理Ⅲに合格できそうです。東大理Ⅲに合格する人の数学の偏差値は70代後半から80越えのあたりだと言います。しかも東大理Ⅲの受験生で差が付くのは数学です。そこをAIは突破した。
しかし、理Ⅲを含め東大は "一芸" で入れるような大学ではありません。そこが難しいところです。数学だけでは東大理Ⅲクラスだが、受験科目全体ではMARCH・関関同立レベルであるところが、AIという技術を象徴していると思います。
センター模試に成績にもどりますと、全体的に昨年と似た成績であり、1年間の "猛勉強" の成果は(試験結果で見る限りでは)あまりなかったと言えるでしょう。この結果を踏まえて新井教授は以下のように語っています。
|
要は、東大は断念ということです。しかし新井教授の話にあるように、東ロボくんの目的は「AIの可能性と限界」を明らかにすることでした。AIの可能性というのは「AIの威力」と言ってもいいと思います。全く問題文の「意味」を把握していない東ロボくんが、MARCH・関関同立に合格できる。このAI技術の威力はすごいと思います。逆にいうと、問題文の意味を把握している(はずの)受験生がMARCH・関関同立に合格するのはどういう意義があるのだろう、と考えてしまうわけです。要するにMARCH・関関同立の受験問題を解くというレベルにとどまっている限り、人間の(その部分の)能力はAIに代替されるだろうということです。これはひとつの警鐘です。
それでは逆に、東ロボくんで見えた「AIの限界」とはどういうことでしょうか。ここが核心です。
AIの限界
東ロボくんで見えてきた「AIの限界」について、新井教授は日経産業新聞に大変分かりやすい解説を寄稿していました。それを紹介したいと思います。
|
「東ロボくん」2016年成果報告会で、新井紀子教授(2016.11.14 一橋講堂)
(www.itmedia.co.jp)
|
アマゾン・ドッド・コムは、もともと書籍の販売から始まりました。街の書店だと、1年に数冊しか売れない本を置くのはビジネスの効率を下げるので限界があります。しかし地価の安いところに巨大な物流倉庫を作り、本を在庫してネットで販売すれば、ほとんど売れない本でも利益が出る。アマゾンが創造したビジネスモデルです。結果として「あまり売れない多数の本 = ロングテール」に光が当たるわけで、本に関して言えばこれが本来の文化のありかたでしょう。ちなみに、iTunes Music Store ではすべての曲が一度はダウンロードされたという話を以前に聞いたことがありますが、同類の現象です。この "ロングテール" が入試問題とどういう関係があるのでしょうか。
|
半数以上の問題は分類できない問題であると分析されています。分類できないとは、同一傾向の問題が他にないか、あったとしてもわずかなので、分類を始めるとキリがないということでしょう。つまり半数以上の入試問題はロングテールを構成しているわけです。
|
この説明でロングテールの意味が明確になるとともに、東ロボくんがなぜリスニングが不得意か(他の教科と比べて)が理解できます。リスニングの問題というのは、実は「リスニングもある常識推論の問題」なのですね。だから、毎年新しい "ジャンル" の問題が作れる。高校3年生の常識の範囲に限っても、ほとんど無尽蔵に新しいジャンルの問題を出せるわけです。デコレーションケーキの作り方、ダンスパーティーへの誘い方、ハンバーガー店での注文の仕方の3つには何の関連性もないのだから・・・・・・。リスニングの問題というのは問題の本質を分析すると、リスニングというジャンルでは括れない、一つ一つがそれぞれ違う "ロングテールの典型" ということです。そして東ロボくんはロングテールに弱い。
|
ちなみに、会話文(複文)の完成問題は、たとえば次のようなものです(これは今まで引用してきた日経産業新聞に新井教授が寄稿した記事ではありません)。
|
これが単なる英文解釈でないことは明らかでしょう。それぞれの発話の意図を理解し、会話として自然な人間の感情の流れを答える問題です(正解は④)。
AIの限界の一つは「無尽蔵にある状況への対応」です。少なくとも現代のAI技術では、そこに限界がある。今のAI技術の主流を極く簡単に言うと「問題に関連するビッグデータを収集し、統計手法で答えを導く」というものだからです。
従って、たとえば世界史の論述問題は東ロボくんの得意分野になります(今回の東大模試では "取りこぼした" ようですが)。高校3年生がアクセスしうる世界史の情報には限度があり、かつ高校3年生に出題してよい世界史の知識レベルや事実の数にも限度があるからです。従って、例をあげると「732年、フランク王国の軍はトゥールとポアティエの間で侵攻してきたウマイヤ朝のイスラム軍を破りました。この戦いの結果がその後の西ヨーロッパに与えた影響を、政治と経済の観点から200字以内で述べなさい」というような論述問題は得意なはずです(全く仮想の問題です)。
しかし統計手法には限界があるというのが新井教授の主旨です。英語の単文の「穴埋め問題」や「語順を正しくする問題」を、ビッグデータをもとに90%以上の正解率で解くため、東ロボくんは500億の単文を収集したわけです。インターネットの発達があったからこそ出来たことでしょう。例文(単文)をネットから自動収集できる。しかし、この手法を会話文を完成させる問題には適用できません。適用するには500億の "複文の会話サンプル" が必要であり、その収集は現実的に不可能だからです。実現のためには全く違うアプローチのAI技術を開発する必要があるが、その技術開発のコストは、それがもたらす成果に全く見合わないと考えられます。新井教授の結論は次のとおりです。
|
東ロボくんの意義
新井教授の解説を読んで、AIのプロジェクトに大学入試の模試を選んだ理由がわかりました。試験問題は基本的に一度きりなのですね。全く同じ問題は出ない。もちろん科目によっては過去問に類似しているケースもあるでしょう。しかし問題作成者は、まず自分の知識に照らして過去にないはずの問題を複数個作成し、次に手分けして本当に過去に出題されていないのかを徹底的に検証すると思います。特定の受験生に有利にならないようにするためです。この検証でOKとなった問題だけが出題される。一度きりの問題が出るテストが、毎年決まった時期に行われ、成績の履歴がトレースできるのは大学入試の模試しかない。だから東ロボくんなのです。
ちょっと話を広げますと、我々は人生やビジネスにおいてさまざまな "問題" に答えを出し、意志決定する必要が出てきます。もちろん同じ(ないしは類似の)問題も多いのですが、中には1回きりという場合もあります。類似の問題であっても、シチュエーションが違うという意味で初めての問題もある。そして大事なことは、人生においてもビジネスおいても、重要な問題ほど1回きりの問題なのです。経験のない状況で答えを見つける必要がある。それが人生であり、社会です。
東ロボくんの模試で分かったことは、東ロボくんの目的である「AIの可能性と限界を明らかにする」ということの意義です。
AIについては "アバウトな" 言説が充満しています。2030年には人間の頭脳を越えるとか、人間を越えることは絶対に無理だとか、いろいろあります。しかしそれらはどれも実証的データにもとづく推定ではありません。No.175「半沢直樹は機械化できる」で紹介したオックスフォード大学の「雇用の未来」も、あくまでAI専門家の「AIに置き換えられる仕事、置き換えられない仕事」という "意見" の集約です。それらに反して東ロボくんは、数年をかけて、入試問題という範囲ではあるが、実際にAIのプログラムを開発し、その可能性と限界を明白な成績とともに検討してきたわけです。
その可能性と限界ですが、一般的にはAIの可能性(威力)について目にする事が多いと思います。このブログでも、
データの見えざる手(2) | |||
インフルエンザの流行はGoogleが予測する | |||
アルファ碁の着手決定ロジック(1) | |||
アルファ碁の着手決定ロジック(2) |
などがそうでした。従来ありえなかった推論をコンピュータがやってしまう。これらの特徴は、いずれもビックデータの解析をもとにした推論だということです。碁の世界チャンピオンに勝ったアルファ碁も、アマチュア高段者が打った16万局の囲碁データを出発点にしています。これらの例だけでなく、現代のAI研究の主流はビックデータの解析による推論です。
一方で我々はAIの限界の具体例を目にすることは少ないというか、ほとんど無いといってもいいでしょう。しかし東ロボくんは、数年かけて丹念に、AIの可能性とともに限界をも明らかにしてきました。
新井教授が日経産業新聞への寄稿で、英語の文章完成問題における単文と複文の大きな溝を述べていました。単文のビッグデータは何とか得られるが、複文では実質上無理である。論理上可能であってもコストの視点で無理という話でした。ビックデータが得られないか、実用上リーズナブルなコストで得られる見込みのない問題は、現代主流のAI技術では無力なのです。こういった実証的研究の大切さを示したこと、それが東ロボくんというプロジェクトの意義でしょう。
意味を理解すること
AIに使われているのは、コンピュータ・サイエンスを含む、広い意味での数学です。東ロボくんのプロジェクト・リーダである新井教授も数学者です。
数学を割り切って分類すると「論理」と「統計」の二つでしょう。「統計」と「統計以外のすべて」と言った方がいいかも知れません。ビックデータをもとにした推論は統計のジャンルであり、現代の主流の(華々しい成果を出している)AIは統計に偏っています。
一方、人間の行動はそれだけではありません。論理の部分も重要視します。問題の意味を理解し、原則はこうだからとか、そもそもの目的はこうだからとか、こういう理由だからこうするとか、意図を込めて意志決定したり、行動したりします。新井教授は中高校生向けの講演のとき、最後は次のように締めくくるそうです。
|
この最後の「みなさん」から始まる一行を確信をもって中高生に言える。これが『ロボットは東大に入れるか』の大きな成果だと思いました。
3つの余談
プロジェクトの目的とは無関係ですが、東ロボくんで分かったことは、「MARCH・関関同立」に入学する学力と東大に入る学力には大きな差があり、その差は連続的変化ではなく不連続な落差だということです。なぜなら、東ロボくんが東京大学に入学できる日は、現在のAI技術だと永遠に来ないのだから・・・・・・。AIと人間の学力を同じ土俵で比較はできない思いつつも、「80%の確率で合格」と「永遠に合格できない」との差は決定的だと思いました。そこで思ったのは、東大と「MARCH・関関同立」の間にある大学です。おそらく京大は「落差の東大側」でしょう。では、たとえば早稲田と慶応はどうか。落差のMARCH側なのか東大側なのか。もちろん学部によるでしょうが、ちょっと気になりました。
デンソーが開発した、解答代筆ロボットアーム「東ロボ手くん」
(www.itmedia.co.jp)
|
3つ目の余談です。日経産業新聞への寄稿文で新井教授は「東ロボくん」を「東ロボ」と "呼び捨て" にしています。これはおそらく「自分の身内は呼び捨てにする」という、日本語の慣習に忠実に書いているのでしょう。これでちょっと思い出しました。私は新井教授の講演を一回だけ聞いたことがあるのですが、彼女は講演に熱が入ってくると「東ロボ」とも言わずに「うちの子」と、母親的雰囲気の言い方になってしまうのですね。「呼び捨て」なり「うちの子」なり、新井教授がプロジェクトに賭けた意気込みを感じました。
 補記  |
本文中に東ロボくんが挑戦した英語のリスニングの問題が出てきます。その問題が新井教授の著書「ロボットは東大に入れるか」(イースト・プレス。2014)にあります。それを紹介します。
このリスニングでは、父親の誕生日ために息子が母親とバースデー・ケーキを手作りする場面が英語で流されます。デコレーション・ケーキにブルーベリーを飾るやり方について息子が母に尋ね、母が答えます「クリームとクリームの間にブルーベリーをひとつずつ置いてちょうだい」。
この英語の会話のリスニングは、東ロボくんは完璧でした。東ロボくんは英語のリスニングが得意なのです。音声認識の最先端の研究は、たとえば新宿駅の雑踏でスマホでしゃべった音声の中から本人のものだけを聞き分けたり、またオーケストラの中からヴィオラの音だけを取り出すといったものです。雑音や余計な音が全くないセンター入試など、東ロボくんにとっては朝飯前なのです。
しかし設問は「できあがったケーキはどれか、4つのイラストから選びなさい」というものでした。これが東ロボくんは全くできなかった。
新井紀子「ロボットは東大に入れるか」
(イースト・プレス。2014)より
(イースト・プレス。2014)より
言うまでもなく正解は ② なのですが、考えてみると不思議なイラストです。「ブルーベリーがのったデコレーション・ケーキ」など、受験生は言うに及ばす、ほどんどの日本人は見たことがないはずです。ブルーベリーがどういうものか知っている受験生は多いとは思いますが、食べた記憶がある人は少数ではないでしょうか。そのブルーベリーは直径が1cm程度ですが、そうするとこのイラストのケーキの直径は12cm程度になります。デコレーション・ケーキとしては小さすぎる。父親の誕生日のためとしては不思議な大きさです。
しかしそんなことは人間の受験生にとっては関係ないのです。極端にはブルーベリーとクリームの意味を知らなくてもよい。「ケーキ」が分かりさえすれば、ケーキの上に2種類のモノが交互に並んでいるイラストを答えればよいのです。要するに、英語のリスニングができたとしたら人間の受験生はまず間違いなく正解する問題です。
しかし東ロボくにとっては難しいというより、無理です。「ロボットは東大に入れるか」の本には、国立情報学研究所の画像認識の専門家の「絶対に無理だね」との発言がありました。画像認識の主流はたくさんの教師画像を集めてコンピュータに学習させるというものですが、そもそもブルーベリーがのったケーキなど人間も見たことがないのです。さらに、画像認識で研究が進んでいるのは「写真画像の認識」です。イラストは人間が恣意的に描くものであり、同じモノを描いたとしてもバラツキが大きすぎます。写真画像の認識より圧倒的に難しい。ということは、東ロボくんが漫画を読むのはまず出来ないことにもなります。
まるで東ロボくんの弱点を知っている人が作ったかのような問題ですが、もちろん、センター試験の英語のリスニングにケーキを作る場面が出るのはこれ1回きりです。そして類似の問題は無限に考えられる。つまり、イラストを選ぶ形で出される英語のリスニングの問題は、東ロボくんは今後とも正解出来ないことになるのです。