No.196 - 東ロボにみるAIの可能性と限界 [技術]
No.175「半沢直樹は機械化できる」で、国立情報学研究所の新井紀子教授をリーダとする「ロボットは東大に入れるか」プロジェクト(略称 "東ロボくん")の話を書きました。東ロボくんの内容ではなく、プロジェクトのネーミングの話です。つまり、
の2点です。
「ロボットは東大に入れるか」プロジェクトは2011年に開始され、2013年からは模擬試験を受験しています。2016年11月14日、今年の成果発表会が開催されました。以下はその内容です。
東大は無理、MARCH・関関同立は合格可能
まず、新井教授が朝日新聞デジタルに寄稿した文章から引用します。
この合格可能性判定は、ベネッセコーポレーションの「進研模試」(大学入試センター試験模試)で行われました。東ロボくんの5教科8科目の成績は525点であり(950点満点。全国平均:437.8)、偏差値は57.1でした。
やはり東大合格は無理、今のAI技術では、というのが新井教授の所感です。しかし「MARCH・関関同立」なら合格可能性80%以上というのは、それはそれですごいことではないでしょうか。ちなみに、全国の大学を対象とした東ロボくんの合格可能性は以下の通りでした。
どの大学のどの学部が合格可能なのか、個別の発表はありませんでしたが、「MARCH・関関同立」については学部・学科の平均として、ないしは一部の学部・学科が80%ラインに入っているということでしょう。また国公立大学でも、23大学の30学部・53学科で合格可能性80%以上と判定されていることも注目すべきです。この結果で、プロジェクトの当初目標が達成されたと新井教授は言います。
6年目に「MARCH・関関同立に合格」という目標は達成されたようです。これは "よくやった" とも言えるし、逆に言うと、アッと驚くようなブレイク・スルーは無かったとも言えます。ディープマインド社の "アルファ碁" は世界トップクラスの棋士を破ってAI研究者たちをアッと言わせたのですが(No.174「ディープマインド」、No.180-182「アルファ碁の着手決定ロジック」)、そういうわけにはいかなかった。これはもちろん、碁と違って大学入試には多種の科目があり、科目ごとにAIの適用技術が違うからでしょう。大学入試は総合的な知力の勝負です。特に難関国立大学はそうです。
従って東ロボくんが東大や「MARCH・関関同立」に入れる・入れないということより、科目に得手・不得手があって、そこが明らかになったことにこそ、「東ロボくん」というプロジェクトの意義がありそうです。その、科目別成績は次のようです。
東ロボくんの科目別成績
昨年と比較すると、科目合計の偏差値で 0.7 ポイント下がっていますが、全体的には昨年同様の成績と言えるでしょう。上がった科目もあり、下がったものもあります。
得意科目をみると、世界史の66.3という偏差値が光っています。世界史は、教科書やインターネットなどから歴史記述や文献を大量に集め、それをもとに回答するという「従来からの得意分野」のようです。不得意科目は、英語、特にリスニングです。なぜ不得意かについては新井教授の解説があるので、それをあとで紹介します。
とにかく、東大に合格するためには最低でも100点満点で80点以上は必須ということなので、東ロボくんは "東大合格にはほど遠い" ということが分かります。
また東ロボくんは、東大の2次試験模試も受験しました。その成績が次です。
センター模試とは違って世界史が全国平均をわずかに上回る程度の成績です。これは「問題の趣旨を理解できなかったり、時代や地域を取り違えたりして取りこぼした」そうです(毎日新聞デジタル。2016.11.14による)。
一方、数学(理系)は偏差値76.2という立派な成績、というより凄い成績です。この数学の数字だけをみると、全国で最難関の東大理Ⅲに合格できそうです。東大理Ⅲに合格する人の数学の偏差値は70代後半から80越えのあたりだと言います。しかも東大理Ⅲの受験生で差が付くのは数学です。そこをAIは突破した。
しかし、理Ⅲを含め東大は "一芸" で入れるような大学ではありません。そこが難しいところです。数学だけでは東大理Ⅲクラスだが、受験科目全体ではMARCH・関関同立レベルであるところが、AIという技術を象徴していると思います。
センター模試に成績にもどりますと、全体的に昨年と似た成績であり、1年間の "猛勉強" の成果は(試験結果で見る限りでは)あまりなかったと言えるでしょう。この結果を踏まえて新井教授は以下のように語っています。
要は、東大は断念ということです。しかし新井教授の話にあるように、東ロボくんの目的は「AIの可能性と限界」を明らかにすることでした。AIの可能性というのは「AIの威力」と言ってもいいと思います。全く問題文の「意味」を把握していない東ロボくんが、MARCH・関関同立に合格できる。このAI技術の威力はすごいと思います。逆にいうと、問題文の意味を把握している(はずの)受験生がMARCH・関関同立に合格するのはどういう意義があるのだろう、と考えてしまうわけです。要するにMARCH・関関同立の受験問題を解くというレベルにとどまっている限り、人間の(その部分の)能力はAIに代替されるだろうということです。これはひとつの警鐘です。
それでは逆に、東ロボくんで見えた「AIの限界」とはどういうことでしょうか。ここが核心です。
AIの限界
東ロボくんで見えてきた「AIの限界」について、新井教授は日経産業新聞に大変分かりやすい解説を寄稿していました。それを紹介したいと思います。
まず新井教授が持ち出すキーワードは、ネットワーク社会でしばしば見られる現象を示す「ロングテール」という、ちょっと意外な用語です。
アマゾン・ドッド・コムは、もともと書籍の販売から始まりました。街の書店だと、1年に数冊しか売れない本を置くのはビジネスの効率を下げるので限界があります。しかし地価の安いところに巨大な物流倉庫を作り、本を在庫してネットで販売すれば、ほとんど売れない本でも利益が出る。アマゾンが創造したビジネスモデルです。結果として「あまり売れない多数の本 = ロングテール」に光が当たるわけで、本に関して言えばこれが本来の文化のありかたでしょう。ちなみに、iTunes Music Store ではすべての曲が一度はダウンロードされたという話を以前に聞いたことがありますが、同類の現象です。この "ロングテール" が入試問題とどういう関係があるのでしょうか。
半数以上の問題は分類できない問題であると分析されています。分類できないとは、同一傾向の問題が他にないか、あったとしてもわずかなので、分類を始めるとキリがないということでしょう。つまり半数以上の入試問題はロングテールを構成しているわけです。
この説明でロングテールの意味が明確になるとともに、東ロボくんがなぜリスニングが不得意か(他の教科と比べて)が理解できます。リスニングの問題というのは、実は「リスニングもある常識推論の問題」なのですね。だから、毎年新しい "ジャンル" の問題が作れる。高校3年生の常識の範囲に限っても、ほとんど無尽蔵に新しいジャンルの問題を出せるわけです。デコレーションケーキの作り方、ダンスパーティーへの誘い方、ハンバーガー店での注文の仕方の3つには何の関連性もないのだから・・・・・・。リスニングの問題というのは問題の本質を分析すると、リスニングというジャンルでは括れない、一つ一つがそれぞれ違う "ロングテールの典型" ということです。そして東ロボくんはロングテールに弱い。
ちなみに、会話文(複文)の完成問題は、たとえば次のようなものです(これは今まで引用してきた日経産業新聞に新井教授が寄稿した記事ではありません)。
これが単なる英文解釈でないことは明らかでしょう。それぞれの発話の意図を理解し、会話として自然な人間の感情の流れを答える問題です(正解は④)。
AIの限界の一つは「無尽蔵にある状況への対応」です。少なくとも現代のAI技術では、そこに限界がある。今のAI技術の主流を極く簡単に言うと「問題に関連するビッグデータを収集し、統計手法で答えを導く」というものだからです。
従って、たとえば世界史の論述問題は東ロボくんの得意分野になります(今回の東大模試では "取りこぼした" ようですが)。高校3年生がアクセスしうる世界史の情報には限度があり、かつ高校3年生に出題してよい世界史の知識レベルや事実の数にも限度があるからです。従って、例をあげると「732年、フランク王国の軍はトゥールとポアティエの間で侵攻してきたウマイヤ朝のイスラム軍を破りました。この戦いの結果がその後の西ヨーロッパに与えた影響を、政治と経済の観点から200字以内で述べなさい」というような論述問題は得意なはずです(全く仮想の問題です)。
しかし統計手法には限界があるというのが新井教授の主旨です。英語の単文の「穴埋め問題」や「語順を正しくする問題」を、ビッグデータをもとに90%以上の正解率で解くため、東ロボくんは500億の単文を収集したわけです。インターネットの発達があったからこそ出来たことでしょう。例文(単文)をネットから自動収集できる。しかし、この手法を会話文を完成させる問題には適用できません。適用するには500億の "複文の会話サンプル" が必要であり、その収集は現実的に不可能だからです。実現のためには全く違うアプローチのAI技術を開発する必要があるが、その技術開発のコストは、それがもたらす成果に全く見合わないと考えられます。新井教授の結論は次のとおりです。
東ロボくんの意義
新井教授の解説を読んで、AIのプロジェクトに大学入試の模試を選んだ理由がわかりました。試験問題は基本的に一度きりなのですね。全く同じ問題は出ない。もちろん科目によっては過去問に類似しているケースもあるでしょう。しかし問題作成者は、まず自分の知識に照らして過去にないはずの問題を複数個作成し、次に手分けして本当に過去に出題されていないのかを徹底的に検証すると思います。特定の受験生に有利にならないようにするためです。この検証でOKとなった問題だけが出題される。一度きりの問題が出るテストが、毎年決まった時期に行われ、成績の履歴がトレースできるのは大学入試の模試しかない。だから東ロボくんなのです。
ちょっと話を広げますと、我々は人生やビジネスにおいてさまざまな "問題" に答えを出し、意志決定する必要が出てきます。もちろん同じ(ないしは類似の)問題も多いのですが、中には1回きりという場合もあります。類似の問題であっても、シチュエーションが違うという意味で初めての問題もある。そして大事なことは、人生においてもビジネスおいても、重要な問題ほど1回きりの問題なのです。経験のない状況で答えを見つける必要がある。それが人生であり、社会です。
東ロボくんの模試で分かったことは、東ロボくんの目的である「AIの可能性と限界を明らかにする」ということの意義です。
AIについては "アバウトな" 言説が充満しています。2030年には人間の頭脳を越えるとか、人間を越えることは絶対に無理だとか、いろいろあります。しかしそれらはどれも実証的データにもとづく推定ではありません。No.175「半沢直樹は機械化できる」で紹介したオックスフォード大学の「雇用の未来」も、あくまでAI専門家の「AIに置き換えられる仕事、置き換えられない仕事」という "意見" の集約です。それらに反して東ロボくんは、数年をかけて、入試問題という範囲ではあるが、実際にAIのプログラムを開発し、その可能性と限界を明白な成績とともに検討してきたわけです。
その可能性と限界ですが、一般的にはAIの可能性(威力)について目にする事が多いと思います。このブログでも、
などがそうでした。従来ありえなかった推論をコンピュータがやってしまう。これらの特徴は、いずれもビックデータの解析をもとにした推論だということです。碁の世界チャンピオンに勝ったアルファ碁も、アマチュア高段者が打った16万局の囲碁データを出発点にしています。これらの例だけでなく、現代のAI研究の主流はビックデータの解析による推論です。
一方で我々はAIの限界の具体例を目にすることは少ないというか、ほとんど無いといってもいいでしょう。しかし東ロボくんは、数年かけて丹念に、AIの可能性とともに限界をも明らかにしてきました。
新井教授が日経産業新聞への寄稿で、英語の文章完成問題における単文と複文の大きな溝を述べていました。単文のビッグデータは何とか得られるが、複文では実質上無理である。論理上可能であってもコストの視点で無理という話でした。ビックデータが得られないか、実用上リーズナブルなコストで得られる見込みのない問題は、現代主流のAI技術では無力なのです。こういった実証的研究の大切さを示したこと、それが東ロボくんというプロジェクトの意義でしょう。
意味を理解すること
AIに使われているのは、コンピュータ・サイエンスを含む、広い意味での数学です。東ロボくんのプロジェクト・リーダである新井教授も数学者です。
数学を割り切って分類すると「論理」と「統計」の二つでしょう。「統計」と「統計以外のすべて」と言った方がいいかも知れません。ビックデータをもとにした推論は統計のジャンルであり、現代の主流の(華々しい成果を出している)AIは統計に偏っています。
一方、人間の行動はそれだけではありません。論理の部分も重要視します。問題の意味を理解し、原則はこうだからとか、そもそもの目的はこうだからとか、こういう理由だからこうするとか、意図を込めて意志決定したり、行動したりします。新井教授は中高校生向けの講演のとき、最後は次のように締めくくるそうです。
この最後の「みなさん」から始まる一行を確信をもって中高生に言える。これが『ロボットは東大に入れるか』の大きな成果だと思いました。
3つの余談
プロジェクトの目的とは無関係ですが、東ロボくんで分かったことは、「MARCH・関関同立」に入学する学力と東大に入る学力には大きな差があり、その差は連続的変化ではなく不連続な落差だということです。なぜなら、東ロボくんが東京大学に入学できる日は、現在のAI技術だと永遠に来ないのだから・・・・・・。AIと人間の学力を同じ土俵で比較はできない思いつつも、「80%の確率で合格」と「永遠に合格できない」との差は決定的だと思いました。そこで思ったのは、東大と「MARCH・関関同立」の間にある大学です。おそらく京大は「落差の東大側」でしょう。では、たとえば早稲田と慶応はどうか。落差のMARCH側なのか東大側なのか。もちろん学部によるでしょうが、ちょっと気になりました。
2つ目の余談は、今回の成果発表会に、デンソーが開発した "解答代筆ロボット" である「東ロボ手くん」が登場したことです。ボールペンで筆記ができるロボットアームです。No.176 「将棋電王戦が暗示するロボット産業の未来」に書いたように、デンソーは将棋電王戦のために「電王手さん」という "代指しロボット" を開発しています。そしてこのロボットは「人間の手と指の微妙な動きを完全に模擬できるロボットを開発するという、デンソーの大きな企業目標の一つとして位置づけられているのかも」と書きました。今回の「東ロボ手くん」もその一環でしょう。ここまで来たら、次には囲碁電王戦のために "代打ちロボット" を是非開発してもらいたい。碁石は丸みがあるので難しそうですが、デンソーの技術力をもってすれば可能でしょう。日本の "3大AIチャレンジ"(東ロボくん、将棋電王戦、囲碁電王戦)のすべてに参戦してこそ、デンソーのロボット技術の優秀性が証明されるはずです。特に囲碁は欧米、中国、韓国に広まっているので、"代打ちロボット" が活躍できる場はグローバルです。デンソーはあとには引けないはずです。
3つ目の余談です。日経産業新聞への寄稿文で新井教授は「東ロボくん」を「東ロボ」と "呼び捨て" にしています。これはおそらく「自分の身内は呼び捨てにする」という、日本語の慣習に忠実に書いているのでしょう。これでちょっと思い出しました。私は新井教授の講演を一回だけ聞いたことがあるのですが、彼女は講演に熱が入ってくると「東ロボ」とも言わずに「うちの子」と、母親的雰囲気の言い方になってしまうのですね。「呼び捨て」なり「うちの子」なり、新井教授がプロジェクトに賭けた意気込みを感じました。
本文中に東ロボくんが挑戦した英語のリスニングの問題が出てきます。その問題が新井教授の著書「ロボットは東大に入れるか」(イースト・プレス。2014)にあります。それを紹介します。
このリスニングでは、父親の誕生日ために息子が母親とバースデー・ケーキを手作りする場面が英語で流されます。デコレーション・ケーキにブルーベリーを飾るやり方について息子が母に尋ね、母が答えます「クリームとクリームの間にブルーベリーをひとつずつ置いてちょうだい」。
この英語の会話のリスニングは、東ロボくんは完璧でした。東ロボくんは英語のリスニングが得意なのです。音声認識の最先端の研究は、たとえば新宿駅の雑踏でスマホでしゃべった音声の中から本人のものだけを聞き分けたり、またオーケストラの中からヴィオラの音だけを取り出すといったものです。雑音や余計な音が全くないセンター入試など、東ロボくんにとっては朝飯前なのです。
しかし設問は「できあがったケーキはどれか、4つのイラストから選びなさい」というものでした。これが東ロボくんは全くできなかった。
言うまでもなく正解は ② なのですが、考えてみると不思議なイラストです。「ブルーベリーがのったデコレーション・ケーキ」など、受験生は言うに及ばす、ほどんどの日本人は見たことがないはずです。ブルーベリーがどういうものか知っている受験生は多いとは思いますが、食べた記憶がある人は少数ではないでしょうか。そのブルーベリーは直径が1cm程度ですが、そうするとこのイラストのケーキの直径は12cm程度になります。デコレーション・ケーキとしては小さすぎる。父親の誕生日のためとしては不思議な大きさです。
しかしそんなことは人間の受験生にとっては関係ないのです。極端にはブルーベリーとクリームの意味を知らなくてもよい。「ケーキ」が分かりさえすれば、ケーキの上に2種類のモノが交互に並んでいるイラストを答えればよいのです。要するに、英語のリスニングができたとしたら人間の受験生はまず間違いなく正解する問題です。
しかし東ロボくにとっては難しいというより、無理です。「ロボットは東大に入れるか」の本には、国立情報学研究所の画像認識の専門家の「絶対に無理だね」との発言がありました。画像認識の主流はたくさんの教師画像を集めてコンピュータに学習させるというものですが、そもそもブルーベリーがのったケーキなど人間も見たことがないのです。さらに、画像認識で研究が進んでいるのは「写真画像の認識」です。イラストは人間が恣意的に描くものであり、同じモノを描いたとしてもバラツキが大きすぎます。写真画像の認識より圧倒的に難しい。ということは、東ロボくんが漫画を読むのはまず出来ないことにもなります。
まるで東ロボくんの弱点を知っている人が作ったかのような問題ですが、もちろん、センター試験の英語のリスニングにケーキを作る場面が出るのはこれ1回きりです。そして類似の問題は無限に考えられる。つまり、イラストを選ぶ形で出される英語のリスニングの問題は、東ロボくんは今後とも正解出来ないことになるのです。
◆ | プロジェクトの存在感を出すために、是非とも "東大" にしたかったのだろう(本来なら "ロボットは大学に入れるか" でいいはず)。 | ||
◆ | 新井教授は「ロボットは東大に入れない」と思っているのではないか。その証拠にプロジェクト名称が疑問形になっている。 |
の2点です。
「ロボットは東大に入れるか」プロジェクトは2011年に開始され、2013年からは模擬試験を受験しています。2016年11月14日、今年の成果発表会が開催されました。以下はその内容です。
国立情報学研究所ニュース(NII Today)No.60(2013.6)。特集「ロボットは東大に入れるか」の表紙
|
東大は無理、MARCH・関関同立は合格可能
まず、新井教授が朝日新聞デジタルに寄稿した文章から引用します。
|
この合格可能性判定は、ベネッセコーポレーションの「進研模試」(大学入試センター試験模試)で行われました。東ロボくんの5教科8科目の成績は525点であり(950点満点。全国平均:437.8)、偏差値は57.1でした。
やはり東大合格は無理、今のAI技術では、というのが新井教授の所感です。しかし「MARCH・関関同立」なら合格可能性80%以上というのは、それはそれですごいことではないでしょうか。ちなみに、全国の大学を対象とした東ロボくんの合格可能性は以下の通りでした。
調査対象 | 合格可能性80%以上 | |||||
大学 | 学部 | 学科 | 大学 | 学部 | 学科 | |
国公立 | 172 | 576 | 2096 | 23 | 30 | 53 |
私立 | 584 | 1753 | 4309 | 512 | 1343 | 2993 |
計 | 756 | 2329 | 6405 | 535 | 1373 | 3046 |
(site : pc.watch.impress.co.jp より)
どの大学のどの学部が合格可能なのか、個別の発表はありませんでしたが、「MARCH・関関同立」については学部・学科の平均として、ないしは一部の学部・学科が80%ラインに入っているということでしょう。また国公立大学でも、23大学の30学部・53学科で合格可能性80%以上と判定されていることも注目すべきです。この結果で、プロジェクトの当初目標が達成されたと新井教授は言います。
|
「東ロボくん」2016年成果報告会のポスター
|
従って東ロボくんが東大や「MARCH・関関同立」に入れる・入れないということより、科目に得手・不得手があって、そこが明らかになったことにこそ、「東ロボくん」というプロジェクトの意義がありそうです。その、科目別成績は次のようです。
東ロボくんの科目別成績
大学入試センター模試の成績
ベネッセコーポレーション「進研模試」
ベネッセコーポレーション「進研模試」
(カッコ内は昨年の成績)
得点 | 全国平均 | 偏差値 | |
英語(筆記) | 95(80) | 92.9 | 50.5(48.4) |
英語(リスニング) | 14(16) | 26.3 | 36.2(40.5) |
国語(現代文+古文) | 96(90) | 96.8 | 49.7(45.1) |
数学 I A | 70(75) | 54.4 | 57.8(64.0) |
数学Ⅱ B | 59(77) | 46.5 | 55.5(65.8) |
世界史 B | 77(76) | 44.8 | 66.3(66.5) |
日本史 B | 52(55) | 47.3 | 52.9(54.8) |
物理 | 62(42) | 45.8 | 59.0(46.5) |
合計(950点満点) | 525(511) | 437.8 | 57.1(57.8) |
朝日新聞(2016.11.15)
昨年と比較すると、科目合計の偏差値で 0.7 ポイント下がっていますが、全体的には昨年同様の成績と言えるでしょう。上がった科目もあり、下がったものもあります。
得意科目をみると、世界史の66.3という偏差値が光っています。世界史は、教科書やインターネットなどから歴史記述や文献を大量に集め、それをもとに回答するという「従来からの得意分野」のようです。不得意科目は、英語、特にリスニングです。なぜ不得意かについては新井教授の解説があるので、それをあとで紹介します。
とにかく、東大に合格するためには最低でも100点満点で80点以上は必須ということなので、東ロボくんは "東大合格にはほど遠い" ということが分かります。
また東ロボくんは、東大の2次試験模試も受験しました。その成績が次です。
東大2次試験向け模試
代々木ゼミナール・論述式
代々木ゼミナール・論述式
得点 | 全国平均 | 偏差値 | |
世界史 | 16 | 14.5 | 51.8 |
数学(文系) | 46 | 19.9 | 68.1 |
数学(理系) | 80 | 30.8 | 76.2 |
朝日新聞(2016.11.15)
センター模試とは違って世界史が全国平均をわずかに上回る程度の成績です。これは「問題の趣旨を理解できなかったり、時代や地域を取り違えたりして取りこぼした」そうです(毎日新聞デジタル。2016.11.14による)。
一方、数学(理系)は偏差値76.2という立派な成績、というより凄い成績です。この数学の数字だけをみると、全国で最難関の東大理Ⅲに合格できそうです。東大理Ⅲに合格する人の数学の偏差値は70代後半から80越えのあたりだと言います。しかも東大理Ⅲの受験生で差が付くのは数学です。そこをAIは突破した。
しかし、理Ⅲを含め東大は "一芸" で入れるような大学ではありません。そこが難しいところです。数学だけでは東大理Ⅲクラスだが、受験科目全体ではMARCH・関関同立レベルであるところが、AIという技術を象徴していると思います。
センター模試に成績にもどりますと、全体的に昨年と似た成績であり、1年間の "猛勉強" の成果は(試験結果で見る限りでは)あまりなかったと言えるでしょう。この結果を踏まえて新井教授は以下のように語っています。
|
要は、東大は断念ということです。しかし新井教授の話にあるように、東ロボくんの目的は「AIの可能性と限界」を明らかにすることでした。AIの可能性というのは「AIの威力」と言ってもいいと思います。全く問題文の「意味」を把握していない東ロボくんが、MARCH・関関同立に合格できる。このAI技術の威力はすごいと思います。逆にいうと、問題文の意味を把握している(はずの)受験生がMARCH・関関同立に合格するのはどういう意義があるのだろう、と考えてしまうわけです。要するにMARCH・関関同立の受験問題を解くというレベルにとどまっている限り、人間の(その部分の)能力はAIに代替されるだろうということです。これはひとつの警鐘です。
それでは逆に、東ロボくんで見えた「AIの限界」とはどういうことでしょうか。ここが核心です。
AIの限界
東ロボくんで見えてきた「AIの限界」について、新井教授は日経産業新聞に大変分かりやすい解説を寄稿していました。それを紹介したいと思います。
|
「東ロボくん」2016年成果報告会で、新井紀子教授(2016.11.14 一橋講堂)
(www.itmedia.co.jp)
|
アマゾン・ドッド・コムは、もともと書籍の販売から始まりました。街の書店だと、1年に数冊しか売れない本を置くのはビジネスの効率を下げるので限界があります。しかし地価の安いところに巨大な物流倉庫を作り、本を在庫してネットで販売すれば、ほとんど売れない本でも利益が出る。アマゾンが創造したビジネスモデルです。結果として「あまり売れない多数の本 = ロングテール」に光が当たるわけで、本に関して言えばこれが本来の文化のありかたでしょう。ちなみに、iTunes Music Store ではすべての曲が一度はダウンロードされたという話を以前に聞いたことがありますが、同類の現象です。この "ロングテール" が入試問題とどういう関係があるのでしょうか。
|
半数以上の問題は分類できない問題であると分析されています。分類できないとは、同一傾向の問題が他にないか、あったとしてもわずかなので、分類を始めるとキリがないということでしょう。つまり半数以上の入試問題はロングテールを構成しているわけです。
|
この説明でロングテールの意味が明確になるとともに、東ロボくんがなぜリスニングが不得意か(他の教科と比べて)が理解できます。リスニングの問題というのは、実は「リスニングもある常識推論の問題」なのですね。だから、毎年新しい "ジャンル" の問題が作れる。高校3年生の常識の範囲に限っても、ほとんど無尽蔵に新しいジャンルの問題を出せるわけです。デコレーションケーキの作り方、ダンスパーティーへの誘い方、ハンバーガー店での注文の仕方の3つには何の関連性もないのだから・・・・・・。リスニングの問題というのは問題の本質を分析すると、リスニングというジャンルでは括れない、一つ一つがそれぞれ違う "ロングテールの典型" ということです。そして東ロボくんはロングテールに弱い。
|
ちなみに、会話文(複文)の完成問題は、たとえば次のようなものです(これは今まで引用してきた日経産業新聞に新井教授が寄稿した記事ではありません)。
|
これが単なる英文解釈でないことは明らかでしょう。それぞれの発話の意図を理解し、会話として自然な人間の感情の流れを答える問題です(正解は④)。
AIの限界の一つは「無尽蔵にある状況への対応」です。少なくとも現代のAI技術では、そこに限界がある。今のAI技術の主流を極く簡単に言うと「問題に関連するビッグデータを収集し、統計手法で答えを導く」というものだからです。
従って、たとえば世界史の論述問題は東ロボくんの得意分野になります(今回の東大模試では "取りこぼした" ようですが)。高校3年生がアクセスしうる世界史の情報には限度があり、かつ高校3年生に出題してよい世界史の知識レベルや事実の数にも限度があるからです。従って、例をあげると「732年、フランク王国の軍はトゥールとポアティエの間で侵攻してきたウマイヤ朝のイスラム軍を破りました。この戦いの結果がその後の西ヨーロッパに与えた影響を、政治と経済の観点から200字以内で述べなさい」というような論述問題は得意なはずです(全く仮想の問題です)。
しかし統計手法には限界があるというのが新井教授の主旨です。英語の単文の「穴埋め問題」や「語順を正しくする問題」を、ビッグデータをもとに90%以上の正解率で解くため、東ロボくんは500億の単文を収集したわけです。インターネットの発達があったからこそ出来たことでしょう。例文(単文)をネットから自動収集できる。しかし、この手法を会話文を完成させる問題には適用できません。適用するには500億の "複文の会話サンプル" が必要であり、その収集は現実的に不可能だからです。実現のためには全く違うアプローチのAI技術を開発する必要があるが、その技術開発のコストは、それがもたらす成果に全く見合わないと考えられます。新井教授の結論は次のとおりです。
|
東ロボくんの意義
新井教授の解説を読んで、AIのプロジェクトに大学入試の模試を選んだ理由がわかりました。試験問題は基本的に一度きりなのですね。全く同じ問題は出ない。もちろん科目によっては過去問に類似しているケースもあるでしょう。しかし問題作成者は、まず自分の知識に照らして過去にないはずの問題を複数個作成し、次に手分けして本当に過去に出題されていないのかを徹底的に検証すると思います。特定の受験生に有利にならないようにするためです。この検証でOKとなった問題だけが出題される。一度きりの問題が出るテストが、毎年決まった時期に行われ、成績の履歴がトレースできるのは大学入試の模試しかない。だから東ロボくんなのです。
ちょっと話を広げますと、我々は人生やビジネスにおいてさまざまな "問題" に答えを出し、意志決定する必要が出てきます。もちろん同じ(ないしは類似の)問題も多いのですが、中には1回きりという場合もあります。類似の問題であっても、シチュエーションが違うという意味で初めての問題もある。そして大事なことは、人生においてもビジネスおいても、重要な問題ほど1回きりの問題なのです。経験のない状況で答えを見つける必要がある。それが人生であり、社会です。
東ロボくんの模試で分かったことは、東ロボくんの目的である「AIの可能性と限界を明らかにする」ということの意義です。
AIについては "アバウトな" 言説が充満しています。2030年には人間の頭脳を越えるとか、人間を越えることは絶対に無理だとか、いろいろあります。しかしそれらはどれも実証的データにもとづく推定ではありません。No.175「半沢直樹は機械化できる」で紹介したオックスフォード大学の「雇用の未来」も、あくまでAI専門家の「AIに置き換えられる仕事、置き換えられない仕事」という "意見" の集約です。それらに反して東ロボくんは、数年をかけて、入試問題という範囲ではあるが、実際にAIのプログラムを開発し、その可能性と限界を明白な成績とともに検討してきたわけです。
その可能性と限界ですが、一般的にはAIの可能性(威力)について目にする事が多いと思います。このブログでも、
データの見えざる手(2) | |||
インフルエンザの流行はGoogleが予測する | |||
アルファ碁の着手決定ロジック(1) | |||
アルファ碁の着手決定ロジック(2) |
などがそうでした。従来ありえなかった推論をコンピュータがやってしまう。これらの特徴は、いずれもビックデータの解析をもとにした推論だということです。碁の世界チャンピオンに勝ったアルファ碁も、アマチュア高段者が打った16万局の囲碁データを出発点にしています。これらの例だけでなく、現代のAI研究の主流はビックデータの解析による推論です。
一方で我々はAIの限界の具体例を目にすることは少ないというか、ほとんど無いといってもいいでしょう。しかし東ロボくんは、数年かけて丹念に、AIの可能性とともに限界をも明らかにしてきました。
新井教授が日経産業新聞への寄稿で、英語の文章完成問題における単文と複文の大きな溝を述べていました。単文のビッグデータは何とか得られるが、複文では実質上無理である。論理上可能であってもコストの視点で無理という話でした。ビックデータが得られないか、実用上リーズナブルなコストで得られる見込みのない問題は、現代主流のAI技術では無力なのです。こういった実証的研究の大切さを示したこと、それが東ロボくんというプロジェクトの意義でしょう。
意味を理解すること
AIに使われているのは、コンピュータ・サイエンスを含む、広い意味での数学です。東ロボくんのプロジェクト・リーダである新井教授も数学者です。
数学を割り切って分類すると「論理」と「統計」の二つでしょう。「統計」と「統計以外のすべて」と言った方がいいかも知れません。ビックデータをもとにした推論は統計のジャンルであり、現代の主流の(華々しい成果を出している)AIは統計に偏っています。
一方、人間の行動はそれだけではありません。論理の部分も重要視します。問題の意味を理解し、原則はこうだからとか、そもそもの目的はこうだからとか、こういう理由だからこうするとか、意図を込めて意志決定したり、行動したりします。新井教授は中高校生向けの講演のとき、最後は次のように締めくくるそうです。
|
この最後の「みなさん」から始まる一行を確信をもって中高生に言える。これが『ロボットは東大に入れるか』の大きな成果だと思いました。
3つの余談
プロジェクトの目的とは無関係ですが、東ロボくんで分かったことは、「MARCH・関関同立」に入学する学力と東大に入る学力には大きな差があり、その差は連続的変化ではなく不連続な落差だということです。なぜなら、東ロボくんが東京大学に入学できる日は、現在のAI技術だと永遠に来ないのだから・・・・・・。AIと人間の学力を同じ土俵で比較はできない思いつつも、「80%の確率で合格」と「永遠に合格できない」との差は決定的だと思いました。そこで思ったのは、東大と「MARCH・関関同立」の間にある大学です。おそらく京大は「落差の東大側」でしょう。では、たとえば早稲田と慶応はどうか。落差のMARCH側なのか東大側なのか。もちろん学部によるでしょうが、ちょっと気になりました。
デンソーが開発した、解答代筆ロボットアーム「東ロボ手くん」
(www.itmedia.co.jp)
|
3つ目の余談です。日経産業新聞への寄稿文で新井教授は「東ロボくん」を「東ロボ」と "呼び捨て" にしています。これはおそらく「自分の身内は呼び捨てにする」という、日本語の慣習に忠実に書いているのでしょう。これでちょっと思い出しました。私は新井教授の講演を一回だけ聞いたことがあるのですが、彼女は講演に熱が入ってくると「東ロボ」とも言わずに「うちの子」と、母親的雰囲気の言い方になってしまうのですね。「呼び捨て」なり「うちの子」なり、新井教授がプロジェクトに賭けた意気込みを感じました。
 補記  |
本文中に東ロボくんが挑戦した英語のリスニングの問題が出てきます。その問題が新井教授の著書「ロボットは東大に入れるか」(イースト・プレス。2014)にあります。それを紹介します。
このリスニングでは、父親の誕生日ために息子が母親とバースデー・ケーキを手作りする場面が英語で流されます。デコレーション・ケーキにブルーベリーを飾るやり方について息子が母に尋ね、母が答えます「クリームとクリームの間にブルーベリーをひとつずつ置いてちょうだい」。
この英語の会話のリスニングは、東ロボくんは完璧でした。東ロボくんは英語のリスニングが得意なのです。音声認識の最先端の研究は、たとえば新宿駅の雑踏でスマホでしゃべった音声の中から本人のものだけを聞き分けたり、またオーケストラの中からヴィオラの音だけを取り出すといったものです。雑音や余計な音が全くないセンター入試など、東ロボくんにとっては朝飯前なのです。
しかし設問は「できあがったケーキはどれか、4つのイラストから選びなさい」というものでした。これが東ロボくんは全くできなかった。
新井紀子「ロボットは東大に入れるか」
(イースト・プレス。2014)より
(イースト・プレス。2014)より
言うまでもなく正解は ② なのですが、考えてみると不思議なイラストです。「ブルーベリーがのったデコレーション・ケーキ」など、受験生は言うに及ばす、ほどんどの日本人は見たことがないはずです。ブルーベリーがどういうものか知っている受験生は多いとは思いますが、食べた記憶がある人は少数ではないでしょうか。そのブルーベリーは直径が1cm程度ですが、そうするとこのイラストのケーキの直径は12cm程度になります。デコレーション・ケーキとしては小さすぎる。父親の誕生日のためとしては不思議な大きさです。
しかしそんなことは人間の受験生にとっては関係ないのです。極端にはブルーベリーとクリームの意味を知らなくてもよい。「ケーキ」が分かりさえすれば、ケーキの上に2種類のモノが交互に並んでいるイラストを答えればよいのです。要するに、英語のリスニングができたとしたら人間の受験生はまず間違いなく正解する問題です。
しかし東ロボくにとっては難しいというより、無理です。「ロボットは東大に入れるか」の本には、国立情報学研究所の画像認識の専門家の「絶対に無理だね」との発言がありました。画像認識の主流はたくさんの教師画像を集めてコンピュータに学習させるというものですが、そもそもブルーベリーがのったケーキなど人間も見たことがないのです。さらに、画像認識で研究が進んでいるのは「写真画像の認識」です。イラストは人間が恣意的に描くものであり、同じモノを描いたとしてもバラツキが大きすぎます。写真画像の認識より圧倒的に難しい。ということは、東ロボくんが漫画を読むのはまず出来ないことにもなります。
まるで東ロボくんの弱点を知っている人が作ったかのような問題ですが、もちろん、センター試験の英語のリスニングにケーキを作る場面が出るのはこれ1回きりです。そして類似の問題は無限に考えられる。つまり、イラストを選ぶ形で出される英語のリスニングの問題は、東ロボくんは今後とも正解出来ないことになるのです。
2017-01-14 11:13
nice!(1)
トラックバック(0)