クラバートの樹：SSブログ

	ブログをはじめるログイン

2019年12月｜ 2020年01月｜2020年02月ブログトップ

No.277 - 視覚心理学と絵画　 [アート]

No.243「視覚心理学が明かす名画の秘密」と No.256「絵画の中の光と影」で、九州大学名誉教授の三浦佳世氏が書かれた「視覚心理学が明かす名画の秘密」（岩波書店 2018）と「絵画の中の光と影　十選」（日本経済新聞。2019年3月。10回連載のエッセイ）の "さわり" を紹介しました。今回はその「視覚心理学と絵画」というテーマの補足です。

2013年にアメリカの「Scientific American誌特別版」として発行された、

「	Scientific American Mind 187 Illusions」
	マルティネス = コンデ（Susana Martinez-Conde）、マクニック（Stephen Macknik）著

という本があります。著者の２人はアメリカのバロー神経学研究所に所属する神経科学者で、本の日本語訳は、

「	脳が生み出すイルージョン ── 神経科学が解き明かす錯視の世界」（別冊日経サイエンス 198）

です（以下「本書」と記述）。本書は20のトピックごとの章に分かれていて、その中に合計187の錯視・錯覚・イルージョンが紹介されています。ここから絵画に関係したものの一部を紹介したいと思います。

なおタイトルに「視覚心理学」と書きましたが、もっと一般的には「知覚心理学」です。さらに医学・生理学からのアプローチでは「神経生理学」であり、広くは「神経科学」でしょう。どの用語でもいいと思うのですが、三浦佳世氏の著書からの継続で「視覚心理学」としました。

視覚は脳の情報処理

まず具体的な絵画に入る前に、人間の視覚の本質の話です。人間の視覚は「脳が行う情報処理の結果」だと言えるでしょう。本書にも、はじめの方に次のように書いてあります。

私たちが経験しているすべてが、実は自分の想像力が生み出した虚構である ── これは神経科学の事実だ。自分の感覚は正確で現実そのままだと感じられるものの、それらが外界の物理的実在を再現しているとは限らない。

脳はどのように現実感を生み出しているのか。それを理解するために神経科学者が使う最も重要な手段の一つが錯覚だ。画家も研究者も、昔から錯覚を利用して視覚系の奥深い働きに関する知見を得てきた。画家は科学者がニューロンの特性を研究するよりもずっと前に、平らなキャンバスが３次元であり絵筆で描かれたものが本物の静物であると脳を欺いて思い込ませる一連の技法を考案ずみだった。

マルティネス = コンデ、マクニック
「脳が生み出すイルージョン ── 神経科学が解き明かす錯視の世界」（別冊日経サイエンス198）

脳が生み出すイルージョン（別冊日経サイエンス198）

我々はどうしても「眼」と「カメラ」のアナロジーで考えてしまいます。水晶体がレンズの役割をにない、網膜がフィルム（ないしは半導体センサー）に相当していて、そこに像が結ばれ、その像がすなわち視覚だと･･････。

しかしそのあとがあります。脳は網膜の像をもとに様々な処理を加えて視覚という認識ができあがる。カメラの画像でも、デジタル画像であればアプリでさまざまな加工が可能です。たとえば顔を若く見せたり、小顔にしたり、肌を綺麗にしたりといったことができる。人間の「眼球」は確かに「カメラ」かもしれないが、「視覚」は「カメラ＋画像加工アプリ」に相当するのです。

その、脳が網膜の画像をどのように "加工して" 視覚を生み出すのか、その結果が現実の物理的実体とずれているのが錯視です。以下に絵画に関係した錯視を２つあげます。

脳が生み出す輝度と色

エーデルソン錯視

まず、No.243「視覚心理学が明かす名画の秘密」でも取りあげた "エーデルソン錯視" です。この錯視において A のマス目と B のマス目は違った明るさ（＝輝度）に見えますが、実は全く同じ明るさです。２つのマス目の間に無理矢理ブリッジを作ると、同じ明るさであることがわかります。

エーデルソン錯視

マサチューセッツ工科大学の視覚研究者、エーデルソン（Edward H. Adelson）が作成した錯視。A と B は同じ輝度であるが、そうは絶対に見えない（上の図）。Wikipediaより。

なぜこの錯視が生まれるのでしょうか。まず、A は白っぽいマス目に囲まれていて、B は黒っぽいマス目に囲まれています。人間の脳は周囲が白いと対象をより黒く、周囲が黒いと対象をより白く認識するのです。

さらに大きな理由は B は「影の中にある」と認識できることです。人間の脳は、影の中にあるものについては本来の輝度を復元しようとして輝度を上乗せして認識するのです。

無理矢理ブリッジを作った図を見て同じ輝度だとわかったとしても、エーデルソン錯視を再び眺めると同じ輝度だとは絶対に感じられません。白と黒としか見えない。これは知識ではコントロールできない脳の視覚系の情報処理であり、極めて強固な情報処理だということがわかります。

ロット・パーベス錯視

エーデルソン錯視は物体の明るさ（輝度）に関するものですが、同様の錯視は色についても起こります。その例を次にあげます。名称にした「ロット・パーベス錯視」は一般的ではないし本書にも載っていませんが、発見者（錯視の作成者）の名前をとって便宜上そう呼ぶことにします。

ロット・パーベス錯視

ロンドン大学のロット（R. Beau Lotto）とデューク大学のパーベス（Dale Purves）が作成した錯視。矢印で示した２つのタイルは全く同じ色である。本書より。

この図において矢印を付けた、上面の茶色に見える正方形と側面のオレンジ色に見える正方形は、実は全く同じ色です。しかし人間の眼には、同系統の色には違いないが全く異なった色に見えます。これもエーデルソン錯視と同じで、周りの色の状況と影の中かそうでないかの違いで起こります。２つのタイルの間に無理矢理ブリッジを作ると同じ色であることが分かります。

ロット・パーベス錯視（説明）

２つのタイルの間に無理矢理ブリッジを作ると、同じ色であることが分かる。この図では同じ色だが、オリジナルのロット・パーベス錯視（上図）を再び見ると違った色に見える。

エーデルソン錯視とロット・パーベス錯視でわかることは、物体の輝度や色は周囲との関係によって知覚され、その場の状況や前後関係で変わって認識されるということです。それはちょうど、文章における単語の意味が文脈によって変わることに似ています。話言葉だと「話し方」によっても同じ単語の意味が変わる。

優秀な画家はこのような視覚における脳の働きを（意識的に、または無意識に）熟知していて、色の配置を決め、影の表現をしています。

脳が生み出す遠近感

脳は遠くにあるものと近くのものをどうやって認識しているのでしょうか。実際に眼で現実の風景を見る場合は両眼視ができるので、視差から距離の判別が可能です。では、２次元の絵画や写真の「奥行き」はどうやって感じるのか。

絵画で有名なのは遠近法（線遠近法）です。実世界で平行なもの（平行だと想定できるもの）が画面上で次第に狭まっていくと、狭まる方向が「遠い」「深い」と認識できます。

また、遠くのものは小さく、近くのものは大きく見えるという原理もあります。常識的に考えて同程度の大きさのものが２つあり、その大きさが違うと遠近感が出ます。さらに、遠くのものがぼやけて見え、近くのものがはっきり見えることで遠近感を感じることもあります。絵画では空気遠近法（大気遠近法）と呼ばれます。

もちろんそれ以前に、遠くの物体が近くの物体の陰になって見えないという「遮蔽」も、当然ですが遠近感を生み出します。

斜塔の錯視

以上のように脳はさまざまな方法で遠近感を知覚していますが、これらの中で、平行線による遠近法に関連してで起こる脳の錯覚が「斜塔の錯視」です。

ピサの斜塔

（本書より）

この画像はイタリアの有名な「ピサの斜塔」で、下から斜塔を見上げて撮影したものです。従って画像の上の方がより遠くにあると認識されます。斜塔の２つの側面は実世界では平行ですが、写真では遠くになるにつれて狭く見える。これはストレートな遠近法による奥行きの知覚です。

しかしこの写真を２枚左右に並べると、右の写真の斜塔がより右に傾いて見えます。明らかに錯視です。なぜそうなるのかと言うと、左右の斜塔が画面上で平行だからです。斜塔の右側の線も左側の線も、同一の写真なのだから２枚で平行なのはあたりまえです。一方で脳は、写真の上の方が遠くにあると認識している。ということは、遠くになるほど２つ斜塔は広がっていないと画面上で平行にならない。このため、右の斜塔が左の斜塔よりも右の方に傾いて見えるわけです。

斜塔の錯視

全く写真を２枚左右に並べると、右の写真の斜塔がより右に傾いて見える。本書より。

この錯視は「ピサの斜塔」の写真を用いて初めて発表されたので「斜塔の錯視」と呼ばれていますが、斜塔でなくても起こります。次の画像は線路の写真での例です。線路によって人間の眼は左上に向かって遠くになっていると強く認識します。そのため、左の写真の線路と右の写真の線路は斜めの角度が違って見えます。右の写真の線路の傾きがよりゆるく見える。

斜塔の錯視
（線路の写真での例）

２枚の写真の線路は同じ傾きであるが、そうだとは絶対に見えない。本書より。

この線路の写真は、地面上の２本の平行線が左右にありますが、平行線は上下にあっても斜塔の錯視が起こります。本書にはありませんが、次の図は No.112、No.123 に画像を掲載した古代ローマの水道橋、ポン・デュ・ガール（フランス）です。遠近感がはっきりした写真を上下に並べると、水道橋の傾きが違って見えます。

斜塔の錯視
（ポン・デュ・ガールの例）

斜塔の錯視は「遠近感がない」と認識できる絵や写真では起こりません。次の絵は本書に掲げられているものですが、２人の女の子は同一の角度で傾いています。

奥行き感がないイラスト画

女の子の「赤い服らしきもの」は左上に向かって狭まっているが、曲線が含まれていて平行線ではない。また、狭まった先にあるのは顔であり、これでは奥行きは感じない。従って２枚を並べても「斜塔の錯視」は起こらない。本書より。

斜塔の錯視でわかるのは、２次元平面（絵画、写真、イラストなど）の遠近感は、平行線による遠近法の効果が強烈であることです。実世界において平行と想定できる２つの線が次第に狭くなっていくと奥行きを強く感じる。もちろん画家は、これを最大限に活用して３次元空間を絵の中に閉じこめてきたわけです。それは消失点が１つの「１点透視」による遠近法でなくてもかまわない。No.243「視覚心理学が明かす名画の秘密」に "１点に収斂しない透視図法" の例として、フェルメール『牛乳を注ぐ女』とデ・キリコ『街の神秘と憂鬱』を引用しました。

以上、視覚は脳の情報処理であることを例とともにあげましたが、以降は本書に示されている「視覚と絵画」に関係したトピックを４つだけ紹介します。

輝度の秘密：モネ

下の画像はモネの『印象・日の出』（1872。パリのマルモッタン美術館蔵）です。ルアーブルの港の風景を描いたこの絵は、印象派の名前の由来になった絵で、誰もが知っている超有名絵画です。この絵画にはある秘密があります。

描かれているのはモネが窓から見たルアーブルの入り江だが、彼自身が後に述べているように、それは見たままの風景ではなく、タイトルにもあるように彼の "印象" だ。

実際、この作品は現実を正確には表していない。この絵の太陽は実物と同様に周囲の空よりもずっと明るく見えるが、それは錯覚だ。モネはこの太陽と空を、輝度（明るさ）は同じだが色合いの異なる絵の具を用いて表現している。

ハーバード大学の神経生物学者リビングストン（Margaret S. Livingstone）は、背景と同じ明るさで描かれているという輝度の同一性によって、この絵の太陽があたかも現れたり消えたりするように見え、生き物のような神秘性が生じているのだと提唱している。色合いを除いた白黒バージョン（下）を見ると、この太陽が背景の雲と物理的には同じ輝度であることがわかる。

「本書」

モネ「印象・日の出」

カラー画像とグレイスケール画像を対比させたもの。グレイスケール画像では太陽とその海面への反映が判別しづらくなる。本書より。

引用で「太陽があたかも現れたり消えたりするように見える」とあります。もちろん絵の全体を眺めているときは「現れたり消えたりする」ことはないでしょう。しかし、この絵の左下にあるモネのサインのあたりを中心視でじっと見つめると、周辺視している太陽が消えてしまうように感じないでしょうか。

一般的に言って「輝度が同じものは、やや判別しにくい」（本書）のです。この絵は「日の出」というタイトルどおり太陽がアクセントになっています。しかし "全体に漂うボーッとして混沌とした雰囲気" を作り出している一つの要因が「太陽と朝の空が同じ輝度」ということでしょう。

ピカソの色拡散

"色拡散" とは聞き慣れない言葉ですが、色が本来あるべき形をはみ出し、滲み出して、周りに拡散している状況を言っています。次のピカソの絵について、本書では次のように解説されています。

ピカソによるこの絵は、色を線の内側にきっちりととどめておく必要はないことを示している。たとえまばらな線で形がかろうじて描かれているだけでも、私たちの脳は正しい形にちゃんと色を割り当てる。

「本書」

パブロ・ピカソ（1881-1973）
「母と子」（1922）

（ボルチモア美術館）

この絵は「形」がいろいろと省略されていると同時に、子どもの足が典型ですが、形が単純化されています。しかし省略や単純化をしても、我々の視覚は本来あるべき線を補い、本来の形を想像して受け取ります。絵画ではよくあることです。

それに加えてこの絵の特徴は、形に付随しているはずの色が、形から滲み出し、はみ出し、あたりにボーッと広がっている（拡散している）ことです。こうなっても我々の視覚は全く違和感を感じません。解説にあるように、形にちゃんと色を割り当てて見ているのです。

これは水彩画によくある手法ですが、ピカソのこの絵は油絵です。油絵ではあるが、水彩のような淡い色調が使ってある。それが "色拡散" で違和感を感じない原因の一つになっているのでしょう。

しかしこの絵は単に「水彩の技法で描いた油絵」ではありません。"色拡散" で描くことによって「母が子を優しく包み込んでいる感じ」や「母と子が融合して一体化している感じ」がよく出ています。画家が表現したかった精神性と使った絵画手法が不可分にマッチしているところが、この作品の価値だと思います。

デュフィの色拡散

「本書」では色拡散の例としてピカソの作品があげてありますが、そもそも色拡散を多用して作品を作ったのはラウル・デュフィ（1877-1953）です。三浦佳世氏の「視覚心理学が明かす名画の秘密」（No.243）にその解説があるので、それを引用します。下線は原文にはありません。漢数字を算用数字にしたところと、ルビを追加したところがあります。

フランスの画家、ラウル・デュフィの絵は生きる喜びに満ち溢れている。明るい陽射し、青い空、爽やかな風、木々のざわめき、走り抜ける馬、建物の上を移動する光と影、人びとのおしゃべり、あるいは、流れる音楽。

彼の描くのびやかな情景は、見るものを爽やかにし、気持ちを幸せにする。

この印象をもたらす要因の一つが、形から解放された色彩だろう。彼の絵においては、しばしば色が輪郭からはみ出している。

きっかけはある体験だった。港にいた彼の前を赤い服を着た少女が走り去った。彼女が通り過ぎたあとも、彼の目には赤い残像が残った。以来、彼は対象が動くことで生まれる色彩の余韻を絵画に表現しようと思った。ただし、残像という表現は文学的ではあっても不正確だ。彼が経験したのは残像ではなく、視覚的持続（パーシステンス）である。視覚的持続というのは刺激が消失したあともしばらく続く知覚のことで、残像と違ってそのままの色が残る。

彼はまた、「私は形を見る前に、色を感じる」と述べている。「モンマルトルのサン・ピエール教会とサクレクール寺院」も、その順で描いたものではないか。まずおおよその場所に色を置き、それからすばやく輪郭を走らせたように思われる。絵を見る私たちも、まず色彩に注意が向き、それから形に気づくかもしれない。

三浦佳世
「視覚心理学が明かす名画の秘密」
（岩波書店 2018）

Raoul Dufy -LEglise Saint pierre de Montmarte et le Sacre-coeur.jpg

ラウル・デュフィ（1877-1953）
「モンマルトルのサン・ピエール教会とサクレクール寺院」

（個人蔵）

デュフィの絵の全部を「色拡散」という言葉でくくってしまうのは不適切なのかもしれません。"拡散" というと、形の中に閉じ込められていた色が周りに滲みだし、はみ出て広がっていくイメージです。ところが上の作品などは「色に形を添えた」絵に見えるわけです。

さらに三浦氏は脳神経科学の知見をもとに「形」と「色」と「動き」を認識する脳の不思議なメカニズムに言及しています。

脳での処理からすれば、このことはとても自然なことだ。目から入ってきた刺激は脳の入り口で方位をもった短い線に分解される。その後、色彩は脳の別の場所で処理され、動きも別の場所で処理される。分解された線は再び高次視覚野で形としてとらえられるが、そのときにはすでに、色や動きの処理は終わっている。脳はもともと、形を見る前に、色を感じ、動きを把握しているのだ。

不思議なことに、脳には色や形、動きの情報を統合する場所がないという。つまり、「色がついた形の動き」を直接見ている場所はないのである。20世紀初頭の心理学者アデマール・ゲルプは、脳に傷害を受けた患者に、色彩が輪郭からはみだして見える者がいたと報告している。たとえば、青いテーブルに手を置くと、手も青く染まって見えるのだそうだ。私たちにしても、形とは別の場所で処理された色が輪郭内にきちんと収まって見えているのは奇跡的なことのようにも思う。だが、それゆえ、デュフィの絵のように色が輪郭からはみ出していても、輪郭を満たしていなくても、色は輪郭内に収まって見えるのだろう。

デュフィの絵が快こころよいのは、私たちの脳の働きに沿っているからかも知れない。それとも、人は色であれ何であれ、型にはめられるのを好まないだろうか。

三浦佳世
「視覚心理学が明かす名画の秘密」

我々はデュフィやピカソの "色拡散" の絵を見ても違和感を全く感じないのですが、それは "意外にも" 脳の働き方とマッチしているからなのでしょう。

顔を認識する脳の働き

「本書」に戻ります。イタリア出身でウィーンで活躍したジュゼッペ・アルチンボルドは、果物、野菜、動植物などを寄せ集めた肖像画を描いたことで有名です。

イタリアの画家アルチンボルド（Giuseppe Arcimboldo, 1527～1593）によるこの静物画（左）は彼の好物であるミネストローネスープの材料を描いた作品だ。上下をひっくりかえすと（右）、一盛りの野菜は男の奇妙な顔となり、ボウルが山高帽となる。

この絵はいくつかの興味深い疑問を提起する。まず私たちはこれがら野菜の集まりにすぎないと知っているのに、なぜ顔を見て取るのだろうか？　それは私たちの脳が、わずかなデータに基づいて顔の造作と表情を検知し、認識し、見分けるようにできているからだ。この能力は他人と関係を結ぶのに必須であり、雑なつくりの仮面から自動車のフロントエンドまで、あらゆるものに私たちが人の顔を表情を認める理由でもある。

次の疑問は、なぜ絵をさかさまにしたときに顔がはっきり見えるのかだ。その答えは、顔の認識を素早くやすやすと処理している脳のメカニズムが、上下正しい顔を処理するように最適化されているため、さかさまだと認識がずっと難しくなるからだ。

「本書」

ジュゼッペ・アルチンボルド（1527～1593）
「庭師」

（クレモナ市立アラ・ポンツォーネ美術館）

この絵は「ボウルの野菜、あるいは庭師」と呼ばれることもある。クレモナの美術館では「野菜」の見え方で壁に展示し、その下に鏡を置いて「庭師」が分かるようにしてある。

人間の眼は顔の認識に特に敏感で、顔ではないものにも顔を見つけようとします。よく "人面魚" などの「動物の模様が顔に見える」のが話題になったりします。いわゆる "心霊写真" もそうだし、月や火星のクレーターの写真が顔に見えることもある。「私たちの脳が、わずかなデータに基づいて顔の造作と表情を検知し、認識し、見分けるようにできている」と引用にありますが、まさにその通りで、それこそが人間の社会生活にとって必須の能力だからでしょう。

モナリザの微笑みの秘密

レオナルド・ダ・ヴィンチ（1452-1519）
「モナ・リザ」（11503-1519頃）

（ルーブル美術館）

本書には "世界で一番有名な絵" である、ルーブル美術館の『モナ・リザ』についての解説もありました。モナ・リザの「謎の微笑」についての神経科学からの説明です。微笑んでいるのか、いないのか、そのはざまにあるような微妙な表情ですが、次のように解説してあります。

モナリザの魅惑的な微笑は、おそらく古今東西で最も有名な芸術の謎だ。ハーバード大学医学部の神経生物学者リビングストン（Margaret S. Livingstone）は、モナリザの微笑が現れたり消えたりして見えるのは、視野の中央と周辺の情報を知覚するのに脳が用いている処理が異なるためであることを示した。

モナリザの唇を直視すると、その微笑がとてもかすかであって、実質的にほとんど存在していないことに気づく。次に、口もとに注意を払いながら、彼女の目や髪を見てみよう。微笑は先ほどよりもはっきりと広がる。モナリザの顔を見つめる際の私たちの目の動きによって、微笑が浮かんだり消えたりするように知覚され、モナリザの微笑に命が生まれている。

視野の中心部と周辺部で知覚に及ぼす影響が異なるのは、視野中央部のニューロンが視野のごく狭い範囲について解像度の高い映像を見ているからだ。視野周辺部のニューロンはこれとは逆に、より広い範囲を見ているので解像度は低い。

「本書」

要約すると、

モナリザの口もとを中心視でみると微笑ほほえみは微かすかだが、周辺視で見ると明らかに微笑んでいるように見える

ということでしょう。本書には参考のために次の図が提示してあります。これは周辺視を疑似する目的でモナ・リザを画像処理でぼかしたものです。右が視野の周辺での見え方で、左が視野の端の方での見え方に相当します。視野の端に行くにつれて、我々はより微笑んでいるように感じている。これが「謎の微笑」を生み出しているという分析でした。

モナリザをぼかした画像

右の画像は視野の周辺で見たモナリザを模擬した画像。左の画像は視野の端で見たモナリザを模擬している。視野の周辺から端に行くにつれてモナリザはより微笑んでいるように見える。本書より。

モナリザが "世界で一番有名な絵" になった理由は、まさに「謎めいた表情」だと思います。その「謎」に人々は引き込まれる。この「謎」を作り出している絵画技法が、スフマートというのでしょうか、絵の具の薄い層を幾重ともなく塗り重ねて、全く境目がない色と輝度の変化を作り出したことでしょう。ダ・ヴィンチの天才が神経科学の面からも裏付けられたということだと思います。

2020-01-26 15:16 nice!(0)

No.276 - AIの "知能" は人間とは違う　 [科学]

いままで合計16回書いたAI（人工知能）についての記事の続きです。まず、No.196「東ロボにみるAIの可能性と限界」を振り返るところから始めます。No.196 で紹介した「ロボットは東大に入れるか」プロジェクト（略称：東ロボ）の結論は、

◆	東ロボくんは、"MARCH"、"関関同立" の特定学部に合格できるレベル
◆	ただし、東大合格は無理

というものでした（MARCH ＝明治、青山学院、立教、中央、法政。関関同立＝関西、関西かんせい学院、同志社、立命館）。つまりこのプロジェクトは「AIの可能性と限界を実証的に示したもの」と言えるでしょう。あくまで大学入試という限られた範囲です。しかし大学入試は10代後半の人間の知的活動の成果を試す重要な場であり、その結果で人生が左右されることもあるわけです。"人工知能" の実力を試すにはうってつけのテーマだったと思います。

では、なぜ東大合格は無理なのか。それは東ロボくんには得意科目もあるが、不得意科目があるからです。たとえば数学では、東大理科３類を受験する子なみの偏差値を出しました。しかし不得意もあって、その典型が英語のリスニング、「バースデーケーキの問題」でした（No.196 の「補記」参照）。この問題において東ロボくんは、英語を聞くことは完璧にできました（＝音声認識技術）。しかし質問が「できあがったケーキはどれか、４つのイラストから選びなさい」だったため、そこが全くできなかった。国立情報学研究所の方の「絶対に無理」とのコメントがありました。「今のAIの方法論では今後とも絶対に無理」の意味です。要するに No.196 の「バースデーケーキ問題は」、

①	英語のリスニング
②	イラストを見て答える常識推論

の複合問題であり、東ロボくんは ① が完璧、② が手も足も出ないという状況だったわけです。AIの可能性と限界を示す象徴的な例です。

そこで次の段階として、疑問が出てきます。

AIが人間と同等にできる、あるいは人間以上にできることについて、AIと人間の違いがあるのか、あるとしたらそれは何か

という疑問です。AIを "人工知能" と言うなら、その "知能" は "人間の知能" と似たようなものか、あるいは異質なものなのか･･････。

No.196 で東ロボ・プロジェクトのリーダの新井教授は「AIは意味を理解しない」と言っていました。人間が無意識にやっている「意味を理解する」とは非常に広範囲なことですが、たとえば、ある内容の記述を読んだり、発言を聞いたりしたときに、

・	何を言っているのかが理解できることを前提として
・	その記述や発言に至った理由や背景、意図、目的が理解できる。
・	内容の価値判断ができる。重要か、自分に関係あるか、一般的なことか、意義があるのか、本当のことか、正しいことか、応用できるか･････等々。

などでしょう。もっとあると思います。もちろんその全部ではないでしょうが、人は多かれ少なかれ、そういうことを暗黙に想定しつつ記述を読み、発言を聞き、コミュニケーションをしています。意味を理解することこそ人間の価値であり、逆に言うと「意味を理解しないで過ごしているばかりだと、いずれ AI に取って代わられる」という警告でした。

では、「AIは意味を理解しない」こと以外に、AIの "知能" が人間と違うところはあるのでしょうか。そのことについて、理化学研究所・上級研究員の瀧雅人氏が最近の雑誌に大変わかりやすい解説を書かれていましたので、是非、それを紹介したいと思います。「騙されるAI」（日経サイエンス 2020年1月号）という記事で、「騙す・騙される」という切り口から人間とAIの相違、人間にとってのAIの意味を明らかにしたものです。

以降の話は、AIに使われる各種の手法（ないしは数学モデル、アルゴリズム）のうち、ディープラーニングに話を絞ります。ディープラーニングは、2010年代の「AIブーム」の火付け役となったものです。まず、瀧雅人氏の解説を紹介する前に、ディープラーニングの概要を振り返ってみたいと思います。各種メディアで大量に流されている情報ですが、あとの瀧氏の解説に関係する部分を要約します。

なお、No.180「アルファ碁の着手決定ロジック（１）」で、英国・ディープマインド社の「アルファ碁」（2015年末当時）で使われているディープラーニングの内部構造（アーキテクチャ）を解説しました。これは、画像認識によく使われる「畳み込みニューラルネットワーク（Convolutional Neural Network。CNN）」と呼ばれるタイプのものです。ただし碁のゲーム用に特化したCNNです。

深層学習（ディープラーニング）の発展

AIに使われる手法は各種ありますが、現在のAIのブレークのきっかけになったのは深層学習（ディープラーニング）の実用化に成功したことでした。この技術革新をもたらしたのが、業界では "カナディアン・マフィア" と呼ばれるモントリオール大学教授のヨシュア・ベンジオ、トロント大学名誉教授のジェフリー・ヒントン、現フェイスブックのチーフAIサイエンティストのヤン・ルカンでした。彼らは "AIの冬の時代" にも地道に研究を重ね、ディープラーニングに関する数々の技術的困難を克服してきました。

【画像認識】　業界が衝撃を受けたのは2012年のILSVRC（Image-net Large-scale Visual Recognition Challenge）です。これは与えられた画像に何が写っているかを1000種の中から答えるというものです（＝一般物体認識）。このコンテストに参加したトロント大学のヒントン教授のチームは、ディープラーニングを使い、それまでの誤認識率を一挙に10ポイントも改善する 16% という値を達成しました。それまでは数年で1～2%の改善だったことを思うと、これは革新的です。その後も精度は急激に向上し、2015年あたりでは 5% 程度にまで低下しました。これは人間の画像認識能力の平均値を越えています。

【音声認識】　画像認識とともにディープラーニングの成果が最初に現れたのは音声認識です。これについては瀧雅人氏の解説を引用します。

ディープラーニングの初期の成果の一つは、人間の話し言葉を文字に変換する音声認識技術の革新的な進歩である。2011年、ヒントンの研究室に所属する大学院生が、夏休みにインターンとして滞在したマイクロソフトで、ディープラーニングを利用した音声認識手法を開発した。この手法は、大企業マイクロソフトの音声認識システムの性能を一気に向上させた。

2012年10月、中国・天津でマイクロソフトの研究統括責任者がスピーチを行ったが、その音声はリアルタイムでテキスト化されてスクリーン上に映し出され、音声認識のブレークスルーを象徴するデモンストレーションとなった。

瀧雅人「騙されるAI」
日経サイエンス（2020年1月号）

【自動翻訳】　ディープラーニングが発展したもう一つが自然言語処理（Natural Language Processing。NLP）の分野で、その典型的な例は自動翻訳です。自動翻訳にディープラーニングを取り入れたのはグーグル翻訳が最初ですが、その精度は年々向上し、多くの自動翻訳システムがディープラーニングを取り入れるようになりました。

【読解力】　その自動翻訳のための基礎技術の一つが読解力です。No.234「教科書が読めない子どもたち」で、国立情報学研究所の新井教授が主導した RST（Reading Skill Test）を紹介しましたが、RSTは読解力（基礎的読解力）判定するものです。RSTは基礎的読解力を「係り受け」「照応解決」「同義文判定」「推論」「イメージ同定」「具体例同定」にわけて測定するものですが、「推論」「イメージ同定」「具体例同定」の３つはまだまだAIにとって困難な問題です。しかし「係り受け」「照応解決」についてはAIが好成績をあげています。

読解力をテストするベンチマーク問題に SQuAD（Stanford Question and Answer Dataset）があります。これはスタンフォード大学が整備しているデータベースで、Wikipediaの例文をもとに、例文に関する質問と答（すべて英文のテキスト）が集積されています。RSTの基礎的読解力で言うと「係り受け」と「照応解決」に相当しますが、ある程度の「推論」が必要な問題もあるようです。

2018年1月、マイクロソフト・リサーチのディープラーニング・システムが、SQuADのベンチマークで（その当時の）人間の平均値（82.3点）を初めて上回りました。その後、2019年に至って90点に迫るディープラーニング・システムも出現しています。あくまで基礎的読解力の一部の範囲ですが、AIはそういう実力だということです。

以上の画像認識、音声認識、自動翻訳だけでなく、ディープラーニングは多くの分野で突出した成果をあげています。それは商用だけでなく、医療、創薬、新素材開発、天文学などの研究開発分野にも広がっています。

ディープラーニングは説明可能ではない

ディープラーニングで重要なことは、問題から正解を導く方法や筋道、アルゴリズムを人間が教えたのではないことです。あくまで「問題と正解のデータ」を大量に集め、それをディープラーニングを実装したコンピュータ・システムに学習させたものです。

ここから言えることは、ディープラーニングが答えを出したとしても、なぜそうなるのかの理由が説明できないということです。その例として、No.180「アルファ碁の着手決定ロジック」で取り上げた英国・ディープマインド社のアルファ碁（＝2015年末当時のアルファ碁）で言いますと、policy newtwork によって碁のエキスパートが次に打つだろう点の確率を計算し、A点が 0.6、その１路横のB点が 0.2 になったとき、なぜA点の方が有力かの説明をアルファ碁はしないわけです。人間ならたとえば「B点は相手の厚みに近寄り過ぎているので、ここは１路控えたA点が正解」というように理由を説明するわけです。さらには「敗勢なら一歩踏み込んだB点で勝負をかけるのもありだが、今は状勢が拮抗しているのでA点に打つべき」と付け加えるかも知れません。そういった「説明」がAIはできない。

これは、ディープラーニングはブラックボックスだから、というのではありません。アルファ碁のアーキテクチャは明確であり、そこでどういうパラメータが使われているのか、（アルファ碁の開発者なら）調べようと思えばいくらでも調べられるからです。しかしアルファ碁のパラメータは No.180 で試算したように約388万個もあります。それがどのように影響し合って答えを導くのか、膨大すぎて人間には理解しがたいのです。

要するにディープラーニングは「なぜだか明確には説明できないが、答は結構正確」なのです。もちろんそれで有益な場合があることは確かです。人間が思いつかないような（ないしは見落としているような）答を出し、それを人間が検証して有効活用できればよい。しかしこのままでは真に重要な決定をディープラーニングに任せてしまうことはできません。この点を克服するため、現在「説明可能なAI」が世界の研究者の間でのホットな研究テーマになっています。

ディープラーニングを騙す

日経サイエンス
（2020年1月号）

以上のことを踏まえて、瀧雅人氏の「騙されるAI」（日経サイエンス 2020年1月号）を見ていきたいと思います。ディープラーニングがブレイクするきっかけとなった画像認識（一般物体認識）の話です。

瀧氏の解説ではまず、一般物体認識を行うディープラーニングを "騙せる" ことが述べられています。意図的に作ったデータでディープラーニングを騙すことを「敵対的攻撃」と言い、騙されたデータを「敵対的事例」と言います。瀧氏はそれを、自ら中国で撮影したパンダの画像とオックスフォード大学が開発したディープラーニングでやってみました。

まず、元の画像をディープラーニングに入力すると「パンダである確率が99.997%」が出力されました。これは妥当な結果です。

次に、元の画像にディープラーニングを騙す目的で作った「敵対的ノイズ」を薄くかぶせると「81.576%の確率で雄羊」と判断されました（敵対的事例 ①）。

さらに、画像の一部に別の画像を張り付けても「89.445%の確率で雄羊」と判断しました（敵対的事例 ②）。

画像全体の色調を変化させるという敵対的攻撃もあります。この例では「51.0706%の確率でテディベア」と判断するようになりました（敵対的事例 ③）。

元の画像
AIの判定＝パンダ（99.997%）

（日経サイエンス 2020.1 より。以下同様）

敵対的ノイズ

敵対的事例 ① を作り出すためのノイズ。このノイズを薄く元の画像にかぶせる。

敵対的事例 ①
AIの判定＝雄羊（81.576%）

元の画像に上の敵対的ノイズを薄くかぶせた画像。人間の目では元の画像との違いが全くわからないが、AIは高い確率で雄羊と判定した。

敵対的事例 ②
AIの判定＝雄羊（89.445%）

画像の一部に、AIを騙す目的で作った別の画像を張り付けたもの。他の部分は元の画像と変わらないが、AIはこれも高い確率で雄羊と判定した。

敵対的事例 ③
AIの判定＝テディベア（51.0706%）

画像全体の色調を変化させたもの。人間の目にはパンダであることに変わりがないが、AIが最も確率的に高いとしたのはテディベアであった。

もし人間が「敵対的事例 ① ② ③」の画像を見たとしたら、たとえ保育園児であっても全員が口をそろえて「パンダ！！」と答えるに違いありません。ここから類推できることは、

ディープラーニングは人間のように "考えて" いるのではない

ということです。保育園児でも簡単に答えられることに間違ってしまうのだから･･････。

ディープラーニングは、いかにも人間がモノを認識しているように認識するように見えます。しかも人間より優れている面も多いわけです。たとえば自動車の運転を考えると、人間が 0.1 秒で障害物を認識できたとして、ディープラーニングが 0.01 秒だと、この差は事故回避行動の観点からクリティカルになるでしょう。さらにディープラーニングは疲れないし、意識レベルが下がることもないし、意識が一瞬飛ぶこともない。この技術を今後の社会に有効に活用しない手はないのです。

しかし、ディープラーニングはどうも人間が認識しているように認識しているのではなさそうです。このことが悪影響を及ぼさないのか、何らかの副作用につながらないのか。ディープラーニングは結構正確だが突如誤った答えを出さないのか。この点をよく研究しておく必要があるわけです。

騙す方法

どうすれば敵対的攻撃でディープラーニングを騙せるのでしょうか。瀧氏の解説では一般物体認識を例に「騙す方法」の簡単な例が書かれています。

今、画像のサイズを 100 × 100 ピクセル、合計 10,000 ピクセルの白黒画像だとします。各ピクセルは、たとえば 0（白）～255（黒）の256階調の値が指定されているわけです。ここにパンダの顔の画像があり、この画像はディープラーニングで 99.9% の確率で「パンダ」と判定されるとします。

この画像にノイズを加えます。このノイズは 100 × 100 ピクセルで、各ピクセルは +3 か -3 のどちらかです。このノイズを元の画像に足し合わせるわけです（もちろん 0～255 の範囲に収めるような補正が必要）。この程度のノイズを加えても人間の眼にとっては元の画像と全く区別がつきません。このノイズの中で「ディープラーニングがパンダとかけ離れた判定をするノイズ」を探索するというのが眼目です。

ノイズは10,000 の各ピクセルが +3 か -3 のどちらかの値をとります。従ってノイズのパターンは 2¹⁰⁰⁰⁰ 種類あり、これは3,000桁を越える超天文学的に巨大な数です。全部のパターンを調べるのは到底不可能です。しかし敵対的攻撃をするためには、全部のパターンを調べる必要は全くありません。瀧氏は次のように解説しています。

膨大な候補の中から最もズレの大きな１つを正確に探し当てることは事実上不可能であるし、その必要もない。ある程度の間違いを引き起こすノイズさえ見つけられれば、攻撃する側にとって実用上十分である。

FGSM（Fast Gradient Sign Method）と呼ばれる敵対的ノイズの作成アルゴリズムでは、出力が一番おかしな方向にずれていくようなノイズを、微分法を利用して近似的に計算する。入力の変化に対して出力の変化率が最大となるようなノイズのパターンを探索するのである。微分を計算する数学的なアルゴリズムはすでにあり、しらみつぶしにノイズを試すよりもはるかに高速に計算できる。

瀧雅人「騙されるAI」
日経サイエンス（2020年1月号）

つまり、数学的に言うと大変にシンプルなやり方で敵対的攻撃ができることになります。

しかし、FGSMは「出力が一番おかしな方向にずれていくようなノイズを、微分法を利用して近似的に計算」するものであり、このためにはディープラーニングの内部構造とパラメータを知らなければなりません。内部を知った上の攻撃という意味で、このような攻撃を「ホワイトボックス攻撃」と呼んでいます。

「ホワイトボックス攻撃」を防ぐためには、ディープラーニングの内部構造を隠してしまい、入力・出力のインターフェース仕様（API。Application Program Interface）だけを公開すればよいわけです。グーグルや日本のプリファード・ネットワークスが一般公開しているディープラーニングは APIの公開方式になっています。しかしこれでも騙せるのです。

ところが最近では、ディープラーニングの詳細が隠されていても敵対的事例の作成が可能なアルゴリズムも多数発見されている。「ブラックボックス攻撃」と呼ばれるこの種の攻撃は、APIを用いたサービスの信頼性を毀損するなど、より深刻な事態を引き起こしうる。2016年にはペンシルベニア州立大学の研究者らがアマゾンやグーグルなどがウェブサービスとして提供しているディープラーニングにAPIを通じてリモートで敵対的攻撃をしかけて成功させ、サイバー空間での敵対的攻撃のリスクを如実に示した。

「同上」

もちろん、攻撃をかわすための防御アルゴリズムも研究されています。たとえば敵対的事例も含めて予測できるように学習するという「敵対的学習」です。こうすることによって、あらかじめ学習させた敵対的事例については間違いが起こらなくなります。

しかし敵対的学習を行ったあとのディープラーニングに対して、新たな敵対的攻撃アルゴリズムを使ってノイズを生成することは可能であり、新たな敵対的事例ができることになります。新手の敵対的事例では再び間違いが起こる。

その他、数々の防御アルゴリズムが開発されていますが、それぞれに対する攻撃手法もまた開発されています。要するに「いたちごっこ」であり、現時点では完璧な防御策はありません。現在、世界の研究者がより幅広い攻撃を効果的に防ぐことができるアルゴリズムを探求しているところです。

騙される理由が分からない

なぜディープラーニングは騙されてしまうのでしょうか。これについて瀧氏は次のように書いています。

高性能なはずのディープラーニングが敵対的事例によってなぜ容易に騙されてしまうのか。その理由は、実は現在でもよくわかっていない。にもかかわらず、敵対的事例はコンピュータで簡単に作れてしまう。しかも作成のためのアルゴリズムは、今でも次々と新しいものが見つかっている。

動作メカニズムが理解されていないにもかかわらず敵対的事例が作れてしまう理由は、その作成方法にある。作成時にはディープラーニングの予測が何らかのおかしな方向に転んでいくことだけを要請して、あとの計算は計算機に任せる。したがって敵対的事例の動作プロセスの詳細を我々が一切指定しなくても、うまく機能する敵対的事例が作れてしまうのだ。

入力側を見ると、ほんの小さな敵対的ノイズによってピクセル値が少しずらされたにすぎない。にもかかわらず、出力側で得られる予測結果は大きく変わってしまう。このノイズに対する鋭敏さが何に起因しているのかがわかっていないのだ。敵対的攻撃に対する防御が難しいのは、まさにこのためだ。なぜディープラーニングが誤った判断を下すのか、そのメカニズムが不明なので、根本的な対策が立てられない。

「同上」

ディープラーニングついて「動作メカニズムがわかっていないにもかかわらず敵対的事例が作れてしまう」ことは、実は「動作メカニズムがわかっていないにもかかわらず結構正しい答を出す」ことの裏返しの関係にあるのですね。

上の引用にあるように、騙される理由はわかっていないのが現状です。ただし、確定的なことは言えないけれども「次元の呪い」が関係しているというのが多くの研究者の共通認識です。

次元の呪い

「次元の呪い」とは、高次元空間で我々の幾何学的な直感が破綻する現象を指します。これを瀧氏は以下のように説明しています。

まず2次元の場合で、1辺の長さが6の正方形を考えます。座標上に描いたのが右図です。正方形の中心から頂点までの距離はピタゴラスの定理より

（2次元）　3√2 = 4.24

となります。次に3次元の立方体（1辺の長さが6）を考えると、立方体の中心から頂点までの距離は、直角を挟む2辺の長さが 3√2 と 3 の直角三角形の斜辺の長さなので、

（3次元）　3√3 = 5.20

となります。つまり、2次元の場合より距離が少し長くなります。座標で計算すると、3次元の場合、8つの頂点の座標は（±3, ±3, ±3）なので、原点である (0, 0, 0) との距離は 3² * 3 の平方根であり、3√3 となるわけです。

これを拡張し、高次元空間（N 次元）の1辺6の超立方体ではどうなるでしょうか。図形的には計算できないので座標で考えると、3次元の場合を拡張し、中心と頂点の距離は 3² * N の平方根となります。つまり、

（N次元）　3√N

です。もし N = 10000 だとすると、距離は

（10000次元）　3√10000 = 300

となります。低次元では中心からそう遠くない距離にあった頂点が、高次元では格段に遠くなってしまう。これが典型的な「次元の呪い」です。この「次元の呪い」によって敵対的ノイズが結果に大きく影響すると考えられているのです。

先ほどのFGSMによる攻撃の例では、画像のピクセルが合計10000個あった。それぞれを座標とみなすと、1枚の画像は、数学的には10000次元空間のある1点に相当する。ノイズが作る元画像とのズレは（各次元ごとに） +3 か -3 なので、生成した敵対的事例は、元画像から距離3ずつ、次元の数の回数だけ様々な方向に動いた位置にくる。数学的に言えば、敵対的事例は元画像を中心にした一辺が6の超立方体の角の上に位置する。そのため、各ピクセルは3しか動いていないにもかかわらず、元画像と敵対的画像の距離は300という極めて大きい値になる。これは小さな敵対的ノイズから大きなズレが生み出されたことを意味する。

このズレがディープラーニングの内部における計算過程に大きな影響を与える場合、最終的な出力も大きく変動してしまう可能性がある。

次元の呪いが大きな効果を生み出しうることは確かだが、本当にディープラーニングの内部で本質的な役割を果たしているかどうかは、まだはっきりとはしていない。現在も多くの研究者が数学モデルを使って、次元の呪いによって敵対的事例のメカニズムを説明しようと試みている。

「同上」

次元の呪い

「次元の呪い」を概念的に表した図。10,000次元というような高次元空間の超立方体では、原点（＝元の画像）と頂点（＝元の画像に敵対的ノイズを薄くかぶせた画像）の距離は極端に大きくなってしまう。

（日経サイエンス 2020.1 より）

ディープラーニングは人間の思考とは違う

ディープラーニングが騙される本質的な理由は現状では解明されていません。しかし、理由はともかくここから分かることは、どうもディープラーニングは人間とは違うようだ、ということです。

敵対的攻撃は、ディープラーニングと人間の認識プロセスが大きく異なることを浮かびあがらせた。もともと神経細胞や脳の視覚野の構造をヒントにして作られたニューラルネットが独自の進歩を遂げて人間の認識能力に匹敵するようになったものだが、それはディープラーニングが人間い近づいたことを意味するわけではない。両者ともに高い認識能力を備えてはいるが、ディープラーニングは人間とは別の方法で認識し、理解している。我々はその表層に現れる結果を見て、ニューラルネットが人間に近づいたかのように感じているが、その背後にあるのは、全く異なるシステムだ。

「同上」

ディープラーニングは人間とは別の方法で認識し、理解していて、その認識方法・理解方法が解明されていない。このことはディープラーニングの社会応用に深刻な障害となります。これを瀧氏は、

もし現在でも地動説が確立していなかったら

という "寓話" で説明しています。卓抜な比喩だと思ったので、次に紹介します。

ディープラーニングで惑星の運動を予測する

天動説と地動説に関する歴史の振り返りです。コぺルニクス以前の天動説では、地球が中心にあり、その周りを太陽と惑星が回っているという宇宙像でした。もちろん、惑星の位置を詳しく観測すると単純に回っているのではない結果が得られます。つまり惑星は天球上を立ち止まったり、バックしたり、再び方向を変えて進むというような不規則な運動をするのです（惑星の "惑" とはそういう意味です）。

天動説では、この惑星の不規則な運動を「周転円」で説明していました。つまり惑星はそれ自身がある中心の周りを回っており、その中心が地球の周りを回っているという説明です（これ以外にも人為的な仮説がいろいろある）。

これに対してコペルニクスは、地球を含む惑星が太陽の周りを回っているという地動説を唱えました。これによって惑星の不規則な動きを説明したのです。ただしコペルニクスは惑星の軌道を円と考えていたため、その説明には限界がありました。

それを解決したのがケプラーです。ケプラーは精密な観測データをもとに、惑星の軌道が円ではなく楕円であることを証明しました（ケプラーの第１法則）。これによって惑星の動きは完全に説明できたのです。

さらにニュートンは万有引力の法則を発見し、２つの物体には質量に比例し距離の２乗に反比例する引力が働くことを示しました。この法則と運動方程式を組み合わせることで、惑星は太陽の周りを楕円軌道で回り、太陽は楕円の焦点にあることが数学的に証明できます。以上の、コペルニクス → ケプラー → ニュートンの発見は、科学史の偉大な成果であることは言うまでもありません。

そこでもし、現代においても地動説が確立していず、惑星の運動の予測にディープラーニングを使ったらどうなるかです。もちろん、過去の惑星の「時刻・位置データ」が膨大に蓄積されているという前提です。これをディープラーニングに学習させ、そして直近の惑星の運動を入力して今後の運動を予測する。

これは画像認識のためのディープラーニングとは種類が違います。時系列の数値データを入力し、そこから予測をしたり、傾向を把握したりするタイプのディープラーニングです。現代では音声認識、株価の予測、機械の動作状況からの異常検知などに使われています。このディープラーニングで惑星の運動を予測したらどうなるか。

仮にディープラーニングやコンピュータが発達した現代でもいまだに地動説が確立していないというSF的な状況を考えてみよう。そして、ディープラーニングに惑星が夜空を動く軌跡などの天体観測データを学習させたとする。良質なデータと十分に速いコンピュータがあれば、ディープラーニングは一見不規則に見える惑星の軌道を精度よく予測することだろう。

では、それで惑星の運動を理解できたことになるのだろうか？　否、単に予言が天下り的に与えられるだけで、何ら科学的な理解だけにはつながらない。科学的な理解のためには、「地球も惑星も太陽の周りを楕円軌道を描いて公転しているため惑星が不規則な運動をしているように見える」というシンプルな理屈が抽出できなくてはならない。だがディープラーニングの中で行われている推論のプロセスが見えないため、そうした理屈を引き出すことができない。人間のような推論プロセスに従っているのかどうかすら不明だ。

ディープラーニングの予言がいくら正しく当たっても、利用者はそれだけでシステムを信頼することはできないだろう。敵対的事例に対する反応のような異常な結果が突然表れないとの保証はないからだ。推論の過程を理解して、その正当性を直感的に理解できなくては、システムへの信頼性は担保されない。

「同上」

惑星の軌道を精緻に予測するディープラーニングの中身をいくら調べてみても「惑星は太陽の周りを楕円軌道で公転する」という知見は得られないでしょう。コペルニクス以前の学者のように「周転円」のような人為的な仮説を満載した天動説で強引に計算しているだけかもしれないのです。

AIと人間の共存

以上のようなディープラーニングの現状を踏まえて、瀧氏は次のように総括しています。

ディープラーニングの行き着く先は人間を越える人工知能ではなく、我々人間とは全く異なる方式で推論する、もう一つの「知性」なのかもしれない。その思考のプロセスをたどることができるようになれば、これまで人間には考えもつかなかったひらめきや、物事の理解の仕方につながる可能性もあるだろう。

科学はこれまで、できる限りシンプルなモデルによって全てを説明・理解しようとする還元主義的方法論、いわゆる「オッカムの剃刀」によって発展してきた。だがディープラーニングという新たな「知性」の登場で、ホーリズムのような非還元主義的な立場が、精密科学の方法として発展する可能性さえ否定できない。

ただし、それは遠い先の話だ。現時点ではディープラーニングはまだまだ発展途上のテクノロジーであり、完璧からはほど遠い。それを顧みずに、研究者による安易で一見華やかな応用ばかりが進むとしたら残念である。この技術は、いまだ地味だが深い未解決問題がたくさん残っている未開の領野である。応用研究だけでなく、ディープラーニングの深い理解に繋がる基礎研究によって、この地を切り開くことが求められている。

「同上」

上の引用に出てくる「オッカムの剃刀」とは、「あることを説明するためには、必要以上に多くの仮定をすべきでない」という指針ですね。オッカムは中世ヨーロッパの哲学者の名前、剃刀かみそりとは説明に不要なものを切り落とすことの比喩です。

シンプルな原理によって全てを説明するというのが科学の立場（ないしは野望）ですが、ディープラーニングはそれとは違う立場の科学の発展の可能性がある、というが瀧氏の予感です。あくまで、そういう可能性も考えられるということなのですが、これがディープラーニングがもつ重要な意味でしょう。

AIは人間の知能を上回る？

以下は瀧氏の解説を読んだ感想です。

よく「20XX年にはAIの知能が人間を上回る」というようなことを言う人がいます。しかし、この手の発言がどのような実証的研究に基づいてなされているのか、はなはだ不明です。人を驚かせようとする無責任な発言に思える。

こういうこと言うためには、最低限、① 人間の知能とはなにか、それはどういう原理やプロセスで生み出されるのか、② AIの知能とは何か、それが生み出されるプロセスは人間と同じなのか、それとも違っているのか、という２点の説明がなければなりません。

しかし現時点において、① の人間の知能が解明されているわけでは全くありません。また ② の（現在における）AIの知能は瀧氏が解説しているように、人間の知能とは別種のものである可能性が極めて高いわけです。「人間とは別種のものが人間を追い越す」というは奇妙な言説です。

もちろん特定のエリアでは、AIの方が人間より遙かに速く、正確に答えを出すことがあるでしょう。しかしそれは、たとえて言うと「走るスピードではクルマが人間を追い越す」というのに近い。クルマが走る原理は人間と全く違います。人間はそのスピードを最大限に利用して現代生活が成り立っている。もちろんクルマに頼り過ぎると運動不足に陥り、生活習慣病を発症したりしてまずいことになるわけで、その配慮が必要なことは言うまでもありません。同様のことはAIについても言えるでしょう。

瀧氏の文章は、ディープラーニングという範囲でAIと人間の違いを明らかにしたよい解説だと思いました。ディープラーニングの本質を見極める基礎研究や、ディープラーニングの答の理由を「説明可能にする」研究によって、人間のAIとのつきあい方が決まっていくし、人間とAIの共存方法が見えてくるのだと思いました。

補記１：SQuAD

この記事の本文で、米国のスタンフォード大学が AIのベンチマークのために作成している SQuAD（The Stanford Question Answering Dataset）のことを書きました。これは「例文・質問・回答データベース」です。まず例文があり、それについての質問と回答が複数あります。すべて英文のテキストデータです。回答の中には "No Answer"、つまり答えがない（＝例文の情報だけでは答えられない）ものもあります。

この SQuAD がどういうものか、その問題例を以下に掲載します。最新の「SQuAD 2.0」の問題の一つで、ライン河に関するものです（2020.1. 現在。https://rajpurkar.github.io/SQuAD-explorer/）。単位系の記述を分かりやすいように修正しました。

SQuAD 2.0 問題例

例文
The Rhine (Romansh : Rein, German : Rhein, French : le Rhin, Dutch : Rijn) is a European river that begins in the Swiss canton of Graubünden in the southeastern Swiss Alps, forms part of the Swiss-Austrian, Swiss-Liechtenstein border, Swiss-German and then the Franco-German border, then flows through the Rhineland and eventually empties into the North Sea in the Netherlands. The biggest city on the river Rhine is Cologne, Germany with a population of more than 1,050,000 people. It is the second-longest river in Central and Western Europe (after the Danube), at about 1,230 km (760 mile), with an average discharge of about 2,900 m³/s (100,000 ft³/s).

質問１
What country does the Rhine empty ?
正解１
the Netherlands

質問２
What river is larger than the Rhine ?
正解２
the Danube

自然言語処理を行うAIシステムとしては、質問１では北海（the North Sea）とオランダ（the Netherlands）の関係を把握しなければなりません。また質問２では「after the Danube」という記述をもとに、ライン河より長いのがドナウ河と判断する必要があります。

なお、この例文には12の質問が設定されていますが、そのうちの5つは「No Answer」が正解です。

補記２：イラストで答えるリスニング問題

この記事の本文で、AIが不得意な大学入試問題の典型が「英語のリスニングの結果をイラストの選択で答える」ものだとしました。その実際の問題を掲げます。2019年度センター本試験、英語リスニング問題の「第１問　問１」です。

2019年度センター本試験
英語リスニング問題　第１問　問１

リスニング台本（M:男性、W:女性）

M : We need an idea for a new cartoon character.
W : I agree. How about a vegetable ?
M : That sounds OK. But, for a stronger impact, give it wings to fly.
W : Good idea.

質問

What might the character look like ?

回答（４択）

羽の生えた野菜を選べばよいので、正解は言うまでもなく ② です。受験生としては、ICレコーダから流れる英語音声を聞き取ることさえできれば（特に vegetable と wings）間違えようのない問題です。

一方、AIはどうかと言うと、英語音声をリスニング台本と質問文に変換するのは容易です。全く雑音がない環境での明瞭な英語なので、この程度の音声認識は現代のAI技術では完璧にできるのです（でないとAIスピーカなど実用化できません）。

しかしそのあとが無理です。これをディープラーニングで回答しようとすると「羽の生えた野菜」含むイラストデータを大量に用意し、それを学習しなければなりません。しかし、そんなイラストの学習データを大量に用意できるはずがないのです。

もちろんセンター試験の受験生にとっても「羽の生えた野菜」のイラストを見るのは生まれて初めてでしょう。全く初めてではないかもしれませんが、過去に（絵本などで）似たイラストを見たことなど忘れているはずで、「生まれて初めて」と同じことです。生まれて初めてではあるが、リスニングができた受験生は間違えることなく答えられるのです。

AIにとって「羽の生えた野菜」を識別するのが困難なら、では「野菜」と「羽」を識別してそれが含まれるイラストを答えたらどうか。しかし、これも難しいでしょう。「野菜」にはたくさんの種類があります。「野菜」か「野菜でない（たとえば果物）」を識別するのが簡単とは思えない。しかも、実物の画像ではなくイラストです。イラストはイラストレーターがモノの特徴をとらえて（ある場合はデフォルメをして）恣意的に描くものです。たとえイラストを大量に集めたとしても有効なディープラーニングの学習はできないでしょう。しかもセンター試験の問題にあるように、ニンジンに目・鼻・口・手・足があってもそれはなおかつニンジンなのであり、そんな "高度な" 認識がAIで簡単に行くとは思えません。

100歩譲って「野菜」と「羽」のイラストを認識できるディープラーニングができたとしましょう。しかし苦労してそんなものを作ったとしても使い道がありません。なぜなら、センター試験に「羽の生えた野菜」が出るのは2019年度の１回きりだからです。次年度は「足の生えた飛行機」かもしれないし、そもそもマンガのキャラクターに関する会話がリスニングに出るのはこれっきりかもしれません（いや、センター試験なので "これっきり" のはずです）。

世の中に絶対に存在しないもののイラストは無限に考えられます。しかし受験生は常識推論でそれを理解します。常識推論で簡単に答えられるからこそ出題されるのであって、常識で簡単に答えられないようだとリスニング能力をテストするという主旨から逸脱してしまうのです。

センター試験の受験生が100%できることが、現代のAI技術では全く歯が立たない。そういう例なのでした。

補記３：スマートスピーカーへの敵対的攻撃

本文中にディープラーニングを使った画像認識を騙せることを書きましたが、同様の原理で音声認識も騙せるようです。アマゾンの「エコー」やグーグルの「グーグル・ホーム」は、ネットに繋がった音声認識技術によって人間の指示を理解し、サービスを提供します。筑波大学の佐久間淳教授（＝理化学研究所・人工知能セキュリティ・プライバシーチームリーダー）は社会に警鐘を鳴らすため、スマートスピーカーを騙す実験を行いました。

佐久間らが最近実証したのは、通常の音声にノイズの形で音声情報をこっそり埋め込み、スマートスピーカーを音声操作する技術だ。

佐久間らのハッキング実験は以下のように行われた。音声認識ソフトを入れたパソコンにマイクを接続し、人の話し言葉を入力できるようにしておく。そこにバッハの無伴奏チェロ組曲第１番の録音演奏を流す。話し言葉ではないので、当然パソコン反応しない。

ところが、同じ曲が再び流れると、今度はパソコンはすぐに反応し、「ハロー・ワールド」という言葉だと認識した。よく聞くと音楽に重なって、不規則なノイズのような音が響いている。ただ、音色が少しひずんで感じられるだけで、何か言葉が話されているようには聞こえない。

佐久間らはノイズを混ぜ込んだ音楽が「ハロー・ワールド」と認識されるように、機械学習による最適化手法を使って、ノイズを設計したのである。もちろん、おなじ手法で、様々な音声コマンドを、聞いている人間に気づかれることなく、音楽などに載せることができる。ラジオから音楽を流しただけで、家の中の機器のスイッチをオンオフしたり、特定の言葉をパソコンに表示するといったハッキングができてしまうのだ。

吉田和輝（日本経済新聞）
「加速するAI攻撃」
日経サイエンス（2020年6月号）

スマートスピーカーを騙す

元の音にうまく設計したノイズを載せると、スマートスピーカーの音声認識は「Hellow World」と言ったと誤認する。人間には元の音がひずんだようにしか聞こえない。

日経サイエンス（2020年6月号）より

この記事を読んでまず思ったのは、佐久間教授はクラシック音楽好きだということです。あるいは、人間の耳はチェロの音が最もノイズを判別しにくいということを試行から決めたのかもしれません。

それはともかく、この実験から直ちに「エコー」や「グーグル・ホーム」を騙せるということにはなりません。商用化されているスマートスピーカーは、ディープラーニングの内部構造が公開されていないからです。しかし最近のAI研究では、内部構造を知らなくても敵対的攻撃が可能な手法（＝ブラックボックス攻撃）が開発されています。「警鐘を鳴らす」ための実験としては、大いに意味があると思いました。

そしてこの件もまた画像認識と同様、音声を認識するAIの "知能" が人間の知能とは違うことを示しているのでした。

（2020.6.4）