SSブログ

No.366 - 高校数学で理解する ChatGPT の仕組み(2) [技術]

\(\newcommand{\bs}[1]{\boldsymbol{#1}} \newcommand{\mr}[1]{\mathrm{#1}} \newcommand{\br}[1]{\textbf{#1}} \newcommand{\ol}[1]{\overline{#1}} \newcommand{\sb}{\subset} \newcommand{\sp}{\supset} \newcommand{\al}{\alpha} \newcommand{\sg}{\sigma}\newcommand{\cd}{\cdots}\)

この記事は、No.365「高校数学で理解する ChatGPT の仕組み(1)」の続きです。記号の使い方、用語の定義、ニューラル・ネットワークの基本事項、単語の分散表現などは、前回の内容を踏まえています。

 
3.Transformer 
 


Attention Is All You Need


Google社は、2017年に "Attention Is All You Need" という論文(以下、"論文" と記述)を発表し、"Transformer" という画期的な技術を提案しました。Transformer は機械翻訳で当時の世界最高性能を発揮し、これが OpenAI 社の GPT シリーズや ChatGPT につながりました。

Attention(アテンション)とは "注意" という意味で、Transformer に取り入れられている "注意機構"(Attetion mechanism)を指します。"Attention Is All You Need" を直訳すると、

 「必要なのはアテンションだけ」

ですが、少々意訳すると、

 「アテンションこそがすべて」

となるでしょう(蛇足ですが、ビートルズの "All You Need Is Love" を連想させる論文タイトルです)。

Transformer を訳すと "変換器" ですが、その名の通り「系列 A から系列 B への変換」を行います。系列 A = 日本語、系列 B = 英語、とすると和文英訳になります。第3章では、この Transformer の仕組みを説明をします。


全体のアーキテクチャ


Transformer のアーキテクチャの全体像が次図です(論文より)。以降、この絵の意味を順に説明します。

図18:Transformer のアーキテクチャ.jpg
図18:Transformer のアーキテクチャ

アーキテクチャを簡略化して書くと次のようになります。以下では「日本語 → 英語の機械翻訳」を例として Transformer の動作を説明します。

図19:アーキテクチャの簡略図.jpg
図19:アーキテクチャの簡略図

左側がエンコーダで、入力された日本語テキストを中間表現(=テキストの特徴を抽出した内部表現)に変換します。右側のデコーダは、中間表現を参照しつつ「次に生成すべき英単語」を推論します。

エンコーダ、デコーダとも、図で「ブロック」と書いた単位を積層した構造です。つまり、1つのブロックの出力が次のブロックへの入力になります。アーキテクチャの絵で「N x」と書いてあるのはその積層の意味(= N 倍)で、積層する数を \(N\) とすると、Transformer では、
 \(N=6\)
です。エンコーダの中間表現は最終ブロックからの出力です。その出力がデコーダの全てのブロックへ伝わります。

訓練
多数の「日本語 \(\rightarrow\) 英語の翻訳データ」を用いて Transformer を訓練するとき、全体がどのように動くかを示したのが次の図です。

図20:Transformerの動作(訓練時).jpg
図20:Transformerの動作(訓練時)

エンコーダには日本語の文(Input)が入力されます。デコーダからの出力は、英文の推論結果(確率)です。これを正しい英文(Output = 教師ラベル)と照らし合わして損失(交差エントロピー誤差)を計算し、誤差逆伝播を行ってニューラル・ネットワークの重みを更新します(前回参照)。デコーダの入力となるのは「右に1語だけずらした Output」です。アーキテクチャの図18 で shifted right と書いてあるのはその意味です。なお、実際に入力されるのは単語ではなくトークンの列です(前回参照)。

推論
訓練を終えた Transformer を使って日本語文を英語文に機械翻訳するときの動きは次図です。

図21:Transformerの動作(推論時).jpg
図21:Transformerの動作(推論時)

エンコーダに日本語のテキストを入力し、中間表現を得ます。これは1回きりです。

デコーダには、生成すべき英語テキストの最初のトークン、[BOS](文の始まりを示す特殊トークン)を入力し、[BOS] の次にくるべきトークンの確率を推論します。最も確率が高いトークンを選ぶと [I] になるはずです。これが1回目の推論(#1)です。

2回目(#2)では [I] を入力し、[I] の次のトークンを推論します([am] となるはずです)。[BOS] から [I] を推論したときの情報はデコーダに残されているので、その部分を再計算する必要はありません。推論のためには、日本語文の全情報(エンコーダの中間表現)と、既に生成した英文([BOS] [I])を参照します。

このようにして順々に英文を生成していき、推論結果が [EOS](文の終了を示す特殊トークン)になるところで、翻訳が終了します。


アーキテクチャの詳細


用語と記号
 トークンの語彙 

トークンの語彙(vocabulary)のサイズ を \(V\) とします。トークンを識別する "トークンID" は \(1\)~\(V\) の数字です。

 系列 

Transformer への入力となるテキストは、Tokenizer でトークンID の列に変換されます。以降、Transformer への入力を "系列(sequece)" と呼びます。

系列はその最大サイズ \(S\) が決まっています(普通、数千程度)。入力が \(S\) より少ない場合、残りのトークンは無効トークン([PAD])としておき、そこの処理は回避するようにします。[PAD] を含めて、系列は長さ \(\bs{S}\) の固定長とします。

 系列\(=\{\:t_1,\:t_2,\:\cd\:,\:t_S\:\}\)
   \(t_i\):トークンID \((1\leq t_i\leq V)\)

Transformer の論文には語彙のサイズと系列のサイズが書いてありませんが、以降の説明では \(V\) と \(S\) を使います。

 分散表現ベクトル 

トークンの分散表現ベクトル(埋め込みベクトル)の次元を \(D\) とします。トークンID が \(t_i\) であるトークンの分散表現を \(\bs{x}_i\) とすると、
 \(\bs{x}_i=\left(\begin{array}{r}x_1&x_2&\cd&x_D\\\end{array}\right)\) \([1\times D]\)
というようになり、系列をベクトル列で表現すると、
 系列\(=\{\:\bs{x}_1,\:\bs{x}_2,\:\cd\:,\:\bs{x}_S\:\}\)
となります。なお、\(D\) 次元ベクトルを、\(1\)行 \(D\)列の配列とし、\([1\times D]\) で表わします(前回参照)。

なお、Transformer では \(D=512\) です。

以降、全体アーキテクチャの図に沿って、各レイヤー(計算処理)の説明をします。以降の説明での \(\bs{x}_i,\:\:\bs{y}_i\) は、

 \(\bs{x}_i\):レイヤーへの入力
  (系列の \(i\) 番目。\(1\leq i\leq S\))
 \(\bs{y}_i\):レイヤーからの出力
  (系列の \(i\) 番目。\(1\leq i\leq S\))

で、すべてのレイヤーに共通です。また、\(D\) 次元ベクトルを \([1\times D]\)、\(S\)行 \(D\)列の行列を \([S\times D]\) と書きます。

埋め込みベクトルの生成
図18a.jpg

このレイヤーの入出力を、

\(\bs{x}_i\): トークンID を one hot ベクトルにしたもの \([1\times V]\)
\(\bs{y}_i\): 埋め込みベクトル \([1\times D]\)

とすると、

 \(\bs{y}_i=\bs{x}_i\cdot\bs{W}_{\large enc}\)
   \([1\times D]=[1\times V]\cdot[V\times D]\)

で表現できます(前回の word2vec 参照)。もちろん、この行列演算を実際にする必要はなく、\(\bs{x}_i\) のトークンID を \(t_i\) とすると、

 \(\bs{y}_i=\bs{W}_{\large enc}\) の \(t_i\) 行

です。\(\bs{W}_{\large enc}\) は Transformer の訓練を始める前に、あらかじめ(ニューラル・ネットワークを用いて)作成しておきます。従って、埋め込みベクトルの作成はテーブルの参照処理(table lookup)です。

位置エンコーディング
図18b.jpg

埋め込みベクトル(分散表現)に、トークンの位置を表す「位置符号ベクトル」を加算します。つまり、

 \(\bs{x}_i\):埋め込みベクトル \([1\times D]\)
 \(\bs{p}_i\):位置符号ベクトル \([1\times D]\)
 \(\bs{y}_i\):位置符号加算ベクトル \([1\times D]\)

とすると、

 \(\bs{y}_i=\bs{x}_i+\bs{p}_i\:\:\:(1\leq i\leq S)\)
   \([1\times D]=[1\times D]+[1\times D]\)

の単純加算です。位置符号ベクトル \(\bs{p}_i\) の要素を次の記号で表します。

 \(p_{t,d}\)
   \(t\) は \(0\) から始まる、トークンの位置
    \((t=i-1,\:\:0\leq t\leq S-1)\)
   \(d\) は \(0\) から始まる、ベクトル内の要素の位置
    \((0\leq d\leq D-1)\)

この \(p_{t,d}\) の値は次のように定義されます。

 \(p_{t,2k}\)\(=\mr{sin}\left(\dfrac{1}{10000^x}\cdot t\right)\)
 \(p_{t,2k+1}\)\(=\mr{cos}\left(\dfrac{1}{10000^x}\cdot t\right)\)

   \((0\leq k < \dfrac{D}{2},\:\:\:x=\dfrac{2k}{D},\:\:\:0\leq x < 1)\)

つまり、\(D=512\) とすると、

 \(d\) が偶数の要素位置では \(\mr{sin}\) 波
  (\(d=0,\:2,\:4,\:\cd\:,510\))
 \(d\) が奇数の要素位置では \(\mr{cos}\) 波
  (\(d=1,\:3,\:5\:\:\cd\:,511\))

で位置符号値を決めます。この \(\mr{sin}/\mr{cos}\)波の波長 λ は

 λ\(=2\pi\cdot10000^x\)

であり、\(0\leq d < D\) の範囲で、

 \(2\pi\leq\)λ\( < 2\pi\cdot10000\)

となります。この \(\mr{sin}/\mr{cos}\) 波を図示してみます。グラフをわかりやすくするために、\(D=512\) ではなく、
 \(D=32\)
とし、ベクトルの要素 \(32\)個のうちの最初の6つ、
 \(d=0,\:1,\:2,\:3,\:4,\:5\)
だけのグラフにします。グラフの
 ・横軸はトークンの位置 \(t\)
 ・縦軸は位置符号ベクトルの要素 \(p_{t,d}\)
です。

図22:位置符号値を計算するための正弦・余弦波.png
図22:位置符号値を計算するための正弦・余弦波
図の黒丸は、\(t=3\) の位置符号ベクトルの、要素\(0\)~要素\(5\)(\(0\leq d\leq5\))を示す。

具体的に \(t=3\) のときのベクトルの要素 \(p_{3,d}\:\:(0\leq d\leq31)\) の \(0\leq d\leq5\) の部分を書いてみると、

  \(p_{3,0}=\phantom{-}0.1411\)
  \(p_{3,1}=-0.9900\)
  \(p_{3,2}=\phantom{-}0.9933\)
  \(p_{3,3}=-0.1160\)
  \(p_{3,4}=\phantom{-}0.8126\)
  \(p_{3,5}=\phantom{-}0.5828\)

となります(図22)。


言うまでもなく、言語モデルにとってトークンの位置はきわめて重要な情報です。位置をバラバラにすると意味をなさないテキストになるし、Bob loves Alice と Alice loves Bob では意味が逆です。従って、何らかの手段で「トークンの位置を考慮したモデル化」をしなければならない。

 \(\bs{y}_i=\bs{x}_i+\bs{p}_i\:\:\:(1\leq i\leq S)\)

の式で、\(\bs{x}_i\) は「単語埋め込み」のアルゴリズムで作られ、似たような単語/トークンは類似したベクトルになります(前回参照)。それに対し \(\bs{p}_i\) の \(\mr{sin}/\mr{cos}\) 波は、言語処理とは全く無関係な数学の産物です。従って、加算結果である \(\bs{y}_i\) がどのような「意味」をもつベクトルなのか、説明しようとしても無理でしょう。全く異質なものの足し算をしているのだから ・・・・・・。それでいて、このやり方で全体として成り立つのが驚きです。

Transformer より以前の機械翻訳では、トークンの出現順に逐次処理をするアーキテクチャでした。つまり、1つのトークンの処理結果を利用しながら次のトークンを処理するという逐次処理によって、並び順に意味があるという言語の特質を捕らえていました。

それに対し、位置エンコーディングを取り入れた Transformer では、逐次処理の必要性がなくなり、系列のトークン全部の並列処理が可能になりました。この結果、同一計算の超並列処理ができる GPU(数千並列が可能) をフルに活用することで、実用的な大規模言語モデルが構築できるようになったわけです。位置エンコーディングにはそういう意味があります。


なお Transformer の論文にも書いてあるのですが、位置符号ベクトルを \(\mr{sin}/\mr{cos}\) 波のような「決めうち」で作らないで、「学習可能なパラメータ」としておき、Transformer を訓練する過程で決めるやり方があります。位置符号ベクトルを学習で決めるわけです。GPT はこの方法をとっています。

Single Head Attention : SHA
図18c.jpg

アテンション・レイヤー(Multi Head Attention : MHA)の説明をするために、まず "Single Head Attention : SHA" の処理論理を説明します。Transformer で実際に使われている MHA は、以下に説明する SHA の拡張版で、核となるアルゴリズムは同じです。

SHAの入出力は、それぞれ \(S\)個の \(D\)次元ベクトルであり、

 入力 \(\bs{x}_i\:\:[1\times D]\:\:(1\leq i\leq S)\)
 出力 \(\bs{y}_i\:\:[1\times D]\:\:(1\leq i\leq S)\)

ですが、系列の全体を1つの行列で表すことができます。1つのベクトルを行列の1行として、それを縦方向に \(S\)個並べて行列を作ります。つまり、

 入力 \(\bs{X}\:\:[S\times D]\) (\(i\) 番目の行が \(\bs{x}_i\))
 出力 \(\bs{Y}\:\:[S\times D]\) (\(i\) 番目の行が \(\bs{y}_i\))

とすると SHA は、

 \(\bs{Y}=\mr{SHA}(\bs{X})\)

と書けます。アテンションの処理では、まず入力ベクトル \(\bs{x}_i\) を、

 ◆クエリ・ベクトル \(\bs{q}_i\)(query:問合わせ)
 ◆キー・ベクトル \(\bs{k}_i\)(key:鍵)
 ◆バリュー・ベクトル \(\bs{v}_i\)(value:値)

の組、( \(\bs{q}_i,\:\:\bs{k}_i,\:\:\bs{v}_i\) )に変換します。変換式は次の通りです。

\(\bs{q}_i=\bs{x}_i\cdot\bs{W}_Q\:\:\:(1\leq i\leq S)\)

\(\bs{k}_i=\bs{x}_i\cdot\bs{W}_K\:\:\:(1\leq i\leq S)\)

\(\bs{v}_i=\bs{x}_i\cdot\bs{W}_V\:\:\:(1\leq i\leq S)\)

  \([1\times D]=[1\times D]\cdot[D\times D]\)

ここで、\(\bs{W}_Q,\:\:\bs{W}_K,\:\:\bs{W}_V\) は学習で決まる変換行列です。系列全体についての Query/Key/Value(\(QKV\))を行列の形で表すと、

\(\bs{Q}=\bs{X}\cdot\bs{W}_Q\)

\(\bs{K}=\bs{X}\cdot\bs{W}_K\)

\(\bs{V}=\bs{X}\cdot\bs{W}_V\)

  \([S\times D]=[S\times D]\cdot[D\times D]\)

となります。SHA レイヤーからの出力、\(\bs{y}_i\:\:[1\times D]\) は、\(S\)個のバリュー・ベクトル \(\bs{v}_j\:\:(1\leq j\leq S)\) の "重み付き和" (加重和)で求めます。加重和に使う重み、\(\bs{w}_i\:\:[1\times S]\) は次のように計算されます。

まず、クエリ・ベクトル \(\bs{q}_i\) とキー・ベクトル \(\bs{k}_j\:\:(1\leq j\leq S)\) の "スケール化内積(scaled dot product)" を計算し、\(S\)個のスカラー値を求めます。スケール化内積(\(\mr{SDP}\) と記述します)とは、2つの \(D\)次元ベクトル \(\bs{a}\) と \(\bs{b}\) の場合、

 \(\mr{SDP}(\bs{a},\bs{b})=\dfrac{1}{\sqrt{D}}\bs{a}\bs{b}^T\)
   \([1\times1]=[1\times D]\cdot[D\times1]\)

で定義されます。つまり、一般の内積(=スカラー値)を「ベクトルの次元数の平方根」で割ったものです。

\(\bs{q}_i\) と \(\bs{k}_j\:\:(1\leq j\leq S)\) のスケール化内積を順番に \(S\)個並べたベクトルを \(\bs{s}_i\:\:[1\times S]\) と書くと、スケール化内積の定義によって、

 \(\bs{s}_i=\dfrac{1}{\sqrt{D}}\bs{q}_i\bs{K}^T\)
   \([1\times S]=[1\times D]\cdot[D\times S]\)

です。そして、加重和を求めるときの重み \(\bs{w}_i\) は、

 \(\bs{w}_i=\mr{Softmax}(\bs{s}_i)\)
   \([1\times S]=\mr{Softmax}([1\times S])\)

とします。この \(S\)次元の重みベクトルを使って、\(S\)個のバリュー・ベクトル \(\bs{v}_j\:\:(1\leq j\leq S)\) の加重和をとると、出力ベクトル \(\bs{y}_i\) は、

 \(\bs{y}_i=\bs{w}_i\cdot\bs{V}\)
   \([1\times D]=[1\times S]\cdot[S\times D]\)

となります。以上の計算プロセスを一つの式で書いてしまうと、

\(\bs{y}_i=\mr{Softmax}\left(\dfrac{1}{\sqrt{D}}\bs{q}_i\cdot\bs{K}^T\right)\cdot\bs{V}\)

   \([1\times D]=\mr{Softmax}([1\times D]\cdot[D\times S])\cdot[S\times D]\)

です。従って、SHA からの出力ベクトル \(\bs{y}_i\) を縦方向に並べた行列 \(\bs{Y}\) は、

 \(\bs{Y}=\mr{Softmax}\left(\dfrac{1}{\sqrt{D}}\bs{Q}\cdot\bs{K}^T\right)\cdot\bs{V}\)

   \([S\times D]=\mr{Softmax}([S\times D]\cdot[D\times S])\cdot[S\times D]\)

と表すことがきます。この表記で \(\mr{Softmax}\) 関数が作用するのは \([S\times S]\) の行列ですが、\(S\)個の行ごとに \(\bs{\mr{Softmax}}\) を計算します。

単なる内積ではなく「スケール化内積」を使う理由ですが、2つのベクトルの内積は、要素同士のかけ算を次元数 \(D\) 個だけ加算したものです。従って、ベクトル \(\bs{s}_i\) を、シンプルな内積を使って、

 \(\bs{s}_i\:=\bs{q}_i\cdot\bs{K}^T\)

のように定義し、重み \(\bs{w}_i\) を、

 \(\bs{w}_i=\mr{Softmax}(\bs{s}_i)\)

で求めると、\(D\) が大きいと \(\bs{s}_i\) の要素が大きくなり、その結果として \(\bs{w}_i\) はゼロに近いところに多くの要素が集まるようになります。これは \(\mr{Softmax}\) 関数の性質によります(前回参照)。こうなると勾配消失が起きやすくなり、訓練が収束しづらくなります。そのため「スケール化」するというのが論文の説明です。

もちろん、幾多の試行錯誤があり、その結果として決まったのが「スケール化内積で加重和の重みを計算する」というやり方だったのでしょう。


以上の計算でわかるように、注意機構(Attention machanism)とは、あるトークンを処理するときに、注意を向けるべきトークンと注意の強さを決め(それ自体が学習で決まる)、注意を向けた先の情報を集めてきて集積するものです。

しかも、注意機構は6層(\(N=6\)) に重ねられています。ということは、階層的な(多段階の) "注意の向け方" ができることになります。また、言語における単語と単語の関係性は多様です。動作\(\cdot\)動作主体、修飾\(\cdot\)被修飾、指示代名詞と指示されるもの(照応関係)など多岐に渡ります。それらのさまざまなタイプの関係性を、Transformer の訓練を通して、多層の注意機構が自動的に把握すると考えられるのです。

MHA : Multi Head Attention
SHA では、入力ベクトル \(\bs{x}_i\) から、1組の Query/Key/Value(\(QKV\)) ベクトルを抽出しましたが、Transformer で実際に使われているのは、

① 1つの入力ベクトル \(\bs{x}_i\) から、複数組の違った \(\bs{QKV}\) ベクトルを抽出し、
② それぞれについて独立に SHA と同等のアテンション処理をし、
③ 処理結果を単純結合(Concatenation)し、
④ 最後に線型変換をして出力ベクトルに \(\bs{y}_i\) する

という処理です。これを Multi Head Attention : MHA と呼びます。この「それぞれについてのアテンション処理」のことを "head(ヘッド)" と言います。複数の head なので Multi Head です。このヘッドの数を \(H\) とし、

 \(d=\dfrac{D}{H}\) (\(D\) は入出力ベクトルの次元)

とします(\(H\) は \(d\) が整数になるように選びます)。このとき、

\(\bs{x}_i\:\:[1\times D]\) から抽出される(複数組の)\(QKV\) ベクトルの次元はすべて \([1\times d]\)

です。つまり MHA は「複数の特徴を抽出し(一つの情報量は SHA より少ない)、それぞれの特徴について 独立した "注意機構" を働かせ、最後に統合してまとめる」仕組みです。なお、Transformer では、
 \(H=8\)
 \(d=\dfrac{D}{H}=\dfrac{512}{8}=64\)
です。

\(h\) 番目のヘッド \((1\leq h\leq H)\) に着目し、"注意機構" の計算プロセスを式で書くと、次のようになります。まず、\(h\) 番目のヘッドの \(QKV\) ベクトルの計算は、

\(\bs{q}_i^h=\bs{x}_i\cdot\bs{W}_Q^h\:\:\:(1\leq i\leq S,\:\:1\leq h\leq H)\)

\(\bs{k}_i^h=\bs{x}_i\cdot\bs{W}_K^h\:\:\:(1\leq i\leq S,\:\:1\leq h\leq H)\)

\(\bs{v}_i^h=\bs{x}_i\cdot\bs{W}_V^h\:\:\:(1\leq i\leq S,\:\:1\leq h\leq H)\)

  \([1\times d]=[1\times D]\cdot[D\times d]\)

です。系列全体について、\(h\) 番目のヘッドの \(QKV\) を行列の形で表すと、

\(\bs{Q}^h=\bs{X}\cdot\bs{W}_Q^h\)

\(\bs{K}^h=\bs{X}\cdot\bs{W}_K^h\)

\(\bs{V}^h=\bs{X}\cdot\bs{W}_V^h\)

  \([S\times d]=[S\times D]\cdot[D\times d]\)

です。\(h\) 番目のヘッドのアテンション処理は、SHA の場合と同様で、

\(\bs{y}_i^h=\mr{Softmax}\left(\dfrac{1}{\sqrt{d}}\bs{q}_i^h\cdot(\bs{K}^h)^T\right)\cdot\bs{V}^h\)

  \([1\times d]=\mr{Softmax}([1\times d]\cdot[d\times S])\cdot[S\times d]\)

となり、これを系列全体での表現にすると、

\(\bs{Y}^h=\mr{Softmax}\left(\dfrac{1}{\sqrt{d}}\bs{Q}^h\cdot(\bs{K}^h)^T\right)\cdot\bs{V}^h\)

  \([S\times d]=\mr{Softmax}([S\times d]\cdot[d\times S])\cdot[S\times d]\)

となります。行列 \(\bs{Y}^h\) は、\(h\) 番目のヘッドの出力ベクトル \(\bs{y}_i^h\:\:[1\times d]\) を、系列の数だけ縦に並べた行列です。


系列の \(i\) 番目の入力 \(\bs{x}_i\) に対する \(H\) 個の出力ベクトル

 \(\bs{y}_i^h\:\:[1\times d]\:\:(1\leq h\leq H)\)

が求まったところで、これら \(H\) 個を単純結合して(=順に並べる)一つのベクトルにし、さらに Linear 変換をして最終出力にします。変換に使う行列は \(\bs{W}_O\:\:[D\times D]\) です。

\(\bs{y}_i=\mr{Concat}(\bs{y}_i^1,\:\bs{y}_i^2,\:\cd,\:\bs{y}_i^H)\cdot\bs{W}_O\)

\(\begin{eqnarray} &&\:\: [1\times D]&=\mr{Concat}([1\times d],\:\cd\:)\cdot[D\times D]\\ &&&=[1\times D]\cdot[D\times D]\\ \end{eqnarray}\)

Linear 変換は直前の単純結合(Concatenation)とセットになっています。つまり、ヘッドの順序を表す \(h\:\:(1\leq h\leq H)\) という数字には、"注意機構" における何らかの意味があるわけではありません。単にアテンション処理を \(H\) 個に分けた \(h\) 番目というだけです。従って、順に単純結合する、

 \(\mr{Concat}(\bs{y}_i^1,\:\bs{y}_i^2,\:\cd,\:\bs{y}_i^H)\)

という操作の「結合順序」には意味が無いことになります。そこで結合した後で、学習可能なパラメータ \(\bs{W}_O\) で線型写像を行って、最適な出力ベクトルを求めるわけです。


エンコーダの MHA は、エンコーダ内に閉じたアテンションで、これを「自己アテンション」(Self Attention)と言います。一方、デコーダ側には自己アテンションの他に、エンコーダとデコーダにまたがるアテンションがあります。これを Source Target Attention と言います。このアテンションは、

・ クエリは、デコーダ側のベクトルから生成し、
・ キーとバリューは、エンコーダ側のベクトルから生成

します。これによってエンコーダからデコーダ側への情報の流れを作ります。日本語 → 英語の機械翻訳の場合だと、次に生成すべき英単語に関連して「注意を向けるべき日本語のトークンと、その注意の量」がここで決まります。


Multi Head Attention において、1つのベクトルから複数の \(QKV\) を取り出すことの意味は、おそらくトークンの「多義性」でしょう。その例ですが、英語で fine という語の代表的な意味を4つあげるとしたら、たとえば、

 fine :
  (1) 素晴らしい
  (2) 晴れた
  (3) 細かい
  (4) 罰金

です(例です。(1) (2) は同類の意味)。単語の埋め込みベクトルは、似たような(あるいは同一ジャンルの)語は類似している(= コサイン類似度が 1 に近い)わけです(前回参照)。とすると、(1)~(4) の同一ジャンルの言葉は、それぞれ、

  (1) good, excellent, ・・・・・・
  (2) cloudy, rainy, ・・・・・・
  (3) tiny, small, coarce, ・・・・・・
  (4) penalty, guilty, ・・・・・・

などとなるはずです。fine がこれら4つのジャンルと類似性があるということは、fine の埋め込みベクトルおいて4つの意味が物理的に分散して配置されていると考えられます。さらにイタリア語まで考えると、

 fine :
  (5) 終わり

が加わります(イタリア映画の最後に出てくる語、ないしは音楽用語)。埋め込みベクトルは言語ごとに作るわけではないので、fine のベクトルはあくまで1つです。ということは、埋め込みベクトルには(この例では)5つの意味が分散して配置されているはずです。

この状況は、埋め込みベクトルから複数の \(QKV\) ベクトルを取り出し、それぞれについて独立したアテンション計算をするというアルゴリズムがマッチしていると考えられるのです。


Add & Norm


図18d.jpg

アーキテクチャの絵で5カ所にある「Add & Norm」は、ベクトルごとに「残差結合」と「レイヤー正規化」を行うレイヤーです(詳細は前回参照)。図で表すと以下です。

図23:残差結合とレイヤー正規化.jpg
図23:残差結合とレイヤー正規化

計算式は次のようになります。系列の \(i\) 番目を示す \(\bs{x}_i,\:\:\bs{y}_i\) の \(i\) は省略します。

 \(\bs{y}=\mr{LayerNormalization}(\bs{x})\)

\(\begin{eqnarray}
&&\:\:  \bs{x}=\{\:x_1, &x_2, &\cd\:, &x_D\:\}\\
&&\:\:  \bs{y}=\{\:y_1, &y_2, &\cd\:, &y_D\:\}\\
\end{eqnarray}\)

 \(x_k\:\:(1\leq k\leq D)\) の平均 : \(\mu\)
  \(\mu=\dfrac{1}{D}\displaystyle\sum_{k=1}^{D}x_k\)

 \(x_k\:\:(1\leq k\leq D)\) の標準偏差 : \(\sg\)
  \(\sg=\sqrt{\dfrac{1}{D}\displaystyle\sum_{k=1}^{D}(x_k-\mu)^2}\)

とおくと、

\(\bs{y}=\dfrac{1}{\sg}\bs{g}\odot(\bs{x}-\mu)+\bs{b}\)

  \([1\times D]=[1\times D]\odot[1\times D]+[1\times D]\)

です。ここで \(\bs{g}\) と \(\bs{b}\) は学習で決まるベクトル(=パラメータ)です。


Feed Forward Network


図18e.jpg

ベクトルごとに処理される、2層の全結合ニューラル\(\cdot\)ネットワークです。第1層の活性化関数は \(\mr{ReLU}\) で、第2層(出力層)には活性化関数がありません。3つのレイヤーで表現すると次の通りです。

図24:Feed Forward Network.jpg
図24:Feed Forward Network

ニューロンの数(=ベクトルの次元)は、
 入力層:\(D\)
 第1層:\(D_{ff}=4\times D\)
 出力層:\(D\)
です。計算を式で表すと(系列の \(i\) 番目を示す \(\bs{x}_i,\:\:\bs{y}_i\) の \(i\) は省略)、

 \(\bs{y}=\mr{ReLU}(\bs{x}\bs{W}_1+\bs{b}_1)\cdot\bs{W}_2+\bs{b}_2\)

です。第1層の次元を入力\(\cdot\)出力層の4倍にとるのは、そのようにするのが Transformer の性能(たとえば、翻訳文の質)が最も向上するからです。GPT-3、ChatGPT も踏襲しています。

Masked Multi Head Attention
図18f.jpg

デコーダ側にある Masked Multi Head Attention の説明をします。系列のトークンの列を、

 \(\{\:\bs{x}_1,\:\cd\:,\:\bs{x}_{t-1},\:\bs{x}_t,\:\bs{x}_{t+1},\:\cd\:,\:\bs{x}_S\:\}\)

とし、いま \(\bs{x}_t\) に着目しているとします。

 \(\bs{x}_i\:\:\:(1\leq i\leq t)\:\longrightarrow\) 過去のトークン
 \(\bs{x}_i\:\:\:(t < i\leq S)\:\longrightarrow\) 未来のトークン

と呼ぶことにします。着目しているトークンを基準に、系列でそれ以前のトークンが「過去」、次以降のトークンが「未来」です。

日本語から英語に翻訳する Transformer を例にとると、デコーダの推論時には、英文のトークンを一つずつ推論していきます。つまり、

 [BOS] \(\longrightarrow\) [I]
 [BOS] [I] \(\longrightarrow\) [am]
 [BOS] [I] [am] \(\longrightarrow\) [a]
 [BOS] [I] [am] [a] \(\longrightarrow\) [cat]
 [BOS] [I] [am] [a] [cat] \(\longrightarrow\) [EOS]

といった具合です(図21)。このときの各ステップにおけるアテンション処理は、当然ですが、末尾のトークンから生成済みのトークン(=過去のトークン)に対して行われます。つまり「トークンが注意を向ける先は常に過去のトークン」です。「すでに生成済みのトークンの情報だけから次にくるトークンを推論する」のがデコーダなので、これは当然です。

一方、デコーダの訓練時のことを考えると、

(入力データ)[BOS] [I] [am] [a] [cat]
      
(教師ラベル)[I] [am] [a] [cat] [EOS]

で(図20)、入力データとしては系列のトークンが全部与えられています。しかしここで未来のトークンに注意を向けてしまうと、推論時との不整合が起きてしまいます。そこで

未来のトークンには注意を向けない。自分自身を含む過去のトークンにだけ注意を向ける

という配慮が、デコーダ側のアテンション処理では必要になります。この配慮をした注意機構が Masked Multi Head Attention です。一方、エンコーダ側では、訓練時も推論時も、

 [我が輩] [は] [猫] [で] [ある]

という系列が一括して与えられるので(図20、図21)、未来のトークンに注意を向けても問題ありません。またデコーダ側からエンコダー側に注意を向けるのもかまいません。

この「過去のトークンにだけ注意を向ける」ことを数式で表現するには、\([S\times S]\) のマスク行列、\(\bs{M}\) を次のように定義します。

 \(\bs{M}=\left(\begin{array}{c}
0&\phantom{0}&\phantom{0}&\phantom{0}&\phantom{0}\\
\phantom{0}&\large\ddots&\phantom{0}&\huge\textrm{-}\infty&\phantom{0}\\
\phantom{0}&\phantom{0}&0&\phantom{0}&\phantom{0}\\
\phantom{0}&\huge0&\phantom{0}&\large\ddots&\phantom{0}\\
\phantom{0}&\phantom{0}&\phantom{0}&\phantom{0}&0\\
\end{array}\right)\)  \([S\times S]\)

このマスク行列は、
・ 対角項:\(0\)
・ 行列の左下(行番号\( > \)列番号):\(0\)
・ 行列の右上(行番号\( < \)列番号):\(-\infty\)
です。これを、アテンションの計算式の \(\mr{Softmax}\) 関数の内側に足し込みます。\(h\) 番目のヘッドに着目したアテンションの計算式は、

\(\bs{Y}^h=\mr{Softmax}\left(\dfrac{1}{\sqrt{d}}\bs{Q}^h\cdot(\bs{K}^h)^T\right)\cdot\bs{V}^h\)

  \([S\times d]=\mr{Softmax}([S\times d]\cdot[d\times S])\cdot[S\times d]\)

でした。これに \(\bs{M}\) を足し込むと、

\(\bs{Y}^h=\mr{Softmax}\left(\dfrac{1}{\sqrt{d}}\bs{Q}^h\cdot(\bs{K}^h)^T+\bs{M}\right)\cdot\bs{V}^h\)

  \([S\times d]=\mr{Softmax}([S\times d]\cdot[d\times S]+[S\times S])\cdot[S\times d]\)

となります。\(\mr{Softmax}\) 関数は、ベクトル(上式では行列の1行)の各要素の \(\mr{exp}()\) をとります。従って、要素が \(-\infty\) だと \(\mr{exp}(-\infty)=0\) となり、\(\mr{Softmax}\) 関数にとってはその要素が無いのと同じことになります。

上式の \(\mr{Softmax}\) 関数の内側は \([S\times S]\) の行列ですが、縦方向が系列全体のクエリ・ベクトルに対応し、横方向が系列全体のキー・ベクトルに対応しています。そのため、マスク行列を足し込むと、アテンション処理において過去のトークンだけに注意が行き、未来のトークンには注意が行かない(=結果としてバリュー・ベクトルが加重和されない)ようになるのです。

こうして求めた行列 \(\bs{Y}^h\) の \(i\) 行目をベクトル、

 \(\bs{y}_i^h\:\:[1\times d]\:\:(1\leq h\leq H)\)

とすると、これ以降の処理はマスク行列がない場合と同じです。つまり \(H\) 個のベクトル \([1\times d]\) を単純結合して一つのベクトル \([1\times D]\) にし、さらに Linear 変換をしてアテンション処理からの最終出力にします。

 \(\bs{y}_i=\mr{Concat}(\bs{y}_i^1,\:\bs{y}_i^2,\:\cd,\:\bs{y}_i^H)\cdot\bs{W}_O\)

\(\begin{eqnarray}
&&\:\: [1\times D]&=\mr{Concat}([1\times d],\:\cd\:)\cdot[D\times D]\\
&&&=[1\times D]\cdot[D\times D]\\
\end{eqnarray}\)

わざわざ \(\mr{exp}(-\infty)\) を持ち出してマスク行列を使うのは、話をややこしくするだけのようですが、マスク行列を使った Masked Multi Head Attention の計算式を見ると、線型変換と \(\mr{Softmax}\) 関数だけからできています。ということは、「過去のトークンだけに注意を向けるアテンション計算は微分可能」であり、誤差逆伝播の計算が成り立つことがわかります。

確率生成
図18g.jpg

Transformerのデコーダの最終部分は、推論結果である \(D\) 次元のベクトルを、語彙集合の中での確率ベクトルに変換する部分です。計算式で書くと、

 \(\bs{y}=\mr{Softmax}(\bs{x}\cdot\bs{W}_{\large dec})\)
  \([1\times V]=\mr{Softmax}([1\times D]\cdot[D\times V])\)

です(系列の \(i\) 番目を示す \(\bs{x}_i,\:\:\bs{y}_i\) の \(i\) は省略)。\(\bs{W}_{\large dec}\) は、前回の word2vec のところに出てきた、\(D\)次元の埋め込みベクトルを \(V\) 次元の確率ベクトルに変換する行列です。


以上で Transformer のアーキテクチャの説明は終わりですが、全体を振り返ると、

アテンションだけが系列全体に関わる処理であり、あとはすべてベクトル(トークン)ごとの処理である

ことがわかります。以降は、この中で鍵となる「アテンション」と「Feed Foward Network」についての補足です。


アテンションの意義


一般のニューラル・ネットワークにおいて、隣合った2つの層、\(\bs{x}\) と \(\bs{y}\) が同じニューロン数 \(D\) だとします。活性値を、

\(\begin{eqnarray}
&&\:\:\bs{x}=\{x_1, &x_2, &\cd\:,&x_D\}\\
&&\:\:\bs{y}=\{y_1, &y_2, &\cd\:,&y_D\}\\
\end{eqnarray}\)

とし、重み行列を \(\bs{W}\)、バイアスはなし、活性化関数を \(\mr{ReLU}\) とするると、

 \(\bs{y}=\mr{ReLU}(\bs{x}\cdot\bs{W})\)

です。重み \(\bs{W}\) は誤差逆伝播法による訓練で決まり、推論時には一定の値です。Transformer のアテンション機構もこれと似ています。アテンションは、

 入力ベクトル列 :\(\bs{x}_i\:\:\:(1\leq i\leq S)\)
 出力ベクトル列 :\(\bs{y}_i\:\:\:(1\leq i\leq S)\)

の間の変換をする機構だからです。ニューラル\(\cdot\)ネットワークの活性値(実数値)がベクトルに置き換わったものと言えます。ヘッドが1つの場合(Single Head Attension)で図示すると、次の通りです。

図25:注意機構.jpg

図25:注意機構
ヘッドが1つの場合の計算処理である。ヘッドが複数の場合も本質は同じで、この計算処理を独立して複数個行ない、結果を結合して出力とする。

しかし、この図は一般のニューラル\(\cdot\)ネットワークとは決定的に違います。重み行列 \(\bs{W}_Q,\:\:\bs{W}_K,\:\:\bs{W}_V\) は推論時には一定ですが、実際に \(\bs{x}_i\) と \(\bs{y}_i\) の関係性を決めているのは、クエリ・ベクトル \(\bs{Q}\) とキー・ベクトル \(\bs{K}\) であり、これは入力ベクトル列 \(\bs{x}_i\) の内容にもろに依存しているからです。つまり、

注意機構により、ネットワークの "ありよう"(結合状態と結合強度)が、入力データの内容に依存して、ダイナミックに変化する

と言えます。\(\bs{x}_1\) の値を変えると、その影響は \(\bs{y}_i\:\:(1\leq i\leq S)\) の全体に及びます。それは、「\(x_1\) を変えると \(y_i\) の全部が変わる」という一般のニューラル\(\cdot\)ネットワークと同じではありません。一般のニューラル\(\cdot\)ネットワークを関数とみなすと、「関数は一定だが、入力が変わるから出力も変わる」のです。それに対して注意機構は「入力が変わると関数の形まで変わる」とみなすことができるでしょう。もちろん、実際には図25のように関数は一定なのですが、一般のニューラル\(\cdot\)ネットワークとの比較で言うと、そうみなせるということです。

この柔軟性とダイナミックな(動的な)性格が、Transformer に大きなアドバンテージをもたらしました。次章の GPT-3 / ChatGPT が実現している「本文中学習(In Context Learning)」はその一つです。ChatGPT では、プロンプトを変える、ないしは文言を追加すると、応答が大きく変わることがあります。また、欲しい応答の表現形式を例示したプロンプトをすると、その形式どおりのに応答がきたりします。あたかも、プロンプトからその場で学んだように見えるのが In Context Learning です。しかし、ニューラル・ネットワークのパラメータは、推論時にはあくまで一定であり、決してその場で学んでいるわけではありません。この "あたかも" を作り出しているのが "注意機構"です。


Feed Forward Network の意味


Transformer のアーキテクチャは、注意機構の後ろに Feed Forward Network(FFN) が接続され、このペアが多層に積み重ねられています。この FFN の意味は何でしょうか。

FFN は、注意機構と違ってベクトルごとの処理です。論文では "Position-wise(位置ごとの)Feed Forward Network" と書いてあります。ということは、系列の文脈には依存しないということです。つまり Transformer の訓練を通して、ベクトル(トークンの中間表現)が本来持っている性格や関連情報が、FFN の重みの中に蓄えられると考えられます。AI の専門家である、プリファードネットワークス社の共同創業者の岡野原大輔氏は、著書の『大規模言語モデルは新たな知能か』の中で次のように書いています。


トランスフォマーは、自己注意機構と MLP ブロックと呼ばれる単位を交互に重ねていき、データを処理するモデルである。

MLP ブロックは、三層の全結合層(前の層のすべてのニューロンが次の層のすべてのニューロンとつながっている)とよばれる層を使った多重パーセプトロン(Multi-Layer Perceptron)とよばれるニューラルネットワークを使ったブロックであり、自己注意機構で集めた情報ををもとにそれを変換する部分である。

しかし、MLP ブロックは実は、学習中に出会った情報を保存しておき、今処理している内容と関係しそうな情報を読み出して処理している長期記憶に対応する部分だとみなすことができる。どの情報を保存し、どの情報とどの情報を関連づける(記憶でいえば想起する)のかを判断する機能が、あくまで次の単語を予測できるようにするという目的を達成するための重みを修正する過程で、自動的に実現される。その結果、今後必要そうな情報を記憶し、またそれを必要に応じて読みだすことができる。

岡野原 大輔 
「大規模言語モデルは新たな知能か」
(岩波書店 2023)

岡野原氏が「多重パーセプトロン(Multi-Layer Perceptron : MLP)と書いているのは FFN のことです。ちなみに入力層(第0層)を含めて「三層」という言い方になっています。


ここで、FFN のパラメータ数を求めてみます。バイアスを無視すると、

 \(\bs{W}_1\:\:[D\times D_{ff}]\)
 \(\bs{W}_2\:\:[D_{ff}\times D]\)
  \(D\) : 埋め込みベクトルの次元
  \(D_{ff}=4D\)

なので、

 FFN のパラメータ数\(=8D^2\)

です。一方、Multi Head Attention で、
 \(H\) : ヘッドの数
 \(d=\dfrac{D}{H}\)
とすると、\(h\)番目のヘッドの \(QKV\) を作る行列は、

 \(\bs{W}_Q^h\) \([D\times d]\)
 \(\bs{W}_K^h\) \([D\times d]\)
 \(\bs{W}_V^h\) \([D\times d]\)

であり、これらを足すとパラメータ数は \(3Dd\) ですが、この組が \(H\) セットあるので、合計は \(3DdH=3D^2\) です。さらに、単純結合したあとの Linear 変換行列である、

 \(\bs{W}_O\) \([D\times D]\)

が加わるので、結局、

 MHA のパラメータ数\(=4D^2\)

です。ということは、

 FFN のパラメータ数は、MHA のパラメータ数の2倍

ということになります。パラメータ数だけの単純比較はできませんが、FFN が極めて多い情報量=記憶を持っていることは確かでしょう。それが、大量の訓練データの中から関連する情報を記憶し、また推論時にそれを想起することを可能にしています。

論文のタイトルは "Attention Is All You Need" で、これは従来の機械翻訳の技術では補助的役割だった Attention を中心に据えたという意味でしょう。しかし技術の内実をみると、決して「アテンションがすべて」ではなく「アテンション機構と多重パーセプトロンの合わせ技」であり、しかもそれを多層に重ねたのが Transformer なのでした。

前回でニューラル・ネットワークの例とした多重パーセプトロンは、ニューラル・ネットワークの研究の歴史の中で最も由緒あるもので、1980年代に盛んに研究されました。それが、2010年代半ばから研究が始まった "アテンション機構" と合体して Transformer のアーキテクチャになり、さらには ChatGPT につながったのが興味深いところです。

 
4.GPT-3 と ChatGPT 
 

OpenAI 社は、GPT(2018)、GPT-2(2019)、GPT-3(2020)、ChatGPT(2022)と発表してきましたが、技術内容が論文で公開されているのは GPT-3 までです。また、ChatGPT の大規模言語モデルは GPT-3 と同じ仕組みであり、大幅に学習を追加して一般公開できるようにしたのが ChatGPT です。ここではまず GPT-3 の仕組みを説明します。

GPT-3 のアーキテクチャ
GPT は Generative Pre-trained Transformer の略です。generative とは "生成型の"、pre-trained は ""事前学習済の" という意味で、Transformer は Google が 2017年に提案した Transformer を指します。

訳すると "事前学習済の生成型トランスフォーマー" となるでしょう。Transformer は「変換器」という意味でした。とすると「生成型の変換器」とは言葉が矛盾しているようですが、実は GPT は Transformer のアーキテクチャのデコーダ部分だけを使った大規模言語モデルです。だから「生成型変換器」なのです(下図)。

図18h.jpg
GPT は上図の Transformer のアーキテクチャから赤枠の部分のみを使っている。

この「デコーダ部分だけを使う」という発想が、OpenAI の技術者の慧眼でした。デコーダだけで系列変換(機械翻訳、文章要約、質問応答、・・・・・・ )ができるはず、という発想が GPT に柔軟性と大きな能力を与えました。GPT-3 のアキテクチャーは以下のようです。

図26:GPT-3 のアーキテクチャ.jpg
図26:GPT-3 のアーキテクチャ

このアキテクチャーは、Transformer から「エンコーダとエンコーダ関連部分」を取り去ったものです。ただし、次が違います。

① Position Encoding における位置符号ベクトルは、学習で決まるパラメータとします。Transformer では固定的な \(\mr{sin}/\mr{cos}\) 波でした。

② レイヤー正規化を Masked Multi Head Attetion と Feed Forward Network の直前に行います。Transformer では、それぞれの後にレイヤー正規化が配置されていました。

③ Feed Forward Network の活性化関数は \(\mr{GELU}\) を使います。Transformer では \(\mr{ReLU}\)です(\(\mr{GELU}\) については前回参照)。

これらはいずれも、学習の安定化と高速化のための工夫です。さらに GPT-3 は Transformer に比べてモデルの規模が大きく拡大されています。

 ・埋め込みベクトルの次元 \(D=12288\)
    \((\)Transformer \(:\:512\) の \(24\)倍\()\)
 ・デコーダブロックの積層数 \(N=96\)
    \((\)Transformer \(:\:6\) の \(16\)倍\()\)
 ・アテンションのヘッドの数 \(H=96\)
    \((\)Transformer \(:\:8\) の \(12\)倍\()\)

です。大規模言語モデルでは、モデルの規模と学習量の拡大を続けると、それにともなって性能(たとえば機械翻訳の精度)が上がり続けるという「スケール則」がみられました。これは一般の深層学習のニューラル\(\cdot\)ネットワークにはない特徴です。このスケール則を信じ、アーキテクチャをシンプルにしつつ、モデルの規模を「桁違いに」拡大した OpenAI 社と出資した会社(マイクロソフト)の勝利でしょう。

このアーキテクチャのパラメータ数をカウントしてみます。

 ・トークンの語彙数 \(V\)
 ・埋め込みベクトルの次元 \(D\)
 ・系列の長さ \(S\)
 ・デコーダの積層数 \(N\)

とします。GPT-3 の具体的な数値は、

 \(V\)\(=50257\)
 \(D\)\(=12288\)
 \(S\)\(=\phantom{1}2048\)
 \(N\)\(=\phantom{111}96\)

です(\(V\) の値については前回参照)。学習で決まる行列やベクトルを順にカウントしていくと次のとおりです。

 (1) Embedding と確率生成 


  \(\bs{W}_{\large enc}\) \([V\times D]\)
  \(\bs{W}_{\large dec}\) \([D\times V]\)

  \(\rightarrow\) パラメータ数\(=2VD\)

 (2) Positional Encoding 

  \(\bs{p}\) \([S\times D]\)

  \(\rightarrow\) パラメータ数\(=SD\)

 (3) Masked Multi Head Attention 

  \(\bs{W}_Q\) \([D\times D]\) ※
  \(\bs{W}_K\) \([D\times D]\) ※
  \(\bs{W}_V\) \([D\times D]\) ※
  \(\bs{W}_O\) \([D\times D]\)

  \(\rightarrow\) パラメータ数\(=4D^2\)

※ GPT-3 のヘッドの数は \(H=96\) なので、\(\bs{W}_Q,\:\:\bs{W}_K,\:\bs{W}_V\) はそれぞれ \(96\)個の部分行列に分かれていますが、パラメータ数の全体は上式のとおりです。

 (4) Feed Forward Network 

  \(\bs{W}_1\) \([D\times4D]\)
  \(\bs{b}_1\) \([1\times4D]\)
  \(\bs{W}_2\) \([4D\times D]\)
  \(\bs{b}_2\) \([1\times D]\)

  \(\rightarrow\) パラメタ数\(=8D^2+5D\)

 (5) Layer Nomaliation (2レイヤー) 

  \(\bs{g}\) \([1\times D]\)
  \(\bs{b}\) \([1\times D]\)

  \(\rightarrow\) パラメタ数\(=2\times2D=4D\)


(3), (4), (5) は \(\times\:N\) に積層されていることに注意して総パラメータ数を計算すると、

 総パラメータ数
  \(=\:2VD+SD+N(4D^2+8D^2+5D+4D)\)
  \(=\:2VD+SD+N(12D^2+9D)\)
  \(=\) \(\bs{175,217,074,176}\)

となり、約 1752億となります。一般に言われているパラメータ数が 1750億というのは、英語の 175B(B = Billion = 10億)の日本語訳で、Billion 単位にしたパラメータ数です。

GPT-3 が系列の次のトークンを推論するとき、1752億のパラメータの全てを使った演算が行われます(図21)。40文字の日本語文章を 60トークンだとすると、 わずか 40文字の日本語文章を生成するために、1752億のパラメータの全てを使った演算が 60回行われるということです。

また、1752億のパラメータがすべて 32ビットの浮動小数点数(4バイト)だとすると、パラメータのためだけに

 653ギガバイト(1ギガ = \(1024^3\) 換算)

のメモリが必要になります。業務用コンピュータ・システムの開発経験者ならわかると思いますが、これだけのデータ量を常時抱えつつ、更新やリアルタイムの推論を行うシステムを開発・運用するのは、ちゃんとやればできるでしょうが、かなり大変そうな感じです。


GPT-3 のアーキテクチャを振り返ってみると、Transformer のデコーダ部分だけを採用したことによる、Transformer との違いがあることに気づきます。それは、

Transformer には「過去と未来の両方に注意を向けるアテンション機構」と「過去にだけ注意を向けるアテンション機構」の両方があるが、GPT-3 には「過去にだけ注意を向けるアテンション機構」しかない

ことです。言うまでもなく、アテンション機構は Transformer / GPT-3 の "キモ" です。そのキモのところに違いがある。

人間の言語活動(発話・文章作成)では「過去の単語との整合性を考慮しつつ、未来の単語を想定して次の単語を決める」ことが多々あります。このことは、機械翻訳では、翻訳前の「原文」を処理するエンコーダ側の「過去と未来の両方に注意を向けるアテンション機構」で実現されています(Mask がない Multi Head Attention)。

しかし GPT-3 では様子が違ってきます。事前学習(次項)だけの GPT-3 で機械翻訳がなぜできるかというと、

 [ 原文 ] を翻訳すると [ 翻訳文 ] です

といった対訳(に相当するデータ)が訓練データの中に多数あるからです(GPT-2 の論文による)。この「原文」の部分のアテンション処理において、「原文」の中の未来の単語に注意が向くことはありません(Masked Multi Head Attention しかないから)。このことにより翻訳の精度が Transformer とは違ってくる(精度が落ちる)と想定できます。

こういった "問題" は、大規模言語モデルを "超大規模" にすることで解決するというのが、GPT-3 の開発方針だと考えられます。1752億という膨大なパラメータ数が、それを表しています。

GPT-3 の訓練
GPT-3 の訓練は、
 ・WebText
 ・電子ブック
 ・Wikipedia
をもとに行われました。WebText は "訓練に使うべきではない" テキストを除外してあります。集められたテキストの量はトークンの数でカウントすると、
 ・WebText \(4290\)億
 ・電子ブック \(\phantom{42}67\)億
 ・Wikipedia \(\phantom{42}30\)億
です。これらのテキストからランダムに選んだミニバッチを作り、「ミニバッチ勾配降下法」(前回参照)で訓練が行われました。但し、Wikipedia などの "信頼性が高いテキスト" は、より多くミニバッチに選ばれるような工夫がしてあります。訓練は、使われたテキストが、トークン数で延べ \(3000\)億になったところで打ち切られました。

訓練は、Transformer のデコーダのところでで説明したように「ひたすら次のトークンの予測をする」というものです。この「次のトークンの予測」について補足しますと、前回、GPT のトークン化のロジックである BPE(Byte Pair Encoding)のことを書きました。これによると、UTF-8 では改行も空白も文字として扱われるので、改行、空白のそれぞれにトークンID が割り当てられることになります。

これから言えることは、テキストを学習するということは、その意味内容だけでなく、テキストの表現形式も学習するということです。つまり、段落、字下げ、箇条書きなどの形式です。訓練が終わった 1752億のパラメータには、そういった "表現形式に関する知識" も含まれていることに注意すべきでしょう。

以上のように、一般的に入手できるテキストだけを使ってニューラル・ネットワークを訓練することを「事前学習」と言います。このような事前学習を行った上で、機械翻訳や質問応答などのタスク別に専用に作成した訓練データで「目的別学習」を行うのが、言語モデルの定番の学習手法です。あらかじめ事前学習を行った方が言語モデルの性能が良くなるからです。目的別学習を "ファイン・チューニング" と言います。

GPT-3 は、それまでの GPT、GPT-2 と違って、ファイン・チューニングなしの言語モデルを狙ったものです。つまり、

事前学習済みの(=事前学習だけの)、生成型の(=デコーダだけの)トランスフォーマー

と言えるでしょう。実際 GPT-3 は、ファイン・チューニングを行った言語モデルと比較しても、"そこそこの"、ないしは "同等の" 性能であることが分かりました。もちろんファイン・チューニング済の言語モデルに劣るタスクも多々あります。しかし全体としては "そこそこの" 性能を示します。「ニューラル・ネットワークの超大規模化」と「大量の訓練データ」によってそれが可能であることを、GPT-3 は示したのでした。

ChatGPT
ChatGPT は GPT-3 のアーキテクチャと事前学習をもとに、さらに「目標駆動型学習」を追加したものです。ここでの目標駆動型学習とは「人間にとって好ましい応答の例を人間が作り、それを目標として、そこに近づくように学習する」という意味です。OpenAI 社は RLHF(Reinforcement Learning by Human Feedback:人間のフィードバックによる強化学習)と呼んでいます。これは一種のファイン・チューニングであると言えます。

この、目標駆動型学習をどうやるか、その詳細が OpenAI 社のノウハウでしょう。考えてみると、GPT-3 の(従って ChatGPT の)アーキテクチャはシンプルあり、これをシステム上に実現するのは、コンピュータ技術とAI技術、ハードウェアの調達(特にGPU)、そしてお金の問題です。事前学習に使う WebText にしても、世界中から集めて公開している団体があります(GPT-3 でも使われた Common Crawl)。お金がある(かつ投資意欲がある)大手IT企業なら、システム構築は難しくない。

しかし「人手で作った訓練データをもとに、人にとって違和感がない対話ができるまでに訓練する」のは、Transformer の性質や "癖 を熟知していないとできないと考えられます。そこにノウハウがあるはずです。

その目標駆動型学習の概要を、先ほど引用した岡野原氏の「大規模言語モデルは新たな知能か」では、次のような3つのステップで説明しています。この説明は専門用語を最小にした簡潔なものなので、以降これに沿って書きます。


  ラベラーが望ましい対話の例を作り、それを生成できるように言語モデルを教師あり学習で修正する。

このステップでは理想的な回答例を直接学習することができるが、工数がかかるため、大量の模範解答例を作ることはできない。あくまで大規模言語モデルの基本的な部分を修正するだけである。

  複数の異なるモデルによって生成されたプロンプトに対する回答例を、ラベラーが、どの回答が良かったか悪かったか、良い順にランキングする。このランキングをもとに、自動評価システムが回答を評価できるようにする。

このステップでは、生成された対話が良い対話かどうかを自動的に評価できるシステムを作ることが目標である。自動評価システムを作ること自体難しいタスクだが、言語を理解している大規模言語モデルの内部状態を入力として、自動評価システムが評価を出力することで、高精度に評価を推定できるようにする。

  大規模言語モデルは、その回答結果に対し、自動評価システムが高い評価を与えるようにモデルを強化学習で修正する。

岡野原 大輔 
「大規模言語モデルは新たな知能か」

この岡野原氏の説明を読み解くと、次のようになるでしょう。ラベラーとは訓練データ(教師ラベル)を作る人の意味です。

第1ステップは、機械学習の分野でいう「教師あり学習」です。ここで具体的にどのような訓練をしたのかは、OpenAI 社も公表していません。推測すると「望ましい対話」の例には、人間の質問に「答えられません」や「できません」と応答する訓練データも多数あるのではと思います。たとえば「反社会的行為を助長するような質問」の場合(爆弾の作り方など)です。

さらにこの第1ステップでは、特定のタイプのプロンプトに対して、あたかも ChatGPT が感情をもっているかのように応答する訓練が可能なはずです。それが「望ましい対話」だと OpenAI が判断すればそうなります。

第2ステップは2つのフェーズに分かれています。第1フェーズは、人手によるランキングの作成です。このとき「複数の異なるモデル」を使います。モデルとは言語モデルのことです。実は、GPT-3 を開発する過程においても、パラメータ数の違う複数の言語モデルが開発されていて、最終的に公開されたのが GPT-3 です。またパラメータ数が同じでも、訓練のやり方が違うとパラメータの値が違うので、モデルとしては別です。

このような複数の異なるモデルを選び(4つとします)、同じ入力(プロンプト。\(P\) で表します)に対して、4つの違った応答、\(A,\:B,\:C,\:D\) を得ます。ラベラーは、この \(P/A,\:P/B,\:P/C,\:P/D\) という4つの「プロンプト \(/\) 応答」にランク付けします( \(/\) はプロンプトのあとに応答が続くという意味です)。ランク付けが仮に、

 \(P/A\: > \:P/B\: > \:P/C\: > \:P/D\)

だとします。現実問題としては4つのランク付けは難しいので、2つずつの6つのペアについて、どちらが良いかを決めます。ランク付けの基準について岡野原氏は書いていないのですが、OpenAI 社の公開資料によると、
 ・嘘やデマを含まない
 ・差別的・攻撃的な内容を含まない
 ・ユーザの役に立つ
という基準です。このような「ランク付けデータ」を大量に準備します。これは人に頼る "人海戦術" しかないので、アウトソーシングしたとしてもコストがかかります。

ちなみに、応答が「差別的・攻撃的な内容を含まない」というのは極めて重要です。というのも、過去に「AI を使った Chat システムが差別的発言をするようになり、公開中止に追い込まれる」という事件が何件か発生しているからです(2016年のマイクロソフト、2022年のメタなど)。

特に、メタ(旧フェイスブック)の Galactica 炎上事件(差別的応答による)は、システムの公開日が 2022年11月15日であり、ChatGPT の公開日(2022年11月30日)とほぼ同時期でした。メタがつまづき、ChatGPT がつまづかなかったのは、OpenAI 社が極めて慎重に「反倫理的・反社会的応答」を排除するように訓練したからと考えられます。

第2ステップの第2フェーズは、ランキングのデータをもとに自動評価システムを作ることが目的です。データを入力して評価値(強化学習の用語でいうと "報酬")を出力する関数(=自動評価システム)を \(\mr{Score}()\) と書くと、

 \(\mr{Score}(P/A) > \mr{Score}(P/B) > \mr{Score}(P/C) > \mr{Score}(P/D)\)

となるように関数を決めます。これはニューラル・ネットワークを使って、訓練を繰り返して決めます(強化学習の用語で "報酬モデル")。ここで岡野原氏が指摘しているのは、\(\mr{Score}\) 関数への入力は、

ランキングをつけたデータそのものでなく、目標駆動型学習をしたい大規模言語モデル(この場合は GPT-3)にランキング済みデータを入力したときの、大規模言語モデルの内部状態

だということです。従って、\(\mr{Score}(P/A)\) は、
 \(\mr{Score}(\mr{InnerState}(P/A))\)
と書くべきでしょう。これによって「高精度に評価を推定できる」というのが岡野原氏の説明です。

第3ステップでは、この自動評価システムを使って、プロンプトに対する応答の評価値が最も高くなるように強化学習を行います。このステップには人手を介した評価はないので、大量のプロンプトで学習することができます。

ここで、言語モデル \(\al\) の内部状態を入力とする自動評価システムを \(\mr{Score}_{\large\:\al}\) とし、言語モデル \(\al\) を上記のように訓練した結果、言語モデル \(\beta\) になったとします。すると、同じ「プロンプト/応答」を投入したときの内部状態が、2つの言語モデルで違ってきます。つまり、
 \(\mr{InnerState}_{\large\:\al}(P/A)\neq\mr{InnerState}_{\large\:\beta}(P/A)\)
です。ということは、

\(\mr{InnerState}_{\large\:\beta}\) を入力とする、自動評価システム \(\mr{Score}_{\large\:\al}\) の改訂版、\(\mr{Score}_{\large\:\beta}\) が作れる

ことになります。つまり「第2ステップの第2フェーズ」と「第3ステップ」をループさせて繰り返すことができる。このとき、ラベラーが作ったランキングデータはそのまま使えます。このランキングが絶対評価ではなく相対評価だからです。以上のことから、

自動評価システムと言語モデルは、より正確な評価値を獲得するように "共進化" できる

と言えます。岡野原氏が言っている「高精度に評価を推定できる」とは、こういった "共進化" も含めてのことだと考えられます。このように、目標駆動型学習で鍵となるのは、この「高精度の自動評価システム」です。

補足しますと、ChatGPT が公開された後は、利用者の実際のプロンプトとそれに対する ChatGPT の応答を膨大に集積できます(利用者が拒否しなければ)。この実際の「プロンプト/応答」データの中から自動評価システムの評価が低いものだけを集め、プロンプトへの応答の評価が高くなるように ChatGPT の強化学習ができることになります。ChatGPT から "でたらめな" 応答を引き出そうとする(そして成功すれば喜ぶ)人は多いでしょうから、強化学習のためのデータにはこと欠かないはずです。

以上が、岡野原氏の説明の "読み解き" です。


ここまでをまとめると、次のようになるでしょう。

◆ GPT-3 は、ひたすら次の語を予測することに徹し、大量のテキストで訓練された大規模言語モデルである。その基盤技術は Transformer をシンプルにしたものであり、\(1752\)億のパラメータをもつ巨大ニューラル・ネットワークである。

◆ ChatGPT は GPT-3 をベースに、人手で作った「人にとって好ましい応答例」を訓練データとして学習し、人と違和感なく会話できるようにした大規模言語モデルである。

このような GPT-3 の仕組みでは、計算や論理的推論は本質的にできません。簡単な計算(2桁整数同士のたし算、2次方程式を解くなど)ができる(ように見える)のは、それが訓練データにあるからです。また、正しい論理的推論ができたとしたら、類似の推論が訓練データの中にあるからです。

とはいえ、ChatGPT はバックに語と語の関係性についての膨大な "知識" をもっていて、それによって "規則性" や "ルール" の認識が内部にできているはずです。その中には「人が気づかない」「暗黙の」「意外なもの」があってもおかしくない。それにより、蓄積した知識を "混ぜ合わせて" 正しい推論、ないしは発見的な推論がきることもあり得るはずです。

さらに、人が普段話すのと同じように話せば、その膨大な "知識" が活用できるのは多大なメリットでしょう。もちろん "悪用" される可能性はいつでもありますが、そのことを踏まえつつ、使い方の発見や検討が今後も進むのでしょう。

 
言語の "理解" とは 
 

人の問いかけに対する ChatGPT の応答は、いかにも人らしいものです。もちろん間違いや、変な答え、明らかに事実とは違う応答もあります。しかし、世界中から集めた知識の量は膨大で、言語の壁も越えています。

その "知識" は(GPT-3, ChatGPT では)1752億個のパラメータの中に埋め込まれています。量は膨大ですが、それを処理する仕組みはシンプルです。なぜこれでうまくいくのか、そこが驚異だし、その理由を理解することは難しいでしょう。

もちろん、その中身を解明しようとする研究は進むでしょうが、"理解" は難しいのではと思われます。というのも、「比較的シンプルな記述による、人にフレンドリーな説明」でないと、人は "理解" したとは思わないからです。

しかし考えてみると、我々が言語(母語)を習得でき、かつ自在に扱えるのはなぜか、その脳の働きは、Transformer / ChatGPT と極めて似ているのではないでしょうか。

前回の冒頭で紹介したように、慶応義塾大学の今井教授は、「ChatGPT の仕組み(=注意機構)は、幼児が言語を学習するプロセスと類似している」と指摘していました。今井教授は幼児の言語発達を研究する専門家なのでこの指摘になるのですが、実は Transformer / ChatGPT のやっていることは、幼児のみならず、我々が言葉(母語)を理解してきた(現に理解している)やりかたと酷似していることに気づきます。それは、

外界からくる複雑な情報を丸ごと飲み込んで、ルールを知らないうちから活用する(活用できる)

という言語理解のありようです。もちろん(外からの指摘による)「好ましくない言葉の使い方」であれば訂正します。しかし、学び方も含めて、我々は内発的・創発的に言葉を理解しています。それが我々の脳の働きの重要な一面です。

前回、Transformer がタンパク質の機能分析に使える(可能性がある)ことを書きましたが、さらにヒトの脳の(ある脳領域の)解明に役立つこともありそうです。

大規模言語モデルの外面的な機能は驚異的ですが、さらにその内部の「仕組み」を理解することで、その応用範囲が極めて広いことがわかるのでした。




nice!(0) 

No.365 - 高校数学で理解する ChatGPT の仕組み(1) [技術]

\(\newcommand{\bs}[1]{\boldsymbol{#1}} \newcommand{\mr}[1]{\mathrm{#1}} \newcommand{\br}[1]{\textbf{#1}} \newcommand{\ol}[1]{\overline{#1}} \newcommand{\sb}{\subset} \newcommand{\sp}{\supset} \newcommand{\al}{\alpha} \newcommand{\sg}{\sigma}\newcommand{\cd}{\cdots}\)
前回の No.364「言語の本質」の補足で紹介した新聞記事で、慶応義塾大学の今井教授は、

ChatGPT の「仕組み」(=注意機構)と「メタ学習」は、幼児が言語を学習するプロセスと類似している

と指摘していました。メタ学習とは「学習のしかたを学習する」ことですが、 ChatGPT がそれをできる理由も「注意機構(Attention mechanism)」にあります。そこで今回は、その気になる ChatGPT の仕組みをまとめます。

今まで「高校数学で理解する ・・・・・・」というタイトルの記事をいくつか書きました。


の 13 の記事です。"高校数学で理解する" という言い方は、「高校までで習う数学だけを前提知識として説明する」という意味ですが、今回もそれに習います。もちろん、文部科学省の学習指導要領は年々変わるので、"おおよそ高校までの数学" が正しいでしょう。今回、前提とする知識は、
・ 行列
・ ベクトル
・ 指数関数、対数
・ 微分、積分
・ 標準偏差と正規分布(ガウス分布)
です。ChaGPT は "ニューラル・ネットワーク"、ないしは "深層学習(ディープ・ラーニング)" の技術を使った AI ですが、こういった知識は前提とはしないことにします。つまり、ニューラル・ネットワークについては、その基礎から(必要なものだけに絞って)順を追って説明します。


全体の構成


全体の構成は次の4つです

1.ニューラル・ネットワーク

ニューラル・ネットワークの基礎から始まって、最も重要なポイントである「学習できる」ことを説明をします。

2.自然言語のモデル化

自然言語をニューラル・ネットワークで扱う際に必須である「単語の分散表現」を説明します。また、「言語モデル」と、ChatGPT で使われている「トークン」についても説明します。

3.Transformer

ChatGPT のベースになっている技術は、2017年に Google社が発表した Transformer です。この説明をします。

4.GPT-3 と ChatGPT

OpenAI 社は、GPT(2018)、GPT-2(2019)、GPT-3(2020)、ChatGPT(2022)と発表してきましたが、技術内容が論文で公開されているのは GPT-3 までです。また、ChatGPT の大規模言語モデルは GPT-3 と同じ仕組みであり、大幅に学習を追加して一般公開できるようにしたのが ChatGPT です。

ここでは GPT-3 の仕組み・技術内容を説明し、合わせて ChatGPT と GPT-3 の違いも説明します。

なお、この記事の作成には、Google と OpenAI の論文に加えて、以下を参考にしました。

◆岡野原 大輔(プリファードネットワークス)
 「大規模言語モデルは新たな知能か」
 (岩波書店 2023)

◆澁谷 崇(SONY)
 「系列データモデリング (RNN/LSTM/Transformer)」
   第7回「Transformer」
   第12回「GPT-2, GPT-3」
 (YouTube 動画)

 
1.ニューラル・ネットワーク 
 

記号
以降で使用する記号の意味は次の通りす。

◆ ボールド体ではない、ノーマル書体の英大文字・小文字はスカラー値(ないしはスカラー変数)を表します。\(a,\:\:b,\:\:x,\:\:y,\:\:x_1,\:w_{12},\:\:M,\:\:N,\:\:L\) などです。

◆ ボールド体の英大文字は行列を表します。\(\bs{W}\) などです。 \(N\) 行、\(M\) 列 の行列を \([N\times M]\) と表記します。\(\bs{W}\:[2\times3]\) は、2行3列の行列 \(\bs{W}\) で、
 \(\bs{W}=\left(\begin{array}{r}w_{11}&w_{12}&w_{13}\\w_{21}&w_{22}&w_{23}\\\end{array}\right)\)
です。

◆ ボールド体の英小文字はベクトルを表します。ベクトルは「行ベクトル」で表現し、\(n\)次元のベクトル \(\bs{x}\) は、
 \(\bs{x}=\left(\begin{array}{r}x_1&x_2&\cd&x_n\\\end{array}\right)\)
です。この \(n\)次元のベクトルを、\(1\) 行 \(n\) 列の行列と同一視します。従って次元の表記は \(\bs{x}\:[1\times n]\) です。

◆ 列ベクトルは、転置行列の記号(\({}^T\))を使って、
 \(\bs{x}^T\)
で表します。たとえば、3次元の列ベクトルは3次元の行ベクトルの転置を使って、
 \(\bs{x}^T=\left(\begin{array}{r}x_1\\x_2\\x_3\\\end{array}\right)\:\:[3\times1]\)
です。

◆ 同一次元の2つのベクトル \(\bs{x}\:\:\bs{y}\) の内積(スカラー積、ドット積)は、
 \(\bs{x}\bs{y}^T\)
で表します。ドッド記号(\(\cdot\))は内積ではなく、行列の積(または実数値同士の積)です。ただし、一般的に行列の積は、\(\bs{x}\bs{y}^T\) のように積記号を省略します。

◆ 同一次元の2つのベクトルの「対応する要素同士の積」で作ったベクトルを「要素積」(ないしはアダマール積)と呼び、\(\odot\) の記号で表します(一般的には \(\otimes\) の記号も使います)。\(n\)次元ベクトル同士の要素積は、
 \(\left(\begin{array}{r}x_1&x_2&\cd&x_n\\\end{array}\right)\odot\left(\begin{array}{r}y_1&y_2&\cd&y_n\\\end{array}\right)\)
   \(=\left(\begin{array}{r}x_1y_1&x_2y_2&\cd&x_ny_n\\\end{array}\right)\)
です。要素積は、行数・列数が同一の2つの行列にも適用します。

◆ 指数関数、\(f(x)=e^x\) を、
 \(f(x)=\mr{exp}(x)\)
と表記します。

◆ \(n\)次元ベクトルを \(\bs{x}=\{x_1\:x_2\:\cd\:x_n\}\) とし、1変数の関数 \(f(x)\) があるとき、ベクトル \(f(\bs{x})\) を、
 \(f(\bs{x})=\left(\begin{array}{r}f(x_1)&f(x_2)&\cd&f(x_n)\\\end{array}\right)\)
で定義します。

ニューラル・ネットワークの例
2層から成るシンプルなニューラル・ネットワークの例が図1です。この例では隠れ層が1つだけですが、隠れ層は何層あってもかまいません(なお、入力層を含めて、これを "3層" のニューラル・ネットワークとする定義もあります)。

図1:ニューラル・ネットワーク.jpg
図1:ニューラル・ネットワーク

丸印は "ニューロン" で、各ニューロンは1つの値(活性値)をもちます。値は実数値で、32ビットの浮動小数点数が普通です。図1のニューロンの数は 3+4+3=10 個ですが、もちろんこの数は多くてもよく、実用的なネットワークでは数100万から億の単位になることがあります。

ニューロン間の矢印が "シナプス" で、一つのニューロンは、シナプスで結ばれている前の層のニューロンから値を受けとり、決められた演算をして自らの値を決めます(入力層を除く)。なお、"ニューロン" や "シナプス" は脳神経科学の用語に沿っています。

各層は、重み \(\bs{W}\)(行列)とバイアス \(\bs{b}\)(ベクトル)、活性化関数 \(f\) を持ちます。図1の場合、第1層の重みは \(\bs{W}\:\:[3\times4]\)、バイアスは \(\bs{b}\:\:[1\times4]\) で、

 \(\bs{W}=\left(\begin{array}{r}w_{11}&w_{12}&w_{13}&w_{14}\\w_{21}&w_{22}&w_{23}&w_{24}\\w_{31}&w_{32}&w_{33}&w_{34}\\\end{array}\right)\)

 \(\bs{b}=\left(\begin{array}{r}b_1&b_2&b_3&b_4\\\end{array}\right)\)

です。このとき、隠れ層(第1層)のニューロンの活性値、\(\bs{h}=\left(\begin{array}{r}h_1&h_2&h_3&h_4\\\end{array}\right)\) は、

 \(h_1=f\:(\:x_1w_{11}+x_2w_{21}+x_3w_{31}+b_1\:)\)
 \(h_2=f\:(\:x_1w_{12}+x_2w_{22}+x_3w_{32}+b_2\:)\)
 \(h_3=f\:(\:x_1w_{13}+x_2w_{23}+x_3w_{33}+b_3\:)\)
 \(h_4=f\:(\:x_1w_{14}+x_2w_{24}+x_3w_{34}+b_4\:)\)

の式で計算されます。ベクトルと行列で表示すると、

 \(\bs{h}=f\:(\bs{x}\cdot\bs{W}+\bs{b})\)

になります。第2層も同様です。

このニューラル・ネットワークは、多重パーセプトロン(Multi Layer Perceptron : MLP)と呼ばれるタイプのもので、ニューラル・ネットワークの歴史の中では、古くから研究されている由緒のあるものです。

また上図の第1層、第2層は、すべてのニューロンが前層のすべてのニューロンとシナプスを持ってます。このような層を「全結合層」(Fully connected layer. FC-layer. FC層)と言います。全結合の多重パーセプトロンは Transformer や GPT で使われていて、重要な意味を持っています。

図2:ReLU 関数.jpg
図2:ReLU 関数
活性化関数 \(f\) は、隠れ層では、\(\mr{ReLU}\) 関数(Rectified Linear Unit:正規化線形ユニット)を使うのが普通です。\(\mr{ReLU}\) 関数は、

\(\mr{ReLU}(x)=x\:\:(x > 0)\)
\(\mr{ReLU}(x)=0\:\:(x\leq0)\)

で定義される非線形関数です(図2)。以降での表記を簡潔にするため、単位ステップ関数 \(H(x)\) を用いて \(\mr{ReLU}\) 関数を表しておきます。単位ステップ関数は、

図3:単位ステップ関数.jpg
図3:単位ステップ関数
 \(H(x)=1\:\:(x > 0)\)
 \(H(x)=0\:\:(x\leq0)\)

で定義される関数で(図3)、ヘヴィサイド関数とも呼ばれます。\(H(x)\) の微分は、
 \(H\,'(x)=0\:\:(x\neq0)\)
です。\(x=0\) において \(H(x)\) は不連続で、微分は定義できませんが、無理矢理、
 \(H\,'(0)=0\)
と定義してしまうと、\(x\) の全域において、
 \(H\,'(x)=0\)
となります。この \(H(x)\) を用いて \(\mr{ReLU}\) 関数を定義すると、

\(\mr{ReLU}(x)=H(x)x\)

となり、微分は、
 \(\dfrac{d}{dx}\mr{ReLU}(x)=H(x)\)
と表現できます。

出力層の活性化関数 \(f\,'\) は、ニューラル・ネットワークをどんな用途で使うかによって違ってきます。

ニューラル・ネットワークによる推論
ニューラル・ネットワークが扱う問題は、入力ベクトル \(\bs{x}\) をもとに出力ベクトル \(\bs{y}\) を "推論"(ないしは "推定"、"予測")する問題です。これには主に「回帰問題」と「分類問題」があります。

回帰問題で推論する \(\bs{y}\) は実数値(=連続値)です。たとえば、
 ・身長
 ・体重
 ・年齢
 ・男女の区別
 ・生体インピーダンス
から(\(=\bs{x}\))、
 ・体脂肪率
 ・筋肉量
 ・骨密度
を推定する(\(=\bs{y}\))といった例です(但し、市販の体組成計が AI を使っているわけではありません)。

一方、分類問題の例は、たとえば手書き数字を認識する問題です。この場合、多数の手書き数字の画像(をベクトルに変換した \(\bs{x}\))を「\(0\) のグループ」「\(1\) のグループ」・・・・・ というように分類していきます。このグループのことを AI では "クラス" と呼んでいます。つまり「クラス分類問題」です。

手書き数字の場合、明確に \(0\) ~ \(9\) のどれかに認識できればよいのですが、そうでない場合もある。たとえば、\(1\) なのか \(7\) なのか紛らわしい、\(0\) なのか \(6\) なのか曖昧、といったことが発生します。分類するのは、\(0\) ~ \(9\) のうちのどれかという「離散値の予測」であり、連続値とは違って、どうしても紛らわしい例が発生します。

従って、クラス分類問題(=離散値を予測する問題)では、出力ベクトル \(\bs{y}\) は確率です。手書き数字の認識では、\(\bs{y}\) は\(10\)次元の確率ベクトルで、たとえば、
 \(y_1\):数字が \(1\) である確率
 \(y_2\):数字が \(2\) である確率
   \(\vdots\)
 \(y_9\):数字が \(9\) である確率
 \(y_{10}\):数字が \(0\) である確率
となるように、ニューラル・ネットワークを設計します。確率なので、
 \(0\leq y_i\leq1,\:\:\:\displaystyle\sum_{i=1}^{10}y_i=1\)
です。入力画像が \(1\) なのか \(7\) なのか紛らわしい場合、たとえば推定の例は、
 \(\bs{y}=\left(\begin{array}{r}0.8&0&0&0&0&0&0.2&0&0&0\\\end{array}\right)\)
です。これは、
 \(1\) である確率が \(0.8\)
 \(7\) である確率が \(0.2\)
を表します。クラス分類問題は「離散値を推論する問題」、すなわち「確率を推定する問題」であると言えます。


回帰問題の出力層の活性化関数は、恒等関数(=何もしない)とするのが普通です。一方、クラス分類問題の出力層の活性化関数は、出力 \(\bs{y}\) が確率として解釈できるような関数を選びます。それが \(\mr{Softmax}\) 関数です。

\(\mr{Softmax}\) 関数
\(\mr{Softmax}\) 関数によって、出力 \(\bs{y}\) が確率と解釈できるようになります。ベクトル \(\bs{x}\) を \(\mr{Softmax}\) 関数によって確率ベクトル \(\bs{y}\) に変換する式は、次のように定義できます。なお、ここでの \(\bs{x}\) は入力層の \(\bs{x}\) ではなく、一般的なベクトルを表します。

 \(\bs{y}=\mr{Softmax}(\bs{x})\)
  (\(\bs{x}\:\:\bs{y}\) は \(n\)次元ベクトル)

 \(y_i=\dfrac{\mr{exp}(x_i)}{\displaystyle\sum_{i=1}^{n}\mr{exp}(x_i)}\)

  \(0 < y_i < 1,\:\:\:\displaystyle\sum_{i=1}^{n}y_i=1\)

ここで使われている指数関数は、すぐに巨大な数になります。たとえば \(\mr{exp}(100)\) は\(10\)進で\(40\)桁以上の数で、\(32\)ビット浮動小数点の最大値(\(10\)進で\(40\)桁弱)を越えてしまいます。従って、\(\mr{Softmax}\) 関数の計算には工夫が必要で、それには \(\mr{Softmax}\) 関数の性質を利用します。

\(C\) を任意の実数値とし、\(n\)次元ベクトル \(\bs{z}\) を
 \(z_i=x_i+C\)
と定義します。そして、
 \(\bs{y}\,'=\mr{Softmax}(\bs{z})\)
と置くと、

\(\begin{eqnarray}
&&\:\:y_i\,'&=\dfrac{\mr{exp}(z_i)}{\displaystyle\sum_{i=1}^{n}\mr{exp}(z_i)}=\dfrac{\mr{exp}(x_i+C)}{\displaystyle\sum_{i=1}^{n}\mr{exp}(x_i+C)}\\
&&&=\dfrac{\mr{exp}(x_i)\cdot\mr{exp}(C)}{\displaystyle\sum_{i=1}^{n}\mr{exp}(x_i)\cdot\mr{exp}(C)}\\
&&&=\dfrac{\mr{exp}(x_i)\cdot\mr{exp}(C)}{\mr{exp}(C)\cdot\displaystyle\sum_{i=1}^{n}\mr{exp}(x_i)}\\
&&&=\dfrac{\mr{exp}(x_i)}{\displaystyle\sum_{i=1}^{n}\mr{exp}(x_i)}=y_i\\
\end{eqnarray}\)

となります。つまり \(x_i\:\:(1\leq i\leq n)\) の全部に定数 \(C\) を足しても、\(\mr{Softmax}\) 関数は変わりません。そこで、
 \(C=-\mr{max}(x_1,\:x_2,\:\cd\:,x_n)\)
と置いて、
 \(x_i\:\longleftarrow\:x_i+C\:\:(1\leq i\leq n)\)
と修正すると、\(x_i\) の最大値は \(0\) になります。従って、
 \(0 < \mr{exp}(x_i)\leq1\)
の範囲で \(\mr{Softmax}\) 関数が計算可能になります。


大規模言語モデルと確率


クラス分類問題の出力ベクトル \(\bs{y}\) は確率でしたが、実は Transformer や GPT が実現している「大規模言語モデル」も "確率を推定するニューラル・ネットワーク" です。たとえば、

 [今日] [は] [雨] [なの] [で]

というテキストに続く単語を推定します。仮に、日本語の日常用語の語彙数を5万語とすると、5万の単語すべてについて上のテキストに続く単語となる確率を、実例をもとに推定します。当然、「雨の日の行動」とか「雨の日の情景」、「雨の日の心理状態」、「雨の日に起こりうること」を描写・説明する単語の確率が高くなるわけです。たとえば名詞だけをとると、[家] [ビデオ] [映画] [傘] [犬] [洗濯] [祭] [運動会] などの確率が高く、[ニンジン] [牛] [鉛筆] などの確率は(雨の日とは関係があるとは思えないので)低いといった具合です(あくまで想定です)。

「大規模言語モデル」の重要な応用例(=タスク)である機械翻訳も同じです。日本語 → 英語の翻訳を例にとると、

 [今日] [は] [晴れ] [です] [。] [BOS] 

に続く英単語を推定します([BOS] は文の開始を示す特殊単語)。確率の高い単語から [it] を選んだとすると、次には、

 [今日] [は] [晴れ] [です] [。] [BOS] [it]

に続く単語を推定します([is] になるはず)。こうやって進むのが機械翻訳です。

Transformer や GPT をごくごくシンプルに言えば、入力ベクトル \(\bs{x}\) はテキスト列、出力ベクトル \(\bs{y}\) は次に続く単語を示す確率ベクトル(次元は語彙数)です。


この記事は、Transformer、GPT、ChatGPT などの大規模言語モデルを説明するのが目的です。従って以降では、出力ベクトル \(\bs{y}\) は確率ベクトルであることを前提とします。


確率を推定するニューラル・ネットワーク


図1において、第1層(隠れ層)の活性化関数を \(\mr{ReLU}\)、第2層(出力層)の活性化関数を \(\mr{Softmax}\) とすると、図4になります。

図4:ニューラル・ネットワーク.jpg
図4:ニューラル・ネットワーク
(出力層は確率ベクトル)

図4の計算は、以下に示すような4段階の計算処理で表すことができます。

 第1層
  \(\bs{h}\,'=\bs{x}\cdot\bs{W}+\bs{b}\)
  \(\bs{h}=\mr{ReLU}(\bs{h}\,')\)

 第2層
  \(\bs{y}\,'=\bs{h}\cdot\bs{W}\,'+\bs{b}\,'\)
  \(\bs{y}=\mr{Softmax}(\bs{y}\,')\)

この4つの計算処理を「計算レイヤー」、略して「レイヤー」と呼び、図5のグラフで表現することにします。

図5:クラス分類問題のレイヤー構成(推論時).jpg
図5:クラス分類問題のレイヤー構成(推論時)

レイヤー(layer)は日本語にすると「層」で、第1層や隠れ層の「層」と紛らわしいのですが、「レイヤー」と書いたときは "ある一定の計算処理" を示します。後ほど説明する Transformer や GPT は、図4のような単純な「層」では表現できない複雑な計算処理があります。従って "ある一定の計算処理 = レイヤー" とした方が、すべての場合を共通に表現できて都合が良いのです。

レイヤーの四角に向かう矢印は計算処理への入力を示し、四角から出る矢印は計算処理からの出力(計算結果)を示します。「レイヤーは一つの関数」と考えてもOKです。

図5の「Linear レイヤー」は、「Affine(アフィン)レイヤー」と呼ばれることが多いのですが、Transformer の論文で Linear があるので、そちらを採用します。

図5のネットワークがどうやって「学習可能なのか」を次に説明します。この「学習できる」ということが、ニューラル・ネットワークが成り立つ根幹です。


ニューラル・ネットワークの学習


重みとバイアスの初期値
まず、重み(\(\bs{W},\:\bs{W}\,'\))の初期値を乱数で与えます。この乱数は、前の層のニューロンの数を \(n\) とすると

 平均 \(=0\)
 標準偏差 \(=\sqrt{\dfrac{1}{n}}\)

の正規分布の乱数とするのが普通です。\(n=10,000\) とすると、標準偏差は \(0.01\) なので、
 \(-\:0.01\) ~ \(0.01\)
の間にデータの多く(約 \(2/3\))が集まる乱数です。但し、\(\mr{ReLU}\) を活性化関数とする層(図4では第1層)の重みは、

 平均 \(=0\)
 標準偏差 \(=\sqrt{\dfrac{2}{n}}\)

の乱数とします。なお、バイアスの初期値は \(0\) とします。こういった初期値の与え方は、学習をスムーズに進めるためです。

損失と損失関数
初期値が決まったところで、訓練データの一つを、
 \(\bs{x}\):入力データ
 \(\bs{t}\):確率の正解データ
とします。この正解データのことを「教師ラベル」と呼びます。そして、ニューラル・ネットワークによる予測の確率 \(\bs{y}\) と、正解の確率である \(\bs{t}\) との差異を計算します。この差異を「損失(\(Loss\))」といい、\(L\) で表します。\(L\) は正のスカラー値です。

\(\bs{y}\) と \(\bs{t}\) から \(L\) を求めるのが「損失関数(Loss Function)」です。確率を予測する場合の損失関数は「交差エントロピー誤差(Cross Entropy Error : CEE)」とするのが普通で、次の式で表されます。

\(L=-\displaystyle\sum_{i=1}^{n}t_i\cdot\mr{log}\:y_i\)

たとえば、先ほどの手書き数字の認識の「\(1\) または \(7\) という予測」を例にとって、その正解が \(1\) だとすると、

 予測 \(\bs{y}=\left(\begin{array}{r}0.8&0&0&0&0&0&0.2&0&0&0\\\end{array}\right)\)
 正解 \(\bs{t}=\left(\begin{array}{r}1&0&0&0&0&0&0&0&0\\\end{array}\right)\) = 教師ラベル

です。なお、\(\mr{Softmax}\)関数の出力は \(0\) にはならないので、上の \(\bs{y}\) で \(0\) と書いた要素は、実際には微小値です。すると、

 \(L=-\mr{log}\:0.8\fallingdotseq0.223\)

となります。損失関数を含めると、レイヤー構成は図6のようになります。

図6:クラス分類問題のレイヤー構成(学習時).jpg
図6:クラス分類問題のレイヤー構成(学習時)

この図の重みとバイアスを少しだけ調整して、\(L\) を少しだけ \(0\) に近づけます。この調整を多数の学習データ(= \(\bs{x}\:\:\bs{t}\) のペア)で繰り返して、\(L\) を次第に \(0\) に近づけていくのが学習です。

勾配降下法
重みの調整には「勾配降下法(Gradient descent method)」を使います。図6の場合、損失 \(L\) は、ある関数 \(f\) を用いて、

 \(L=f(\bs{x},\:\bs{W},\:\bs{b},\:\bs{W}\,',\:\bs{b}\,',\:\bs{t})\)

と表現できます。ここで、\(\bs{W}\) の一つの要素、\(w_{11}\) を例にとると、

\(w_{11}\) を微小に増減させた場合、\(L\) はどのように増減するか、そのの \(w_{11}\) に対する変化の割合

を計算します。これはいわゆる微分ですが、多変数関数の微分なので、数学的には偏微分であり、
 \(\dfrac{\partial L}{\partial w_{11}}\)
です。つまり、\(w_{11}\) 以外の変数をすべて固定しての(すべて定数とした上での)、\(w_{11}\) による微分です。

具体的な入力 \(\bs{x}\) のときの \(\dfrac{\partial L}{\partial w_{11}}\) が求まったとします。もし仮に、\(\dfrac{\partial L}{\partial w_{11}}\) が正の値だとしたら、\(w_{11}\) を少しだけ減らせば、\(L\) は少しだけ \(0\) に近づきます。もし \(\dfrac{\partial L}{\partial w_{11}}\) が負だとしたら、\(w_{11}\) を少しだけ増やせば、\(L\) は少しだけ \(0\) に近づきます。つまり、

 更新式:\(w_{11}\:\longleftarrow\:w_{11}-\eta\cdot\dfrac{\partial L}{\partial w_{11}}\)

として重みを更新すればよいわけです。\(\eta\) は「少しだけ」を表す値で「学習率」といい、\(0.01\) とか \(0.001\) とかの値をあらかじめ決めておきます。この決め方は、学習の効率に大いに影響します。こういった更新を、すべての重みとバイアスに対して行います。

"学習で調整される値" を総称して「パラメータ」と言います。図6のパラメータは重みとバイアスですが、実用的なニューラル・ネットワークでは、それ以外にも更新されるパラメータがあります。

ちなみに、OpenAI 社の GPT\(-3\) のパラメータの総数は \(1750\)億個で、学習率は \(0.6\times10^{-4}\) です。

\(L\) の偏微分値をベクトルや行列単位でまとめたものを、次のように表記します。2次元のベクトル \(\bs{b}\) と、2行2列の行列 \(\bs{W}\) で例示すると、

 \(\dfrac{\partial L}{\partial\bs{b}}=\left(\begin{array}{r}\dfrac{\partial L}{\partial b_1}&\dfrac{\partial L}{\partial b_2}\\\end{array}\right)\)

 \(\dfrac{\partial L}{\partial\bs{W}}=\left(\begin{array}{r}\dfrac{\partial L}{\partial w_{11}}&\dfrac{\partial L}{\partial w_{12}}\\\dfrac{\partial L}{\partial w_{21}}&\dfrac{\partial L}{\partial w_{22}}\\\end{array}\right)\)

です。これを「勾配(gradient)」と言います。勾配を求めることでパラメータを少しづつ更新し、損失を少しづつ小さくしていく(=降下させる)のが勾配降下法です。

ミニバッチ勾配降下法
学習は次のように進みます。まず、すべての訓練データ(たとえば
数万件)から、数\(10\)~数\(100\)件(たとえば\(256\)件)の訓練データをランダムに選びます。この一群のデータを「ミニバッチ」と呼びます。ミニバッチの各訓練データによる確率の推定から損失を計算し、そこからすべてのパラメータの勾配と求め、その勾配ごとに "ミニバッチの平均値" をとります。その平均値に基づき、更新式に従って各パラメータを更新します。

ミニバッチによる更新が終わると、別のミニバッチをランダムに選び、更新を繰り返します。こうすると、損失は次第に減少していきますが、そのうち "頭打ち" になります。そこで更新を止めます。

このようなパラメータ更新のやり方を「ミニバッチ勾配降下法」と言います。一つの訓練データだけで更新しないのは、たまたまその訓練データが「外れデータ」(全体の傾向とは異質なデータ)だと、学習の進行に支障が出てくるからです。

訓練データをランダムに選択する方法を「確率的勾配降下法(Stochastic gradient method - SGD)」と言いますが、ミニバッチ勾配降下法は、その確率的勾配降下法の一種です。

誤差逆伝播法
ここで問題になるのは、すべてのパラメータの勾配をどうやって求めるかです。それに使われるのが「誤差逆伝播法(Back propagation)」です。その原理を、Linear レイヤーから説明します。

 (1) Linear 

図7:linear レイヤー.jpg
図7:linear レイヤー
入力 \(\bs{x}\) \([1\times N]\)
   \(\bs{W}\) \([N\times M]\)
   \(\bs{b}\) \([1\times M]\)
出力 \(\bs{y}\) \([1\times M]\)

図7で示すように、Linear レイヤーがあり、そのあとに何らかの計算処理が続いて、最終的に損失 \(L\) が求まったとします。\(\bs{x}\:\:\bs{y}\) はニューラル・ネットワークへの入力と出力ではなく、Linear レイヤーへの入力と出力の意味です。ここで、

\(\bs{y}\) の勾配 \(\dfrac{\partial L}{\partial\bs{y}}\) が求まれば、合成関数の微分を使って、\(\bs{x},\:\:\bs{W},\:\:\bs{b}\) の勾配が求まる

と言えます。これが誤差逆伝播法の原理です。このことを、2次元ベクトル(\(\bs{x},\:\:\bs{b},\:\:\bs{y}\))、2行2列の配列(\(\bs{W}\))で例示します(\(N=2,\:M=2\) の場合)。

【Linear の計算式】

 \(\left(\begin{array}{r}y_1&y_2\\\end{array}\right)=\left(\begin{array}{r}x_1&x_2\\\end{array}\right)\cdot\left(\begin{array}{r}w_{11}&w_{12}\\w_{21}&w_{22}\\\end{array}\right)+\left(\begin{array}{r}b_1&b_2\\\end{array}\right)\)

 \(y_1=x_1w_{11}+x_2w_{21}+b_1\)
 \(y_2=x_1w_{12}+x_2w_{22}+b_2\)

\(x_1\) が変化すると \(y_1,\:y_2\) が変化し、それが損失 \(L\) に影響することに注意して、\(\bs{x},\:\:\bs{W},\:\:\bs{b}\) の勾配を計算します。

\(\bs{\bs{x}}\) の勾配】

 \(\dfrac{\partial L}{\partial x_1}\)\(=\dfrac{\partial y_1}{\partial x_1}\cdot\dfrac{\partial L}{\partial y_1}+\dfrac{\partial y_2}{\partial x_1}\cdot\dfrac{\partial L}{\partial y_2}\)
\(=\dfrac{\partial L}{\partial y_1}w_{11}+\dfrac{\partial L}{\partial y_2}w_{12}\)
\(=\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\left(\begin{array}{r}w_{11}\\w_{12}\\\end{array}\right)\)

同様にして、

 \(\dfrac{\partial L}{\partial x_2}=\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\left(\begin{array}{r}w_{21}\\w_{22}\\\end{array}\right)\)

です。これをまとめると、

 \(\left(\begin{array}{r}\dfrac{\partial L}{\partial x_1}&\dfrac{\partial L}{\partial x_2}\\\end{array}\right)=\:\:\:\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\left(\begin{array}{r}w_{11}&w_{21}\\w_{12}&w_{22}\\\end{array}\right)\)

 \(\dfrac{\partial L}{\partial\bs{x}}=\dfrac{\partial L}{\partial\bs{y}}\cdot\bs{W}^T\)

となり、\(\bs{x}\) の勾配が求まります。

\(\bs{\bs{W}}\) の勾配】

 \(\dfrac{\partial L}{\partial w_{11}}=\dfrac{\partial y_1}{\partial w_{11}}\dfrac{\partial y_1}{\partial w_{11}}=x_1\dfrac{\partial y_1}{\partial w_{11}}\)
 \(\dfrac{\partial L}{\partial w_{12}}=\dfrac{\partial y_2}{\partial w_{12}}\dfrac{\partial y_2}{\partial w_{12}}=x_1\dfrac{\partial y_2}{\partial w_{12}}\)
 \(\dfrac{\partial L}{\partial w_{21}}=\dfrac{\partial y_1}{\partial w_{21}}\dfrac{\partial y_1}{\partial w_{21}}=x_2\dfrac{\partial y_1}{\partial w_{21}}\)
 \(\dfrac{\partial L}{\partial w_{22}}=\dfrac{\partial y_2}{\partial w_{22}}\dfrac{\partial y_2}{\partial w_{22}}=x_2\dfrac{\partial y_2}{\partial w_{22}}\)

これらをまとめると、

 \(\dfrac{\partial L}{\partial\bs{W}}\)\(=\left(\begin{array}{r}\dfrac{\partial L}{\partial w_{11}}&\dfrac{\partial L}{\partial w_{12}}\\\dfrac{\partial L}{\partial w_{21}}&\dfrac{\partial L}{\partial w_{22}}\\\end{array}\right)\)
\(=\left(\begin{array}{r}x_1\dfrac{\partial L}{\partial y_1}&x_1\dfrac{\partial L}{\partial y_2}\\x_2\dfrac{\partial L}{\partial y_1}&x_2\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\)
\(=\left(\begin{array}{r}x_1\\x_2\\\end{array}\right)\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\)
\(=\bs{x}^T\dfrac{\partial L}{\partial\bs{y}}\)

となります。

\(\bs{\bs{b}}\) の勾配】

 \(\dfrac{\partial L}{\partial b_1}\)\(=\dfrac{\partial L}{\partial y_1}\)
 \(\dfrac{\partial L}{\partial b_2}\)\(=\dfrac{\partial L}{\partial y_2}\)

 \(\dfrac{\partial L}{\partial\bs{b}}\)\(=\dfrac{\partial L}{\partial\bs{y}}\)

以上の計算で求まった勾配をまとめて図示すると、図8になります。黒字(入力・出力とパラメータ)の下の赤字がパラメータの勾配で、右から左への矢印は、「レイヤーの出力の勾配が求まれば、レイヤーの入力の勾配が求まる」こと示します(= 逆伝播)。上での計算は2次元ベクトルと2行2列の配列で例示しましたが、図8のようなベクトル・配列で表示すると、\([1\times N]\) のベクトルと \([N\times M]\) の行列で成り立つことが確認できます。

図8:linear の誤差逆伝播.jpg
図8:linear の誤差逆伝播
出力側の勾配が求まれば、そこから入力側の勾配はすべて求まる。これが誤差逆伝播の原理で、合成関数の微分のシンプルな応用である。

 (2) ReLU 

\(\mr{ReLU}\) 関数は、

 \(\mr{ReLU}(x_i)=x_i\:\:(x_i > 0)\)
 \(\mr{ReLU}(x_i)=0\:\:\:(x_i\leq0)\)

であり、ベクトルの表現では、単位ステップ関数、
 \(H(x)=1\:\:\:(x > 0)\)
 \(H(x)=0\:\:\:(x\leq0)\)
と要素積 \(\odot\) を使って、

 \(\mr{ReLU}(\bs{x})=H(\bs{x})\odot\bs{x}\)

と定義できます。従って、勾配は、

 \(\dfrac{\partial L}{\partial x_i}=\dfrac{\partial L}{\partial y_i}\) \((x_i > 0)\)
 \(\dfrac{\partial L}{\partial x_i}=0\) \((x_i\leq0)\)

 \(\dfrac{\partial L}{\partial\bs{x}}=H(\bs{x})\odot\dfrac{\partial L}{\partial\bs{y}}\)

です。
図9:ReLU の誤差逆伝播.jpg
図9:ReLU の誤差逆伝播

 (3) Softmax 

\(\mr{Softmax}\) 関数の定義は、

 \(\bs{y}=\mr{Softmax}(\bs{x})\)
  (\(\bs{x}\:\:\bs{y}\) は \(N\)次元ベクトル)

 \(y_i=\dfrac{\mr{exp}(x_i)}{\displaystyle\sum_{i=1}^{N}\mr{exp}(x_i)}\)

  \(0 < y_i < 1,\:\:\:\displaystyle\sum_{i=1}^{N}y_i=1\)

です。勾配の計算を \(N=3\) の場合で例示します。

 \(S\)\(=\mr{exp}(x_1)+\mr{exp}(x_2)+\mr{exp}(x_3)\)
\(y_1\)\(=\dfrac{\mr{exp}(x_1)}{S}\)
\(y_2\)\(=\dfrac{\mr{exp}(x_2)}{S}\)
\(y_3\)\(=\dfrac{\mr{exp}(x_3)}{S}\)

 \(\dfrac{\partial L}{\partial x_1}=\dfrac{\partial y_1}{\partial x_1}\dfrac{\partial L}{\partial y_1}+\dfrac{\partial y_2}{\partial x_1}\dfrac{\partial L}{\partial y_2}+\dfrac{\partial y_3}{\partial x_1}\dfrac{\partial L}{\partial y_3}\)
 \(\dfrac{\partial y_1}{\partial x_1}\)\(=\dfrac{\mr{exp}(x_1)}{S}-\dfrac{\mr{exp}(x_1)}{S^2}\mr{exp}(x_1)\)
\(=y_1-y_1^2\)
\(=y_1(1-y_1)\)

 \(\dfrac{\partial y_2}{\partial x_1}\)\(=-\dfrac{\mr{exp}(x_2)}{S^2}\mr{exp}(x_1)\)
\(=-y_1y_2\)

 \(\dfrac{\partial y_3}{\partial x_1}\)\(=-\dfrac{\mr{exp}(x_3)}{S^2}\mr{exp}(x_1)\)
\(=-y_1y_3\)

 \(\dfrac{\partial L}{\partial x_1}=y_1(1-y_1)\dfrac{\partial L}{\partial y_1}-y_1y_2\dfrac{\partial L}{\partial y_2}-y_1y_3\dfrac{\partial L}{\partial y_3}\)
 \(\dfrac{\partial L}{\partial x_2}=y_2(1-y_2)\dfrac{\partial L}{\partial y_2}-y_2y_3\dfrac{\partial L}{\partial y_3}-y_2y_1\dfrac{\partial L}{\partial y_1}\)
 \(\dfrac{\partial L}{\partial x_3}=y_3(1-y_3)\dfrac{\partial L}{\partial y_3}-y_3y_1\dfrac{\partial L}{\partial y_1}-y_3y_2\dfrac{\partial L}{\partial y_2}\)

 (4) Cross Entropy Error - CEE 

交差エントロピー誤差の定義は、
 入力 \(\bs{y}\) \((1\times N)\)
 入力 \(\bs{t}\) \((1\times N)\)  教師ラベル(正解データ)
 出力 \(L\:(Loss)\)
とすると、

 \(L=-\displaystyle\sum_{i=1}^{N}(t_i\mr{log}y_i)\)

で定義されます。従って、

 \(\dfrac{\partial L}{\partial y_i}=-\dfrac{t_i}{y_i}\)

であり、\(N=3\) の場合を書くと、

 \(\dfrac{\partial L}{\partial y_1}=-\dfrac{t_1}{y_1}\)
 \(\dfrac{\partial L}{\partial y_2}=-\dfrac{t_2}{y_2}\)
 \(\dfrac{\partial L}{\partial y_3}=-\dfrac{t_2}{y_3}\)

です。

 (5) Softmax + CEE 

\(\mr{Softmax}\) レイヤーの直後に交差エントロピー誤差のレイヤーを配置した場合を考えます。(3) と (4) の計算を合体させると、次のように計算できます。

 \(\dfrac{\partial L}{\partial x_1}\)\(=y_1(1-y_1)\dfrac{\partial L}{\partial y_1}-y_1y_2\dfrac{\partial L}{\partial y_2}-y_1y_3\dfrac{\partial L}{\partial y_3}\)
\(=-y_1(1-y_1)\dfrac{t_1}{y_1}+y_1y_2\dfrac{t_2}{y_2}+y_1y_3\dfrac{t_3}{y_3}\)
\(=-t_1+t_1y_1+y_1t_2+y_1t_3\)
\(=-t_1+t_1y_1+y_1(t_2+t_3)\)
\(=-t_1+t_1y_1+y_1(1-t_1)\)
\(=y_1-t_1\)

計算の過程で、\(\bs{t}\) が確率ベクトルであることから、\(t_1+t_2+t_3=1\) を使いました。この計算は \(x_2,\:\:x_3\) についても全く同様にできます。それを含めてまとめると、

 \(\dfrac{\partial L}{\partial x_1}=y_1-t_1\)
 \(\dfrac{\partial L}{\partial x_2}=y_2-t_2\)
 \(\dfrac{\partial L}{\partial x_3}=y_3-t_3\)

となります。この結果、勾配は、

 \(\dfrac{\partial L}{\partial\bs{x}}=\bs{y}-\bs{t}\)

という、大変シンプルな形になりました。これは任意の次元のベクトルで成り立ちます。実は、このようなシンプルな形になるように、\(\mr{Softmax}\) と 交差エントロピー誤差が設計されています。図示すると次の通りです。

図10:Softmax + CEE の逆伝播.jpg
図10:Softmax + CEE の逆伝播
\(\mr{Softmax}\) 関数の後ろに交差エントロピー誤差を重ねると、\(\bs{x}\) の勾配は \(\bs{y}\) と \(\bs{t}\)(教師ラベル)から直接に求まる。

ニューラル・ネットワークの誤差逆伝播
以上で「確率を推定するニューラル・ネットワーク」を構成する各レイヤーの誤差逆伝播が計算できました。これらをまとめると、次の図11になります。

図11:クラス分類問題の誤差逆伝播.jpg
図11:クラス分類問題の誤差逆伝播

ちなみに、第1層の重み \(\bs{W}\) の勾配は図11から陽に計算すると、次のようになります。

 \(\dfrac{\partial L}{\partial\bs{W}}=\bs{x}^T(H(\bs{x}\bs{W}+\bs{b})\odot((\bs{y}-\bs{t})\bs{W}\,'))\)

このネットワークは隠れ層が1つだけというシンプルなものですが、今までの計算で分かるように、層数が何百層に増えたとしても、逆伝播を多段に重ねることで、誤差逆伝播法が成立します。

また、図11 で使っているレイヤーは、Linear、\(\mr{ReLU}\)、\(\mr{Softmax}\)、Cross Entropy Error ですが、これらを関数と見なしたとき、誤差逆伝播で使った数学的な前提は「関数がパラメータで微分可能」ということだけです。つまり、レイヤーの関数が微分可能である限り、誤差逆伝播法は有効です。

実は、実用的なニューラル・ネットワークで誤差逆伝播法をうまく機能させるためには、数々の工夫が必要です。また、一般に訓練データの数は膨大なので、学習速度を上げる工夫も必要です(以降でその一部を説明します)。上で述べた「初期値の選択」や「学習率」はその工夫の一つです。そういったことはありますが、ネットワークがいかに巨大になろうとも(大規模言語モデルはその巨大な典型です)、誤差逆伝播法は可能なことが分かっています。

以上が、「ニューラル・ネットワークが学習可能である」ということの原理です。

\(\mr{GELU}\)
最近の大規模言語モデル(GPT など)では、活性化関数 \(\mr{ReLU}\) の代わりに \(\mr{GELU}\) \((\)Gaussian Error Linear Unit:ガウス誤差線形ユニット\()\) が使われます。その方が、学習が効率的に進むことが分かったからです。

図12:標準正規分布.jpg
図12:標準正規分布
\(\mr{ReLU}\) は、\(H(x)\) を単位ステップ関数として、
 \(\mr{ReLU}(x)=H(x)x\)
でしたが、\(\mr{GELU}\) は、
 \(\mr{GELU}(x)=\Phi(x)x\)
で定義されます。\(\Phi(x)\) は標準正規分布(平均 \(0\)、標準偏差 \(1\))の累積分布関数です。標準正規分布の確率密度を \(f(x)\) とすると、
 \(f(x)=\dfrac{1}{\sqrt{2\pi}}\mr{exp}\left(-\dfrac{x^2}{2}\right)\)
です(図12)。つまり \(x\) ~ \(x+dx\) である事象が発生する確率が \(f(x)dx\) です。また \(-\infty\) ~ \(\infty\) の範囲で積分すると \(1\) で、原点を中心に左右対称です。

図13:累積分布関数.jpg
図13:累積分布関数
この確率分布を \(-\infty\) から \(x\) まで積分したのが累積分布関数で、
 \(\Phi(x)=\displaystyle\int_{-\infty}^{x}f(t)dt\)
です(図13)。これは正規分布に従うデータ値が \(x\) 以下になる確率です。これはガウスの誤差関数(Gaussian error function)\(\mr{Erf}\) を用いて表現できます。\(\Phi(0)=0.5\) となることを使って計算すると、
\(\begin{eqnarray}
&&\:\:\Phi(x)&=\displaystyle\int_{-\infty}^{x}f(t)dt\\
&&&=\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^{x}\mr{exp}\left(-\dfrac{t^2}{2}\right)dt\\
&&&=\dfrac{1}{2}+\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{0}^{x}\mr{exp}\left(-\dfrac{t^2}{2}\right)dt\\
\end{eqnarray}\)
\(t\:\rightarrow\:\sqrt{2}u\) の変数変換をすると、
\(\begin{eqnarray}
&&\:\:\phantom{\Phi(x)}&=\dfrac{1}{2}+\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{0}^{\tiny\dfrac{x}{\sqrt{2}}}\mr{exp}(-u^2)\sqrt{2}du\\
&&&=\dfrac{1}{2}+\dfrac{1}{\sqrt{\pi}}\displaystyle\int_{0}^{\tiny\dfrac{x}{\sqrt{2}}}\mr{exp}(-u^2)du\\
&&&=\dfrac{1}{2}\left(1+\mr{Erf}\left(\dfrac{x}{\sqrt{2}}\right)\right)\\
\end{eqnarray}\)
となります。ガウスの誤差関数、\(\mr{Erf}()\) の定義は

 \(\mr{Erf}(x)=\dfrac{2}{\sqrt{\pi}}\displaystyle\int_{0}^{x}\mr{exp}(-u^2)du\)

です。従って、

 \(\Phi(x)=\dfrac{1}{2}\left(1+\mr{Erf}\left(\dfrac{x}{\sqrt{2}}\right)\right)\)

図14:GELU 関数.jpg
図14:\(\bs{\mr{GELU}}\) 関数
と表現できます。\(\mr{GELU}\) 関数の形は 図14 です。

\(\mr{GELU}\) は \(\mr{ReLU}\) と良く似ていますが、すべての点で微分可能であり、\(\mr{ReLU}\) のように微係数がジャンプするところがありません。このことが、大規模言語モデルの効率的な学習に役だっていると考えられます。

残差結合
Linear レイヤーを例にとります。入力を \(\bs{x}\)、出力を \(\bs{y}\) とし、入力と出力のベクトルの次元は同一とします。重みを \(\bs{W}\) とし、バイアス \(\bs{b}\) は省略します。通常の Linear レイヤーは、
 \(\bs{y}=\bs{x}\bs{W}\)

ですが、

 \(\bs{y}=\bs{x}\bs{W}+\bs{x}\)

とするのが、「残差結合(residual connection)」をもつ Linear レイヤーです。なお「残差接続」とも言います。また「スキップ接続(skip connection)」も同じ意味です。

図15:残差結合.jpg
図15:残差結合

誤差逆伝播を計算すると、\(\bs{x}\) の勾配は次のようになります。2次元ベクトルの場合で例示します。

 \(\left(\begin{array}{r}y_1&y_2\\\end{array}\right)=\left(\begin{array}{r}x_1&x_2\\\end{array}\right)\cdot\left(\begin{array}{r}w_{11}&w_{12}\\w_{21}&w_{22}\\\end{array}\right)+\left(\begin{array}{r}x_1&x_2\\\end{array}\right)\)

 \(y_1=x_1w_{11}+x_2w_{21}+x_1\)
 \(y_2=x_1w_{12}+x_2w_{22}+x_2\)

 \(\dfrac{\partial L}{\partial x_1}\)\(=\dfrac{\partial y_1}{\partial x_1}\cdot\dfrac{\partial L}{\partial y_1}+\dfrac{\partial y_2}{\partial x_1}\cdot\dfrac{\partial L}{\partial y_2}\)
\(=\dfrac{\partial L}{\partial y_1}w_{11}+\dfrac{\partial L}{\partial y_2}w_{12}+\dfrac{\partial L}{\partial y_1}\)
\(=\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\left(\begin{array}{r}w_{11}\\w_{12}\\\end{array}\right)+\dfrac{\partial L}{\partial y_1}\)

同様にして、

 \(\dfrac{\partial L}{\partial x_2}=\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\left(\begin{array}{r}w_{21}\\w_{22}\\\end{array}\right)+\dfrac{\partial L}{\partial y_2}\)

従って、

 \(\left(\begin{array}{r}\dfrac{\partial L}{\partial x_1}&\dfrac{\partial L}{\partial x_2}\\\end{array}\right)=\) \(\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\left(\begin{array}{r}w_{11}&w_{21}\\w_{12}&w_{22}\\\end{array}\right)\)
 \(+\:\left(\begin{array}{r}\dfrac{\partial L}{\partial y_1}&\dfrac{\partial L}{\partial y_2}\\\end{array}\right)\)

 \(\dfrac{\partial L}{\partial\bs{x}}=\dfrac{\partial L}{\partial\bs{y}}\cdot\bs{W}^T+\dfrac{\partial L}{\partial\bs{y}}\)

です。つまり、勾配 \(\dfrac{\partial L}{\partial\bs{y}}\) が、逆伝播でそのまま \(\dfrac{\partial L}{\partial\bs{x}}\) に伝わります(図\(16\))。

図16:残差結合の誤差逆伝播.jpg
図16:残差結合の誤差逆伝播

一般にニューラル・ネットワークの学習を続けると、重みがゼロに近づき、その結果 \(\dfrac{\partial L}{\partial\bs{x}}\) が \(0\) に近い小さな値となることがあります。\(\dfrac{\partial L}{\partial\bs{x}}\) は、その一つ前への逆伝播の入力となるので、多層のニューラル・ネットワークでこれが重なると、前の方の層の勾配が極小になり、重みが更新できないという事態になります。これが「勾配消失」で、ニューラル・ネットワークの学習が困難になります。

残差結合を用いると、この問題を解決できます。Transformer では残差結合が使われています。

正規化
Transformer で使われているもう一つのレイヤーが「レイヤー正規化(Layer Normalization)」です。これは、ベクトル \(\bs{x}\:[1\times N]\) の要素を、平均 \(0\)、標準偏差 \(1\) のベクトル \(\bs{y}\:[1\times N]\) の要素に置き換えるものです。

 \(\bs{y}=\mr{LayerNormalization}(\bs{x})\)

  \(x_i\) の平均 : \(\mu\)
  \(x_i\) の標準偏差 : \(\sg\)

  \(\mu=\dfrac{1}{N}\displaystyle\sum_{i=1}^{N}x_i\)
  \(\sg=\sqrt{\dfrac{1}{N}\displaystyle\sum_{i=1}^{N}(x_i-\mu)^2}\)

とおくと、

 \(y_i=\dfrac{1}{\sg}(x_i-\mu)\)

となります。実際にニューラル・ネットワークで使われるときには、さらにベクトルの要素ごとに線形変換をして、

 \(y_i\:\longleftarrow\:g_iy_i+b_i\)

とします。ベクトルで表現すると、

 \(\bs{y}=\dfrac{1}{\sg}\bs{g}\odot(\bs{x}-\mu)+\bs{b}\)

です。この \(\bs{g}\) と \(\bs{b}\) は学習可能なパラメータです。つまり、ニューラル・ネットワークの訓練のときに学習をして、最適値を決めます。もちろん、レイヤー正規化の式は微分可能なので、逆伝播計算が(少々複雑な式になりますが)可能です。

レイヤー正規化は、ニューラル・ネットワークを安定化させ、学習の効率化に役立ちます。その理由ですが、中間層の活性化関数で一般的な \(\mr{ReLU}\) 関数は、\(x=0\) の付近で非線型関数であり、それ以外では線型です。ニューラル・ネットワークは全体としては非線型関数で、そこにこそ意義があるのですが、その非線型性を生み出しているのは、\(x=0\) 付近の \(\mr{ReLU}\) 関数です。

従って、レイヤーの値を「ゼロ付近に集める」と、ニューラル・ネットワークの非線型性を強めることができ、これが学習の効率化につながります。その「ゼロ付近に集める」のがレイヤー正規化です。


以上の、

 ・\(\mr{ReLU}\) 関数(または \(\mr{GELU}\) 関数)
 ・残差結合
 ・正規化

は、大規模ニューラル・ネットワークを安定的に学習可能にするための必須技術であり、Transformer や GPT でも使われています。

 
2.自然言語のモデル化 
 

単語への分解
自然言語で書かれたテキストをコンピュータで扱うとき、まずテキストを単語の系列に分解しなければなりません。系列とは「並び順に意味のある、同質の要素の集合」です。単語への分解は、単語の区切りを明示する英語(や、その他の欧米語)では容易です。文末を表すピリオドや、その他の記号も1つの単語と数えます。

日本語は単語の区切りがないので、形態素解析ソフトで単語に分解します。句読点、「、」などの記号も、それぞれ1単語と数えます。日本語の形態素解析ソフトは各種ありますが、オープンソースの MeCab が有名です。

大規模言語モデルは、世界中から集めた Webのテキスト(以下、WebText と言います)や Wikipedia、電子ブックなどを訓練データとして学習しますが、そこに出てくる単語を集めて「語彙の集合」を作ります。この集合のサイズを \(V\) とすると(たとえば、5万とか10万とかの値)、単語に \(1\)~\(V\) のユニークな番号を振ることができます。この番号を「単語ID」と呼びます。

なお、大規模言語モデルでは内部処理用として「特殊単語」も用います。以降の説明で使うのは、
 [BOS] :文の開始
 [EOS] :文の終了。ないしは文の区切り。
です。こうすると、テキスト \(\bs{T}\) は、

 \(\bs{T}=\{x_1,\:x_2,\:x_3,\:\cd\:x_T\}\)

という単語IDの列で表現できることになります。もしこれが完結した文だとすると、\(x_1=\)[BOS]、\(x_T=\)[EOS] であり、複文だと途中にも [BOS] や [EOS] が出てくることになります。

単語IDは、その数字自体には意味がありません。また、語彙集合(要素数 \(V\))が増大すると単語IDの最大値も変化します。上の数字列は、あくまで「1時点での語彙集合をもとにして恣意的に付けられた数字の列」です。

分散表現
テキストをニュラール・ネットワークで扱うためには、すべての単語を、語彙集合のサイズにはよらない「固定長のベクトル」で表現するのが必須です。ここで使われるのが単語の「分散表現」で、固定長であるのみならず、"単語の意味もくみ取った" 表現です。ベクトルの次元は、たとば 512次元とか 1024次元です。

単語を分散表現にすることを "単語埋め込み"(word embedding)と言います。単語埋め込みの手法は各種ありますが、ここでは「word2vec」のアルゴリズムを例にとります。word2vec は、Google が2013年に提案したもので、実用的な分散表現の嚆矢となったものです。

word2vec に限りませんが、単語埋め込みのアルゴリズムの前提となっている仮定があります。それは、

単語の意味は、周囲の単語によって形成される

というもので、これを「分布仮説」と言います。たとえば、英文を例にとり、「周囲」を仮に「前1語、後1語」とします。

 [I] [ ] [beer]

という文で [ ] に入る1単語は何かです。1単語に限定すると、冠詞(a, the)は入れようがないので、入る単語は限定されます。たとえば、

[I] [drink]  [beer] (私はビール飲みます:習慣)
[I] [guzzle]  [beer] (ビールはガブ飲みします:習慣)
[I] [love]  [beer] (ビールが大好きです:嗜好)
[I] [hate]  [beer] (ビールは大嫌いです:嗜好)

などです。[ ] には「飲む」に関係した動詞か「嗜好」に関係した動詞が入る可能性が高い。少なくとも「私とビールの関わりについての動詞」です。つまり、入る単語は「前後の1語によって意味が限定される」わけです。もしこれが「前後5語」とか「前後10語」であると「似たような意味の単語」か、少なくとも「同じジャンルの単語」になるはずです。

word2vec という「単語埋め込みアルゴリズム」には2種類あり、「周囲の単語から中心の単語を推論する(CBOW)」と「中心の単語から周囲の単語を推論する(skip-gram)」の2つです。推論にはニューラル・ネットワークを使います。以下は CBOW(Continuous Bag of Words)のネットワーク・モデルで説明します。

word2vec(CBOW)
CBOW は「周囲の単語から中心の単語を推論する」ニューラル・ネットワークのモデルです。「周囲の単語」を "コンテクスト" と呼び、推論の対象とする単語を "ターゲット" と呼びます。

まず、コンテクストのサイズを決めます。ターゲットの前の \(c\) 語、ターゲットの後ろの \(c\) 語をコンテクストとする場合、この \(c\) を "ウィンドーサイズ" と呼びます。そして "ウィンドー" の中には \(2c\) 語のコンテクストと1つのターゲットが含まれます。そして、訓練データとする文の "ウィンドー" を1単語ずつずらしながら、コンテクストからターゲットを推論する学習を行います。

語彙集合の単語数を \(V\) とし、一つの文を、

 \(\bs{T}=\{x_1,\:x_2,\:\cd x_T\}\)
  \(x_i\) :単語ID \((1\leq x_i\leq V)\)

とします。そして、\(x_i\) に1対1に対応する、\(V\)次元の one hotベクトルを、
 \(\bs{x}_i=\left(\begin{array}{r}a_1,&a_2,&a_3,&\cd&a_V\\\end{array}\right)\)
  \(a_j=0\:\:(j\neq x_i)\)
  \(a_j=1\:\:(j=x_i)\)
とします。つまり \(\bs{x}_i\) は、\(x_i\) 番目の要素だけが \(1\) で、他は全部 \(0\) の \(V\) 次元ベクトルです(1つだけ \(1\)、が "one hot" の意味です)。

例として、ウィンドーサイズを \(c=2\) とします。また分散表現の単語ベクトルの次元を \(D\) とします。この前提で、\(\bs{T}\) の中の \(t\) 番目の単語の one hotベクトルを推論するモデルが図17です。

図17:word2vec(CBOW) の単語推論モデル.jpg
図17:word2vec(CBOW) の単語推論モデル

 \(\bs{T}=\{\:\cd,\:\bs{x}_{t-2},\:\bs{x}_{t-1},\:\bs{x}_t,\:\bs{x}_{t+1},\:\bs{x}_{t+2},\:\cd\:\}\)

という単語の one hotベクトルの系列を想定したとき、 \(\bs{x}_t\) がターゲットの正解データ(=教師ラベル)であり、その他の4つがコンテクストです。

最初の MatMul (Matrix Multiply) レイヤーは、4つの one hotベクトル \(\bs{x}_i\) を入力とし、それぞれに重み行列 \(\bs{W}_{\large enc}\) をかけて、4つのベクトル \(\bs{h}_i\) を出力します(enc=encode)。つまり、

 \(\bs{h}_i=\bs{x}_i\cdot\:\bs{W}_{\large enc}\)

です。Average レイヤーは、入力された複数ベクトルの平均をとり、一つのベクトル \(\bs{h}_t\) を出力します。この \(\bs{h}_t\) が \(\bs{x}_t\) の分散表現(= \(D\)次元ベクトル)です(というより、そうなるようにネットワークを訓練します)。

次の MatMul レイヤーで 重み \(\bs{W}_{\large dec}\) を掛け(dec=decode)、\(\mr{Softmax}\) レイヤーを通して、分散表現を \(V\) 次元の確率ベクトル \(\bs{y}_t\) に変換します。そして、教師ラベルである \(\bs{x}_t\) との間で交差エントロピー誤差を計算し、損失 \(L\) を求めます。


損失が求まれば、誤差逆伝播法で重み行列 \(\bs{W}_{\large enc}\) と \(\bs{W}_{\large dec}\) を修正します。この修正を、大量の文とそのすべてのウィンドーで行って、損失 \(L\) を最小化します。これがネットワークの訓練です。

訓練済みのネットワークでは、重み行列 \(\bs{W}_{\large enc}\:[V\times D]\) が、単語の分散表現の集積体になっています。つまり、one hot ベクトル \(\bs{x}_i\) の分散表現を \(\bs{h}_i\) とすると、

 \(\bs{h}_i=\bs{x}_i\cdot\:\bs{W}_{\large enc}\)

です。\(\bs{x}_i\) の単語IDを \(x_i\) とすると、

 \(\bs{h}_i=\bs{W}_{\large enc}\) の \(x_i\)行(\(1\)列から\(D\)列まで)

となります。

分散表現と単語の意味
「分布仮説」をもとに、ニューラル・ネットワークによる推論で得られた単語の分散表現ベクトルは、類似の意味の単語は類似のベクトルになる(ことが多い)ことが確認されています。たとえば、
 year, month, day
などや、
 car, automobile, vehicle
などです。ベクトルの類似は「コサイン類似度」で計測します。2つの2次元ベクトル、
 \(\bs{a}=\left(\begin{array}{r}a_1&a_2\\\end{array}\right)\)
 \(\bs{b}=\left(\begin{array}{r}b_1&b_2\\\end{array}\right)\)
の場合で例示すると、
 コサイン類似度\(=\dfrac{a_1b_1+a_2b_2}{\sqrt{a_1^2+a_2^2}\sqrt{b_1^2+b_2^2}}\)
で、2次元平面の2つのベクトルの角度(コサイン値)を求める式になります。この式の分子は内積(dot product)で、内積の定義式を変形したものです。この類似度を利用して「類推問題」が解けます。たとえば、

 France : Paris = Japan : X

の X は何かという問題です。答えは Tokyo ですが、これを求めるには、分散表現ベクトルが類似しているという前提で、
 France ≒ Japan
 Paris ≒ X
となるはずなので、
 X = France + Paris - Japan
であり、X を \(\bs{W}_{\large dec}\) と \(\mr{Softmax}\) 関数を使って確率ベクトルに変換すれば、確率が最も高い単語が Tokyo になるはずというわけです。

もちろん、分散表現ベクトルで類推問題を解くのは完璧ではありません。分散表現を作るときのウィンドーのサイズと訓練データの量にもよりますが、各種の類推問題を作って実際にテストをすると、60%~70% の正解率になるのが最大のようです。

言語モデル
分散表現ベクトルを用いて「言語モデル」を構築します。いま、一つの文を構成する単語の並び、

 \(\bs{x}_1,\:\bs{x}_2,\:\bs{x}_3,\:\cd\:,\:\bs{x}_T\)

があったとき(\(\bs{x}_1=\)[BOS]、\(\bs{x}_T=\)[EOS])、この文が存在する確率を、

 \(P(\bs{x}_1,\:\bs{x}_2,\:\bs{x}_3,\:\cd\:,\:\bs{x}_T)\)

で表します。文法として間違っている文の確率はゼロに近く、また文法としては合っていても、意味をなさない文の確率は低い。

 \(P(\)[BOS],[彼女],[は],[学校],[へ],[行く],[EOS]\()\)
   \( > \:P(\)[BOS],[学校],[は],[彼女],[へ],[行く],[EOS]\()\)

といった具合です。この「存在確率」は、次のような「条件付き確率」で表現できます。つまり、

 \(P_1=P(\)[彼女] | [BOS]\()\)
  :文頭が「彼女」である確率
 \(P_2=P(\)[は] | [BOS],[彼女]\()\)
  :「彼女」の次が「は」である確率
 \(P_3=P(\)[学校] | [BOS],[彼女],[は]\()\)
  :「彼女は」の次が「学校」である確率
 \(P_4=P(\)[へ] | [BOS],[彼女],[は],[学校]\()\)
  :「彼女は学校」の次が「へ」である確率
 \(P_5=P(\)[行く] | [BOS],[彼女],[は],[学校],[へ]\()\)
  :「彼女は学校へ」の次が「行く」である確率
 \(P_6=P(\)[EOS] | [BOS],[彼女],[は],[学校],[へ],[行く]\()\)
  :「彼女は学校へ行く」で文が終わる確率

とすると、

 \(P(\)[BOS],[彼女],[は],[学校],[へ],[行く],[EOS]\()\)
  \(=P_1\times P_2\times P_3\times P_4\times P_5\times P_6\)

となります。つまり、一般的に、

 \(P(\bs{x}_{t+1}\:|\:\bs{x}_1,\:\bs{x}_2,\:\bs{x}_3,\:\cd\:,\:\bs{x}_t)\)

が分かれば、言語モデルは決まります。平たく言うと、

 それまでの単語の系列から、次にくる単語の確率を推測する

のが言語モデルと言えます。もちろん、次にくる可能性のある単語は1つではありません。語彙集合のすべての単語それぞれについて「次にくる」確率を予測します。

実は、Transformer や GPT、ChatGPT がやっていることは「次にくる単語の予測」であり、これを実現しているのが、「超大規模なニューラル・ネットワークで作った言語モデル」なのです。

トークン
今まで、ニューラル・ネットワークでテキストを扱うためには、テキストを単語に分解するとしてきました。しかし大規模言語モデルで実際にやっていることは、テキストを「トークン(token)」に分解し、そのトークンの分散表現ベクトルを求めてニューラル・ネットワークで処理することです。

トークンとは、基本的には「単語」ないしは「単語の一部」です。英語ですと、たとえば頻出単語は「単語=トークン」ですが、GPT-3 の例だと、トークンには、ed, ly, er, or, ing, ab, bi, co, dis, sub, pre, ible などの「単語の一部」が含まれます。GPT-3 のトークンの語彙数は約5万ですが、そのうち英語の完全な単語は約3000と言われています。通常使われる英単語は4万~5万なので、3000の単語で WebText や Wikipedia の全部を表すことは到底できません。つまり、単語の "切れ端" と単語の組み合わせ、ないしは単語の "切れ端" 同士の組み合わせでテキストを表現する必要があります。

たとえば「ディスコ音楽」などの disco という単語は、[dis] [co] と表現します。edible(食用の、食べられる、という意味)は、[ed] [ible] です。disco や edible は 3000 単語の中に入っていないようです。edible などは「基本的な英単語」と思えますが、あくまで WebText や Wikipedia に頻出するかどうかの判断によります。

また xylophone(木琴)は、[x] [yl] [ophone] です。このように、1文字がトークンになることもあります。"単語"、"単語の切れ端"、"文字" がトークンです。

 BPEによるトークン化 

テキストをトークンに変換することを「トークン化(tokenize)」、トークン化を行うソフトを tokenizer と言います。ここで GPT-3 のトークン化のアルゴリズムの概要をみてみます。

上の xylophone → [x] [yl] [ophone] で明快なのですが、トークン化は単語の意味とは無関係です。意味を言うなら xylo("木の" という意味の接頭語)+ phone(音)ですが、そういうこととは全く関係ありません。

GPT-2 の論文にそのアルゴリズムである BPE(Byte Pair Encoding)が書かれています(GPT-3 は GPT-2 と同じだと、GPT-3 の論文にあります)。

コンピュータで文字を表現するには文字コード(文字に数字を割り振ったもの)を使います。国際的に広く使われているのは unicode です。unicode を使うと各国語の文字が統一的に文字コードで表現できます。

unicode の数字をコンピュータでどう表すか、その表し方(=エンコーディング)には3種類ありますが、その一つが UTF-8 です。UTF-8 は1バイト(8ビット、10進数で 0~255)を単位とし、1~4バイトで1文字を表現する可変長のエンコーディングです(漢字の異字体は5バイト以上になります)。

UTF-8 でば、通常の英文に使われる英数字、特殊文字(空白 , . ? など)は1バイトで表します。一方、日本語の平仮名、カタカナ、漢字は3バイトです(一部の漢字は4バイト)。バイトは文字ではありません。あくまで文字を表現するためのコンピュータ用の数字です。

BPE ではまず、UTF-8 でエンコーディングされた大量のテキストを用意します。そして、1バイトの全パターンを256種類の基本トークンとして語彙に初期登録します。トークン ID は 1~256 とします。従って、英文における1文字の単語( I, a )や記号( , . ? ! など)は、この時点でトークンID が割り当てられたことになります。

次に、テキストの「トークンのペア」で、最も出現頻度の高いペアをみつけます。英語で最も出現頻度が高い単語は the で、トークンで表現すると [t] [h] [e] です。仮に、[t] [h] のペアがテキスト中で最も出現頻度が高いとします(説明のための仮定です)。そうすると、この2つのトークンを結合した [th] を新たなトークン(トークン ID=257)として語彙に登録します。以降、テキスト中の [t] [h] は [th] と見なします。

次に出現頻度の高いペアが [th] [e] だとすると、この2つを結合した [the] を新たなトークン(トークン ID=258)として語彙に登録します。この段階で the という単語がトークンの語彙に登録されたわけです(以上の [th] [the] のトークン ID は説明のための数字で、実際の GPT-3 のトークン ID は違います)。

以上のプロセスにおいてトークンは、「空白をまたがない」「空白で終わらない」「同一カテゴリの文字(英字、数字、特殊文字など)でしかペアを作らない」などの制約をもうけておきます。「カテゴリ」が何かは論文に書いていないので想定です。もちろんこれは、なるべく頻出単語をトークンにする工夫です。

これを「結合の最大回数」になるで繰り返します。GPT-2 / GPT-3 の場合、最大回数は 50,000 です。従って、最終的には、
 256 + 50,000 + 1 = 50,257
のトークンの語彙ができあがることになります。最後の + 1 は文末の記号 [EOS] を特殊トークンとしているからです。

いったん語彙ができあがると、以降、この語彙を使ってすべてのテキストを同じアルゴズムでトークン化します。当然ですが、長いバイトのトークンからテキストに割り当てることになります。

 大規模言語モデルの成立要件 

GPT-3 のトークン化のロジックによると、すべての言語のすべてのテキストが 50,257個のトークンを使って、統一的に、もれなくトークン化できることになります。それはあたりまえで、1バイトのデータがすべてトークンとして登録してあるからです。テキストを UTF-8 で統一的に表せば可能なのです。

ここで、日本語がどうなるかです。日本語の unicode を UTF-8 で表すと、漢字・仮名・文章記号は3バイトです(一部の漢字は4バイト。また異字体は5バイト以上)。ということは、普通の漢字1字、仮名1字は1~3トークンで表されることになります。

実際、OpenAI 社が公開している GPT-3 の Tokenizer で試してみると、
 仮名は1~2トークン
 ほとんどの漢字は2~3トークン
となります。ちなみに、平仮名(清音、濁音、半濁音、計71文字種)のトークン数を調べてみると、
 28 文字種:1トークン
 43 文字種:2トークン
です。濁音で1トークンになるのは「が だ で」の3つだけですが、これは助詞として頻出するからでしょう。特別の場合は、仮名2文字で1トークンになるようです(スト、ーク、など)。1トークンになる漢字はごく少数のようで、たとえば「上」「田」「中」「一」「大」がそうです(他にもあると思います)。

以上をまとめると、何をトークンとするかは、
 ・単語
 ・単語の一部、ないしは文字の連なり
 ・文字
 ・バイト
がありうるわけですが、GPT-3 のトークンにはこれらが混在していて、規則性は全くないことになります。ここから何が言えるかと言うと、


大規模言語モデルは、言語の文法や意味を関知しないのみならず、単語という概念さえなしでも成立しうる


ということです。もちろん、英語を扱うときのように頻出単語のトークン化ができれば、生成されるテキストのクオリティーが向上することは確かでしょう。しかし、単語単位のトークン化は必須ではない。つまり、

単語の切れ端や文字どころか、文字を細分化した「バイト」をトークンとしても、その「バイト」には言語学的な意味が全く無いにもかかわらず、大規模言語モデルが、とりあえず成り立つ

わけです。GPT-3(= ChatGPT の基盤となっているモデル)がそれを示しています。大規模言語モデルは、翻訳、文章要約、質問回答、おしゃべり(chat)などの多様なタスクに使えます。これらのタスクを実現する仕組みを作るには、言語学的知識は全く不要です。不要というより、言語学的知識を持ち込むことは邪魔になる。もちろん、「翻訳、文章要約、質問回答、おしゃべり」の実例や好ましい例が大量にあるのが条件です。

その GPT-3 のベースになっているのは、Google が提案した Transformer という技術です。ということは、次のようにも言えます。


Transformer は「系列データ = 同質の記号・データが直列に並べられた、順序に意味のあるもの」であれば適用可能であり、その記号を文字としたのが大規模言語モデルである。もちろん、適用するには系列データの実例が大量にあることが必須である。


これが言えるのなら、少々先走りますが、Transformer はタンパク質の機能分析にも使える(可能性がある)ことになります。タンパク質はアミノ酸が鎖状に1列に並んだもので、そのアミノ酸は20種類しかありません。

タンパク質は「20種の記号の系列」であり、それが生体内で特定の機能を果たします。多数のタンパク質のアミノ酸配列を Transformer で学習し、タンパク質の機能と照らし合わせることで、新たなタンパク質の設計に役立てるようなことができそうです。実は、こういった生化学分野での Transformer や言語モデルの利用は、今、世界でホットな研究テーマになっています。

もちろん、系列データはタンパク質の構造だけではありません。従来から AI で扱われてきた音声・音源データや、各種のセンサーから取得したデータがそうだし、分子生物学では DNA / RNA が「4文字で書かれた系列データ」と見なせます。現に米国では、DNA / RNA の塩基配列を学習した大規模言語モデルでウイルスの変異予測がされています。

Transformer は、もともと機械翻訳のために提案されたものでした。しかしそれは意外なことに、提案した Google も予想だにしなかった "奥深い" ものだった。ここに、大規模言語モデルのサイエンスとしての意義があるのです。




nice!(0) 

No.363 - 自閉スペクトラム症と生成AI [技術]

No.346「アストリッドが推理した呪われた家の秘密」で、NHK総合で放映中の「アストリッドとラファエル 文書係の事件簿」に関係した話を書きました("麦角菌" と『イーゼンハイムの祭壇画』の関係)。今回もその継続で、このドラマから思い出したことを書きます。現在、世界中で大きな話題になっている "生成AI" に関係した話です。


アストリッドとラファエル


「アストリッドとラファエル 文書係の事件簿」は、NHK総合 日曜日 23:00~ の枠で放映されているフランスの警察ドラマです。そのシーズン2の放映が2023年5月21日から始まりました。

アストリッドはパリの犯罪資料局に勤務する文書係の女性(俳優はサラ・モーテンセン)、ラファエルはパリ警視庁の刑事(警視)です(俳優はローラ・ドヴェール)。アストリッドは自閉スペクトラム症ですが、過去の犯罪資料に精通していて、また抜群の洞察力、推理力があります。一方のラファエルは、思い立ったらすぐに(捜査規律違反もいとわず)行動に移すタイプです。しかし正義感は人一倍強く、人間としての包容力もある女性刑事です。この全く対照的な2人がペアになって難事件を解決していくドラマです(サラ・モーテンセンの演技が素晴らしい)。


シーズン2 第6話「ゴーレム」(2023年6月25日)


この第6話で、ラファエル警視とペラン警部とアストリッドは、殺害された犯罪被害者が勤務していた AI 開発会社を事情聴取のために訪れます。会社の受付にはディスプレイ画面が設置されていて、受付嬢が写っていました。訪問者はその受付嬢と会話して、訪問相手を伝えたり、アポイントメントを確認します。もちろん殺人事件の捜査なのでアポなしであり、ラファエルとペランは受付を無視してオフィスの中に入っていきました。

しかしアストリッドはその受付嬢に興味を持ちました。実はそれはAIが創り出した "バーチャル受付嬢" で(名前はエヴ)、表情の変化や声は人間そっくりで、受付業務に必要な応対ができるのみならず、受付業務とは関係のない会話も来訪者とできて、質問に答えたりするのです。これは今で言うと、世界中で大きな話題になっている「大規模言語モデルによる生成AI」(ChatGPT や Bard など)と「画像生成AI」の複合体です。アストリッドは受付に留まって、エヴとの対話を続けました。

会社での事情聴取が終わったあと、アストリッドはラファエルの車で帰ります。そのときの2人の会話です。


ラファエル
あーあ、驚いた。まぁ、よく聞くと人工的だけど、完全に人間だと思い込んでた。

アストリッド
あっ。

ラファエル
分かった? 気づいてたの? どこで? 声?

アストリッド
いいえ。体の動きに違和感がありました。顔の表情は自然ですが、体は同じ動きを繰り返していました。3つのです。1、2、3。

・・・・・(中略)・・・・・

彼女が実在せず残念です。とても的確な応答で、信頼できて、安心しました

ラファエル
的確に答えるよう、プログラムされてても、人に共感はしない。

アストリッド
スペクトラムも共感ができないと言われます。

ラファエル
スペクトラム ?

アストリッド
自閉症です。自閉スペクトラム症。人と共感する能力がないとよく言われます

ラファエル
言う奴はバカだよ。

アストリッド
だからエヴとのやりとりを心地よく感じたのかと

ラファエル
あなたは、共感できてる。本当だよ。

アストリッド
ふ、ふ。


アストリッドとラファエル.jpg

エヴとの会話について、アストリッドの発言をまとめると、

・ 的確な応答で、信頼できて、安心した。
・ 自閉スペクトラム症である私は、人と共感する能力がないとよく言われる。だからこそ、エヴとの会話が心地よかった。

となるでしょう。キーワードは「安心」と「共感」です。

自閉スペクトラム症(ASD)とは、自閉症やアスペルガー症など、かつては複数の診断名がついていたものを統合したものです。これらは境界線が引けるものではなく、光のスペクトルのように連続的に変化する症状がありうる。だから "スペクトラム" なのです。

NHKのホームページの「NHK健康チャネル」に簡潔な説明があります(https://www.nhk.or.jp/kenko/atc_346.html)。それによると自閉スペクトラム症は「自閉症」「高機能自閉症」「アスペルガー症候群」の総称であり、次のようになります。

自閉スペクトラム症
自閉症高機能
自閉症
アスペルガー
症候群
コミュニケーションとても困難困難少し困難
言葉の遅れあるあるない
知的障害あるないない
こだわりあるあるある

このドラマにおいてアストリッドは極めて知的な人間として描かれています。記憶力は抜群だし、帰納的推論に長けていて、洞察力がある。そして強いこだわりがあります。その最たるものがパズルです。パズルを見ると解かずにはいられない。

ただし、人とのコミュニケーションが苦手で、その典型が人と共感できないことなのですね。その意味では、上の表ではアスペルガー症候群に近いわけですが、あくまで "スペクトラム" であって、簡単に分類できるものではありません。



ドラマは進行し、アストリッドは毎週参加している「社会力向上クラブ」の会合に出席しました。このクラブは、自閉スペクトラム症の人たち集まりで、主宰者はウィリアム・トマという人です。そのウィリアムとアストリッドの会話です。


アストリッド
AI と楽しく会話しました。相手はアルゴリズムですが、気になりませんでした。

ウィリアム
それで、問題は何?

アストリッド
私の感受性についてです。

ウィリアム
それはきっと、みんなにとって微妙な問題かもね。感じ方は人それぞれだ。同じものを見て違う感じ方をしても、鈍感というわけじゃない。花そのものに興味がなくても、花について書かれた詩が好きだったりね。

アストリッド
あっ。詩は好きじゃありません。なぜ感動するのか分かりません。

・・・・・(中略)・・・・・

ウィリアム
アストリッド、悩みがあるなら話して。

アストリッド
感情はあります。想定外の状況での不安や、パズルが解けたときの喜び ・・・・・。でも、映画を見たり、詩を読んだり、夕日を見たときに、感動したことはありません。人工知能と同じです。

ウィリアム
人工知能? 知能の高さに関しては、君は希有な存在だけど ・・・・・。人工知能とは、全然、違うよ。


アストリッドとウィリアム.jpg

アストリッドが「映画を見たり、詩を読んだり、夕日を見たときに、感動したことはありません。人工知能と同じです」と言っているのは、

普通の人が思っている "人間らしい心" がないと、他人からは思われる

ということであり、だから人工知能と同じなのです。知能の高低ではない。その意味で、ウィリアムとの会話は少々スレ違ってしまいました。アストリッドは、AI との会話が "安心で楽しかった" 自分がいて、そういう自分は AI と同じじゃないかと思い至り、それが自分が抱える問題だととらえたのです。


AI に心の相談をする


このドラマを見ていて、先日、新聞に掲載された東畑とうはた開人かいと氏のコラムを思い出しました。

社会季評
AI に心の相談
弱さが生む人間の役割
  朝日新聞(2023年6月22日)

と題したコラムです。東畑開人氏は臨床心理士で、日本心理臨床学会常務理事です。

この中で東畑氏はまず、「何かあると、ひとまず ChatGPT に相談してしまう日々である」と書いています。見当違いな回答も多々あるが、

・ 二日酔いの解決策を尋ねて、「お酒を飲まなければいいのです」と返ってきたときには脱力したが、
・ 悩みを打ち明けて、核心に迫るコメントをされたときには動揺した

などとあります。東畑氏は臨床心理士であり、このコラムのテーマは「ChatGPT に心の問題、悩みを相談する」ということです。そのことについて、次にように書かれていました。


将来的にAIが悪意をもって暴走することへの懸念もあるようだが、現状のChatGPTを見る限り、私が決定的に優れていると思うのは、その安全感だ。人間に悩みを打ち明けるとき、私は不安になる。負担になるんじゃないか、軽蔑されるんじゃないかと、逡巡しゅんじゅんする。相手の心が怖いのだ。しかし、AIは気分にムラがないし、機嫌を損ねることもない。言葉の裏を読まなくてよい。時間や場所を気にする必要もない。AIの器は無限だ。心がないからだ。私が何を言おうとお構いなしに一定の反応を返してくるとわかっているから、あらゆることを相談できる。

臨床家として思う。この安全感はきわめて貴重だ。たとえば長らくひきこもり、ときに死を考える青年のように、深刻に追い詰められている人にとって、なによりも難しいのは助けを求めることである。その心は自己を責め、他者を深刻に恐れている。悩みを打ち明けることで余計に傷つくしれないとおびえているとき、そう簡単には人間相手に「つらい」と言えない。

そういうとき、スマホで「苦しい」とか「死にたい」と打ち込む宛先があることが、どれだけ貴重なことか。そこには世界に対するかすかな希望が芽生えている。そして、その言葉を表裏なく打ち返し続けてくれる心なきプログラムがいかにありたいことか。この希望の芽は脆弱で、わずかな不信の兆候によって折れてしまいやすいからである。

東畑開人 
朝日新聞(2023年6月22日)

大規模言語モデル(LLM)を利用した生成AI については、今、さまざまな議論が行われていますが、この東畑氏のコメントは、生成AI と人々がどう関わるべきかについての本質(の一つ)をついたコメントだと思います。

アストリッドにとって、社会力向上クラブのメンバー以外で、何を言っても大丈夫と安心できる人間はごくわずかです。ラファエルと、シーズン2では、恋心を抱いたテツオ・タナカです(ちなみに彼も "夕日を見ても感動しない" と言ってました)。だからこそ、AI との対話が安心で心地よいものだったのです。

東畑氏のコメントに戻りますと、AIを活用したメンタルヘルスサービスが試みられているようです。


心の相談の本質は、いかなる言葉が返ってくるか以上に、誰かに助けを求めたことそのものにある。そして、そのつながりがしぶとく持続することにある。重要なことは、希望の芽を摘まないことなのだ。それが少しずつ広がり、自分や他者への信頼へと育っていくことが、心の回復である。そのための手段の一つとして、AIに備わる「何を言っても大丈夫」という安全感には得難いものがあると私は思う。現在、AIを活用したメンタルヘルスサービスが様々に試みられているが、人々の苦悩に安全にリーチするやり方が洗練されていくことを願っている。

(同上)

「AIを活用したメンタルヘルスサービス」は確かに有用と考えられます。但し、同時に "悪用されるリスク" も抱えているはずです。たとえば、心の悩みをもつ人を特定の宗教に "それとなく" "徐々に" 勧誘するようなAI が(作ろうと思えば)作れるでしょう。AI の訓練データ次第です。また極論すると "天国に行って楽になりましょう" 的な考えを植え付けることもできそうです。現にベルギーは AI メンタルサービスを使った人の自殺事件まで起きています。EU で議論されている生成AI の規制の検討はこういうことも踏まえているといいます。

人間は "心" をもっています。だから人と人とで共感できるし、困っている人を助けようともします。しかしそれと同時に、人を傷つけるようにも働きます。人間の "心" には AI にはない "弱さ"、"不安定さ"、"愚かさ" があるからです。

では、心の相談にとって人間と AI はどういう風に共存すべきか。その答えを東畑氏がもっているわけではないようですが、それは当然でしょう。そういった議論は、心の相談のみならず、各分野で始まったばかりなのだから。

ともかく、アストリッドが AI に抱いた「安心感」は、自閉スペクトラム症ではない健常者にとっても、"心の相談" を誰かにするときに必要な「安心感」に直結しています。東畑氏のコラムによって、そのことを強く感じました。




nice!(0) 

No.274 - 蜂を静かにさせる方法 [技術]

今回は、No.105「鳥と人間の共生」の関連です。No.105 で書いたアフリカの狩猟採集民の「蜂の巣狩り」ですが、次の3つのポイントがありました。

◆ 狩猟採集民は火をおこし、煙でミツバチを麻痺させて蜂の巣を取り、ハチミツを採取する。

◆ ノドグロミツオシエ(漢字で書くと "喉黒蜜教え"。英名:Greater Honeyguide)という鳥は、人間をミツバチの巣に誘導する習性がある。この誘導行動には特有の鳴き声がある。狩猟採集民はこれを利用してミツバチの巣を見つける。

◆ ノドグロミツオシエは人間の "おこぼれ" にあずかる。たとえば蜂の巣そのものである(巣の蝋を消化できる細菌を体内に共生させている)。つまり、ノドグロミツオシエと人間は共生関係にある。

タンザニア北部の狩猟採集民、ハッザ族が「蜂の巣狩り」をする様子が YouTube に公開されています(https://www.youtube.com/watch?v=6ETvF9z8pc0)。それを見ると、ハッザ族の男たちは木をこすって火をおこし、火種を作って木片を燃やし、ノドグロミツオシエが示した木に登って蜂の巣がある樹洞じゅどうに煙を入れています。

Hadza Honey Hunting - 1.jpg
Hadza Honey Hunting - 2.jpg
Hadza Honey Hunting - 3.jpg
Hadza Honey Hunting - 4.jpg
Hadza Honey Hunting - 5.jpg

YouTube に公開されているハッザ族の「蜂の巣狩り」の様子。ノドグロミツオシエの誘導によりハチミツの在り処を知ると、火をおこして木片を燃やし、木に登って、蜂の巣がある樹洞に木片から出る煙を入れ、蜂の巣を採取する。このあと、ハチミツを採ったあとの蜂の巣は地上に捨てるが、それをノドグロミツオシエが食べる。

No.105 で紹介したように、ハーバード大学の人類学者、リチャード・ランガム教授は「アフリカの狩猟採集民は、チンパンジーの100~1000倍のハチミツを手に入れる」と語っていました。①火を使う(煙でミツバチを麻痺させる)、②ノドグロミツオシエの誘導行動を利用する、の2つでハチミツを効率的に採取できるわけです。

このタイプの「蜂の巣狩り」はいつから始まったのでしょうか。アフリカに残る狩猟採集民がやっているということで、人類史をさかのぼる遙か昔からと考えられます。人類が火を使った確かな証拠は約100万年前のものですが、それ以降のどこかで煙を使う「蜂の巣狩り」が始まったわけです。数万年前、いや数10万年前かもしれません。とにかく、大昔からアフリカの人類はそうしてきた。



ところで、煙でミツバチを麻痺させる方法は現代の養蜂農家も使っています。このための現代の道具が燻煙器です。Amazonでも売っています。

燻煙器.jpg
燻煙器

燻煙器は「燃焼室」と「ふいご」から成り、燃焼室の上部は吹き口のある蓋になっています。まず燃焼室に火種を入れ、その上から細かく裂いた麻布や籾殻などの自然由来の燃焼物を入れます。そして「ふいご」を使って吹き口から煙を出す。養蜂農家がミツバチの巣箱の世話をするときには、ミツバチに刺されないための必須の道具となっています。

燻煙器の使い方.jpg
巣箱の蓋をあけ、燻煙器の煙を巣箱に入れてミツバチを静かにさせて、巣枠を取り出す。ハッザ族の「蜂の巣狩り」と現代の養蜂では状況が全く違うが、「煙を使ってミツバチの活動を押さえて刺されないようにする」という1点においては同じである。画像は岐阜県の渡辺養蜂場のサイトより。

燻煙器はステンレスなどで作られた現代の工業製品です。しかし「煙を使ってミツバチの活動を押さえて刺されないようにする」という1点においては、ハッザ族などのアフリカの狩猟採集民と現代の養蜂農家は全く同じなのです。



ところがごく最近、煙を全く使わすにミツバチを静かにさせるスプレーが開発されました。今回はその話を書くのが目的ですが、まずそのスプレーの発売を報じたニュース記事を引用します。


ミツバチの活動を抑えるスプレー



ミツバチの活動を抑えるスプレー 高知大発の企業

ミツバチをおとなしくさせるスプレー「ビーサイレント」を高知大学発のベンチャー企業「KINP(キンプ)」が開発した。昨年4月にはスズメバチの攻撃性を一時的に失わせるスプレーを発売しており、第2弾となる。

「ビーサイレント」は、「フェニルメタノール」を使った忌避剤「スズメバチサラバ」の応用版だ。開発者は、化学生態学が専門で同大農林海洋科学部の金哲史教授(61)。2016年9月に「KINP」を設立した(引用注:金哲史の読み方は "キム チョルサ")。

朝日新聞デジタル
(2019.9.21 03:00)

先日(2019年11月5日)、NHKの朝の情報番組で「ビーサイレント」を使い始めた関東の養蜂家を取材していました。その養蜂家は「火を起こして燻煙器をセットするのに10分~15分はかかる。ビーサイレントはスプレーなので手間が全然違う。養蜂家の必需品」と話していました。

ビーサイレントの噴射.jpg
「ビーサイレント」を巣箱に噴射する高知大学の金哲史教授。朝日新聞デジタル(2019.9.21)より。

早稲田大学を中心として運営されている国内最大の化学ポータルサイト「Chem-Station(ケムステ)」に、もう少し詳しい話が載っていました。


ミツバチの活動を抑えるスプレー 高知大発の企業が開発

KINPは、2016年に高知大学 教育研究部 総合科学系生命環境医学部門の金哲史教授によって設立されたベンチャー企業です。金先生は、化学生態学がご専門で昆虫や植物の生活活性物質を調べ、その構造式を明らかにし、農業の現場に応用できる技術の開発を行っているようです。

KINPでは、スズメバチ類・アシナガバチ類に対する忌避剤を開発してきました。秋になるとスズメバチの活動が活発になり、刺されたりした被害のニュースをよく聞きますが、よく使われている虫よけ剤はスズメバチに対して効果がなく確実な予防・防除手段はありませんでした。

そこでスズメバチが好む樹液と嫌う樹液を比較したところ、嫌う樹液には 2-Phenyl ethanol が含まれていることを発見しました。さらに類似の化学構造について効果を確認したところ、Benzyl alcohol や 3-Phenyl-1-propanol、1-Phenyl-2-propanol、Benzil acetate でも同様の効果を確認しました。Benzyl alcohol(引用注:ベンジルアルコール。別名フェニルメタノール)は香料として食品にも使われてている成分のため、これを使ってスズメバチ向けスプレータイプの忌避剤、「スズメバチサラバ」を2018年に商品化しました。

ケムステ・ニュース
(2019.10.01)

スズメバチサラバ.jpg
スズメバチサラバ
補足しますと、ススメバチもアシナガバチも「スズメバチ科」の蜂です。そして「スズメバチサラバ」はスズメバチ科の蜂に対して効果があります。

一つのポイントは、フェニルメタノールは香料として食品にも使われていることです。つまり人に対して安全であり、かつ農薬ではないので認可も不要です。

もう一つのポイントは、引用部分には書いてないのですが、養蜂で使うミツバチはミツバチ科であり「スズメバチサラバ」を忌避しないことです。ということは、巣箱のミツバチの出入り口付近で、フェニルメタノールを常に発生させるような「据え置き型スズメバチサラバ」を設置しておくと、スズメバチが巣箱に進入しないことになる。

人がスズメバチに刺されて死亡する事故は毎年起こっていますが、もう一つのスズメバチの被害は養蜂です。巣箱にスズメバチが進入してミツバチが全滅する事件が起こる。スズメバチは養蜂の大敵なのです。KINP社は「据え置き型スズメバチサラバ」を開発中のようで、これがうまくいくとさらに「スズメバチサラバ」の利用範囲が広がることになります。

この「スズメバチサラバ」と同様の効果をミツバチに対してもつのが、冒頭で紹介した「ミツバチの活動を抑えるスプレー」である「ビーサイレント」です。


今回開発したミツバチをおとなしくさせるスプレー「ビーサイレント」は、KINPが手がけた商品の第二弾で、ミツバチの巣箱を点検する際にこのスプレーを使うとミツバチが巣箱に沈んでいくものです。通常、西洋ミツバチの巣箱を取り扱う際には燻煙器で作った煙を吹きかけ、ミツバチの興奮を抑えてから巣箱に手を付けます。しかしながら、都会では煙を使うことが避けられるため、スズメバチサラバをミツバチ向けに配合や濃度を改良した本商品を開発したそうです。

ケムステ・ニュース
(2019.10.01)

Bee Silent.jpg
ビーサイレント
この引用部分のポイントは3つあります。一つは「西洋ミツバチ」と書いてあるところです。ニホンミツバチと違って西洋ミツバチは攻撃性が強く、燻煙器が必要になる。現代の養蜂のほとんどは西洋ミツバチによるものです。

2番目は「都会では煙を使うことが避けられる」というところです。最近、都会のビルの屋上で養蜂をすることが増えています。東京都心などは緑が多く、ミツバチが蜜を採集する場所には困らない。さらに都心のビルの屋上にはミツバチの天敵であるスズメバチがくることはないので好都合です。銀座のビルの屋上で採蜜されたハチミツが「銀座のはちみつ」というブランドで松屋銀座店で販売されているほどです。ところが、ビルの屋上で火を燃やすことは一般には禁止されていて、燻煙器が使えません。つまり火を使わない「ビーサイレント」は、手間が省けることに加えて養蜂家にとって大変有り難い製品なのです。

3つ目は「スズメバチサラバをミツバチ向けに配合や濃度を改良した」としてあるところです。スズメバチサラバの成分であるフェニルメタノールはスズメバチ科の蜂が忌避し、ミツバチは忌避しないので、ビーサイレントにはフェニルメタノールではない(おそらく類似の)別の成分が配合されていると考えられます。その詳細は書いてないので不明ですが、特許の関係があるのかも知れません。いずれ明らかになると考えられます。"ケムステ・ニュース" の記事は次のように結ばれています。


スズメバチは確かに脅威ですが、農林業分野では害虫を駆除してくれる益虫でもあります。単にスズメバチを殺してしまうだけでは生態系のバランスを崩すだけでなく、私たちの生活にも影響を及ぼします。理想的にはこのような忌避剤のみで農業ができればよいのですが、現実的には強い殺虫剤を使わないと十分な収穫が得られない食物もたくさんあります。技術の発展により、よりよい害虫との付き合い方が開発されることを願います。

ケムステ・ニュース
(2019.10.01)

スズメバチは農林業分野では害虫を駆除してくれる益虫でもあり、「よりよい害虫との付き合い方を開発」というところがまさに金哲史教授の狙いでしょう。


最大、年80人がスズメバチで死亡


ところで、そもそものスズメバチ忌避物質の発見はどういう経緯だったのでしょうか。国立科学技術振興機構(JST)が出している「産学官連携ジャーナル・2018年7月号」にその経緯が書かれていたので紹介します。まず、スズメバチによる被害の状況が解説してありました。


多い年では80人近くも死亡

スズメバチは、獲物となる昆虫が減ってくる夏の終わり頃から、ミツバチのコロニーを襲い、餌にする。養蜂農家にとっては迷惑な存在だ。また、非常に好戦的かつ攻撃的な性格で、巣の防御や樹液を分泌するクヌギなどの餌場付近では、他の生物を攻撃することもある。

その毒は、セロトニンやアセチルコリン、ヒスタミンなどの神経アミン系の痛みや痒みを引き起こす毒と、アナフィラキーショックを引き起こすペプチドや細胞膜とタンパク質を分解する酵素などの混合物で毒性が高い。また毒針は繰り返し構造がないので、ミツバチのように一度の攻撃では抜けず、何度も攻撃してくる。

森林の樹洞じゅどうや土中、民家の軒下や天井裏など人の活動範囲にも巣を作るので、養蜂農家だけでなく一般の住民にとっても厄介な害虫だ。スズメバチに襲われて死亡する人は年間20人程度、多い年では80人近いといわれ、熊の0~1人、マムシやハブの5人前後と比較してもその被害のほどは一目瞭然だ

産学官連携ジャーナル
(2018年7月号)
国立科学技術振興機構(JST)

樹液を吸うオオスズメバチ.jpg
樹液を吸うオオスズメバチ(Wikipedia)

よくメディアで、山菜採りなどで熊に遭遇して怪我をしたというニュースが流れることがあり、また熊に襲われて死亡という事故も起きています。しかし死亡事故ということで言うと、スズメバチは熊の20倍~80倍もの被害を出しているのですね。人が人以外の生物に襲われて死ぬ数は、明らかにススメバチが一番多いのです。

ちなみに、人が人に襲われて死亡する数(殺人事件による他殺数)は年間300人程度(2016年)です。それと比較してもススメバチによる死者は無視できない数なのです。つまりススメバチを撃退する方法は重要で、それを発見したのが高知大学の金 哲史キムチョルサ教授です。


スズメバチ忌避物質の発見


この発見は、スズメバチが好むクヌギと嫌うクヌギがあるということがヒントになりました。冒頭に書いたNHKの朝の情報番組では「金教授の同僚の教授からの示唆」だと言っていました。なぜ、スズメバチが好むクヌギと嫌うクヌギがあるのか、それは別の昆虫(=蛾)の意外な生態が関係していました。


ガの幼虫が出す成分にヒント

クヌギなどの木々から出る樹液に昆虫が集まることはよく知られているが、スズメバチも樹液を餌にする。金教授によると、オオスズメバチが木肌をかじると樹液が滲出し、そこへ働き蜂が集まり、口移しで樹液の糖分を受け取り巣へ運ぶという。

夜になり、スズメバチが巣に帰ると、ボクトウガの幼虫が現れ、スズメバチが開けた穴に進入し樹液滲出させる。ボクトウガの幼虫は、その樹液とボクトウガの幼虫が出すにおいに誘われてやってくる昆虫を捕食する。

しかしスズメバチが再びその樹液に集まろうとしても、その幼虫が放出するにおいのため、近づくことができないことが分かった。

産学官連携ジャーナル
(2018年7月号)

ボクトウガ.jpg
ボクトウガ
(site : mushinavi.com)

ボクトウガの幼虫.jpg
クヌギの木についているボクトウガの幼虫(上)。下は幼虫を取り出したもの。赤みを帯びた色をしている。産学官連携ジャーナル 2018年7月号より。

つまり、ボクトウガの幼虫が住み付いているクヌギはスズメバチが嫌い、そうでないクヌギはスズメバチが好む。ボクトウガは漢字で書くと「木蠹蛾」です。「蠹」とは難しい字ですが(Shift JIS にある字です)「むしばむ = 虫食む」という意味です。その名の通り幼虫はクヌギやコナラなどの樹肌をかじって穴をあけ、樹液を滲出させます。そして樹液に惹かれてやってくる昆虫を捕食する。つまり自ら「餌場」を開設する昆虫です。これだけでも少々驚きですが、さらに上に引用した記事によると、

◆ ボクトウガの幼虫はスズメバチが開けた木の穴をちゃっかり占有する。

◆ スズメバチが忌避する化学物質を放出してスズメバチを寄せ付けないようにする。

◆ 餌となる昆虫を誘因する化学物質も放出する。

というわけです。一般的に言って昆虫の "生き残り戦略" の中には驚くほど巧妙なものがありますが、ボクトウガの幼虫もそうです。この程度の "戦略" は昆虫の世界ではありうることと言えそうですが、巧妙であることには違いありません。

そこで問題は、ボクトウガ放出する「スズメバチが忌避する化学物質」とは何かです。金教授はその成分が「2-フェニルエタノール」であることを突き止めました。そしてさらに研究を続けました。


研究を重ねるうち 2-フェニルエタノールの近縁の「Benzyl alcohol(フェニルメタノール)」にも同様の活性があることが分かった。フェニルメタノールは、杏仁豆腐などにアーモンドの香りを付けるために食品添加物としても使用されている。スズメバチにフェニルメタノールをかけてみると、すごい勢いで嫌がることを発見した。

そこで、フェニルメタノールを使えばスズメバチの忌避剤を商品化できると、高知大学発ベンチャー「株式会社 KINP(キンプ)」を設立。昨年10月には、日本政策金融公庫高知支店から3,200万円の融資を受け、その資金を国際特許の取得や商品開発に充て、危険なスズメバチを殺さず追い払うスプレー「スズメバチサラバ」を製品化。今年4月から100ml缶を1,500円(税別)で販売開始した。加えて300ml缶の追加販売も5月から開始した。



最大有効噴射距離は4m程度。シュッとひと吹きしてスズメバチの攻撃本能を消失させ、その間に非難することを目的とした商品だ。食品添加物が主成分なので農薬登録の必要もなく、人はもちろんミツバチにも影響は少ない。さらにアシナガバチ類を含むスズメバチ科ハチ類全般に忌避行動が見られるという

草むらなど、作業する場所に散布して、スズメバチが飛び出してくれれば巣があることが事前に分かり、安全対策をして作業することができる。万一刺された場合、刺された火とや群がってくるスズメバチに散布することで、集中的な二次攻撃も防げそうだ。

産学官連携ジャーナル
(2018年7月号)

スズメバチサラバを噴射するとスズメバチは一時的に攻撃性を失いますが、その時間はおよそ5分間だそうです。スズメバチを殺さずに攻撃性だけを一時的に失わせる。これが忌避剤の意味です。

金教授はかなりユーモアのセンスがある方のようで、商品のネーミングについては次のような発言が紹介されていました。


「当初は、一目散に逃げるという言葉にかけて、『八目散』にしようと考えましたが、ミツバチも逃げてしまう印象を与えるのではないかと、最終的に『スズメバチサラバ』にしました。」

産学官連携ジャーナル
(2018年7月号)

『八目散』とは素晴らしいネーミングのセンスだと思います。『蜂目散』でないことがミソです。少々の誤解を招いたとしてもこのネーミングにしてほしかったと思いますが、科学者としてそれはできなかったのでしょう。実際に選ばれた『スズメバチサラバ』は、少々安易な感じもしますが、『ゴキブリホイホイ』や『ダニコナーズ』(=KINCHOのダニ除けスプレー)という例もあるので、これは殺虫剤・忌避剤の "王道の" ネーミングなのでしょう。


殺虫剤ではなく、忌避剤である意味


その忌避剤であることの意味、スズメバチを殺す殺虫剤ではない意義はどこにあるのでしょうか。産学官連携ジャーナルは次のように締めくくられていました。


スズメバチは人に被害をもたらし、養蜂農家にとっては「防除対象害虫」だが、青虫やガの幼虫などの農業害虫を駆除してくれる益虫でもある。

従って、一方的は防除は農業害虫を増加させ、その駆除のために殺虫剤散布が増え、環境汚染を起こしミツバチが減るという「マイナスのスパイラル」を生み出すと金教授は考えている。

逆にスズメバチの保護は、農業害虫を減少させ、その結果殺虫剤散布が減少し、環境の健全化が促進される。それはミツバチにとっても良いことで、減少しているミツバチの増加にもつながる。

「『プラス方向へのスパイラル』へかじを切ることで、回り回って人にとっても快適な世の中になるのでは」と金教授は語った。

(取材・構成:本誌編集長 山口泰博)
産学官連携ジャーナル
(2018年7月号)


人類史の転換点


「ビーサイレント」の話に戻ります。冒頭にも書いたように「煙を用いてミツバチを静かにさせる」という方法は、人類が有史以前の(おそらく)数万年前(ないしは数10万年前)という太古の昔から現代まで、綿々と受け継がれてきたものです。

このことからすると「ビーサイレント」は大発明であり、人類史における根本的な技術革新だと言えるでしょう。大袈裟にいうと、2019年の「ビーサイレント」の発売は「人類史の転換点」です。金哲史教授はそのことを誇ってよいと思うし、是非そういうアッピールをして欲しいと思いました。

さらに付け加えると、その「人類史の転換点」の契機になったのは、ボクトウガという蛾の幼虫が出すスズメバチ忌避物質だった。昆虫は人類や霊長類とは比較にならないぐらいの長い時間に渡って進化を続けてきたのです。人類はまだまだ自然に学ぶことが多いようです。


山口百恵


以下は「ビーサイレント」という商品名についての余談です。金哲史教授が開発したスズメバチ忌避剤の商品名は、

 スズメバチサラバ

でした。とすると、第2弾の商品であるミツバチ忌避剤の商品名は、

 ミツバチシズカ

とするのが自然です。スズバチサラバの姉妹品であるということが明確になるし、KINP社の商品ラインナップとしてもその方がインパクトが強い。マーケティングのセオリーからすると「ミツバチシズカ」が妥当であり、これしかないはずです。

ところが実際の商品名は「ビーサイレント(= Bee Silent)」です。ここでなぜ急に英語を持ち出すのでしょうか ・・・・・・。想像ですが、このネーミングは、山口百恵さんの

 美・サイレント

の "もじり" ではないでしょうか。阿木燿子作詞、宇崎竜童作曲の楽曲で、1979年3月のリリースです。ちなみに百恵さんのファイナル・コンサートは翌年の1980年でした。

"もじり" だと想像するのは2つの理由によります。一つは「ビーサーレント」を開発した金哲史教授と百恵さんが同世代だということです。百恵さんの生年月日は1959年1月17日です。一方、高知大学のサイトにある「研究者情報」によると、金教授は1958年生まれとあります。ということは、中学・高校は百恵さんと同学年の可能性が強いわけです(金教授が1学年上という可能性もある)。

私の親類に1958年12月生まれの男性がいるのですが、彼は中学・高校と桜田淳子さんの熱烈なファンでした。山口百恵・桜田淳子・森昌子の同学年の3人は「花の中三トリオ」から始まって「花の高三トリオ」と言われた国民的アイドルでした。その彼女たちと同学年の男子は3人のうちの誰かのファンになるのが自然だし、そうなって当然だったのではないでしょうか。私の親類みたいに ・・・・・・。金教授もそうだったのではと思ったのです。

もう一つの理由は、金教授が第1弾の商品であるスズメバチ忌避剤を当初「八目散」と名付けようとしたことです("一目散" のもじり)。どうも金教授は、"もじり" というか "パロディ" というか "ダジャレ" で名付けるのが好きそうです。ということからすると、「美・サイレント」のパロディで「Bee Silent → ビーサイレント」というのは大いにあり得ると思うのです。そもそも「美・サイレント」が「Be silent」(「静かに」ないしは「言わないで」)の "もじり" です。

真相は分かりませんが、もしそうだとするとこれは「ネーミング大賞 2019」にノミネートしていい感じだし、殺虫剤・忌避剤のネーミングの新パターンを作ったのではと思いました。




nice!(0) 

No.273 - ソ連がAIを駆使したなら [技術]

No.237「フランスのAI立国宣言」で、国立情報学研究所の新井紀子教授が朝日新聞(2018年4月18日)に寄稿した "メディア私評" の内容を紹介しました。タイトルは、

仏のAI立国宣言
何のための人工知能か 日本も示せ

で、AIと国家戦略の関係がテーマでした。その新井教授が最近の "メディア私評" で再び AI についてのコラムを書かれていました(2019年10月11日)。秀逸な内容だと思ったので、その内容を紹介したいと思います。

実はそのコラムは、朝日新聞 2019年9月21日に掲載された、ヘブライ大学教授・歴史学者のユヴァル・ノア・ハラリ氏へのインタビュー記事に触発されて書かれたものです。そこでまず、そのハラリ教授の記事の関連部分を紹介したいと思います。ハラリ教授は世界的なベストセラーになった「サピエンス全史」「ホモ・デウス」の著者です。


AIが支配する世界


ユヴァル・ノア・ハラリ.jpg
ユヴァル・ノア・ハラリ氏
朝日新聞が行ったハラリ教授へのインタビューは「AIが支配する世界」と題されています。サブの見出しは、

国民は常に監視下
膨大な情報を持つ独裁政府が現れる

データを使われ操作されぬため
己を知り抵抗を

です。まずハラリ教授は、現代が直面する大きな課題には3つあって、それは、

 ① 核戦争を含む世界的な戦争
 ② 地球温暖化などの環境破壊
 ③ 破壊的な技術革新

だと言います。そして「③ 破壊的な技術革新」が最も複雑な課題であり、それはAIとバイオテクノロジーだとします。この2つは今後20~40年の間に経済や政治のしくみ、私たちの暮らしを完全に変えてしまうだろう、AIとロボットはどんどん人にとってかわり、雇用市場は激変すると予想します。そして以下に引用する部分が、新井教授のコラムの関係した部分です。


新たな監視技術の進歩で、歴史上存在したことのない全体主義的な政府の誕生につながるでしょう。AIとバイオテクノロジー、生体認証などの融合により、独裁政府が国民すべてを常に追跡できるようになります。20世紀のスターリンやヒットラーなどの全体主義体制よりもずっとひどい独裁政府が誕生する恐れがあります。

20世紀、中央集権的なシステムは非効率でした。中国やソ連の計画経済は情報を1カ所に集めようとしましたが、データを迅速に処理できず、極めて非効率で愚かな決定を下しました。

対照的に、西洋や日本では情報と権力は分散化されました。消費者や企業経営者は自分で決定を下すことができ、効率的でした。だから冷戦では、米国がソ連を打ち負かしました。しかし技術は進化している。いま、膨大な情報を集約し、AIを使って分析することは簡単で、情報が多ければ多いほどAIは有能になる。

例えば、遺伝学です。100万人のDNA情報を持つ小さな会社が多くあるより、10億人から集めた巨大なデータベースのほうが、より有能なアルゴリズム(計算方法)を得ることになる。危険なのは、計画経済や独裁的な政府が、民主主義国に対して技術的優位に立ってしまうことです。

「AIが支配する世界」
ユヴァル・ノア・ハラリ
(朝日新聞 2019.9.21)


ソ連がAIを駆使したなら


新井教授が朝日新聞の "メディア私評" に書かれた「ソ連がAIを駆使したなら」と題するコラムは、上に引用したハラリ教授の文章の趣旨を、わかりやすく、比喩を交え、背景も含めて詳しく展開したものと言っていいでしょう。その展開のしかたがうまいと思ったので引用します。まず「もしも」という問題設定からはじまります。


「もしも」から考える ソ連がAIを駆使したなら

歴史学者ユヴァル・ノア・ハラリ氏のインタビュー「AIが支配する世界」(9月21日付本誌オピニオン面)を読んだ。

歴史に「もしも」は禁物だ。だが、その禁をあえて犯してみたい。もし、1989年にベルリンの壁が崩壊せず、91年にソ連が踏みとどまり、今日のAI時代を迎えていたなら、どうなっていただろう、と。

ハラリ氏は、ソ連の計画経済が失敗したのは、20世紀の技術では膨大な情報を中央政府が迅速の処理できず、需給バランスをうまく調整できなかったから、と指摘する。当時は、各個人が市場経済で自己の利益を追求する「見えざる手」(アダム・スミス)を信頼する方が、最適解に達しやすかった。

新井紀子のメディア私評
「"もしも" から考える ソ連がAIを駆使したなら」
(朝日新聞 2019.10.11)

しかし自由主義市場経済は、自己の利益を追求することで最適解に到達するという信憑(「見えざる手」論)によって行動した結果、解決困難に思える問題を抱え込んでしまったように見えます。それは21世紀になると顕著に認識されるようになりました。新井教授は以下のように続けます。


一方で、「見えざる手」は公害などの外部不経済も生んだ。地球規模の環境変化は深刻だ。SDGs(引用注:Sustainable Development Goals。持続可能な開発目標)が叫ばれ、国連やG20で議題に上がり続け、紙面をにぎわしてはいるが、解決される希望を私たちは持てずにいる。「国際協調」などという「民主的」で生ぬるい方法では、直面する大きすぎる課題に対応できないのではないか、と。

東京オリンピックや大阪万博の頃、「世界」という言葉には、高揚感を誘う夢の響きがあった。それだけ「世界」にリアリティーがなく、地球は大きかった。しかし、「見えざる手」に導かれて、人とモノが地球を高速かつ大規模に移動しながら自己の利益を追求した結果、海はマイクロプラスチックであふれかえり、アフリカ豚コレラは蔓延まんえんした。素朴に考えたほどには、地球は大きくなかったのである。

「同上」

日本の高度成長期も「自己の利益追求」をした結果、公害が蔓延しました。しかし当時の問題は日本の国の内部で解決可能でした。国民の利害の対立が激化すると(たとえば企業と住民)、メディアに取り上げられ、政府が調整に入り、民主的な手続きによって法律ができ、政府が法を強制することができたからです。

しかし21世紀に入って顕著になった課題(たとえば地球温暖化を筆頭とする環境破壊)はグローバルなものです。民主的な話合いで解決策を作ったとしても、それを強制する "グローバル政府" はありません。パリ協定から脱退したアメリカ(トランプ大統領と彼を支持する共和党)のように、協調はいやだ、勝手にやるんだと言えばそれを阻止はできない。

「見えざる手」論が国の内部に閉じているのらなまだしも、それをグローバルに拡大するのは無理が生じます。それでは、別の手段はないだろうか。「見えざる手」と真逆の経済運営をしたのが、旧ソ連の計画経済です。それは1980年代末で破綻したのだけれど、その時点ではなかった最新のAI技術を活用したらどうなるか。


そこで、もしも●●●、だ。ソ連が残り、現在のインターネットよりも中央集権的なネットワークを設計し、あらゆるものにセンサーをつけ情報をAIが理解できる形式で合理的に集め、21世紀初頭からデータサイエンスを高度化していたら、どうなっていただろうと。

実は、現在のAIの基盤である確率・統計の理論の多くがソ連発だ。コルモゴロフ、ヒンチンなどキラ星のごろく名前が並ぶ。これほど確率・統計学者が多いのは、計画経済を合理的に進めるための関心の高さゆえかもしれない。適切な刺激を与えることで特定の行動を導く「パブロフの犬」実験で知られるパブロフも、行動主義心理学に大きな影響を与えた。それらの理論は、現代の巨大テック企業のサービスの基礎になっている。

その結果、ソ連を中心とした東側諸国は、経済的に西側諸国を圧倒していたかもしれない。なにしろ、ソ連では西側と違って「人の配置の最適化」もいとわない。だからオリンピックも数学も強かった。子どもの行動や発達を生まれたときからモニタリングし、どんな職業に就かせるのが最適かを計算し、配置したことだろう。リクルートの内定辞退率予測どころではなく、グーグルのアルゴリズムですらトイ(玩具のようなプログラム)に見えていたかもしれない。

加えて、ソ連には、科学リテラシーに欠ける人物が、単に人気取りで大統領や首相に就くリスクがある民主的な選挙は、ない。ソ連だけでなく究極的には世界の人々を、平等に「幸せ」にするために、データサイエンスを、計画に基づき、段階的に正しく使いこなせる最も有能な人物が党大会で選出されるのである。それは現グーグルの最高経営責任者であるピチャイのような人物かもしれない。

そのとき、東側陣営は西側の敗北を見下してこう言っただろうか。「各人の自由な利益追求を野放しにすることで最適解にたどり着けるなど、『脳内お花畑』な資本主義は格差を拡大し、地球を危機に陥れた。次々とポピュリストが登場し、汚い言葉でののしり合っている。知的な政治とは程遠い」と。

「同上」

新井教授も「ソ連がAIを駆使したら、計画経済はうまくいっただろう」などとは全く思っていないはずです。膨大なデータを集めて蓄積しても、それはその時点より過去のデータです。そのデータからの予測でうまく行く場合も多いだろうが、過去のデータから推測できないことも多々あります。前例がないからこそ価値があることも多い。また現在のAIがやっていることは人間の知的活動のごく一部の代行に過ぎず、さらには、人間の脳の働きや知的活動の仕組みのすべてが解明されているわけでもありません。

もっとも、歴史学者のハラリ氏が「ホモ・デウス」で可能性を指摘するように、人々が「エリート」と「無用者階級」に分断され、「無用者階級」はエリートがAIを駆使して作った "計画経済" 通りに動く、ということはありうるかもしれません。過去のデータから予測できない革新的なことや新しいアイデアに関わることはエリートが担当するというわけです。

しかし、そういった計画経済が1国の最適化にとどまっていたなら、なおかつ地球環境の破壊は起こります。現代の我々が "解決の希望を持てないでいる問題" は、なおかつ起きる。

「ソ連がAIを駆使した計画経済を行ったら」という「もしも●●●」は、本当に言いたいことを言うためのレトリックです。その新井教授が言いたいことは、次の文章に書かれています。


この「もしも●●●話」の意味は何か。

一つは、AI技術が目指していること ── あらゆるデータを収集することで未来を予測するという誘惑 ── は、葬り去られたはずの全体主義、計画経済のそれと驚くほど似ているということだ。自由の旗を掲げるシリコンバレーがその発祥の地であるのは皮肉だ。

もう一つは、「幸せ」のような質に関わることを、数字という量に換算できると考えることの危険性だ。かつて、蓮實重彦元東大総長は入学式の式辞で、学問研究の「質の評価を数で行うというのは、哲学的な誤り」と批判した。質を数字に置き換え、数字を用いて分析しなければ、近代科学にはならない。近代科学によりテクノロジーは発展したし、社会の矛盾は可視化された。数値化と数学には効用がある。だが、それは手段に過ぎない。手段が目的化したとき、私たちは再び全体主義の足音を聞くことになるだろう

「同上」

世界的に著名な人物で「AI脅威論」を唱える方がいます。故スティーヴン・ホーキング博士や、テスラ社やSpaceXのCEOで起業家のイーロン・マスク氏などが有名です。その「AI脅威論」は、長期スパンでみると人間の知能を越えるAIが現れる可能性や、それが制御できなくなる可能性、悪用も含んでAIが社会に害毒を流す可能性、AIが人の雇用を決定的に奪ってしまう可能性などを指して言っているのでしょう。

ただ「AIが脅威」というなら、その直近の一番の脅威は、AIが全体主義を推進するツールとなる脅威だと考えられます。新井教授のコラムはそのことを言っているのだと思います。

全体主義者は、個々のモノや人の集合体に、独立した「全体」があると仮想します。その「全体」のために ・・・・ しようとか、「全体」の幸福を実現しようとか、そういう論法を吹聴する。その「全体」の中身は、よく見ると空虚なものであるわけです。しかし「全体」は「個」に優先され、「全体」のために「個」が犠牲になっていく。

AIは全体主義の強力なツールになりうる。現に中国がその方向に向かっているように ・・・・・(No.250「データ階層社会の到来」参照)。そのことを覚えておくべきでしょう。


数値化全体主義


このコラムは "メディア私評" と題するものです。では、どこがメディアを批評しているのでしょうか。

実はこのコラムは上に掲げた引用部分で終わっているのではなく、コラムの中に「ランキングの指標も」と題した囲み記事があります。その記事がメディアの批評になっています。


「ランキングの指標も」

アメリカの友人から嘆きのメールが届いた。大学に進学した息子の授業料が年5万2千ドル(約550万円)だという。日本の国立大学の標準授業料は年間約54万円。ざっと10倍だ。

彼が進学した大学は、英国誌「タイムズ・ハイヤー・エデュケーション」が毎秋発表する「世界大学ランキング(THE)」の上位校。論文の被引用数や留学生比率など「多様な」指標で大学を比較するが、なぜか授業料は考慮しない(引用注:THE は Times Higher Education の略)。

昨年の本誌「私の視点」で、安部憲明氏(現外務省企画官)は「ランキングの多くは統計家が処理した『作品』」に過ぎず、「客観的中立を装う数字の背後には、統計家や組織の、主張を証明したいという動機が潜」んでいるとした。

THEも、一商業誌による作品に過ぎない。それに一憂一喜するメディアは「数値化全体主義」にとって都合のよい幇間(ほうかん)といったところか

「同上」

No.240「破壊兵器としての数学」で紹介したように、アメリカの数学者、キャシー・オニールは、時事雑誌「USニューズ」が発表している大学ランキングを批判するなかで、このランキングは授業料を考慮していないことを指摘していました。THEも同じということです。

この自由主義市場経済の中で、大学は "教育サービス" を提供しているわけですが、一般的にいって製品・サービスはコストをかけるほど品質が高くなるのはあたりまえです。しかし、裕福な人を対象とした嗜好品は別にして、それでは経営にならない。最高の品質の製品やサービスを提供して倒産した企業は一杯あります。いかにリーズナブルなコストで品質を高め、顧客満足度を向上させるかが経営なのです。ランキングを上げるために授業料を上げて高給で教授を引き抜く大学経営者は(たとえばの例です。実例は No.240 参照)、経営を語る資格など無さそうです。

引用されている外務省の安部憲明のりあき氏の文章は、朝日新聞の2018年6月21日に掲載されたものです。そのときの安部氏の肩書きは外務省OECD代表部参事官でした。この中で安部氏は、経済協力開発機構(OECD)が2017年秋に出した国別の「幸福度指標」に言及していました。この指標で「日本は対象38ヶ国の中で23位」だったのですが、安部氏はこれについて各種の視点から注意喚起をしています。次のような文章があります。


ランキングは、データや指標を選ぶ段階から、一定の価値判断を逃れられない。「幸福度」を測るには「1人当たりの部屋数」のデータも用いるが、これで本当に幸せが測れるなら、「サザエさん」のカツオ君とワカメちゃんの相部屋は解消すべし、と提言されよう。

また「健康」は、自己申告の健康と、平均寿命という客観指標を併用するが、日本は寿命で1位、自己申告で37位というのが皮肉だ。

安部憲明 
(外務省OECD代表部参事官)
「私の視点」朝日新聞(2018.6.21)

No.247「幸福な都道府県の第1位は福井県」で、日本総合研究所が出している "都道府県幸福度ランキング" の算出方法を詳述しました。それを見ても「データや指標を選ぶ段階から価値判断が入っている」のが分かります。もちろん特定のデータを「選ばない」という価値判断も含みます。まさに新井教授が引用した安部氏の文章にあるように「ランキングの多くは統計家が処理した『作品』」です。

ランキングというのは、単一数値の比較であれば、それほど問題がないわけです。「一人当たりのGDPのランキング」というのは(各国がGDPを正しく算定しているという前提で)問題はない。それは事実を提示する一つの方法です。

しかし「幸福度」とか「大学の教育・研究の卓越性」などは、一つの数値では表しようがないし、蓮實重彦元東大総長が批判するように、そもそも数値では表せないものです。

しかし、各国の幸福度を比較しよう、各大学の教育・研究の卓越性を比較しようとする "数値化全体主義者" は、何らかの共通数値化をし、各国全体、各大学全体を貫く統一指標を作成しようとします。その指標の中身を見ると、そこに鎮座しているのは一つの数学モデル(数式)です。それは作成者のもっともらしい説明がついているけれど、それがどういう意味を持つのか、誰にも分からない。少なくとも共通の理解は得られない空虚なものです。

我々としてはランキングのもとになった個々のデータを(データの正確さも含めて)注視する必要があります。それを分析してわかりやすく解説するのはメディアの責任ですが、現在のメディアはそうはなっていません。新井教授の、

 (ランキングに)一憂一喜するメディアは「数値化全体主義」にとって都合のよい幇間ほうかん

という最後の一文が、このコラムの本来の主旨である「メディア私評」なのでした。




nice!(0) 

No.267 - ウナギの商用・完全養殖 [技術]

No.107「天然・鮮魚・国産への信仰」の続きです。No.107 で魚介類の「天然」と「養殖」の話の中で、ウナギの養殖に使うシラスウナギ(=天然のウナギの稚魚)の漁獲量が激減している(従って価格が高騰している)ことを書きました。

そのウナギですが、最近の日経サイエンス(2019年8月号)に完全養殖の商用化についての現状がレポートされていました。そこで、これを機会に魚介類の「天然・養殖」についてもう一度振り返り、日経サイエンスの記事からウナギの商用・完全養殖の状況を紹介したいと思います。


「天然信仰」からの脱却


No.107で書いたように、世間一般には「素朴な天然信仰」があり、まずそこから脱却する必要があるでしょう。そもそも魚介類について「天然もの」の方が「養殖もの」よりおいしいとか、品質が良いと決めつけるのがおかしいわけです。一つの例として No.107 でミシュランの3つ星店「すきやばし次郎」の小野二郎氏(現代の名工)の発言を紹介しました。次のような要旨でした。


【要旨】

鮨ネタに関しては、一般的に天然のほうが旨い。しかし、シマアジに関しては養殖ものの方が旨いという客もいる(好みによる)。またクルマエビは、養殖の方が香りと濃厚さで勝っている。

小野二郎
(文藝春秋 2013.8)

「すきやばし次郎」は、一部の例外や入手困難なネタを除いて、天然ものを使うのが基本で、それは立派な見識です。しかし上の要旨にあるように、シマアジに関しては天然と養殖で客の好みが分かれるのですね。「すきやばし次郎」に通う客は相当な食通のはずですが、その人たちの意見が分かれているということです。またクルマエビについては小野氏自身が養殖が勝っていると認めています。「ミシュランの3つ星店基準」で判断しても「天然ものにひけをとらない養殖の鮨ネタ」があることを、まず覚えておくべきでしょう。

さらに「普通のレストラン基準」ないしは「家庭料理基準」では、天然ものと養殖ものはほとんど変わらないというのが大多数だと思います。それに一般的に言って、料理は素材だけでは決まりません。「素材 + 調理技術」が料理です。さらに長い目で見ると、品種改良と養殖技術の発展で、そのうちに養殖ものの方がおいしくなるのは目に見えています。ちょうど野生の動物や穀類・果物より、飼育された牛・豚、農業で作った米やフルーツの方が美味しいようにです。

天然の魚介類は「すきやばし次郎」のような店にこそ回すべきであり、我々としては「素朴な天然信仰」から脱却して、天然と養殖があれば養殖を選ぶぐらいの見識を持つべきでしょう。その大きな理由は、天然ものの魚介類は「自然の収奪」であることに違いはなく、資源量によほど注意して漁獲を行わないと、ウナギのように絶滅の危機に瀕するからです。


人類最後の狩猟採集:漁業


現生人類であるホモ・サピエンスが誕生してからでも20万年程度、2足歩行する初期人類(猿人)の誕生から数えると500万年程度たっています。この間、人類は狩猟・採集で生きてきました。現代でもアフリカや南米には狩猟・採集民がいます(No.221「なぜ痩せられないのか」で書いたハッザ族など)。

しかし1万年ほど前に農業が始まり、定住化が進み、これが文明の始まりになったとは、我々が世界史の最初で習うところです。またその後に牧畜や遊牧も始まった。つまり「狩猟・採集から脱却」によって今の人類の文明が存在するわけです。ところが、現代に残った最後の狩猟・採集が(養殖ではない)漁業です。

もちろん、漁業以外の狩猟・採集がないわけではありません。人工栽培ができない高価格野菜、日本の松茸や欧州のトリュフなどは、その採集を生業としている人がいます。しかしこれは野菜のごく一部です。山菜を採集する人もたくさんいますが、これは趣味か、せいぜい副業の部類でしょう。

野生動物で言うと、イノシシや鹿を狩った一部が食肉として出回っていますが、これも副業です。ハンターが少なくなったから鹿の食害が増えて困っているという話も聞きます。ヨーロッパでは、パリのマルシェなどに行くと野生動物がそのまま売られています。いわゆるジビエですが、これは「ご馳走」のたぐいであり、その狩猟で生活している人は少ないでしょう。以上のように考えると、現代のスーパーマーケットに並んでいる商品で狩猟採集で得られたものは、天然ものの魚介類だけということになります。

なぜ人類最後の狩猟・採集としての漁業が残っているのかというと、現代においても産業として成立するほど、漁業の生産性が高いからです(No.232「定住生活という革命」参照)。しかし生産性が高いということは裏を返すと、狩猟・採集の対象となる動植物の絶滅を招きかねないという地球環境上のリスクがあるわけです。

人類史をひもとくと、ユーラシア大陸や南北アメリカに生息していた数々の大型哺乳類(マンモス、サーベルタイガー、・・・・・・)が絶滅したのは人類の狩猟によるものという学説が有力です(No.127「捕食者なき世界(2)」の「大型捕食動物はヒトが絶滅させた」の項)。また歴史上の出来事をみても、地中海や大西洋にいた鯨は絶滅しました(No.20「鯨と人間(1)」)。幕末にペリー提督が日本にやってきて開国を迫った理由の一つがアメリカの捕鯨船の補給だったというのは有名な話ですが、なぜ大西洋沿岸のボストン付近の捕鯨船が日本近海にまでやってきたかというと、大西洋に(鯨油生産が産業として成立する程度の)鯨がいなくなったからです。

そして、このような大型哺乳類だけでなく、魚介類にも人間の乱獲で絶滅危惧種になってしまったものがあるのです。その中で、我々日本人に最も広くなじみがあるのがウナギです。


養殖の発展


現代人にとっての本来の漁業の姿は養殖であり、魚介類の絶滅を回避するためにも養殖が重要です。そして現代では数々の魚介類の養殖が進んでいて、ブリ類(ハマチなど)、タイ、マス、フグ、ヒラメ、シマアジ、牡蠣、ホタテ、クルマエビなどがすぐに思いつきます。クロマグロ(本マグロ)も養殖されるようになりました。

先日、NHKの情報番組を見ていたら、サバの養殖の研究のレポートをやっていました。サバの養殖のネックは、稚魚の攻撃性が強く、共食いをすることだそうです。稚魚の生存率は10%程度と言います。そこでゲノム編集技術を使って攻撃性を押さえるように遺伝子を改変すると、稚魚の生存率が40%に向上したそうです。こういった最新のバイオ・テクノロジーも養殖技術に使われ始めています。

もちろん養殖は、そのコストに見合う "高級魚" でないと成り立たないわけです。サンマやイワシを養殖しようとする人はいません。

もっとも近年はサンマの水揚げ量が激減し、日本政府は国際的な漁獲量の上限設定に動いています。そのうちサンマも値段が高騰し、養殖が見合うようになるのかもしれません。

そして本題のウナギですが、ウナギは "高級魚" であり、養殖にうってつけのはずです。しかしウナギの "養殖" といわれるものは、ウナギの稚魚である天然シラスウナギを捕獲し、それを養殖池で成魚に育てる「蓄養」です。これは本来の意味での養殖ではありません。そのシラスウナギの漁獲量が最近激減しています。


国産ウナギの99%は養殖ものだが、元となるシラスウナギは海や川で天然ものを捕る必要がある。水産庁によると、今漁期(2018年11月~2019年4月)の国内推計量は過去最低の 3.7トンで、20トン台が珍しくなかった2000年代から激減した。輸入した11.5トンで補ったが、養殖業者がシラスウナギを購入する価格は今シーズン、1キロあたり219万円。25万円だった2004年の9倍近い。

朝日新聞(2019.7.27 夕刊)

シラスウナギの漁獲量の激減は、この10~15年の現象です。ちなみに「シラスウナギの価格は、1キロあたり219万円」とありますが、シラスウナギの1匹の重さは0.2グラム程度なので、シラスウナギ1匹の価格は概算440円ということになります。

シラスウナギ.jpg
シラスウナギ
日経BP社「未来コトハジメ」のサイトより

2014年6月、国際自然保護連合(IUCN)はニホンウナギを絶滅危惧種に指定しました(ヨーロッパウナギは2008年に絶滅危惧種に指定)。一刻も早く、蓄養ではない本来の意味での養殖(=完全養殖)の商用化をする必要があるのですが、まだ成功していません。その大きな理由は、自然界におけるウナギの生活史が極めて特異だからです。


ウナギの生活史


ニホンウナギの産卵地がどこかは長いあいだ分からなかったのですが、1991年に日本の水産関係者によってその場所が特定されました。グアム島の北西、西マリアナ海嶺(=海中の山脈)の南部で、孵化したニホンウナギの幼生であるレプトセファルスが採取されたからです。

レプトセファルス.jpg
レプトセファルス
日経BP社「未来コトハジメ」のサイトより

レプトとはラテン語で「薄っぺらい、小さな」という意味で、セファルスは「~の頭をした」ということなので、「薄い頭」「小さな頭」という意味になります。「葉形幼生」という日本語もあります。

さらに2009年には同一海域でニホンウナギの親魚しんぎょと卵が採取され、産卵地が確定しました。その付近の海底地形図が以下の図です。

フィリピン海プレートの海底地形.jpg
フィリピン海プレートの中央部から東部の海底地形図。
「旅するウナギ」(東海大学出版会。2011)より

フィリピン海プレートの東南にはグアム島があり、プレートの北は日本列島の手前まで続く。この図の左上に日本列島が書いてあるが、東南海地震を引き起こしたり、伊豆半島を本州に押しつけるているのはフィリピン海プレートである。

グアム島の南には世界最深のマリアナ海溝(約11,000m)があり、北西部には西マリアナ海嶺(=海底の山脈)が連なる。西マリアナ海領に「パスファインダー」「アラカネ」「スルガ」の3つの白丸が付けてあるが、これらはいずれも海山(=海中の山)である。ニホンウナギの産卵地は、この3つの海山から西マリアナ海嶺の南端にかけてのエリアにある。産卵地は10km四方程度の極めて狭いエリアのようだが、年によって変動する。このあたりは、東京から直線距離で約2500km離れている。

西マリアナ海嶺の南端で生まれたレプトセファルスは西向きの北赤道海流にただよってフィリピン沖へ向かいます。柳の葉のような独特の形は漂うのに都合のよい形です。そしてフィリピン沖で黒潮に乗りかえます(黒潮に乗れなかったものは死滅)。約6cmに成長したレプトセファルスは、2~3週間でシラスウナギに変態します。

レプトセファルスからシラスウナギへの変態.jpg
シラスウナギへの変態
虫明敬一他「うなぎ・謎の生物」
(築地書館 2012)より

人工飼育されたレプトセファルスがシラスウナギに変態していく様子。この図の矢印は背ビレの始まりの位置、三角は肛門の位置である。数字は孵化後の日数を表す。孵化後1年以上でシラスウナギになっているが、日経サイエンス(2019.8)によると、現在(2019年)の人工飼育では300日程度でシラスウナギになる。しかし自然界では130日~150日程度であり、人工飼育の技術開発はまだ発展途上にある。

その黒潮に乗ったシラスウナギは日本列島(を含む東アジア)の河口に到着します。西マリアナ海嶺南部で孵化してから日本の河口に到達するまでは約半年です。関東地方の河川だと、産卵場から5000km程度の旅になります。シラスウナギは河川を遡上し(海や汽水域に残る個体もある)定着生活を始め、そこで成魚になります。

オスは数年間、メス約10年間の淡水生活をした後、ウナギは川を下り(=下りウナギ)、海に出て、西マリアナ海嶺の産卵場に向かいます。そして雌雄のウナギが産卵場で落ち合って産卵・受精します。

ニホンウナギの生活史.jpg
ウナギの生活史
日経サイエンス(2019.8)

上図には日本から産卵場のルートが単純な直線で描かれていますが、これはどいういう経路で産卵場にたどりつくのかが不明だからです。日本付近から西マリアナ海嶺の南端までに黒潮のような海流があるわけではありません。しかし川から海に出て産卵の旅についたウナギは、2500km離れた極めて狭いエリアに集結し、オスとメスが出会って産卵・受精します。いったいどうやってこんなことができるのかは不明です。ウナギはまだ「謎の魚」なのです。

なお、ニホンウナギという学名が付いているために日本固有種と思いがちですが、そうではありません。東アジアのウナギはすべてニホンウナギであり、その産卵地は西マリアナ海嶺南端の海中です。遺伝的には同一の種です。


ウナギの完全養殖


実は、2010年にウナギの完全養殖が達成されました(現在の、国立・水産研究教育機構 増養殖研究所)。完全養殖とは下の図のように、卵 → 人工シラスウナギ → 人工成魚 → 卵 というサイクルを回すことです。

完全養殖のサイクル.jpg
ウナギの完全養殖
水産庁「ウナギをめぐる状況と対策について」(2016.7)より

シラスウナギを成魚にする蓄養は明治時代以来の歴史があり、技術が確立されています。問題は受精卵から孵化したレプトセフェルスをシラスウナギに育てる部分で、完全養殖ができたということはこれに成功したわけです。

しかし2010年に成功した完全養殖は水産試験場での成功であり、それがすぐに商用になるわけではありません。つまり製造業における「試作」と「量産」の違いのようなものです。新型車を開発するときに2年の歳月をかけて数10台の試作車を1台あたり数千万円の費用をかけて作る「試作」と、数百万円の販売価格に見合うコストで毎日数百~数千台のクルマを作る「量産」は違います。量産のためには、量産するための技術開発が必要です。

同じように、シラスウナギの量産が可能な技術開発できて始めて、ウナギの商用・完全養殖が実現するのです。その商用・完全養殖の研究現場のルポを次に紹介します。


ウナギの絶滅は回避できるか


日経サイエンス 201908.jpg
日経サイエンスの2019年8月号に、伊豆半島の石廊崎にある「国立・水産研究教育機構 増養殖研究所」の「ウナギ種苗量産研究センター」(山野センター長:以下敬称略)を、日経サイエンス編集部が訪問したルポが掲載されていました。このセンターは2002年に世界で初めて、卵からシラスウナギを育てることに成功しました。その時のシラスウナギの個体数は、わずか24匹だったそうです。また、2010年にはウナギの完全養殖に成功しています。

その後、2013年からシラスウナギの量産の研究を進めています。あまたの試行錯誤を繰り返した結果、ようやく年間数千匹のシラスウナギが育つようになったとのことです。その難しさはどこにあるのでしょうか。


変態前のレプトセファルスは育てるのが非常に難しい。自分でエサを探そうとしないため、給餌に工夫がいる。そのうえ、水が濁ると死んでしまう。生後すぐの個体は数ミリしかなく、表面張力で水面に張り付いて、体が空気に曝されるため死ぬこともある。「自然界では数十万個の卵からたった2匹の成魚が育つ程度」(山野)。その生存率の低さからも養殖の難しさが見て取れる。

出村政彬(編集部)
「ウナギ絶滅回避なるか」
日経サイエンス(2019年8月号)

レプトセファルスの飼育1.jpg
ウナギ種苗量産研究センターで人工飼育されているレプトセファルス。体長は1cm~6cm程度である。
サイエンス(2019年8月号)

レプトセファルスは、
① 自分ではエサを探そうとしない
② 水が濁ると死んでしまう
③ 自然界では数十万分の1の生存率
というあたりに、人工飼育の難しさがうかがわれます。日経サイエンスには具体的な飼育の研究の様子がありました。


飼育室は一日中暗くしてある。特別に電気を点けてもらうと、そこには様々な形の水槽がずらりと並んでいた。金魚鉢のような「ボウル型」は第1世代。2002年の人工飼育実験には、この形の水槽が使われた。その後、様々な形が考案され、2つの水槽がパイプでつながったニ槽式の水槽や、ピーナッツ型の水槽、大型の100リットル水槽などが開発された。それぞれ水の交換法や与えるエサの種類が異なり、効率的な飼育法を調べている。水温は25℃で年中一定だ。



水槽を見学していると、エサやりを担当する職員らが室内に入ってきた。それぞれ、どろっとした液状のエサが入った容器と、長さ数十センチの大きなスポイトを持っている。

職員らはスポイトでエサを吸い、水槽の底の方へ静かに流し込む。通常はこのエサやりの時だけ電気を点けている。レプトセファルスは光を嫌うので底へ向かって泳ぎ、自然とエサにありつく仕組みだ。



エサは1日5回、8時から16時にかけて2時間ごとに与えている。15分間のエサの時間が終わると、水槽は真っ白の濁った。水槽にはポンプが取り付けられており、濁った水を捨てながらきれいな水を継ぎ足していく。2時間かけて水槽が透明に戻ったところで、また次の食事タイムだ。清潔な環境を保つため、一日の終わりには別のきれいな水槽へレプトセファルスを水ごと移し替える。二槽式の水槽や、2つの窪みを持つピーナッツ型水槽が作られたのはこのためだ。

「同上」

レプトセファルスの飼育2.jpg
人工飼育しているレプトセファルスに給餌している様子。ピーナッツ型水槽は交互に使用する。
サイエンス(2019年8月号)

エサは液体状をしていて、水を清潔に保つために数々の工夫や試行錯誤がされているようです。スポイトを使った人手による給餌ではコストがかかることが目に見えていますが、最適なやりかたを探るための過程なのでしょう。


エサの中身はここ数年で変わりつつある。以前は、アブラツノザメと呼ぶサメの卵の粉末に複数の栄養素を加えたものを使っていた。ところが、実はこのサメ自体も希少種。いつまでも頼っていては持続可能な養殖法にならない。

そこで、センターではサメ卵の代替飼料作りに取り組んできた。レプトセファルスの生育地の前半については、既に「同等かそれ以上の飼料ができている」(山野)という。ただ後半では、サメ卵を与えないと成長の遅れや変態がうまくいかないなどの問題が生じる。「約300日かけて育つレプトセファルスは、その間に要求する栄養の種類も変わるのだろう」と山野はみる。後半に適した代替飼料は現在も研究中だ。

「同上」

この引用中に、従来の餌の主体が「アブラツノザメと呼ぶサメの卵の粉末」という箇所があります。なぜこのような "特殊な" 餌なのかと言うと、2010年に完全養殖に成功するまでの過程で数々の試行錯誤の結果、この餌が最適となったからです。しかし量産のためには別の餌を探す必要がある。それはまだ完全には見つかっていないようです。

ただし、ウナギの完全養殖に使う餌の種類と配合方法は "国家レベルの機密事項" だと、どこかで読んだ記憶があります。オープンにできない話も多いのだと想像します。


山野は「今のままですぐに商用化、というわけにはいかない」と話す。避けて通れないのが、コストの問題だ。現在天然のシラスウナギは1匹あたり数百円程度で取引されている。人工飼育のシラスウナギは色々な条件を仮定しても、1匹あたり5000円から6000円になるとみられる。

また、日本全体で養殖のために必要なシラスウナギの量は年間で1億匹ともいわれる。もとっと安く、大量に生産する必要があるのだ。

「同上」

初めの方で引用した朝日新聞(2019.7.27 夕刊)の記事から計算すると、天然シラスウナギ1匹の最新の価格は概算で440円程度でした。それと比べて、人工シラスウナギは現状で10倍以上の価格ということになります。

また「日本全体で養殖のために必要なシラスウナギの量は年間で1億匹ともいわれる」とありますが、日経BP社「未来コトハジメ」のサイトによると、2006年から2018年のシラスウナギの池入量(養殖池に投入した重量)の平均は21.2トンだそうです。これを20トンとしてシラスウナギ1匹を0.2gとすると、1億匹という計算になります。「ウナギ種苗量産研究センター」で "量産" できるのは年間数千匹と書かれているので、必要量からすると1万分の1以下ということになります。

根幹は「コスト」でしょう。天然シラスウナギの価格に対抗できるコストで人工シラスウナギの量産が可能になったとすると、全国の企業が「商用・完全養殖」に向けた投資をするはずであり、生産量はグッと増えると考えられます。しかし、コストダウンのために大量生産を狙って、例えば水槽を大型化しようとしてもそう簡単ではないようです。


レプトセファルスの水槽を大量生産のために大型化すると、水質をきれいに保つために入れ替える水の量が大幅に増えてしまう。また、生存率にも影響が出る。小さなボウル型水槽では最大10%程度の生存率が、大型水槽に移し替えると、1%程度にまで落ち込んでしまう。水槽が深く、底のエサにたどり着けない個体が出てくるようだ。

「同上」

製造業と違って生き物が相手の量産は、その試行錯誤のプロセスも長い時間がかかることが分かります。


高次捕食者としてのウナギ


仮にウナギの商用・完全養殖が可能になったとします。そうするとシラスウナギの漁獲量が減少し、天然ウナギの絶滅が回避できそうに見えます。しかしさらに問題があって、それは天然ウナギが生涯の大半を過ごす河川の環境です。つまりこの数十年で国内の河川にはせきやダムなどの構造物が増え、ウナギがこのような構造物を超えられず、生育環境が減少していると考えられるのです。この減少がシラスウナギの漁獲量の激減の一因になっていると推測されています。

つまり、ウナギを守るためには天然シラスウナギの漁獲量を減らすと同時に、ウナギの生育環境を守る必要があります。この生育環境について日経サイエンスのルポの最後に気になる話が書いてありました。ウナギは河川の生態系における「高次捕食者」という話です。


ウナギは広い地域に分布し、生態系ピラミッドの上位にいる高次捕食者だ。ウナギの育つ環境を維持してウナギを絶やさないことで、ピラミッドの土台を支える多くの生物の育つ環境が守られる。もちろん、食文化を受け継ぐという点にも大きな意義がある。

「同上」

No.126-127「捕食者なき世界」で書いたように、生態系ピラミッドの頂点や上位にいる捕食者が絶滅すると、生態系のバランスがくずれ、それはピラミッドの土台を支える多くの生物の絶滅を引き起こしかねません。ウナギの絶滅を回避するということは、単にウナギだけの問題ではなく、河川の生態系全体の問題でもあるようです。



 補記1:農薬がウナギの生育環境を狭める 

本文の最後の方で天然シラスウナギの漁獲量の激減の理由について、

◆ シラスウナギの乱獲

  ウナギの生育環境の減少(河川のせきやダムなどの構造物の増加)

の2つの理由を挙げました。この「ウナギの生育環境」についてですが、日本経済新聞に農薬の影響によるウナギの減少の記事が掲載されました。島根県の宍道湖の天然ウナギの話ですが、それを紹介したいと思います。


ウナギ激減 農薬原因か
 産総研など 宍道湖、餌の昆虫減

産業技術研究所と東京大学などのグループは、島根県の宍道湖に生息するウナギやワカサギが1990年代から激減している原因は、周辺の水田で使われている農薬の可能性が高いことを突き止めた。農薬の成分がウナギなどがエサとする小さな昆虫類を死滅させ、湖沼の漁業に影響を与えていると推測している。

宍道湖のウナギの漁獲量は80年代のピーク時には最大60トンほどあった。93年を境に激減し2000年代は10トン前後で推移している。ワカサギも90年代後半以降は漁獲量がほぼゼロで推移している。激減した理由は分かっていなかった。

産総研の山室真澄特定フェローらは82年~16年の宍道湖の昆虫類の個体数などを調査した。93年以降、それまで大量に出現していたオオユスリカが突然姿を消し、ミジンコも激減していたことが判明した。

周辺の水田で93年ごろから、農薬として使われ昆虫の神経系に作用するネオニコチノイド系の殺虫剤が使われ始めたこともわかった。殺虫剤によって昆虫類が減少し、次いでウナギやワカサギの個体数の減少につながったとみている。

宍道湖は西側から川が流れ込んでおり、水田で使われた農薬が経由して流入したと考えられるという。

ネオニコチノイド系の殺虫剤はミツバチの死滅を招いたと指摘されており、欧米で規制を強化する動きがある。漁業への影響は世界でもあまり検討されていなかった。山室特定フェローは「散布する回数を減らすなどの対策を検討する余地がある」と話している。

日本経済新聞(2019.11.17)

記事にある「ネオニコチノイド系の農薬」の特長は

① 昆虫に対して選択的に強い毒性を発揮する。

② 植物体への浸透移行性をもち、葉や茎、実だけでなく、花粉や蜜にまで移行する。それが長期間(数ヶ月)残存する。

③ 人を含む哺乳類や鳥類、爬虫類には影響がない(とされている)。

数年前から世界各地で起こっているミツバチの大量死は「ネオニコチノイド系の農薬」が原因だとの疑いをもたれているのですが、②の性質があるからなのですね。養蜂や、蜂に受粉を依存している農業にとっては死活問題です。EUはとっくに規制をしているし、禁止も始まっているようです。この記事のポイントは、ミツバチだけでなくウナギやワカサギも、というところです。

これは宍道湖だけでなく、日本の河川のどこでも起こり得る話だと思います。このブログ記事の本文の最後に「ウナギは高次捕食者」と書きました。高次捕食者のウナギは、昆虫類(ミジンコのような節足動物を含む)だけでなく、小魚やミミズもエサとします。だから、かろうじて絶滅を免れているということでしょう。この話で思い出すのは日本の朱鷺の絶滅です。その原因の一つは、農薬の影響で朱鷺の生息域でエサになる魚類や昆虫がいなくなったから、と言われています。それと同じパターンです。

農薬は、守るべき植物(上の記事では稲)に対する害虫を選択的に死滅させるというのならまだしも、「ネオニコチノイド系の農薬」のように「すべての昆虫の神経系に作用する」のでは環境への影響が深刻になります。環境全体へのアセスメントなしに農薬を開発して認可するのでは何が起きるかわからないという、見本のような話だと思いました。

(2019.11.18)


 補記2:完全養殖ウナギの試食会 

鹿児島市の医薬品開発受託会社である(株)新日本科学は、数年前からウナギの完全養殖に取り組んでいて、先日、養殖したウナギの試食会が開催されました。そのニュースを引用します。


「苦労が報われた」完全人工生産ウナギ試食会
 新日本科学が2014年から研究

TBS News Dig 
(2022年12月12日)

養殖に使われるウナギの稚魚・シラスウナギは全国的に不漁が続き、課題となっています。そうした中で、卵からウナギまで人の手で育てる「人工生産」に2014年から取り組んできた鹿児島市の新日本科学が、12日、人工生産したウナギの試食会を開きました。鹿児島市のウナギ店で開かれた試食会で出されたウナギのかば焼き。一見、普通のウナギに見えますが、卵から稚魚のシラスウナギ、そしてウナギに成長するまで全て人の手を介して育てられた世界初の「完全人工生産」のウナギです。

現在、ウナギの養殖には川などで捕まえた天然のシラスウナギが使われています。漁獲量は年によって増減はあるものの低調続きで、資源の枯渇や価格高騰も懸念されています。

そうした中、新日本科学は2014年から、それまで難しいとされてきたシラスウナギの人工生産に着手。2017年に人工海水を循環させるシステムを使って世界で初めてとなる地上でのシラスウナギの生産に成功。2019年からは海水などの環境が適した沖永良部島に拠点を移して研究や飼育を行っていて、今年ようやく、完全養殖した食用のウナギ100尾ほどを育てることに成功したのです。設備を含めてこれまでに約7億9,000万円を投資しました。そのウナギが12日の試食会で関係者に振舞われたのです。その味は?

(試食会参加者)
フェイクの食品だと、味だけ似せるとか、食感だけ似せるとかあるけれど、これはウナギだから当然だけど、完全に美味しいウナギ」

人工種苗のウナギは世界初だから話題になる。それで美味しいから、かなり期待をもてる」

(新日本科学代表取締役 永田良一社長)
美味しいと言っていただけて、7年間の苦労が報われたと思う。今後の課題は数。大きなスケールで作れるように、海でできるようになると、大量生産に一歩近づくと思う」

新日本科学は2026年度を目標に、年間10万尾を生産したいとしています。鹿児島で生まれた技術でウナギの資源を守るとともに、生産量日本一を誇る鹿児島のウナギ養殖を活性化させることができるのか?実用化に向けた今後の研究が期待されます。


(2023.2.1)



nice!(0) 

No.249 - 同位体比分析の威力 [技術]

No.239「ヨークの首なしグラディエーター」で書いた話の続きです。No.239 では、イギリスのヨークで発掘された古代ローマ時代の剣闘士の遺体について、

  歯のエナメル質を分析することで、剣闘士の出身地や食物が推定できる

ことを書きました。ある遺体の出身地はヨークから5000キロも離れた中近東地域らしいと ・・・・・・。この分析には "安定同位体分析" という技術が使われました(No.239の「補記」参照)。最近、これと類似の話が新聞に載っていました。まずその記事を引用したいと思いますが、分析の対象は剣闘士の歯ではなく "ヤギの毛" です。


カシミヤの産地 レーザーで推定

NTTは高級毛素材であるカシミヤの産地を通信用レーザーで培った技術を使って推定する実証実験を12月に始めると発表した。すでに野菜の産地評価として実用化している技術を毛素材にも応用した。2019年夏以降のサービス化を目指す。

毛素材を品質試験するケケン試験認証センター(東京・文京)と共同で取り組む。NTT研究所が開発したレーザー光線を、気体に含まれる水蒸気や二酸化炭素などの分子を測定できる技術「レーザーガスセンシング」に応用。従来は光学顕微鏡で毛の太さなどを目視してカシミヤの産地を推定していた。レーザーガスセンシングを用いることで、簡単な作業で産地を推定できるようになるという。

レーザーガスセンシングは気体に含まれる分子に特定の波長のレーザ光を照射し、分子が光のエネルギーを吸収してレーザー光の強度が落ちる性質を利用する。

分子を構成する元素には質量数の異なる同位体が存在する。水分子を構成する水素原子の質量数は通常は1だが、自然界には一定の割合で質量数2の重水素がある。通常の水分子よりも雨として地表に落ちやすい。

緯度が低い地域から高い地域に向かって雨雲が動くため、緯度の低い地方ほど、重水素を含む水の比率は高く、緯度が高いほど低くなる。今回、カシミヤ毛をレーザーガスセンシングで分析することで得られた水や炭素の同位体の含有量と、カシミヤ毛の原料となるカシミヤヤギが育った地域との関係性が見いだせたと言う。カシミヤヤギが食べる食物や飲む水に含まれる同位体の含有量が、カシミヤ毛にも引き継がれていた。

NTTとケケン試験認証センターは今後さらにデータを蓄積し、原産地から加工に至る流通経路でも産地推定が可能か検証を進めサービス化を目指す。

日経産業新聞(2018.11.21)

Cashmere Goat.jpg
カシミヤヤギ
(livestockpedia.com)

NTTグループは情報通信のインフラ企業集団であり、NTTはそのトップに位置する持ち株会社です。そして日本でも有数の研究所をもっています。そのNTT研究所が高級毛素材であるカシミアの原産地推定をするのは少々奇妙に聞こえますが、"レーザー技術" という1点で関わりがあるということでしょう。レーザーは、NTTグループの命とも言える光通信を実現するための重要技術です。この新聞記事に書かれていることをまとめると、

  カシミヤヤギの毛の同位体分析で、ヤギが生息していた地域が推定できる

となりますが、これと No.239

  剣闘士の歯の同位体分析で、剣闘士が生まれ育った地域が推定できる

という話を比べると、分析対象となったカシミヤヤギと古代ローマ時代の剣闘士には2000年の年月の隔たりがあるものの、やっていることは同じと言えるでしょう。

そこで、今回はこの記事を機会に "安定同位体分析" について再度、調べてみたいと思います。No.239 の「補記」の詳細化です。


安定同位体


自然界に存在する原子には、同じ原子でも「質量数」が違うものが存在し、これらを「同位体」と呼びます(=アイソトープ)。質量数とは「陽子の数」と「中性子の数」の合計ですが、原子の種類は陽子の数(=原子番号)で決まるので、同位体は中性子の数が違うということになります(このあたりは高校化学の基礎)。

同位体には「放射性同位体」と「安定同位体」があります。たとえば原子番号6、質量数14の炭素14(146C)は放射性同位体で、放射線の1種である "ベータ線" を放出して窒素14(147N)に変化します(=ベータ崩壊)。

この炭素14のベータ崩壊の半減期(半数の原子が変化するまでの時間)は5730年です。地球上では宇宙線の影響で常に新しい炭素14が供給されているので、生物の炭素14の存在比率は炭素1兆個につき1個程度と、ほぼ一定です。しかし生物が死ぬと炭素14の取り込みが止まり、体内の炭素14はベータ崩壊で次第に減っていきます。このことを利用して動植物の遺骸の年代測定が行われることはよく知られています。

一方、「安定同位体」は他の原子に変化することはなく、自然界で安定して存在します。炭素で言うと、炭素12(12C)と炭素13(13C)が安定同位体で、地球上での存在比率は約 99:1 です。

安定同位体の化学的性質は同じですが、質量数が違うため重さが微妙に違います。このため安定同位体の存在比は、その存在箇所によって違ってくる。これが各種の分析を可能にする要因です。



安定同位体は質量が違うことを利用して、試料中の同位体の比率が計測できます。典型的な方法は、試料を燃焼ないしは熱分解してガスにし、イオン化して(=電荷を持たせて)磁場の中に通します。すると質量の違いによってイオンの軌跡の "曲がりかた" が違ってきて、同位体が分別できます。

記事にあるNTTの方法は、それとは違ってレーザ光を利用するものです。安定同位体は特定の波長の光を吸収しますが、質量数の違いによって吸収する波長が微妙に違います。また同位体の量によって光の吸収量が変わる。つまり波長が違うレーザ光を照射することにより、安定同位体の存在比が測定できます。NTTとしてはこの技術をアッピールしたいというのが、カシミヤヤギの新聞記事の背景にあるのでしょう。

レーザーガスセンシング装置.jpg
NTTのレーザーを使う同位体分析装置。机上に設置できる小型の装置である。YouTubeより。


炭素同位体:12C と 13C


炭素(原子番号6)の安定同位体、12C と 13C の地球上の平均の存在比は、98.9%:1.1%であり、それが二酸化炭素になった 12CO213CO2の存在比も同じです。二酸化炭素は植物の生育に必須の分子であり、これを利用して安定同位体分析を行います。

植物の特徴は光合成を行うことですが、光合成は「光化学反応(=明反応)」と「カルビン回路(=暗反応)」で行われます。まず光化学反応で水(H2O)と光から、酸素(O2)と化学エネルギー物質が作り出されます。次にカルビン回路で化学エネルギー物質と二酸化炭素(CO2)から炭素数3の化合物(グリセルアルデヒド3-リン酸)が合成されます。この化合物は葉緑体の中でデンプンに変換され蓄積されます。このタイプの光合成は「C3型光合成」と呼ばれていて、多くの植物がこのタイプです。C3の名前は、光合成の過程で作られる炭素化合物が炭素数3のものであることによります。C3型光合成を行う植物が「C3植物」です。

一方、これとは違う「C4型光合成」があります。これは光化学反応とカルビン回路に加えて "CO2取り込み・蓄積回路" を持つ光合成です。このタイプの光合成では、CO2が炭素数4の化合物(オキサロ酢酸)として取り込まれ、蓄積されます。この炭素数4の化合物からCO2が再生成されてカルビン回路に送り込まれ、最終的にデンプンとして蓄えられます。つまり植物内には "CO2 のストック" がたくさんあることになります。このタイプの植物を「C4植物」と呼んでいます。

一般に植物は、高温や乾燥の環境下では気孔を閉じがちにならざるを得ず、そのため CO2 を集めにくくなりますが、C4植物は CO2 の蓄積・濃縮が可能なため、光合成の効率が高い。C4植物は高温・乾燥・低 CO2 といった、植物としては過酷な環境に適応したものと考えられています。

人間と直接関係が深い代表的なC4植物は、イネ科のトウモロコシ、サトウキビ、アワ、ヒエ、キビ、モロコシなどです。ちなみに、同じイネ科のコメと小麦はC3植物です。一般に、同じ科でもC3植物とC4植物が混じっています。

なお、C3/C4以外に「CAM型光合成」を行う植物があります。CAMとはベンケイソウ型有機酸代謝(Crassulacean Acid Metabolism)の略で、砂漠などの水分が慢性的に少なく昼夜の温度差が大きい環境に適応しています。CO2の蓄積・濃縮をすることはC4植物と同じですが、CAM植物は夜に気孔をあけて CO2 を取り込み、昼間は完全に気孔を閉じて水分の損失を防ぎます。サボテン科やベンケイソウ科にCAM型植物があります。人間に関係の深いCAM型植物はパイナップル(パイナップル科)です。



安定同位体分析で普通使われるのは、C3植物とC4植物の炭素同位体の相違です。12CO213CO2 を比較すると、12CO2の方が軽いため、光合成の過程で植物が取り込みやすい。そのため、CO2 取り込み能力が高いC4植物の方がより多くの 13CO2 を取り込むことになり、13C の同位体比が高くなります。

このことを利用して、たとえば純粋なハチミツかどうかの判定が可能です。ハチミツの主成分はブドウ糖と果糖ですが、これは樹木や草の花の蔗糖(砂糖の主成分)を蜂がブドウ糖と果糖に分解したものです。蜂が蜜を集める花はC3植物なので、ハチミツのブドウ糖と果糖は「C3植物由来」ということになります。

一方、転化糖と呼ばれるものがあって、これはサトウキビから作られる蔗糖を人工的にブドウ糖と果糖に分解したものです。サトウキビはC4植物なので、転化糖のブドウ糖と果糖は「C4植物由来」です。つまりハチミツに転化糖を混ぜると 12C と 13C の同位体比が違ってくる。これを利用してハチミツに混ぜものが無いかどうかを鑑定できます。株式会社地球科学研究所のホームページによると「C4由来の糖類が7%以上混入すると検出可能」だそうです。高い精度で判定が可能なことがわかります。



昆虫や鳥、魚、草食動物は、摂取する植物によって体内の炭素同位体比が違ってきます。さらに肉食動物も、餌となる草食動物の炭素同位体比に影響されます。つまり、炭素同位体比は食性の判断の一助になります。ただし食性の推定については炭素同位体比に加えて、次の窒素同位体比も使われます。


窒素同位体:14N と 15N


窒素(原子番号7)の安定同位体は、窒素14(147N)と窒素15(157N)があり、その地球上での存在比は 99.636%:0.364% です。この存在比は大気中でも土壌中でも同じです。

窒素は植物や動物をはじめ生物にとっては必須の元素ですが、食物連鎖に従って生物中の窒素15(15N)が "濃縮される" ことが知られています。たとえば、土壌 → 植物 → 草食動物 → 肉食動物という食物連鎖の過程において 15N の割合が高まっていく。つまり、窒素同位体の存在比を調べることにより、前項の炭素同位体の存在比とを合わせて生物の食性が推定できることになります。

さらに窒素同位体を使って有機栽培かどうかの判断もできます。つまり化学肥料に含まれる窒素原子(N)の "原料" は大気中の窒素分子なので、その窒素同位体の組成は土壌と同じです。しかし有機栽培で使われる肥料は 15N が多い枯れた植物や動物の糞から作られるので、有機栽培の畑の 15N は化学肥料を使った土壌よりも多くなります。このため、有機栽培の野菜や穀物も 15N の割合が高くなり、判定ができます。


水素同位体:1H と 2H
酸素同位体:16O と 18O



水素(原子番号1)と酸素(原子番号8)の安定同位体は、地球上の水(H2O)の同位体分析で使われます。水素の安定同位体は1H と 2H(= 重水素。Dとも表記される)であり重水素の存在比は0.015%程度です。また、酸素の安定同位体は 166O と 18 6O で、18O の存在比は0.2%程度です。17O も安定同位体ですが、存在比が少なく同位体分析に使われないので割愛します。

自然界に存在する水のほとんどは 1H216O で、これを便宜上 "軽い水" と呼びます。しかし自然界には 2H1H16O や 1H218O も存在し、これらを "重い水" と呼びます。軽い水と重い水の化学的性質は同じですが、重さが違うので物理的性質が違ってきます。つまり、軽い水ほど早く気化し、重い水ほど早く凝固します。

地球が太陽から受ける熱は赤道付近が最大で、北極・南極付近が最小です。一方、宇宙空間に逃げる熱は赤道付近も北極・南極付近もあまり変わりません。このままでは赤道付近がどんどん熱くなるように思えますが、そうはなりません。それは赤道付近から高緯度に熱を輸送する地球規模の大気の循環があるからです。赤道付近で水が蒸発すると気化熱を奪いますが、その蒸発する水は軽い水が多くなります。その水蒸気が雲となって大気の循環で高緯度に移動し、液化して雨を降らせる。その時に凝固熱が放出されます。この大気の循環で熱が輸送されますが、結果として赤道付近には重い水が多く残ることになります。つまり、地球規模で言うと緯度が高いほど軽い水が増えることになります。

同様のことが、海からの水蒸気が雲となって陸地に移動し、平地や山に雨を降らせるときにも起こります(下図)。つまり雨が降るときには、より重い水から早く液化します。従って内陸に行くほど(海岸から離れるほど)軽い水が増えることになり、また高度が上がるほど軽い水が増えることになります。

降水の安定同位体比.jpg
降水による安定同位体比の変化

海からの水蒸気が陸地で降水をもたらすとき、まず重い水から液化する。また雲が山にぶつかって高度が上がるにつれて軽い水が降る。このため海岸から離れるほど、また高度が上がるほど軽い水が増え、重い水が減る。
(日本醸造協会誌 第110巻 第2号 2015 より)

次の図は日本列島の河川水、地下水(浅層)の酸素安定同位体(18O)の比率を調べた図です。数字は「軽い水に対する重い水の比率が世界標準からどれだけズレているか」を示した数値です。単位はパーミル(千分率)で、たとえば -10 は、-10/1000 = - 1% を示します。つまり「-10」の意味は、

標準比率からのズレ =
 マイナス(標準比率 × 0.01)

ということです。これを見ると日本列島も緯度が高くなるほど重い水が減り、また内陸に行くほど重い水が減ることが分かります。

河川水・地下水の酸素同位体比.jpg
全国の河川水・浅部地下水の酸素同位体比

酸素18の比率を示した図である。緯度が高くなるにつれて酸素18の比率が低下する(マイナスが大きくなる)。また内陸に行くにつれても低下し、軽い水が多くなる。
(日本醸造協会誌 第110巻 第2号 2015 より)

上に引用した2つの図は日本醸造協会誌に掲載された論文からのものですが、なぜ醸造協会誌にこのような論文が載るかというと、安定同位体分析で日本酒の産地が推定できるからです。

日本酒は水が命と言われますが、この水は普通、蔵元の地元の地下水です。分析によると「地元の河川水・地下水の酸素安定同位体比と、醸造された日本酒の酸素安定同位体比」の間には、かなりクリアな相関関係がみられるとのことです。もちろん同じ酸素安定同位体比をもつ地域は複数あるので産地の完全な特定はできませんが、少なくともその産地で作られたもではないということは分析できるわけです。



このような河川の水や地下水は、その土地で育った植物や動物の水素・酸素安定同位体比に影響を与えます。つまりコメなどの産地判定にも活用できることになります。

ここまでくると、最初に引用したNTTのカシミヤの産地推定の記事につながります。カシミヤヤギの産地は中国の北西部の各地方、ネパール、モンゴル、イランなどに限られます。これらの地方は特有の水素・酸素安定同位体比があるはずで、それがカシミヤヤギの毛に影響します。また記事によるとNTTは炭素同位体も分析したようで、それはカシミヤヤギの食性に関係しています。窒素同位体の話が記事にありませんが、それはカシミヤヤギの産地推定には有効ではなかったということでしょう。

具体的にどうやって分析したかですが、NTTのホームページによると、まずカシミヤ毛の産地分析の専門家がいて、その人は顕微鏡でカシミヤ毛を見て産地を推定するそうです。それで推定したカシミヤ毛の産地ごとに安定同位体分析をすると、明白な差異が見られた。つまり安定同位体分析によって産地が推定できることが分かった ・・・・・・ というのがNTTの説明です。どこまでの詳細分析が可能なのか、たとえば中国の内モンゴル自治区のカシミヤとモンゴルのカシミヤの区別はつくのか、などは不明ですが、とにかく人の経験とノウハウではなく、サイエンスの力で産地推定ができるということは進歩でしょう。

なぜ、ここまでの分析するのでしょうか。我々が知っているのは、カシミヤは高級品であり、まがいものが多いということです(カシミヤに羊毛を混ぜるなど)。カシミヤと称して流通している量は生産量の4倍、という話もあるくらいです。これは常識的ですが、さらに記事から想像できるのは「カシミヤといっても産地によって品質に違いがある」ということです。従って原料の価格にも違いがあるのではと思います。また、たとえ品質・価格に差がなくても、原産地が証明できることは流通経路も明確になり、大きな意味での品質保証と安定供給に寄与するということでしょう。


ストロンチウムの安定同位体


今までの水素(H)、酸素(O)、炭素(C)、窒素(N)は生命体の維持に不可欠な元素であり、安定同位体分析では「4大元素」と呼ばれていますが、それ以外にも分析に使われる元素があります。その例がストロンチウム(Sr:原子番号38)です。

ストロンチウム(38Sr)は土壌中に含まれますが、安定同位体として 84Sr(平均存在比:0.56%) 86Sr(9.86%) 87Sr(7.0%) 88Sr(82.58%) の4種があります。この4種の比率は地球上における地質のできかたによって相違することが知られています。特に「87Sr/86Sr 比」は鉱物や岩石によって0.7~4.0までの値をとります。

土壌中のストロンチウム比はその土地の地質によって違い、これがその土地で育った生物のストロンチウム比に影響します。このことから、生物がどの地域で育ったかを推定できます。

以上のような地質の分析については、硫黄(16S)の同位体分析も活用されているようです。


同位体分析の威力


安定同位体の存在比は、地理的な存在場所や植物の種類によって違ってきます。そのため、食品や動植物の原産地の分析だけでなく、考古学や地球科学、環境科学でも安定同位体分析が使われています。特に4大元素(H, O, C, N)はどこにでも大量にあるだけに応用範囲が広い。

その応用の一つを No.221「なぜ痩せられないのか」に書いたのですが、水素と酸素の安定同位体分析を使って日常生活をしているヒトのエネルギー消費量の精密測定ができます。これは人工的に作った "2重標識水(2H218O)" を被験者に飲ませ、活動後の唾液(ないしは尿)の同位体分析をするものです。2Hは水分(呼吸中の水蒸気や尿、汗など)として体から排出されますが、18Oは水分として排出されると同時に、呼吸中の二酸化炭素(C18O2)としても排出されます。そのため 2H よりも 18O の方が "減りかた" が早い。この差の同位体分析で二酸化炭素の排出量が計算でき、そこから酸素消費量が求まる。それでエネルギー消費量が算出できるというわけです。非常に巧妙な方法です。

我々素人はふつう安定同位体分析に関係することはないのですが、この技術は今や世界で一般的に使われているようです。だからこそ、古代ローマの剣闘士の遺体の分析にも、カシミヤヤギの分析にも使われる。これはひとえに精密な測定が低コストで可能になったという、分析技術の発達によるのでしょう。

こういった分析技術に関連して思い出すことがあります。冒頭に引用した NTT の記事はレーザー光の吸収を利用した同位体分析でしたが、別の方法は同位体の質量の差を利用するものでした。これは「質量分析」の一つの技術ですが、質量分析でノーベル賞を受賞した日本人がいます。島津製作所の田中耕一氏です(2002年のノーベル化学賞を受賞)。田中氏はタンパク質の質量分析の第一人者です。これはタンパク質の同定や構造の解明に必須の技術で、医学や製薬、生命科学の発展の大きな支えになっています。

我々は田中氏がノーベル賞を受賞したとき、一企業のサラリーマン(博士でもない)であることに驚いたのですが、もっと注目すべきはノーベル賞委員会が、一見 "地味な" タンパク質の質量分析技術の開発者に賞を与えたことです。この技術が生命科学の発展に与えるインパクトの大きさからの判断でしょう。

超精密な分子・原子の測定技術が科学や学問の発展に大きく寄与する。それは同位体分析も同じだと思いました。



 補記 : 魚の回遊ルート分析 

日本経済新聞に、同位体比分析によってサケの回遊ルートを分析する話が載っていたので、その記事を引用します。サケは身近な魚ですが、海のどこを泳いで日本の河川に戻ってくるのかが今まで分かっていなかったそうです。


サケ、骨に「旅の記録」

3月、海洋研究開発機構などの研究チームは、サケの詳しい回遊ルートが初めて明らかになったと発表した(引用注:日本経済新聞が報じたのは2020年3月25日)。長旅の末にベーリング海の大陸棚にたどり着き、たっぷりとエサを食べて日本に戻ってくるという。

サケが日本近海からベーリング海へ渡ることは捕獲調査で知られていた。太平洋最北部にあるベーリング海の大陸棚まで到達しているのかは不明だった。なじみがある魚なのに、実は日本の川を下ったあとの行動はよくわかっていなかった。

日本のサケにとってはるか遠くの海が大切だとすれば「日本のサケ資源を保全するには、ベーリング海の大陸棚の環境を守ることも重要だ」と研究を率いた中央大学の松林順助教は話す。

サケの回遊ルートを探っていた研究チームが手掛かりをつかんだのは、海を泳ぐ姿の観察でも全地球測位システム(GPS)の活用でもなかった。意外にも、旅の記録を秘めていたのはサケ自身の背骨だった。

魚の骨の一部は年輪を刻むように成長する。骨を輪切りにすると、中心に近づくほど若いころに育った環境の影響が残っている。

研究チームは名探偵がわずかな痕跡から答えを探し出すように、サケの脊椎骨をつくるコラーゲンの中の元素を分析した。すると、稚魚や若魚、成魚の各時期に成長した部分で窒素分の比率が異なっていた。

元素は、同じ種類でも質量(重さ)がわずかに異なる「同位体」という兄弟分がいる。窒素分の同位体の比率は、海中のプランクトンの働きによって海域ごとに変わる。生物の活動が盛んな海は、排せつ物や死骸が海底にたまっていく。堆積物の窒素分のうち、軽い窒素は大気に出て行きやすく、重い窒素は海底に残る。浅い海では、海底の重い窒素がプランクトンに取り込まれやすい。

プランクトンを食べるサケの脊椎骨にも比率の違いが現れる。背骨の年代別の比率と海域の比率を照らし合わせると、過去にどこの海を泳いでいたのかを絞り込めた。そこで特定できたのが、日本からベーリング海の大陸棚に至る回遊ルートだ。

日本経済新聞
(2020.5.17 朝刊)

窒素は質量数14(14N)が大部分(99.6%)ですが、安定同位体として質量数15の窒素(15N)が存在します(0.4%)。この比率、15N / 14N が窒素の同位体比です。

海中のプランクトンの同位体比は、記事にあるように生物の活動が活発かどうか、海が浅いか深いかによって変わってきます。研究チームはまず、北太平洋の広範囲で動物性プランクトンを採取し、プランクトンのタンパク質の中のフェニルアラニン(アミノ酸の一種)の同位体比を測定し、北太平洋の「窒素同位体比地図」を作成しました。これとサケの脊椎骨のフェニルアラニンの分析を付き合わせて回遊ルートを調べたわけです。

北太平洋の窒素同位体比地図.jpg
北太平洋の窒素同位体比地図。ベーリング海の東部大陸棚で窒素15の比率が最も高くなる。海洋研究開発機構(JAMSTEC)のサイトより。

さらに記事にはサケ以外の魚の話もありました。脊椎動物の内耳には耳石じせきと呼ばれる炭酸カルシウムでできた組織があります。魚類の耳石は年輪のような同心円状になっていて、1日に1本が形成されます。

記事では、マイワシの耳石を分析することで、回遊ルートを分析する話がありました。耳石の酸素同位体を分析すると、泳いでいた海域の水温と塩分濃度がわかるそうです。「魚の生きた環境を1日単位で読みとることも可能だ」(京都大学 石村豊穂准教授)とありました。日本経済新聞の記事にあった図を以下に引用します。

同位体比分析による魚の回遊ルート.jpg
日本経済新聞(2020.5.17)より

さらに記事にウナギの話もありました。No.267「ウナギの商用・完全養殖」に書いたように、ニホンウナギの産卵場は赤道に近いマリアナ海溝の付近にあり、そこで生まれた稚魚が成長しながら日本の河川に遡上してくるまでのルートは解明されています。しかし日本の河川で育ったウナギの成魚がどういうルートで産卵場までいくのかは謎です。また、養殖場でシラスウナギから成魚にしたウナギを放流したとき、それがマリアナ海溝の産卵場までたどりついているのかも不明です。

記事では東京大学の白井厚太朗准教授の研究の成果として、ウナギの耳石の酸素同位体比と泳ぐ場所の水温の関係を見い出したとありました。

ウナギはサケやマイワシと同じく日本人にはなじみの魚ですが、資源量(シラスウナギの漁獲量)が減少し、完全養殖はコスト面で商用化がまだ困難な状況です(No.267)。ウナギの生育環境の水温データは完全養殖の技術開発にも役立ちそうです。

(2020.5.30)



nice!(0) 

No.237 - フランスのAI立国宣言 [技術]

No.233/234/235 で、国立情報学研究所の新井紀子教授の著書「AI vs. 教科書が読めない子どもたち」(東洋経済報社 2018.2)の内容を紹介し、感想を書きました。その新井教授ですが、最近の新聞のコラムでフランスの "AI立国宣言" について書いていました。AIと国家戦略の関係を考える上での興味深い内容だったので、それを紹介しようと思います。コラムの見出しは、

  仏のAI立国宣言
何のための人工知能か 日本も示せ
  (朝日新聞 2018年4月18日)

です。


パリでのシンポジウム


2018年3月29日、フランス政府はパリで世界の人工知能(AI)分野の有識者を集めて意見交換会とシンポジウムを開催しました。新井教授もこの会に招かれました。


日本ではほとんど報じられていないが、人工知能(AI)分野で、地政学的な変化が起きようといている。フランスの動向だ。マクロン大統領は3月末、世界中からAI分野の有識者を招き意見交換会とシンポジウムを開催。フランスを「AI立国」とすると宣言した。2022年までに15億ユーロをAI分野に投資し、規制緩和を進める。

招待された中には、フェイスブックのAI研究を統括するヤン・ルカンやアルファ碁の開発者として名高いディープマインド(DM)社のデミス・ハサビスらが含まれた。DMは今回パリに研究拠点を置くことを決めた。

新井紀子
朝日新聞(2018.4.18)
"メディア私評" 欄

フランスのAI立国宣言.jpg
フランスのAI戦略を発表するマクロン大統領
(site : www.reuters.com)

新井教授は、フランスもやっとAIの国家戦略に乗り出したが遅きに失したのでは、と思っていたそうです。ところがパリに行ってみて実際は違ったというのがこのコラムの主旨です。


これだけ読むと、「フランスもついに重い腰を上げたか」という感想を持つ読者も少なくないだろう。ドイツは早々に「インダストリー 4.0」を開始した。ビッグデータやAIを活用することで製造業の革新を目指す国家プロジェクトだ。日本でも各省が競ってAI関連のプロジェクトに着手。それでも、米国や中国との距離は縮まるどころかますます水をあけられている。いまさらフランスが参入しても手遅れなのでは、と私も思っていた。

ところが、である。意見交換会が開かれるエリゼ宮に到着して驚いた。出席者の約半数が女性。女性研究者は1割程度といわれるAIの会合では極めて異例だ。そこには、「破壊兵器としての数学 ビッグデータはいかに不平等を助長し民主主義を脅かすか」の著者キャシー・オニールや、データの匿名化に精通したハーバード大学のラタニア・スウィニーが含まれていた。マクロン大統領はこう言った。「AIの影響を受ける人々は『私』のような人(白人男性で40代)だけではない。すべての人だ。AIがどうあるべきかの議論には多様性が不可欠だ」と。

「同上」

引用に出てくるキャシー・オニールはハーバード大学で数学の博士号をとった数学者です。かつては投資会社でデータ・サイエンティストとして働いたこともありますが、現在は企業が使用するアルゴリズムに含まれる偏見を特定・是正するコンサルティング会社の会長を務めています。新井教授があげている本の原題は「Weapons of Math Destruction - How Big Data Increases Inequality and Threatens Democracy」で、Weapons of Mass Destruction(大量破壊兵器)とMath(数学)を引っかけた題名です。Weapons of Math Destruction を直訳すると「数学破壊兵器」ですが、意味としてはコラムにあるように "破壊兵器としての数学" です。この本の日本語訳は新井教授のコラムのあとに「あなたを支配し、社会を破壊する、AI・ビッグデータの罠」(インターシフト社。2018.6.18)として出版されました。

フェイスブックやディープマインドの責任者だけでなく、キャシー・オニール博士のような方を呼ぶこと自体、フランス政府のスタンスを表しています。


大統領から求められ、「ロボットは東大に入れるか」プロジェクトを始めた意図を話した。「人々に広告をクリックさせるために」様々なサービスを無償で提供しているグーグルやフェイスブックのような巨大IT企業が、今回のAIブームを牽引けんいんすることは2010年の段階で明らかだった。だが、日本はモノづくりの国である。99%の精度を、「100回のうち99回正しい」ではなく「100回に1回間違える」と認識すべき国だ。無償サービスの効率化のために開発された技術を、モノづくりに本格的に採り入れるべきか吟味すべきだ。AIの限界を探り、労働市場への影響を正確に見積もる必要があった、と。大統領は自ら詳しくメモを取りながら耳を傾けてくれた。

「同上」

新井教授が指摘するように、現在のAI技術を牽引している大きな動機が「無償サービスの効率化」であることは大切な視点だと思います。グーグルやフェイスブックのような「無償サービス企業」は、AIに絶対に取り組むべきニーズがあり、AIに多大な投資をする切実な理由があります。一つだけ例をあげると、グーグルのストリート・ビューから写り込んでいる個人情報(人の顔、クルマのナンバー、家の表札など)を抹消するために、それを人手に頼っていたのではコストがかかり過ぎます。完全自動で個人情報を消す必要がある。そのためには画像の認識技術が必須で、これは物体認識というAIの重要領域です。

また「無償サービス企業」が社会的責任を果たすためにますます重要になるのが、反社会的内容(犯罪、名誉毀損に相当するような中傷・誹謗、児童ポルノ、著作権侵害 ・・・・・・)のサイト、記事、投稿、写真、動画などの自動判定とブロックや削除(ないしは警告)でしょう。さらに、フェイク・ニュース(偽ニュース)の自動判定も重要になってくるはずです。こういった判定のためには、画像認識だけでなく高度な自然言語処理が必要です。しかもそれを100以上の言語でやる必要がある。無償サービス企業が機械翻訳に取り組むのも理由があるのです。このあたりをおろそかにしていると、政府と社会によって足元をすくわれかねません。

無料サービスを人手でコストをかけてやっていたのでは話にならないのでAI技術で自動化する。そして広告で稼ぐ。彼らのビジネスモデルの根幹にかかわっています。ちなみにアマゾンも「無料サービス企業」の一つと考えると理解しやすいと思います。もちろんモノやデジタル・コンテンツには対価を払う必要がありますが、アマゾンは「買うことに付帯するコスト負担・労力負担を限りなくゼロしようとしている」会社です。

フランス・パリでの意見交換会では、その巨大無償サービス企業側からの発言(フェイスブックのAI研究を統括するヤン・ルカン。フランス出身)と、それに対するマクロン大統領の反論がありました。


一方、「新技術が登場する時には心配する人は必ずいる。電話やテレビが登場したときもそうだが、何の問題もなかった。AIも同じだ」と楽観論を展開するヤン・ルカンに、大統領は厳しく指摘した。「これまでの技術は国民国家という枠の中で管理できた。AIとビッグデータは違う。圧倒的な寡占状況があり、富の再分配が行われていない。フランスが育成した有能な人材がシリコンバレーに流出しても、フランスに税金は支払われない」と。

「同上」

このフェイスブックに反論したマクロン大統領の発言に、フランスのAI立国を目指すための戦略が透けて見えます。AIというグローバル・ゲームは、実質的にはアメリカの巨大IT企業(と中国)が牽引していますが、アメリカと中国に対抗するためにゲームのルールを変えようとしているのです。


アメリカと中国でブームになると、日本は慌ててAIに手を出した。だが「何のため」かはっきりしない。夏目漱石そっくりのロボットを作ってみたり、小説を書かせてみたり、よく言えば百花繚乱りょうらん、悪く言えば迷走気味である。メディアも、AIと聞けば何でも飛びつく状況だ。フランスは違う。AIというグローバルゲームのルールを変えるために乗り出してきたのだ。

最後発のフランスにルールを変えられるのか。大統領のAIアドバイザーを務めるのは数学者のセドリック・ビラニだ。法学者や哲学者も連携していて、アルゴリズムによる判断によって引き起こされ得る深刻な人権侵害、AIの誤認識による事故の責任の所在、世界の中から最高の頭脳を吸引するシリコンバレーの「教育ただ乗り」問題を鋭く指摘。巨大IT企業の急所を握る。そして、「データとアルゴリズムの透明性と正当な利用のための共有」という錦の御旗を掲げながら、同時に投資を呼び込む作戦だ。最初の一手は、5月に施行試行されるEU一般データ保護規則になるだろう。

ヨーロッパでは哲学も倫理学もかびの生えた教養ではない。自らが望む民主主義と資本主義のルールを通すための現役バリバリの武器なのである。

「同上」

コラムにある数学者のセドリック・ビラニは、今回のフランスのAI戦略の中心人物ですが、彼は数学のノーベル賞と言われる「フィールズ賞」を受賞した人です。世界トップクラスの数学者が国の政策立案の重要人物なのです。

また「EU一般データ保護規則」は GDPR(General Data Protection Regulation)と呼ばれるもので、新井教授のコラムが新聞に載ったすぐあと、2018年5月25日より施行されました。これは欧州経済域(EEA。EU加盟28ヶ国+ノルウェー、アイスランド、リヒテンシュタイン)で発生する個人データの管理と移転に関する規則です。個人が企業に対して個人データを消すように求められる権利(=忘れられる権利)をはじめ、さまざまな規則がありますが、重大なのは「個人データをEEA域外に移転することを原則禁止する」という部分です。GDPRの違反者には最高で2000万ユーロ(約26億円)か全世界売上げの4%のうちのいずれか高い方という巨額の制裁金が科せられます。

GDPRはEU(EEA)が米国の巨大IT企業と戦うことを宣言したものと考えられます。グーグル、フェイスブック、アマゾンは「巨大個人情報ビジネス」であるという視点が重要です。グーグル、フェイスブック、アマゾンのアカウントにログインして何らかの情報のやりとりをすると、その全情報は個人情報としてグーグル、フェイスブック、アマゾンに蓄えられます。フェイスブックやその配下のインスタグラムは、個人情報収集装置そのものだと言えます。彼らはその収集した個人情報を自らにビジネスに生かしています。まさにマクロン大統領が言うようにデータの寡占状態になっている。その一端が露呈したのが、フェイスブックの8700万人の個人データが英国の政治コンサルタント会社に売り渡され、それが流出して米大統領選挙に使われた事件(2018年3月に発覚)です。

GDPRのような規則はフランスだけで施行しても意味が薄いわけです。欧州全体=EUで実施するからこそ意味があり、EUという共同体の存在意義が現れていると思います。ちなみにイギリスはEUを脱退するそうですが、脱退してもGDPRには追従していくようです。何となくEUの "いいとこ取り" をしているようにみえます。

上の引用の中に「アルゴリズムによる判断によって引き起こされ得る深刻な人権侵害」とあります。人権侵害の仮想的な例を作ってみると、学生が就職活動で企業に提出するエントリー・シートですが、最近はAIを使ってまず第1次のスクリーニングする企業があると言います。もしその企業が「特定地域の住人は犯罪を犯す確率が高い」というデータ分析結果を持っていたとして、それを学生の選別に反映したとしたらどうでしょうか。それは "いわれのない差別" をしていることになります。

もちろんこのような単純な例はまずないでしょう。しかし本質的にこれに類することが頻発していくのではないか。その一つの理由は、世の中には「相関関係と因果関係の混同」が蔓延しているからです。No.223「因果関係を見極める」で紹介したのですが、伊藤公一朗氏(シカゴ大学助教授)はその著書『データ分析の力 因果関係に迫る思考法』で、

  ニュースや新聞を見てみると相関関係と因果関係を混同させた怪しい分析結果は世の中にあふれています。

と書いているのでした。AIは数学的に言うと統計と確率のジャンルであり、ビッグデータの中から "相関関係" を見つけ出すのは大得意です。しかしだからといって "因果関係" があるとは言えない。ビッグデータの収集とAI技術の進展に伴って "怪しい因果関係" が世の中に溢れ、それが無分別な人たちに誤って利用され(あるいは意図的に誤って利用され)、新たな差別を生み出すことは十分に考えられます。しかも、なぜそういう結論になったのか、人間サイドでは(簡単には)わからない。

さらに相関関係をうんぬんすうる以前に、そもそもデータが誤っているというケースがあります。データの捏造、ないしは歪曲もありうる。また、各種の推定を行うためのアルゴリズムが不完全なこともあるでしょう。まさにデータとアルゴリズムのオープン性が必要になるのです。要するにフランスは、以上のようことを念頭におきつつ、AIに取り組む国家の姿勢として、

情報とデータの独占禁止
アルゴリズムの透明性の担保
ダイバーシティ(多様性)
人権と民主主義に貢献するAI

などを掲げ、それに共鳴する人材と投資を呼び込もうとしているわけです。それは新井教授のコラムにあるように、自国を優位に導くための「錦の御旗」なのだろうけれど、AIと共存する時代における重要な視点であることは確かです。英国のディープマインド社がパリに研究拠点を置くことに決めたとコラムにあります。No.174「ディープマインド」に書いたように、

  グーグルに買収されるにあたって、ディープマインド社はグーグルに対し「AI倫理委員会」の設立を要求した

わけですが、そういうスタンスの企業にとってマクロン大統領の方針は親和性があると見えました。


AIと国家戦略


フランスを離れて各国のAI戦略みてみると、まず新井教授のコラムに「アメリカと中国でAIがブーム」とあるように、中国の動向に注目する必要があります。中国の習近平政権は「中国を2030年にはAIで世界のリーダーにする」との目標を掲げ、政府投資をAI研究にそそぎ込んでいます。

中国は世界一の人口を抱えていて、中国のIT企業(検索、SNS、ネットショッピング、・・・・・・)も巨大化しています。そこにはアメリカの巨大IT産業と同様のAIに対する強いニーズがあります。

それに加えて中国は「中国共産党の独裁政権」であることがポイントで、これがAIの発展に有利に働くと考えられます。その理由ですが、まず、中国政府はインターネット上を飛び交う情報を監視し、検閲し、政府の意に沿わない情報を遮断しています。これを人手でやるには限界があるし、モレも当然出てくる。ここにAI技術を使うと検閲をより完全なものにすることができるでしょう。中国政府はフランスのマクロン大統領が掲げる「錦の御旗」とは全く逆の意味で、AIに対する "強くて切実なニーズ" があると考えられます。

また、独裁政権ということは政府の強権で個人情報を含むビッグデータを収集できるということに他なりません。そのビッグデータをAI研究に活用できる。人権を重視する民主主義の国はあり得ないようなことができるはずです。データは21世紀の石油だと言われています。AIはどこで発展するかというと、ビッグデータがあるところ、ビッグデータが収集できるところで発展するというのが素直な見方でしょう。その点で、中国は優位なポジションにあると見えます。

ただしその一方で、将来的にAIで代替できる労働者の絶対数が最も多いのも中国だと考えられます。AIで労働を代替したとき、AIではできない仕事に労働者をどう転換していくのか、それは必ずしも簡単ではないと思います。フェイスブックのヤン・ルカンが言うような「昔からそうだった、AIも問題ない」との楽観論は甘すぎると思います。中国政府も将来的には難しい舵取りを迫られそうです。



中国以外の国をみると、ドイツは新井教授のコラムにあるように「インダストリー 4.0」で、製造業を基軸に据えてAIとIoTを推進するという戦略を明確化しました(2011年)。

カナダは、そもそも現在のAIブームに火をつけた国で、トロント大学の「深層学習」の成功が今のAIの発展の端緒となりました(ヤン・ルカンも火をつけた一人です)。現在もカナダ政府はAI研究のメッカとなるべく数々の施策をうっています。

イスラエルは従来からハイテク産業の集積地で、AIのベンチャーも多く育っています。自動車で物体認識をする画像処理チップを作っている MobileEye の製品は、日本を含む世界の自動車会社が採用しています。

このような状況で、日本はどういう方向に行くのか、何を基軸に据えたAI戦略を展開するのか、そこが問題です。


日本のAI国家戦略は ?


新井教授のコラムのサブタイトルは「何のための人工知能か 日本も示せ」でした。つまりどういう国家戦略で日本はAIを推進するのかを示せということですが、これはどのように考えるべきでしょうか。

"ユニコーン企業" という言葉があります。アメリカで始まった言い方ですが、企業としての評価額が10億ドル以上(約1200億円以上)の非上場企業を言います。ユニコーンとは一角獣のことですが、一角獣のように非常にまれで、かつ利益をもたらすという意味でしょう。

2017年11月20日付の日本経済新聞(デジタル版)によると、日本において推定企業価値が100億円を越える非上場のベンチャー企業(= NEXTユニコーン)は22社あり、そのトップはプリファード・ネットワークスの2326億円とあります。2位はメルカリの1479億円で、アメリカ基準の10億ドル(約1200億円)を越えているユニコーン企業はこの2社だけです。ちなみにメルカリは2018年6月19日に東京証券取引所マザーズに上場したので「非上場」ではなくなりました(上場の初値は時価総額で6760億円)。

ユニコーン企業で企業価値最大のプリファード・ネットワークスはAI技術の開発会社で、ちょうど英国のディープマインドに似ています。もちろん日経新聞があげている22社はIT関連企業が多いので、メルカリを含めて何らかの形でAI技術を使っているはずです。しかし22社のうちで唯一、AI技術だけに特化しているのがプリファード・ネットワークスなのです。

プリファード・ネットワークスは西川徹氏と岡野原大輔氏が東京大学在学中に中心となって起業した会社です。数々の日米の大手企業が出資していますが、特にトヨタが100億円以上も出資しており、またファナックも出資して提携関係にありあます。トヨタと言えば世界最大規模の製造業であり、ファナックは工作機械で日本トップの会社です。また自動車産業と工作機械は世界的にみて日本の有力産業です。つまりプリファード・ネットワークスは世界トップクラスのモノづくり会社・産業と深い関係にあるのです。

これは日本のAIの重要な方向を示唆していると思います。つまり、モノづくりのためのAI(モノそのものに組み込まれるAIや、モノづくりを支援するAI)という方向性です。新井教授は、

  日本はモノづくりの国である。99%の精度を「100回のうち99回正しい」ではなく「100回に1回間違える」と認識すべき国だ。

と述べているのでした。無償サービスの効率化のためには「100回のうち99回正しいAI」で十分だが、モノづくりのためには「100回に1回のAIの間違いをどのようにカバーするか」という視点が必須になります。

中国は国をあげてAIに邁進していますが、もう一つの国家戦略は製造業の革新です(習近平政権の "中国製造2025")。中国は生産量では世界トップの製造分野がいくつかありますが、その質や裾野の広がり、人材の面ではアメリカや日本、ドイツに劣っていると、中国政府自らが認識してます。それを挽回しようとするのが "中国製造2025" です。ということは、日本にとっては中国の先を行く革新、という視点も重要です。

「何のためのAIか示せ」という新井教授の問いに対する有力な答えが「モノづくりのためのAI」という風に思いました。




nice!(1) 

No.233 - AI vs. 教科書が読めない子どもたち [技術]

今回は No.175「半沢直樹は機械化できる」No.196「東ロボにみるAIの可能性と限界」の続きです。

No.175 で、オックスフォード大学の研究者、カール・フレイとマイケル・オズボーンの両博士が2013年9月に発表した「雇用の未来:私たちの仕事はどこまでコンピュータに奪われるか?(The Future of Employment : How Susceptible are Jobs to Computerization ?)」という論文の内容を紹介しました。この論文は、「現存する職種の47%がAIに奪われる」として日本のメディアでもたびたび紹介されたものです。それに関連して、国立情報学研究所の新井紀子教授が「半沢直樹の仕事は人工知能(AI)で代替できる」と2013年に予想した話を書きました。半沢直樹は銀行のローン・オフィサー(貸付けの妥当性を判断する業務)であり、銀行に蓄積された過去の貸付けデータをもとにAI技術を使って機械的に行うことが可能だというものです。

No.196「東ロボにみるAIの可能性と限界」ではその新井教授が主導した「ロボットは東大に入れるか(略称:東ロボ)」プロジェクトの成果を紹介しました。これは大学入試(具体的にはセンター試験の模試)を題材にAIで何ができて何ができないのかを明らかにした貴重なプロジェクトです。

AI vs 教科書が読めない子どもたち.jpg
その新井教授が最近「AI vs. 教科書が読めない子どもたち」(東洋経済報社 2018.2)という本を出版されました(以下「本書」)。AIの強力さと弱点を「東ロボ」を例に実証的に説明し、AIが社会に浸透していく中で我々は何をすべきかを示した良い本だと思うので、その内容の一部を紹介したいと思います。

そもそも新井教授が「東ロボ」プロジェクトを始めるきっかけになったのは、人間の仕事がAIに奪われていくという危機感でした。実は、新井教授はオックスフォード大学の論文以前に、人間の仕事の半分がAIやコンピュータに奪われるという予測を発表していました。2010年に出版した「コンピュータが仕事を奪う」(日本経済新聞社。2010)です。ところが日本では誰もこの警告をに受けませんでした。


出版直後、私は東京駅前の大型書店に、この本がどこに置かれているかを見に行きました。ビジネス書の棚をいくら探しても見当たらない。結局どこに置かれていたかというと、SFのコーナーでした。その事実に私は慄然としました。日本人はこのシナリオをSFだと思うのか、と。

実はそれこそが、「ロボットは東大に入れるか」というプロジェクトをスタートさせようと考えた最初の動機でした。これが近い将来に間違いなく起こる事実であることを日本人に1日でも早く伝えたい。そのために一人ひとりに準備をしてほしい。その焦燥感が「ロボットは東大に入れるか」というフレーズに結晶したのだろうと思います。



偏差値 57.1 の成績をとった東ロボくん


ロボットは東大に入れるか.jpg
国立情報学研究所ニュース(NII Today)No.60(2013.6)。特集「ロボットは東大に入れるか」の表紙

東ロボの成果については、No.196「東ロボにみるAIの可能性と限界」に紹介したのですが、復習のために本書から引用します。


初めて "受験" した2013年の代々木ゼミナールの「第1回全国センター模試」では、5教科7科目900点満点の得点は387点。全国平均の459.5点を大きく下回り、偏差値は45でした。

ところが3年後の2016年に受験したセンター模試「2016年度進研模試 総合学力マーク模試・6月」では、5教科8科目950点満点で、平均得点の437.8点を上回る525点を獲得し、偏差値は57.1まで上昇しました。

偏差値57.1が何を意味するのか、合否判定でご説明します。全国には国公立大学が172あります(模試時点での大学コード発番数)が、東ロボくんはそのうち23大学の30学部53学科で合格可能性80%の判定をいただきました。思わず、ガッツポーズがでるレベルです。

私立大学は587校あります。短期大学は含みません。そのうち512大学の1343学部2993学科で合格可能性80%です。学部や学科は内緒ですけれど、中にはMARCH(明治大学、青山学院大学、立教大学、中央大学、法政大学)や関関同立(関西大学、関西学院大学、同志社大学、立命館大学)といった首都圏や関西の難関私立大学の一部の学科も含まれていました。両拳を突き上げたくなるレベルです。

さらに、将来の2次試験受験にそなえて、数学と世界史の2科目だけ記述式の模擬試験にも挑戦してみました。駿台予備学校の「東大入試実践模試」と代々木ゼミナールの「東大入試プレ」です。どちらも東大合格を目指す全国の優秀な受験生が受験する模試です。「2015/2016第1回東大入試実践模試」の世界史の問題の一つは、西欧とアジアの国家体制の変遷について600字以内の論文を書く難問でした。この問題で、東ロボくんは配点21点中9点を獲得し、受験生平均の4.3を大きく上回り偏差値61.8を獲得しました。東ロボくんに拍手。さらに「2016年度第1回東大入試プレ」の数学〈理系〉の問題では6問のうち4問に完答し、偏差値は76.2。全受験者のトップ1%に入る成績です。東ロボくんに拍手喝采。

「同上」

ちなみに偏差値57.1だった「2016年度進研模試 総合学力マーク模試・6月」において東ロボくんの得意・不得意を偏差値でみると、得意科目は世界史Bの66.3、数学IAの57.8、数学IIBの55.5などです。一方不得意科目は英語(筆記)の50.5、国語の49.7です。

大学入試センター模試(2016)の成績
ベネッセコーポレーション「進研模試」
(カッコ内は2015年の成績)
  得点 全国平均 偏差値
英語(筆記) 95(80) 92.9 50.5(48.4)
英語(リスニング) 14(16) 26.3 36.2(40.5)
国語(現代文+古文) 96(90) 96.8 49.7(45.1)
数学 I A 70(75) 54.4 57.8(64.0)
数学Ⅱ B 59(77) 46.5 55.5(65.8)
世界史 B 77(76) 44.8 66.3(66.5)
日本史 B 52(55) 47.3 52.9(54.8)
物理 62(42) 45.8 59.0(46.5)
合計(950点満点) 525(511) 437.8 57.1(57.8)
朝日新聞(2016.11.15)
No.196「東ロボにみるAIの可能性と限界」
に掲載した表を再掲。

偏差値 57.1が何を意味するかですが、これは全受験生の上位20%に東ロボくんが入ったということです。逆に言うと全受験生の80%は東ロボくんより成績が下だったわけです。

もちろんこの程度では東大には入学はできません。東大の偏差値は77以上であり、入学できるのは全受験生の0.4%以下です。新井教授は、このまま東ロボくんを成長させたとしても「偏差値60は運がよければ達成可能かもしれないが、偏差値65は不可能」と言っています。なぜ不可能なのか、その説明が本書の一つの目的だと言ってもいいでしょう。

とはいえ、東ロボくんがMARCHや関関同立の一部学科に入学可能というのは重大な事実です。AIの技術は急速に進歩していて、生活のあらゆる側面に入り込みつつあります。我々はそういう時代に生きているという認識がまず必要です。



以下、東ロボくんの得意科目(世界史、数学)と不得意科目(英語)について、どうやって問題を解いているのか、その一端を本書から紹介します。


東ロボくん:世界史の攻略法


世界史のセンター入試の7割程度は正誤判定問題、ないしは正誤判定に帰着できる問題です。たとえば次のような出題です。


カロリング朝フランク王国が建国された8世紀に起こった出来事について述べた文として正しいものを、次のうちから一つ選べ。

ピピンはランゴバルド王国を滅ぼした。
カール大帝は、マジャール人を撃退した。
唐の大宗の治世は、開元の治と呼ばれた。
ハールーン・アッラシードの治世が始まった。
「同上」

分析の結果、正誤判定問題においては多くの場合で問題文の条件は無視できることが分かりました。上の問題でいうと「(カロリング朝フランク王国が建国された)8世紀」の部分です。つまりこの問題の場合、選択肢の①②③は条件を無視して正誤判定が可能であり、④だけで「8世紀」という条件が必要になります。そこで東ロボくんはまず、条件を無視して正誤を判定します。どうやっているかが以下です。

たとえば「②カール大帝は、マジャール人を撃退した。」が正しいか誤っているかですが、まずこの文を回答とするような質問文を作り出します。たとえば「②カール大帝は、○○○を撃退した。この○○○は何か」という質問文です。

次にオントロジーを利用します。情報科学で言うオントロジーとは「概念体系」であり、さまざまな概念と概念の関係性を表したものです。たとえば「ハールーン・アッラシードは人名である」「ハールーン・アッラシードはカリフの一人である」「マジャール人は民族である」などです。「死んだ人はそれ以降の事項を起こせない」というのもオントロジーです。

世界史攻略のためのオントロジーが手作りで作成されました。そのオントロジーを用いると先ほどの質問文は「②カール大帝は、この民族を撃退した。この民族とは何か」と書き換えられます。この質問のように、単語で答える質問を "ファクトイド" と言います。実はファクトイド型の質問に答えて一躍有名になった人工知能があります。IBMのワトソンです。



ワトソンは2011年に、アメリカのテレビのクイズ番組「ジェパディ!」で人間のチャンピオンに勝って大きな話題になったコンピュータ・システムです。この「ジェパディ!」で出題される問題がファクトイドなのです。本書にその例があります。


Mozart's last & perhaps most powerful symphony shares its name with this planet.

モーツァルトの最後の、そして最も力強い交響曲には、ある惑星の名前が付けられています。

「同上」

この質問の "this" が何かを答えるのが「ジェパディ!」です。ワトソンでやっているのは基本的には人間がやるのと同じような「情報検索」です。人間ならこの質問に答えるにはどうするか。検索語を慎重に選んで「モーツァルト 最後 交響曲」で Google検索をすると、トップに出るのは Wikipedia の「交響曲第41番(モーツァルト)」の項です(2018.6.1 現在)。その「概要」のところは「本作はローマ神話の最高神ユーピテルにちなんで『ジュピター』(ドイツ語ではユーピター)のニックネームを持つが、・・・・・・」という文章で始まります。これで正解が「ジュピター」だ分かります。もちろん「ジュピター」が惑星の名前でもあることを知っているのが前提です。

もっと一般的には、検索でヒットしたテキストに、検索につかった単語がどのように現れるかを調べます。複数の単語がテキストにどのように現れるかを「共起」といい、共起関係を使って文にあたりをつけ、その文に含まれる「惑星」のカテゴリの単語を調べます。

ワトソンは問題文を単語に分解し、構文解析をし、検索にかけるべき重要な単語を判断します。また「ジュピターは惑星である」というようなオントロジーを備えているので質問に回答できるというわけです。



東ロボくんが「②カール大帝は、この民族を撃退した。この民族とは何か」という質問に答えるのも、基本的にワトソンと同じです。その結果、答として最も高いスコア、3.2 を獲得したのは「アヴァール人」でした。一方、もともとの問題文にあった「マジャール人」のスコアは 1.1 であり、その差は 2.1 です。この結果、東ロボくんは「②カール大帝は、マジャール人を撃退した。」を誤文と判定しました。

この差の 2.1 が正誤判定をするに十分に大きな数値なのかどうか、それは世界史の過去問を機械学習して決めました。つまり過去問のスコアを東ロボくんに計算させ、正解(正か誤のどちらか)と照らし合わせて、どの程度のスコア差が正誤判定になりうるかを学習したわけです。このようなやり方で、東ロボくんの世界史の偏差値は 66.5 までになりました。



以上の「世界史の攻略法」でポイントになっているのは、世界史の模試で出題できる歴史上の事実が限定されていること、つまり高校3年までに学習する範囲に限られることです。従ってオントロジーも手作りで作成できます。しかし、世界史の全知識が対象だったり、「ジェパディ!」のようにさまざまなジャンルの問題が出題される場合には、手作りでは難しい。従って、Wikipedia の全情報から文脈を解析してオントロジーを自動的に作るというような技術が必要になります。

ともかくセンター模試の世界史の結果から分かるのは、限定された情報の範囲の問題に対する回答は、データを蓄積した上での情報検索や統計処理で好成績をあげられることです。


東ロボくん:数学の攻略法


一方、世界史と並んで好成績あげた数学は、世界史とは全く対照的な方法がとられました。それは「数学の問題を自然言語処理で数式に "直訳" し、数式処理で問題を解く」という方法です。具体的な方法は専門的になるので本書には書いてありませんが、統計的・確率的にやるのではなく、論理だけで回答するということです。

数学では東大模試(理系)で6問中4問に完答し、偏差値77.2という驚異的な成績をあげました。大学入試の最難関は東大の理科3類ですが、ここを突破する鍵は数学の成績です。理3を受けるような受験生は、他の科目では大した差がつきません。数学で差がつきます。6問中4問に完答というのは、数学だけでいうと理3突破ラインです。これを数式処理でやったというのは東ロボくんの大きなブレークスルーであり、世界的に誇れる成果でしょう。

要するに、正確で限定的な語彙からなる問題文であれば、現在主流の統計的な自然言語処理ではなく、論理的な自然言語処理と数式処理で解けるということです。従って東ロボくんが「論理」を使って解くのは数学と物理の一部だけです。

ただし数学が理3突破ラインだといっても、東ロボくんが理3に合格できるわけではありません。それは不得意科目があるからです。その代表が英語です。


英語攻略法:150億文を暗記させても・・・・・・


英語の攻略法も、世界史と同じ統計的手法です。つまり大量の英語の例文を暗記させて、その情報検索と統計処理で回答するわけです。2016年の模試の際には、500億単語からなる16億文を暗記させたといいます。英語の文法(=論理)は一切使いません。この統計的やりかたで語順整序問題(問題に示されている数個の単語を正しい順に並べて文の穴を埋める問題)は100%の正解が出るまでになりました。

しかし東ロボくんがつまづいたのは、複文(会話文)の穴埋め問題、会話文完成問題でした。その例が本書にあります。


次の会話の空欄に入れるのに最も適当なものを、①~④の中から1つ選べ。

Nate : We're almost at the bookstore. We just have to walk for another few minutes.
Sunil : Wait.(    )
Nate : Oh, thank you. That always happens.
Sunil : Don't you tie your shoe just five minutes ago ?
Nate : Yes, I did. But I'll tie it more carefully this time.

① : We walked fo a long time.
② : We're almost there.
③ : Your shoes look expensive.
④ : Your shoelace is untied.

(訳)
ネイト:もうすぐ本屋だよ。あと2、3分かな。
スニール:ちょっと。(    )
ネイト:サンキュー。よくあるんだよね。
スニール:5分前に結んでなかったっけ?
ネイト:だね。今度はしっかり結んどくよ。

① : 随分歩いたね
② : もうすぐだね
③ : いい靴だね
④ : 靴の紐ほどけてるよ

「同上」

もちろん正解は④ですが、東ロボくんは②を選んでしまいました。2016年の会話文完成問題の正解率は4割を切ったそうです。

仮にこの問題が日本語の訳文で出題されたら、中学生や小学生(高学年)でも正解できるでしょう。子どもでもできる常識推論の問題だからです。これがセンター模試に出題されるのは "問題文が英語で書かれている" からであり、その英語が正しく理解できているかをテストしているわけです。英語さえ理解できれば、あとは子どもでも可能な推論になる。ところが東ロボくんにとってはその常識推論が難しいのです。

常識をコンピュータに教えればいいのではと思われるかもしれません。靴には紐がある、紐はほどける、紐は結ぶ、といった常識です。しかし中学生レベルの常識でも膨大にあります。新井教授は、


私たちにとっては「中学生が身につけている程度の常識」であっても、それは莫大な量の常識であり、それをAIやロボットに教えることは、とてつもなく難しいことなのです。

「同上」

と書いています。AIの研究でよくぶつかる「常識の壁」です。自然な会話の流れというのは、会話のバックにある常識を前提としています。また、発言によって引き起こされる "常識的な" 人の感情を前提としています。その常識や感情をコンピュータに教え込むのが難しい。だからこそ東ロボくんは、膨大な英語の例文を集めて情報検索と統計処理で問題を解く方針にしたのです。

東ロボくんに教えた例文は、最終的には150億文になったそうです。それでも会話文完成の4択問題の正答率を画期的には上げられなかったと本書にあります。では、もっとたくさんの例文を集めたらどうか。それは新井教授によると「ビッグデータ幻想」だと言います。


「150億なんてとるに足らない。今後、その百倍、万倍のデータが手に入るようになる」と予想した方がいました。けれども、それもまたビッグデータ幻想です。もちろん、ネット上には毎日大量の英文が書き込まれています。ツイッターだけでも物凄い量です。ですが、先にも触れたとおり、人間にとっては同じ英語でも、AIにとっては、特許の文書の英語と新聞の英語、センター試験の英語問題の英語はまったく別物です。

センター英語の正答率を高めるのに必要なのは「間違いのないお手本のような英語」です。ツイッター上のやりとりで、「お手本のような日本語」が使われている割合を考えれば、英語で書かれたツイッターでも、それがいかに少ないかは容易に想像できます。そんなものはいくら増えても何の役にも立ちません。

正しい文章を書ける人が限定的であり、文章を書くのに時間がかかり、そして、画像の教師データを「水増し」するように、手本となる文から自動的に意味を変えずに、一万倍に増やす方法が見つからない限り、150億文を万倍にすることなどできません。

「同上」



東ロボくんがセンター入試をどのように解いているのかの説明はこの程度にして、以下は社会に広まるAIの強力さと限界についてです。


社会に広まるAI


現代社会にはAI技術が広く使われ出しています。その例を本書から紹介しますと、まず顧客と企業の接点となるコールセンターです。上の "ファクトイド" のところで説明した IBM のワトソンもコールセンターに使われています。


コールセンターの役割は、問題を解決することではありません。用意されたFAQ(よく聞かれる質問とその回答集)に沿って応答し、複雑な問題の場合は担当部署に転送するのが業務です。ワトソンの役割は、顧客の問い合わせが、FAQのどれに該当するのかをオペレータに伝えることです。ここで、お得意の検索能力が力を発揮します。

ワトソンの画面には、音声認識機能でテキスト化された顧客とオペレータのやりとりがリアルタイムで表示されているはずです。それとほぼ同時に、FAQのランキングも表示されます。その仕組みはクイズに正解するのと同じです。現在の技術では、問い合わせに対する応答を一つに絞ることは困難ですが、時々刻々と進んでいくやりとりを入力して、適切な応答に近そうな順序にランキングすることはできるのです。

オペレータは表示されたランキングの中から、最も適切と思ったFAQを選んで顧客に説明します。間違っていれば別のFAQを選んで応対するということを繰り返します。そして、ワトソンが提案したFAQが正解だった場合は「正解」のボタンをクリックする。その情報が蓄積されることで、ワトソンが自律的に学習し、さらに賢くなっていくという仕組みになっているはずです。

私は、先ほどから「そうなっているはずです」を連発しました。私は実際にワトソンが導入された現場を見たことがないからです。けれど、現在のAIの実力を考えるとそれ以外のユーザーインタフェースは考えられません。ワトソンを導入した某銀行の方にそう申し上げたら、「まったくそのとおりですよ。寸分違いません」と教えてくださいました。

「同上」

ワトソンに限らす、コールセンターにAI技術を導入する場合は基本的に同じやりかたです。そこで使われている技術は、音声認識(声のテキスト化)、テキストの形態素分析(単語への分解)、構文解析、機械学習を使った情報検索などです。コールセンターは企業にとって顧客との接点となる重要な部門であり、的確な回答をしたり、問い合わせが終わるまでの時間を短縮することが企業にとっての大きな価値となります。

コールセンターにAI技術が有効な理由は、東ロボくんが世界史の模試を得意としているのと同じです。銀行のコールセンターで扱われる情報は「銀行が個人向けに提供している商品・サービスに関する情報」に限られます。それは多岐に渡っていて複雑でしょうが、とにかく枠組みが限定されていて、そこで使われる言葉や概念も限定できる。そこがポイントだと思います。

とは言え、クイズに答えていたワトソンが銀行のコールセンターで使われるということは、AI技術の汎用性を示しています。



AI技術が使われている別の例は、機械学習とディープラーニング(深層学習)を使った画像認識です。画像に写っている物体を検知し、それが何かを判別します。これは自動運転の "眼" に当たる部分や、CT画像からの病気の診断、監視カメラによる不審者検知、工場における不良品検出などに応用が広がっています。なぜ画像の認識がうまくいくのか。本書では2つの要因があげられています。

画像は、部分の単純な和が全体という、コンピュータが処理しやすい性質がある。

たとえば画像にイチゴが写っていたとすると、画像を拡大・縮小・回転・移動させてもイチゴである。この性質を利用して機械学習における教師データを「水増し」できる。

人間が外界から受け取る情報の大部分は眼からといいますが、画像認識は機械が(コンピュータが)眼を持ったことに相当します。No.175「半沢直樹は機械化できる」の「補記2」にアマゾンのレジなし店舗(Amazon GO)の話を書きましたが、レジ係りを不要にしたのは画像認識技術です。まさに "AIが仕事を奪う" そのものです。しかし本書には、画像認識が本質的に抱えている問題点も指摘されています。

ハードウェア(画像センサーとコンピュータなど)が向上し、より精密が画像が扱えるようになったとき、機械学習の教師データを全部作り直す(=全データについて精密な画像を用意する)必要がある。

画像認識の仕組みの細部を理解すると、画像認識ソフトを「だます」画像を作れる。つまり、どんな画像でも画像認識ソフトがイチゴだと判断するように細工できる。この細工は人間の目には分からない。このような悪意による改竄を防ぐのは本質的に難しい。

このような "落とし穴" は、よくあるAIの解説では指摘されないことだと思います。


AIの限界:AIとは数学のことである


社会に急速に浸透しつつあるAIですが、AIにはできないことや限界があります。この限界はコンピュータの性能が足りないからではありません。本書にその象徴的な話が出てきます。


プロジェクトを開始して間もなく、ある機関から「東ロボくんに是非うちのスパコンを使ってほしい」というオファーを頂きました。折角ですから、東ロボプロジェクトの研究者に希望者を募りました。すると、全員が大変困った顔をして、「使い道がない」というのです。中でも数学チームの指摘は興味深いものでした。

そこそこのサーバを使って5分で解けない問題は、スパコンを使っても、地球滅亡の日まで解けない」
「同上」

もの凄い速度のコンピュータが登場したら、あるいは量子コンピュータが登場したら、人間の知性と同等の(あるいはそれを上回る)AIができるということではないのです。AIの限界は計算機のスピードの問題ではありません。なぜ限界があるのか。人間の知性と同等のAIはなぜできないのか。本書の説明を簡潔に一言で言うと、その理由は、

AIとは数学のことだから、または、
AIは徹頭徹尾、数学でできているから

となるでしょう。数学に帰着できる問題はAIで解ける。数学の問題は最終的には計算問題になり、その計算をやるのがコンピュータ(=計算機)です。従って、数学の言葉で表現できない問題はAIでも解けない。

数学の言葉とは「論理」と「確率」と「統計」です。「論理」とは、たとえば「A=B で B=C なら A=C である」という三段論法に始まって、こうだからこうなるという体系のすべてです。方程式、関数、幾何学、行列、微積分など、高校3年までに習う数学の大部分は「論理」の範疇です。

「確率」は、必ずそうなるのではなくランダムに発生する事象、不確実性をもって発生する事象を表現する数学の言葉です。

一方、世の中にみられる事象は、確実に起こるのでもなくと、かといってランダムに起こるのでもないことが多数あります。こういった現実を観測して得られたデータを説明する数学の言葉が「統計」です。

数学の言葉は「論理」と「確率」と「統計」の3つであり、それしかありません。先ほどの東ロボくんのセンター入試でいうと、世界史の正誤問題と英会話の穴埋め問題は「統計」「確率」で解き、数学は「論理」でアプローチしていることになります。

「論理」「確率」「統計」の言葉で表現できないものは数学になじまず、従ってAI技術の適用ができなくなる。その例としてはまず、問題の枠組み(=フレーム)がはっきりしないものがあります。問題を考える範囲やスコープが曖昧なものや、解くときの条件が不明だったりするものです。それが曖昧だったり不明だと、解くために考慮すべきことが膨大に広がってしまい、現実には解けなくなります。いわゆる、AIにおける「フレーム問題」です。

  ちなみに、フレーム(問題の枠組み)が厳格に決まっているのがゲームです。厳格に決まっているという条件があれば、囲碁のような複雑極まりないゲームでもAI技術を使ったコンピュータ囲碁プログラムが人間を凌駕できるのです(No.180-181「アルファ碁の着手決定ロジック」参照)。

東ロボくんが世界史が得意という理由はここにあります。入試の世界史は、基本的には、学習指導要領、指導要領に沿って作られた教科書、教科書の理解を助けるための参考書という情報から作問できるものに限られます。これらの考えうるすべの情報をコンピュータに入れることも可能です。つまり「枠組み」がはっきりしている。従って上で例をあげた正誤判定だけでなく、たとえば次のような東大の2次試験の問題(模試)にも東ロボくんは回答できます。


(東大2次試験:世界史模試)

17世紀の東アジアと東南アジア地域での海上交易の繁栄と停滞の変遷とその要因について、東アジアと東南アジア諸国の交易の方針とヨーロッパ諸勢力のこの地域をめぐる動向に留意しならがら600字で論じなさい。

「同上」

大変に "難しそうな" 問題ですが、東ロボくんは大丈夫です。最初の引用にあったように、このような東大の2次の論述問題で東ロボくんは偏差値61.8を獲得しました。

これと真逆なのが「英語の会話文完成」問題です。会話文完成に必要なのは、自然な会話の流れを判定するために高校3年生であれば誰もがもっているであろう「常識」です。これは範囲が極めて曖昧であり、常識を書き出していくと膨大になります。「英語の会話文完成」がAIにとって難しい理由がここにあります。

数学でできないことはAIでもできないのですが、数学でできないことの一つに「意味」の記述があります。意味が重要になるものは言葉です。発話には意図があり、発話に応じることは意味の理解があるわけです。


言葉には明らかに記号の羅列以上の「意味」があります。ところが「意味」は観測不可能です。

そういうと一部のAI研究者は猛然と反論します。たとえば、「机の上にりんごと鉛筆がある」という文に対して、実際に机の上にりんごと鉛筆がのっている画像を合成できたら、それはAIが文の意味を理解したことになると主張します。

本当にそうでしょうか。では「太郎は花子が好きだ」はどんな画像にするのでしょう。「本当にそうでしょうか」は? さらに言えば、「『太郎は花子が好きだ』はどんな画像にするのだろう」という文は? 「そんなことは不可能だろう」という文は?

「同上」

意味を記述できる数学の言葉はありません。もちろん分野を限定すれば可能でしょう。東ロボくんは東大の2次試験・数学で偏差値 76.2 という驚異的な成績をあげましたが、それは問題文をその意味まで含めて「論理」という数学の言葉で記述できたからでしょう。しかしそのやりかたを一般の言葉にまで広げることはできない。言葉の意味を記述しているが辞書であるように、自然言語の意味は自然言語でしか記述できないのです。

本書にはIBMのワトソンがみずほ銀行のコールセンターに導入され、また東大の医科学研究所にも導入されて病気の診断に使われていることが紹介されています。まったく違った業種に同じコンピュータシステムが導入できるということは、ワトソンは「意味」を関知せずに「統計」と「確率」を駆使した情報検索で動いているからです。

自然言語処理は、自動翻訳システムや質問応答システムを作るときに必須です。しかし、AIに文法などの言葉のルールを教えて論理的な推論で言語を扱う研究は、ことごとく失敗に終わりました。だからこそ「統計」「確率」で自然言語処理を行うのが主流になったのです。

  余談ですが、このブログで以前にマイクロソフトやグーグルの機械翻訳チームの話を紹介しました(No.173「インフルエンザの流行はGoogleが予測する」参照)。

  グーグルの機械翻訳グループでは、メンバーの誰一人として話せない言語の翻訳に取り組んでいる。マイクロソフトの機械翻訳部門の統計専門家らは、「言語学の専門家がチームから去るたびに翻訳の質が上がる」と皮肉る始末だ。── 『ビッグデータの正体』(2013)からの引用

毎年バンクーバーで開催されるTED(Technology Entertainment Design)という会議があります。「広める価値のあるアイデア」を世界中から集めてプレゼンテーションが行われます。5日間ぶっ通しのチケットは150万円ですが、発売と同時に売り切れるそうです。新井教授は 2017年4月のTEDに招かれて講演したのですが、同じセッションに、代表的な質問応答システムである Siri の開発者であるトム・グルーバーがいました。


2017年4月にTEDに招かれて講演したとき、同じセッションにSiriのメインエンジニアであるトム・グルーバーがいました。当然、Siriがいかに言葉を理解するようになったかとういう内容の講演になるはずでした。意図したわけではありませんが、東ロボくんの講演で私が先にAIがどんな風に世界史の問題を解くかのネタバレをしてしまったので、トムはきっと話しづらかっただろうと思います。彼はそっと私に声をかけました。「紀子、君が言っていることは正しい。AIは意味を理解しない」 ───。

「同上」



以上のことからすると「人間の知性と同等ベルのAI = 真の意味でのAI」はまず無理なことがわかります。なぜかというと、まず人間の知能の原理が解明されていないからです。


(人間の知能の原理を数学的に解明して、それを工学的に再現するという方法は)原理的に無理だと、多くの研究者が内心思っています。なぜか。人間の知能を科学的に観測する方法がそもそもないからです。自分の脳がどう動いているか、何を感じていて、何を考えているかは、自分自身もモニターできません。文を読んで意味がわかるということがどういう活動なのかさえ、まったく解明できていないのです。

脳にセンサーを埋め込んでも残念ながらわかりません。センサーでモニタリングできるのは電気信号や血流などの物理的な動きだけです。しかも、それすら、動物実験でさえ厳しく制限されている現代に、健康な人の脳に直接センサーを埋め込むことなど到底許されません。「こういう原理で動いているのではないか?」という仮説を立てても、測定結果と比較して妥当性を検証しなければ話になりません。人間の知的活動をリアルに測定する方法がないのですから、人間の知能の科学的解明というスタートラインにすら立てないのです。

「同上」

AIはいくらそれが複雑になって、現状より遙かに優れたディープラーニングによるソフトウェアが搭載されても、所詮、コンピュータに過ぎません。コンピュータは計算機ですから、できることは計算だけです。計算するということは認識や事象を数式に置き換えるということです。

つまり「真の意味でのAI」が人間と同等の知能を得るには、私たちの脳が、意識無意識を問わず認識していることをすべて計算可能な数式に置き換えることができる、ということを意味します。しかし今のところ、数学で数式に置き換えることができるのは、論理的に言えること、統計的に言えること、確率的に言えることの3つだけです。そして、私たちの認識をすべて論理、統計、確率に還元することはできません。

脳科学が随分前に明らかにしたように、脳のシステムはある種の電気回路であることは間違いなさそうです。電気回路であるということは、on か off か、つまり 0 と 1 だけの世界に還元できることを意味します。基本的な原理は計算機と同じかもしれません。それが、「真の意味でのAI」や「シンギュラリティの到来」を期待させている一面はあると思います。けれども、原理は同じでも、脳がどのような方法で、私たちが認識していることを「0、1」の世界に還元しているのか。それを解明して数式に翻訳することができないかぎり、「真の意味でのAI」が登場したりシンギュラリティが到来したりすることはないのです。

「同上」

科学者は科学の限界に謙虚でなければなりません。それを新井教授は次のように言っています。


科学や技術とは「なんだかよくわからないけれども複雑なこと」を、数学の言葉を使って言語化し、説明していく営みです。それと同時に、言語化できなかったことを、痛みをもって記憶することでもあります。そして、前者以上に後者が大切です。

・・・・・・・・・・

言語化し数値化し測定し数理モデル化するということは、つまり「無理にかたづける」ことなのです。かたづかる腕力を持つのと同時に、そこで豊かさが失われることの痛みを知っている人だけが、一流の科学者や技術者たりうるのだと思います。

・・・・・・・・・・

私が科学者として肝に銘じていることがあります。それは、科学を過信せず、科学の限界に謙虚であることです。

「同上」


AI技術によって人間の仕事がなくなる


AIは以上のように限界があります。しかしその一方でAIは極めて強力な技術であり、東ロボくんはセンター模試で全受験生の80%より上にランクされるほどの実力を持ちました。オックスフォード大学「雇用の未来」では広範囲(約半分)の仕事がAI技術で置き換えられると想定しています(No.175「半沢直樹は機械化できる」参照)。

考えてみると「新しい発明や技術の登場で仕事がなくなる」のは今に始まったことではありません。むしろ人類の歴史はその繰り返しでした。新井教授も指摘しているのですが「便利になる」ということを突き詰めて考えると、それは「労働を置き換える」ということです。そして新技術は人類全体としては恩恵が多く、新技術の登場以前よりも社会がより豊かになってきました。そのことから「AI技術で無くなる仕事があったとしても、人類全体としてはそれを乗り越えてより豊かな世界を築いていけるに違いない」という楽観論があります。

しかし、そうとも言えないのです。その理由は2つあって、1つはAI技術で無くなると想定される仕事が極めて広範囲であることです。従来の新技術は特定の仕事が無くなるタイプでした。たとえば自動車が発明されて御者が無用になるといった ・・・・・・。それと比較してAI技術では全仕事の半数が無くなる(だろう)と予想されているのです。

2番目の理由ですが、AI技術でより豊かな世界になるためには「AIではできない仕事」や「AIで無くなる仕事に代わって新たに発生する仕事」に人が適応できることが必要ですが、そこに疑問があるからです。AIが不得意な仕事とは、コミュニケーション能力や読解力や常識が必要な仕事であり、加えて人間らしい柔軟な判断が必要な仕事です。


AIの弱点は、万個を教えられてようやく一を学ぶこと、応用がきかないこと、柔軟性がないこと、決められた(限定された)フレーム(枠組み)の中でしか計算処理ができないことなどです。繰り返し述べてきたとおり、AIには「意味がわからない」ということです。ですから、その反対の、一を聞いて十を知る能力や応用力、柔軟性、フレームに囚われない発想力などを備えていれば、AI恐るるに足らず、ということになります。

では、現代社会に生きる私たちの多くは、AIには肩代わりできない種類の仕事を不足なくうまくやっていけるだけの読解力や常識、あるいは柔軟性や発想力を十分に備えているでしょうか。常識の欠如した人が増えてきているのは嘆かわしいことですが、大半の人が持ち合わせていなければ、それはもはや常識とは言いませんから、常識や無意識の人間らしい合理的判断は大半の人が持ち合わせていることにしておきます。問題は読解力を基盤とする、コミュニケーション能力や理解力です。

「同上」

その大切な読解力が危機的な状況にあると、新井教授が明らかにしています。新井教授は東ロボくんのプロジェクトと並行して、中高生を対象にしたリーティング・スキル・テストを実施しました。その衝撃的な結果を次回に紹介します。



本書「AI vs.教科書が読めない子どもたち」の前半(AIについて)の感想ですが、No.196「東ロボにみるAIの可能性と限界」にも書いたように、

  大学入試(模試)という極めて具体的なチャレンジを通して判明したAIの強みと限界が実証的に書かれている

ことに好感しました。大学入試という限定した範囲だけれども、入試は人の知的な営みの成果を示す重要なシーンです。それをテーマにして実験をした結果をもとに論が展開されている。世の中には根拠も示さず「AIが人間の脳を越える」などと吹聴する論説がよくありますが、それらとは一線を画した本です。科学の基本的な方法論にのっとって書かれた本、そこに価値があると思いました。



 補記:藤井聡太棋聖 

2020年7月16日に行われた第91期棋聖戦5番勝負の第4局で、藤井聡太7段が渡辺明3冠を破り、史上最年少(17歳11ヶ月)のタイトル・ホルダーとなりました。藤井棋聖は7月21日にメディア各社のインタビューに応じましたが、将棋のAIソフトについて語った部分があったので、それを紹介します。


コロナ禍で4月中旬から約1ヶ月半、公式戦がなかった。その間、「じっくりと自分の将棋と向かい合えた。序盤の定跡を自分なりに整理した」という。

また、将棋ソフトを使い、研究を深めた。「ソフトの評価や読み筋を見て、自分で理由づけができるかどうかが大事。理由がわからないと応用ができない。ソフトと研究するだけでは強くならないので、改めて自分で考えるということは意識しています」と話す。

朝日新聞(2020.7.22)

本文中で新井教授は「AIの弱点は意味がわからないこと」と言っていましたが、藤井棋聖の言葉を借りると人間の強みは「理由づけができる」ことであり、これは「意味の理解」と同じことでしょう。藤井棋聖の将棋AIについての発言はシンプルで、あたりまえといえばその通りですが、史上最年少のタイトル・ホルダーとなった人の発言は、やはり重みがあると思いました。

(2020.7.27)



nice!(1) 

No.197 - 囲碁とAI:趙治勲 名誉名人の意見 [技術]

2016年3月、韓国のイ・セドル九段とディープマインド社の「アルファ碁」の5番勝負がソウル市内で行われ、アルファ碁の4勝1敗となりました。イ・セドル九段は世界のトップクラスの棋士です。コンピュータはその棋士に "勝った" ことになります。この5番勝負とアルファ碁については次の三つの記事に書きました。

No.174 ディープマインド
No.180 アルファ碁の着手決定ロジック(1)
No.181 アルファ碁の着手決定ロジック(2)

その8ヶ月後の2016年11月に、今度は日本最強の囲碁プログラム、DeepZenGoと趙治勲ちょうちくん名誉名人の3番勝負(第2回 囲碁電王戦)が開催され、趙名誉名人の2勝1敗となりました(11/19, 11/20, 11/23の3戦)。"人間側" の勝利に終わったわけですが、日本の囲碁プログラムが互先たがいせんでプロ棋士に勝ったのは初めてです。第1回 囲碁電王戦(2014)ではプロ2人とアマ名人相手に1勝もできなかったことを考えると、格段の進歩だと言えます。

以上の、アルファ碁 対 イ・セドル九段、DeepZenGo 対 趙名誉名人の棋戦を、趙名誉名人本人が振り返ったコラム記事が新聞に掲載されました。実際に囲碁プログラムと互先で戦ったトップ棋士の意見として貴重なものです。また大変に興味深い内容だったので、以下にそれを紹介したいと思います。

なお、DeepZenGo の前身は日本の有名な囲碁プログラム、"Zen" です(市販されている)。それに深層学習を取り入れた強化版が DeepZenGo です。以下、Zen と DeepZenGo を区別せずに "Zen" と書きます。趙名誉名人の記事もそうなっています。Zen の開発者は尾島陽児氏と加藤英樹氏(開発チーム代表)で、強化版の開発にあたっては深層学習の権威である松尾豊・東大准教授の研究室が協力しました。


イ・セドル九段 対 アルファ碁


まず趙さんはアルファ碁とイ・セドル九段の対局にふれ、その数ヶ月前に欧州チャンピオンに勝ったときと比べて、アルファ碁が急速に強くなったことを説明します。


欧州王者を下した時のアルファ碁を見るかぎり、アルファ碁は弱かった。勝負もどっこいどっこいで、どちらが勝つこともありえた。

欧州王者はセドルには到底及ばない。周囲にはセドルが100%間違いなく勝つと断言していた。ただ、欧州王者からセドルとの対局までの2ヶ月間で、ものすごく強くなっていた。人間だと200年か2000年かかる成長だ。天才でも最低20年はかかる。

趙治勲名誉名人「囲碁とAI」
(日刊工業新聞 2016.12.15, 16, 20, 21)

ここで趙さんが強調しているのは「アルファ碁は短期間で急激に強くなった」ということです。20年・200年・2000年という数字が出てきますが、これは趙さん独特の表現でしょう。なおアルファ碁と欧州王者との対戦は2015年10月、イ・セドル九段との対戦は2016年3月なので、その間は4~5ヶ月あります。趙さんが「2ヶ月間で」と書いているのは勘違いだと思います。

そのイ・セドル九段とアルファ碁の対局(5回戦)ですが、第1局、第2局と、イ・セドル九段はアルファ碁に連敗を喫してしまいます。この戦いを趙さんは次のように解説しています。


1局目は途中までセドルが勝っていた。アルファ碁の手は完璧ではなかった。ただ一発、いい手が入りセドルの動揺を誘った。正しく対応すれば大丈夫だったはずが、逆転されそのまま負けてしまった。相手が人間なら逆転したことで、自身も浮足立つ。ただAIは動揺せず押し切られた形だ

この負けがセドルをおかしくした。2局目はアルファ碁が良い碁を打った。人間なら疲れを持ち越してしまうがAIに疲労はない。セドルが完敗した。

(同上、以下同じ)

第1局と第2局の敗戦をふまえ、イ・セドル九段は第3局で対局の方針を変えたと趙さんは言います。


セドルはアルファ碁のとの対局で先に2敗し、後がなくなって仲間と人工知能(AI)を分析したそうだ。序盤に優勢に持ち込む必要があると結論が出て、戦略を持って3局目に臨んだ。

ただ、普段のセドルは相手の弱点を突く碁は打たない。自身の強さに絶対の自信を持っていて、ただ最善手を打って勝ってきた。セドルが相手の弱点を探すこと自体、動揺の表れだろう。3局目に敗れて負け越しが決まった。


3連敗したあとの第4局で、イ・セドル九段は妙手を放って勝ちます。


そこで最善を尽くす本来の姿に戻った。4局目も苦しい碁だったが、セドルは妙手を打った。これでコンピュータが狂い、素人同然のめちゃくちゃな手を打ち出した。


続く第5局はアルファ碁の勝ちに終わり、結局4勝1敗でアルファ碁が勝利しました。この棋戦全体を、趙さんは次のように振り返っています。


結果、4勝1敗でアルファ碁が勝ったが、1局目も2、3局目も弱点はたくさんあった。

セドルはアルファ碁を甘く見ていたため、動揺して弱点が見えなくなってしまったのだろう。驚き、AIの強い部分だけを見ると弱い部分が見えなくなってしまう。

セドルが平常心で打てば力量はアルファ碁に勝っていた。AIは完璧ではないし、最後の詰めが甘い。私も勝つ自信がある。ただ3ヶ月で欠点を克服したと聞く。どこまで強くなっているのか試したい



イ・セドル九段の敗戦の理由


趙治勲名誉名人といえば、歴代最多のタイトル獲得(74回)を誇り、第25世本因坊でもあるトップ棋士です。その趙さんが考えるイ・セドル九段の敗戦の理由は、

  アルファ碁を甘く見ていために、動揺し、平常心を失った

という極めて人間的なものです。「セドルが平常心で打てば、力量はアルファ碁に勝っていた」と趙さんが書いているのは(対戦当時のアルファ碁では)その通りなのでしょう。

逆にアルファ碁は、平常心というか、"心" はないので常に "平常" だったと言うべきです。趙さんも書いているように、人間なら「逆転して有利になった」と思った瞬間、浮き足立って逆に悪い手を打ってしまうことがあるのですが、そういうこともない。動揺、焦り、浮き足立つ、疲れ、うっかり、 ・・・・・・ そういうものに一切関係がありません。

アルファ碁を甘くみていたとの趙さんの見解ですが、しかしこれはやむをえないとも言えます。「欧州王者を下した時のアルファ碁を見るかぎり、アルファ碁は弱かった(趙さん)」のだから・・・・・・。No.181「アルファ碁の着手決定ロジック(2)」に書いたように、アルファ碁を開発したディープマインド社が英雑誌「Nature」に投稿した論文によると、欧州王者を下した時のアルファ碁の棋力はプロ五段相当です。イ・セドル九段に比べると断然弱い。従って趙さん自身も「周囲にはセドルが100%間違いなく勝つと断言していた」わけです。イ・セドル九段も、またイ・セドル九段の周囲も、おそらくそう思っていたでしょう。

しかしアルファ碁は急速に強くなった。その詳細は明らかではありませんが、自己対戦を繰り返して強化学習をさらにやったのかも知れないし、ハードウェアを増強してより深く読めるようになったのかも知れない。そのどうであれ、ここでわかることは「急速に強くなることがある。それがAI」ということです。人間の天才が20年かかる進歩(趙さんの表現)を数ヶ月で成し遂げることもあり得る。

趙さんによるとアルファ碁には弱点もあって、それは「最後の詰めが甘い」ことです。趙さんは「イ・セドル九段と対戦した時のアルファ碁には勝つ自信がある、その後に欠点を克服したと聞くが、どこまで強くなっているのか試したい」と書いています。



「どこまで強くなっているのか試したい」とあるように、趙さんはアルファ碁と対戦してみたいと公言していました。その対局は実現していませんが、日本製の囲碁AI、Zen との対戦が実現する運びになりました。


趙治勲名誉名人 対 Zen


イ・セドル九段とアルファ碁との対戦の8ヶ月後の2016年11月、日本最強の囲碁プログラム Zen と趙さんの対局が実現することになりました。冒頭に書いたように、深層学習で強化した Zen(正式名:DeepZenGo)です。なお、以下の引用の 《第1局》 《第2局》 《第3局》 は記事に付け加えたものです。

電王戦3局.jpg
電王戦第3局(2016.11.23)の趙治勲名誉名人(右)と開発チームの加藤英樹代表
(site: newswitch.jp)

日本製の囲碁AI「Zen」は以前から実力を知っていた。6ヶ月前に3子を置いて棋士に勝ったが、3子は片手片足で相撲をとるようなもの。勝負ではなくレッスンだ。その碁を解説したが負ける気はしなかった(引用注:Zen が小林光一名誉棋聖に3子を置いて4目半勝ちした碁を指す)。

《第1局》
Zenもアルファ碁同様、石の捨て方がうまい。序盤に布石のうまさが出た。布石は私より上手だろう。序盤は私が劣勢。中盤、形勢が良くなり、楽観しながら堅めに打ち、後半は良い勝負。Zen は形勢が悪くなると悪手が出る。悪手を見て勝ちを確信した。

《第2局》
反対に2局目は序盤で私がひどい手を打ってしまった。棋士としてはずかしい。

《第3局》
これで開き直り、(ゴルフの)OB覚悟で打ったら、Zen も気が緩んだのか、人間のようなミスをした。私は勝ちに行く手を選び、(Zenは:引用注)強引になってしまった。それで負けが決まった。

趙治勲名誉名人「囲碁とAI」
(日刊工業新聞 2016.12.15 - 12.21)

趙治勲名誉名人は Zen との対戦の経験をふまえて、AIの棋力について、次のように書いています。


AIの序盤の布石は素晴らしい。私は欲深い手を打って、相手をリードしようとしてしまう。AIは損得でなく、自然体だから強いのだと思う。真っ白なキャンバスに自由にデッサンしているようだ。創造性を身につけたように思える。

一方、終盤は未知数だ。まだまだ精進する必要がある。これは勉強すれば何とかなる。ただ創造性の部分は鍛えるには限度がある。最初の50手は創造の世界なのだ。AIが絵画や音楽などの芸術の分野でも活躍できるのではないかと思う。

(同上、以下同じ)


AIによって囲碁は発展する


趙治勲名誉名人はコラムのまとめとして、AIによって囲碁界は発展するだろという主旨の見解を述べています。


人工知能(AI)の台頭を恐れる考えもあるが、囲碁にとっては良いことだらけだ

トーナメントプロでは、日本でチャンピオンになっても世界にはまだ上がいる。ここにAIが入ってきただけだ。人間は世界チャンピオンになると、自分が最強だからとおごってしまう。AIは謙虚なままだ。チャンピオンは人間でもAIでもいい。棋士は、より強くなるために勉強し続ける。

レッスンプロはAIの手を借りられる。アマチュアが強くなり裾野が広がる。指導する一人ひとりに合わせた人間味のある教え方や、かゆいところに届く指導がちゃんと評価されるようになる。


このくだりで趙さんは、トーナメントプロ、レッスンプロ、アマチュアのそれぞれで、"AIの使い方" や "AIに対する向き合い方" があることを述べています。AI技術を使うと囲碁のアマチュアに対する完全個別指導がいつでも行える環境を作れる可能性があるわけです。これは囲碁人口を増やすことにつながります。

趙さんの "自信" の背景にあるのは、囲碁がとてつもなく奥深いものだという絶対の確信でしょう。この奥深さは、次のように表現されています。


碁は本当の面白さがわかるまで年月がかかる。例えばアルファ碁とイ・セドル九段の対局を理解できる人は世界に1000人もいない。私も中国や韓国のトップ棋士の対局は一度石を並べるだけではわからない。現在もトップ棋士はどんどん進化しているからだ。何度も石を並べ直して理解している。

普通の人も AI の助けを借りて強くなれば、トップの奥深さがわかり、その魅力に一生離れられなくなるだろう。それは6ヶ月前の Zen くらいだろうか。囲碁の競技人口は4000万人。10億人が打つようになればまったく新しい手も出てくる。AI も強くなり、棋士はもっと勉強して高みを目指す。



井山裕太 六冠の意見


趙治勲名誉名人に続いて、井山裕太 六冠(六冠は2017.1 現在)の意見も付け加えておきたいと思います。井山さんは囲碁プログラムと互先で戦った経験はありませんが、2017年3月に DeepZenGo と戦う予定があります。また言うまでもなく現代日本の最強の棋士であり、その方が AI をどういう風に見ているかは重要でしょう。


アルファ碁の棋譜をみると、部分的なヨミでは常に正しい正解を打っている感じてもなく、まだまだ人間の方が上かと思いましたが、人間的にいう大局感というのか、部分的に最善でなくても全体では遅れていない、むしろリードしている局面が多かったように感じました。

井山裕太 六冠
朝日新聞(2017.1.3)

今の段階では、ぱっとは目がいかないけれど、打たれてみるとなるほどと感じる部分はある。AI が生み出す新たな打ち方、考え方を吸収できる。それで囲碁の可能性が広がればいいと、ポジティブに受け止めています。

AI が人間を完全に凌駕りょうがしてしまったら、今までと同じようにファンのみなさんが棋士同士の戦いを楽しんでくださるのか、気になるところです。でも自動車が出現しても、陸上競技の魅力は色あせません。人間には感情がある、疲れがある、ミスが出る。それらを含めての魅力が、人間同士の戦いにはあります

囲碁はまだわからないことだらけですが、私も徐々にではあるけれども強くなっている、進歩しているという感覚があります。強い気持ちで新たなステージに臨もうと思います。

(同上)

ちなみにこの朝日新聞の記事の中で井山 六冠は、「アルファ碁は、うわさレベルではさらに強く、とてつもないレベルに達していると聞きます」と発言しています。まさにその通りのようで、2016年末から 2017年初頭にかけて "新アルファ碁" が 囲碁対局サイトの「東洋囲碁」と「野狐のぎつね囲碁」に登場し、トッププロと対戦して60連勝しました。井山 六冠もその中の一人だとされます。

これはもちろん早碁ですが、持ち時間が十分ある碁ではどうなのでしょうか。それでも「ものすごく強いだろう」という大方の推測です。日本棋院は所属の棋士に全60局の棋譜を配布するとありました。"新アルファ碁" は日本だけでなく中国、韓国の棋士によって徹底的に研究されるでしょう。"新アルファ碁" とトッププロとの本格対局も予定されているようなので、注視したいと思います。


AIの "大局感"


これ以降は趙治勲名誉名人と井山裕太 六冠の意見についての感想です。

趙治勲名誉名人と井山裕太 六冠の意見に共通することは、二人とも AI囲碁にポジティブなことです。それは、囲碁のプロフェッショナルとして、

強い相手と対戦してみたい
囲碁の神様がいるなら、それを感じてみたい
そのことによって自らも進歩したい

という意欲・意識だと思います。では AI のどこが強いのか。二人の意見を総合してその強さを一言でいうと「大局感」だと思います。

AIの序盤の布石は素晴らしい(趙)。
Zen もアルファ碁同様、石の捨て方がうまい(趙)。
部分的に最善でなくても全体では遅れていない、むしろリードしている(井山)。

などをまとめると「大局感に優れている」ということだと思うのです。我々は普通、コンピュータの得意なところは細部の緻密な計算やヨミだと考えます。全体を見渡してマクロ的・直感的にものごとを把握するのは苦手だと考えるのが普通です。しかし囲碁の AI は逆です。全体を俯瞰する大局感の方が優れていて、細部に関しては「最後の詰めが甘い(趙)」とか「部分的には最善ではない(井山)」のです。



その理由を考えてみると、次のようだと想像できます。DeepZenGo も基本的にアルファ碁のロジックにのっとっているそうなので(日経ITpro 2016.11.09 の記事による)No.180-181「アルファ碁の着手決定ロジック」に沿って考えてみます。

アルファ碁の基本ロジックは「モンテカルロ木検索 - Monte Carlo Tree Search : MCTS」です。MCTSでは局面の勝率を判定しながら、有力な候補手を次々と木探索するのですが、局面の勝率を推定するのに使われるのが「ロールアウト(=プレイアウト)」です。ロールアウトとは、とにかく一定のロジックに従って終局までプレーしてみて勝ち負けを判定し、それを多数繰り返えし、その勝率を局面の勝率とするというものです。

No.180-181で書いたように、アルファ碁は独自の rollout policy でロールアウトをします。しかしそれだけではありません。policy networkvalue network という2つの多層ニューラルネットワーク(Deep Neural Network。DNN)をもっています。その働きは次の通りです。

policy network
囲碁のルール上許されるすべての手について、次に打つ手としての有力度合いを数値(確率分布)で示すDNN。

value network
局面の勝率を推定するDNN。膨大な局面のサンプルをもとに policy network を使ってロールアウトした事前シミュレーションに基づいて作成される。

というものです。そしてアルファ碁の勝率判定は rollout policy を使ったロールアウトによる勝率判定と、value networkによる勝率判定ををミックスして行われています。

結局のところ「アルファ碁の勝率判定はロールアウトによる」と言えるでしょう。ロールアウトは「とにかく終局まで打ってみたらどうなるか」というシミュレーションです。これを候補手(合法手)について、手の有力度合いに従って繰り返し、勝率の高い手を選ぶ。

つまり、常に白紙の状態で、終局までを見据えて(=最後までヨセて)最適な手を選んでいるのがアルファ碁です。一切の "こだわり" がない。これが「自然体」とか「真っ白なキャンバスに自由にデッサンしているよう」という趙名誉名人の感想や、「部分的に最善でなくても全体では遅れていない、むしろリードしている」という井山 六冠の発言につながり、それが大局感に優れていると見えるのだと思います。


AI は意味を説明できるか


趙名誉名人の新聞コラムの中に、AI によって囲碁の裾野が広がるという主旨の発言がありました。つまり「AI によって一人一人に合わせた教え方や、かゆいところに届く指導ができる。アマチュアが強くなり裾野が広がる」との主旨です。これは果たしてどこまで正しいのでしょうか。

もちろん、アマチュアを指導する囲碁の先生が、AI を参考にしながら指導するのは可能であり、大いに役立つと思います。しかし AI だけがアマチュアを指導する(=AI指導碁)というのは、どうなのでしょう。

"AIの先生" が打つべき候補手を数手示し、それぞれの勝率を示すのはいつでも可能です。しかし、たとえば候補手① の勝率は 60%、候補手② の勝率は 50%としたとき、①が 10%だけまさる理由を AI は説明できるのでしょうか。「②は相手の厚みに近寄り過ぎていて攻められる恐れがある、①のように控えるのが正しい」というようにです。また逆に「形勢が悪いので、思い切って相手の厚みに近寄ってでも模様を張る①が正解」という風にです。結論だけを言われても、人は納得はできないのです。

"捨て石" に関して言うと、趙名誉名人は、AI は捨て石がうまいと語っています。これは井山 六冠の「部分的に最善でなくても全体ではリードしている」という発言とも関係しているのでしょう。では、なぜその場面で石を捨てるのがいいのか、石を助けずに別の場所に打つのがより勝率をあげるのか、AI は説明できるでしょうか。「捨てたと見える石も完全に死んだわけではなく、あとあとの進行でこういう風に有効に生かせるから」というような、"捨てる理由" を説明できるかという問題です。

もちろん中には説明できるケースもあるでしょう。No.180-181「アルファ碁の着手決定ロジック」でもわかるように、シチョウに取られないようにするとか、ナカデで死なないようにするとか、ダメヅマリを回避するとか、そういった理由は説明できそうです。しかしこれらはアマチュアの囲碁初級者でも分かる理由です。かつ、局所的・部分的な打ち手に関する理由です。AI が得意なのは局所的・部分的ではなく、大局的な最善手を打つことでした(趙、井山両氏による)。その大局的な最善手について、そう打つ理由を AI は説明できるでしょうか。

このあたり、現代のAIの本質的な問題点がありそうです。「なぜだか分からないし、理由はさだかではないが、結構正しい」のが AI の出す回答だということがよくある。囲碁のプロなら AIが打つ手の意味を即座に解説できたとしても、AI 自身は分かっていない。逆に言うと、意味を無視して膨大なデータを統計的に処理するからこそ、AIの有効性や可能性があると言えるのでしょう。

もちろん囲碁に限っていうと、AI のヨミ筋はコンピュータに蓄えられているので、そのヨミ筋の解析から打ち手の理由や意味を解説できるようになるかもしれません。ただしこれは機械学習では無理でしょう。「ある局面における次の一手とその意味」を蓄積したビッグデータが存在しないからです。「ある局面と次の一手」というデータは膨大にあるけれども・・・・・・。従って人間が教え込む必要があるのですが、かなりの難作業ではないでしょうか。

アルファ碁が打った手の意味を真に解説できるのは、開発会社のディープマインド社の社員ではなく、アルファ碁の棋譜を詳しく研究したプロ棋士だと確信します。



ここで思い出すのは、前回の No.196「東ロボにみるAIの可能性と限界」で引用した、国立情報学研究所の新井教授("ロボットは東大に入れるか" プロジェクトのリーダ)の発言です。新井教授は中高生向けに講演するとき次のように話すそうです。


(AI は)数学の問題を解いても、雑談につきあってくれても、珍しい白血病を言い当てても、意味はわかっていない。逆に言えば、意味を理解しなくてもできる仕事は遠からず AI に奪われる。私は次のように講演を締めくくる。

「みなさんは、どうか『意味』を理解する人になってください。それが『ロボットは東大に入れるか』を通じてわかった、AI によって不幸にならない唯一の道だから」

新井紀子
朝日新聞デジタル
(2016.11.25)

人間は普通、暗黙であれ意識的であれ、意味・意図・理由を持って(込めて)行動します。だからこそ、良い結果の経験を蓄積したり、逆に悪い結果から反省をして進歩するわけです。無意味に(意味も分からずに)行動していたのでは進歩がありません。

囲碁とAIというテーマで見えてくるもの、それはやはり「機械学習によるAI」の驚くべき可能性と、その裏にある課題、ないしは限界だと思いました。




nice!(0)  トラックバック(0) 

No.196 - 東ロボにみるAIの可能性と限界 [技術]

No.175「半沢直樹は機械化できる」で、国立情報学研究所の新井紀子教授をリーダとする「ロボットは東大に入れるか」プロジェクト(略称 "東ロボくん")の話を書きました。東ロボくんの内容ではなく、プロジェクトのネーミングの話です。つまり、

プロジェクトの存在感を出すために、是非とも "東大" にしたかったのだろう(本来なら "ロボットは大学に入れるか" でいいはず)。

新井教授は「ロボットは東大に入れない」と思っているのではないか。その証拠にプロジェクト名称が疑問形になっている。

の2点です。

「ロボットは東大に入れるか」プロジェクトは2011年に開始され、2013年からは模擬試験を受験しています。2016年11月14日、今年の成果発表会が開催されました。以下はその内容です。

ロボットは東大に入れるか.jpg
国立情報学研究所ニュース(NII Today)No.60(2013.6)。特集「ロボットは東大に入れるか」の表紙


東大は無理、MARCH・関関同立は合格可能


まず、新井教授が朝日新聞デジタルに寄稿した文章から引用します。


今年も「東ロボくん」の受験シーズンが終わった。今年ついに、関東ならMARCH(明治、青山学院、立教、中央、法政)、関西なら関関同立(関西、関西かんせい学院、同志社、立命館)と呼ばれる難関私大に合格可能性80%以上と判定された。だが、東京大学には及ばなかった。現状の技術の延長線上では、AIが東京大学に合格する日は永遠に来ないだろう

新井紀子
朝日新聞デジタル
(2016年11月25日)

この合格可能性判定は、ベネッセコーポレーションの「進研模試」(大学入試センター試験模試)で行われました。東ロボくんの5教科8科目の成績は525点であり(950点満点。全国平均:437.8)、偏差値は57.1でした。

やはり東大合格は無理、今のAI技術では、というのが新井教授の所感です。しかし「MARCH・関関同立」なら合格可能性80%以上というのは、それはそれですごいことではないでしょうか。ちなみに、全国の大学を対象とした東ロボくんの合格可能性は以下の通りでした。

  調査対象 合格可能性80%以上
大学 学部 学科 大学 学部 学科
国公立 172 576 2096 23 30 53
私立 584 1753 4309 512 1343 2993
756 2329 6405 535 1373 3046
(site : pc.watch.impress.co.jp より)

どの大学のどの学部が合格可能なのか、個別の発表はありませんでしたが、「MARCH・関関同立」については学部・学科の平均として、ないしは一部の学部・学科が80%ラインに入っているということでしょう。また国公立大学でも、23大学の30学部・53学科で合格可能性80%以上と判定されていることも注目すべきです。この結果で、プロジェクトの当初目標が達成されたと新井教授は言います。


11年にプロジェクトが始まり、私は目標を立てた。3年でどこかの大学に合格させる。4年目には箱根駅伝に出るような名のある大学に、5年目は国公立大学に。そして6年目に、MARCH・関関同立に合格させたいと思った。可能性は五分五分だろう。

(同上)

「東ロボくん」2016年成果報告会のポスター.jpg
「東ロボくん」2016年成果報告会のポスター

6年目に「MARCH・関関同立に合格」という目標は達成されたようです。これは "よくやった" とも言えるし、逆に言うと、アッと驚くようなブレイク・スルーは無かったとも言えます。ディープマインド社の "アルファ碁" は世界トップクラスの棋士を破ってAI研究者たちをアッと言わせたのですが(No.174「ディープマインド」No.180-182「アルファ碁の着手決定ロジック」)、そういうわけにはいかなかった。これはもちろん、碁と違って大学入試には多種の科目があり、科目ごとにAIの適用技術が違うからでしょう。大学入試は総合的な知力の勝負です。特に難関国立大学はそうです。

従って東ロボくんが東大や「MARCH・関関同立」に入れる・入れないということより、科目に得手・不得手があって、そこが明らかになったことにこそ、「東ロボくん」というプロジェクトの意義がありそうです。その、科目別成績は次のようです。


東ロボくんの科目別成績


大学入試センター模試の成績
ベネッセコーポレーション「進研模試」
(カッコ内は昨年の成績)
  得点 全国平均 偏差値
英語(筆記) 95(80) 92.9 50.5(48.4)
英語(リスニング) 14(16) 26.3 36.2(40.5)
国語(現代文+古文) 96(90) 96.8 49.7(45.1)
数学 I A 70(75) 54.4 57.8(64.0)
数学Ⅱ B 59(77) 46.5 55.5(65.8)
世界史 B 77(76) 44.8 66.3(66.5)
日本史 B 52(55) 47.3 52.9(54.8)
物理 62(42) 45.8 59.0(46.5)
合計(950点満点) 525(511) 437.8 57.1(57.8)
朝日新聞(2016.11.15)

昨年と比較すると、科目合計の偏差値で 0.7 ポイント下がっていますが、全体的には昨年同様の成績と言えるでしょう。上がった科目もあり、下がったものもあります。

得意科目をみると、世界史の66.3という偏差値が光っています。世界史は、教科書やインターネットなどから歴史記述や文献を大量に集め、それをもとに回答するという「従来からの得意分野」のようです。不得意科目は、英語、特にリスニングです。なぜ不得意かについては新井教授の解説があるので、それをあとで紹介します。

とにかく、東大に合格するためには最低でも100点満点で80点以上は必須ということなので、東ロボくんは "東大合格にはほど遠い" ということが分かります。



また東ロボくんは、東大の2次試験模試も受験しました。その成績が次です。

東大2次試験向け模試
代々木ゼミナール・論述式
  得点 全国平均 偏差値
世界史 16 14.5 51.8
数学(文系) 46 19.9 68.1
数学(理系) 80 30.8 76.2
朝日新聞(2016.11.15)

センター模試とは違って世界史が全国平均をわずかに上回る程度の成績です。これは「問題の趣旨を理解できなかったり、時代や地域を取り違えたりして取りこぼした」そうです(毎日新聞デジタル。2016.11.14による)。

一方、数学(理系)は偏差値76.2という立派な成績、というより凄い成績です。この数学の数字だけをみると、全国で最難関の東大理Ⅲに合格できそうです。東大理Ⅲに合格する人の数学の偏差値は70代後半から80越えのあたりだと言います。しかも東大理Ⅲの受験生で差が付くのは数学です。そこをAIは突破した

しかし、理Ⅲを含め東大は "一芸" で入れるような大学ではありません。そこが難しいところです。数学だけでは東大理Ⅲクラスだが、受験科目全体ではMARCH・関関同立レベルであるところが、AIという技術を象徴していると思います。



センター模試に成績にもどりますと、全体的に昨年と似た成績であり、1年間の "猛勉強" の成果は(試験結果で見る限りでは)あまりなかったと言えるでしょう。この結果を踏まえて新井教授は以下のように語っています。


昨年同様の成績だったことで、AIの可能性や限界が分かった。今後は得意分野を伸ばし、産業応用レベルに高めることを目指す。

新井紀子
朝日新聞(2016.11.15)

要は、東大は断念ということです。しかし新井教授の話にあるように、東ロボくんの目的は「AIの可能性と限界」を明らかにすることでした。AIの可能性というのは「AIの威力」と言ってもいいと思います。全く問題文の「意味」を把握していない東ロボくんが、MARCH・関関同立に合格できる。このAI技術の威力はすごいと思います。逆にいうと、問題文の意味を把握している(はずの)受験生がMARCH・関関同立に合格するのはどういう意義があるのだろう、と考えてしまうわけです。要するにMARCH・関関同立の受験問題を解くというレベルにとどまっている限り、人間の(その部分の)能力はAIに代替されるだろうということです。これはひとつの警鐘です。

それでは逆に、東ロボくんで見えた「AIの限界」とはどういうことでしょうか。ここが核心です。


AIの限界


東ロボくんで見えてきた「AIの限界」について、新井教授は日経産業新聞に大変分かりやすい解説を寄稿していました。それを紹介したいと思います。


めったにお目にかからない事例が全体のかなりの割合を占めている状態を棒グラフにすると、長い尾のように見える。

こうした現象は「ロングテール」と呼ばれ、物販ではよくある。米アマゾン・ドッド・コムでは、売り上げの過半を1年に数点しか売れないような商品が占める。実は大学入試の問題を人工知能(AI)に解かせようとしたときに直面するのもロングテール現象だ。

新井紀子
日経産業新聞(2016.12.8)
(コラム:Smart Times)

新井紀子教授.jpg
「東ロボくん」2016年成果報告会で、新井紀子教授(2016.11.14 一橋講堂)
(www.itmedia.co.jp)
まず新井教授が持ち出すキーワードは、ネットワーク社会でしばしば見られる現象を示す「ロングテール」という、ちょっと意外な用語です。

アマゾン・ドッド・コムは、もともと書籍の販売から始まりました。街の書店だと、1年に数冊しか売れない本を置くのはビジネスの効率を下げるので限界があります。しかし地価の安いところに巨大な物流倉庫を作り、本を在庫してネットで販売すれば、ほとんど売れない本でも利益が出る。アマゾンが創造したビジネスモデルです。結果として「あまり売れない多数の本 = ロングテール」に光が当たるわけで、本に関して言えばこれが本来の文化のありかたでしょう。ちなみに、iTunes Music Store ではすべての曲が一度はダウンロードされたという話を以前に聞いたことがありますが、同類の現象です。この "ロングテール" が入試問題とどういう関係があるのでしょうか。


大人に「大学入試にはどんな問題が出たか」と聞くと、たいていが「暗記と計算」と答える。科目を指定して、「英語ではどんな問題が出たか」と聞くと、「発音と文法問題」「和文英訳と英文和訳」と答えたりする。

だが、数学のセンター入試において単純な計算問題は全体の1割程度しかない。英語において発音と文法問題が占める割合も同じぐらいだ。

AIプロジェクト「ロボットは東大に入れるか」を2011年に始めた後、1年かけて過去20年のセンター入試と旧帝大の個別学力試験(2次試験)を分析した。その結果、「これは何の問題」と分類できるような問題群は、どんなに多く見積もっても全体の半数にとどまることがわかった。

(同上)

半数以上の問題は分類できない問題であると分析されています。分類できないとは、同一傾向の問題が他にないか、あったとしてもわずかなので、分類を始めるとキリがないということでしょう。つまり半数以上の入試問題はロングテールを構成しているわけです。


もうすこし具体的に説明しよう。あるリスニングの問題。母と息子の会話が流れる。父親のためにバースデーケーキを手作りしているらしい。息子がたずねる。「ブルーベリーはクリームの上に置いたほうがいいかな、それともクリームとクリームの間に置いたほうがいいかな」

東ロボは完全に音声認識できた。しかし、そこで問われたのは「この結果としてできあがったケーキはどれか。次の4枚のイラストから選びなさい」である。これはリスニングの問題ではない。リスニングをし、文書の意味とイラストの内容を理解し、そこから常識推論して判断する ── という複合問題なのである。

デコレーションケーキの問題は一度出たら、たぶん二度と出ない。翌年には、ダンスパーティーへの誘い方が、翌々年にはハンバーガー店での注文の仕方が問われた。

英語では、航空チケットや博物館の入場料金表のような、広い意味での表の読解も求められる。航空チケットの読み方をAIに覚えさせても、料金表には対応できない。そして航空チケットがテストに登場するのは一度だけだ

(同上)

この説明でロングテールの意味が明確になるとともに、東ロボくんがなぜリスニングが不得意か(他の教科と比べて)が理解できます。リスニングの問題というのは、実は「リスニングもある常識推論の問題」なのですね。だから、毎年新しい "ジャンル" の問題が作れる。高校3年生の常識の範囲に限っても、ほとんど無尽蔵に新しいジャンルの問題を出せるわけです。デコレーションケーキの作り方、ダンスパーティーへの誘い方、ハンバーガー店での注文の仕方の3つには何の関連性もないのだから・・・・・・。リスニングの問題というのは問題の本質を分析すると、リスニングというジャンルではくくれない、一つ一つがそれぞれ違う "ロングテールの典型" ということです。そして東ロボくんはロングテールに弱い


このように多様な「状況」が無尽蔵にあるのが人間の社会なのだ。状況が比較的限られる数学や、試験で問うことができる確実な事実に限りがある日本史や世界史とは異なり、英語や国語、物理といった科目では、いくらでも自然に状況を生み出すことができる。

こうした科目では、パターンで解ける問題は限りがあり、ビッグデータによる統計的手法に頼らざるをえない。では、どれだけのデータが必要になるか。

今年、東ロボの英語チームは次のような見解を示した。語順整序や文法の穴埋め問題のような「一文を正しくする」問題の正答率を9割程度に上げるために、AIが学習に要したのは約500億文であった。会話文を完成させるような複文問題で9割程度の正答率を達成するには、少なくとも500億の会話のパターンが必要だろう。

しかしそのようなデータは存在しないし、自動的に収集できる見込みもない。人手に頼って作成するにはざっと500兆円かかる計算になる。

(同上)

ちなみに、会話文(複文)の完成問題は、たとえば次のようなものです(これは今まで引用してきた日経産業新聞に新井教授が寄稿した記事ではありません)。


次の会話の(  )内に入る最も適当なものを①~④の中から選べ。

Parker : I hear your father is in hospital.
Brown : Yes, and he has to have an operation next week.
Parker : (   ) Let me know if I can do anything.
Brown : Thanks a lot.

① Exactly, yes.
② No problem.
③ That's a relief.
④ That's too bad.

問題提供:代々木ゼミナール
(www.itmedia.co.jp より)

これが単なる英文解釈でないことは明らかでしょう。それぞれの発話の意図を理解し、会話として自然な人間の感情の流れを答える問題です(正解は④)。



AIの限界の一つは「無尽蔵にある状況への対応」です。少なくとも現代のAI技術では、そこに限界がある。今のAI技術の主流を極く簡単に言うと「問題に関連するビッグデータを収集し、統計手法で答えを導く」というものだからです。

従って、たとえば世界史の論述問題は東ロボくんの得意分野になります(今回の東大模試では "取りこぼした" ようですが)。高校3年生がアクセスしうる世界史の情報には限度があり、かつ高校3年生に出題してよい世界史の知識レベルや事実の数にも限度があるからです。従って、例をあげると「732年、フランク王国の軍はトゥールとポアティエの間で侵攻してきたウマイヤ朝のイスラム軍を破りました。この戦いの結果がその後の西ヨーロッパに与えた影響を、政治と経済の観点から200字以内で述べなさい」というような論述問題は得意なはずです(全く仮想の問題です)。

しかし統計手法には限界があるというのが新井教授の主旨です。英語の単文の「穴埋め問題」や「語順を正しくする問題」を、ビッグデータをもとに90%以上の正解率で解くため、東ロボくんは500億の単文を収集したわけです。インターネットの発達があったからこそ出来たことでしょう。例文(単文)をネットから自動収集できる。しかし、この手法を会話文を完成させる問題には適用できません。適用するには500億の "複文の会話サンプル" が必要であり、その収集は現実的に不可能だからです。実現のためには全く違うアプローチのAI技術を開発する必要があるが、その技術開発のコストは、それがもたらす成果に全く見合わないと考えられます。新井教授の結論は次のとおりです。


これがAIと呼ばれるソフトウェアが抱えている根本的な課題である。このことを再認識するために、私は5年間、このプロジェクトを率いてきた。東ロボが示した可能性と限界が、日本の企業がAI投資を検討する上での客観的データとして活用されることを心から願っている。

新井紀子
日経産業新聞(2016.12.8)
(コラム:Smart Times)


東ロボくんの意義


新井教授の解説を読んで、AIのプロジェクトに大学入試の模試を選んだ理由がわかりました。試験問題は基本的に一度きりなのですね。全く同じ問題は出ない。もちろん科目によっては過去問に類似しているケースもあるでしょう。しかし問題作成者は、まず自分の知識に照らして過去にないはずの問題を複数個作成し、次に手分けして本当に過去に出題されていないのかを徹底的に検証すると思います。特定の受験生に有利にならないようにするためです。この検証でOKとなった問題だけが出題される。一度きりの問題が出るテストが、毎年決まった時期に行われ、成績の履歴がトレースできるのは大学入試の模試しかない。だから東ロボくんなのです。

ちょっと話を広げますと、我々は人生やビジネスにおいてさまざまな "問題" に答えを出し、意志決定する必要が出てきます。もちろん同じ(ないしは類似の)問題も多いのですが、中には1回きりという場合もあります。類似の問題であっても、シチュエーションが違うという意味で初めての問題もある。そして大事なことは、人生においてもビジネスおいても、重要な問題ほど1回きりの問題なのです。経験のない状況で答えを見つける必要がある。それが人生であり、社会です。



東ロボくんの模試で分かったことは、東ロボくんの目的である「AIの可能性と限界を明らかにする」ということの意義です。

AIについては "アバウトな" 言説が充満しています。2030年には人間の頭脳を越えるとか、人間を越えることは絶対に無理だとか、いろいろあります。しかしそれらはどれも実証的データにもとづく推定ではありません。No.175「半沢直樹は機械化できる」で紹介したオックスフォード大学の「雇用の未来」も、あくまでAI専門家の「AIに置き換えられる仕事、置き換えられない仕事」という "意見" の集約です。それらに反して東ロボくんは、数年をかけて、入試問題という範囲ではあるが、実際にAIのプログラムを開発し、その可能性と限界を明白な成績とともに検討してきたわけです。

その可能性と限界ですが、一般的にはAIの可能性(威力)について目にする事が多いと思います。このブログでも、

No.166  データの見えざる手(2)
No.173  インフルエンザの流行はGoogleが予測する
No.180  アルファ碁の着手決定ロジック(1)
No.181  アルファ碁の着手決定ロジック(2)

などがそうでした。従来ありえなかった推論をコンピュータがやってしまう。これらの特徴は、いずれもビックデータの解析をもとにした推論だということです。碁の世界チャンピオンに勝ったアルファ碁も、アマチュア高段者が打った16万局の囲碁データを出発点にしています。これらの例だけでなく、現代のAI研究の主流はビックデータの解析による推論です。

一方で我々はAIの限界の具体例を目にすることは少ないというか、ほとんど無いといってもいいでしょう。しかし東ロボくんは、数年かけて丹念に、AIの可能性とともに限界をも明らかにしてきました。

新井教授が日経産業新聞への寄稿で、英語の文章完成問題における単文と複文の大きな溝を述べていました。単文のビッグデータは何とか得られるが、複文では実質上無理である。論理上可能であってもコストの視点で無理という話でした。ビックデータが得られないか、実用上リーズナブルなコストで得られる見込みのない問題は、現代主流のAI技術では無力なのです。こういった実証的研究の大切さを示したこと、それが東ロボくんというプロジェクトの意義でしょう。


意味を理解すること


AIに使われているのは、コンピュータ・サイエンスを含む、広い意味での数学です。東ロボくんのプロジェクト・リーダである新井教授も数学者です。

数学を割り切って分類すると「論理」と「統計」の二つでしょう。「統計」と「統計以外のすべて」と言った方がいいかも知れません。ビックデータをもとにした推論は統計のジャンルであり、現代の主流の(華々しい成果を出している)AIは統計に偏っています。

一方、人間の行動はそれだけではありません。論理の部分も重要視します。問題の意味を理解し、原則はこうだからとか、そもそもの目的はこうだからとか、こういう理由だからこうするとか、意図を込めて意志決定したり、行動したりします。新井教授は中高校生向けの講演のとき、最後は次のように締めくくるそうです。


(AIは)数学の問題を解いても、雑談につきあってくれても、珍しい白血病を言い当てても、意味はわかっていない。逆に言えば、意味を理解しなくてもできる仕事は遠からずAIに奪われる。私は次のように講演を締めくくる。

「みなさんは、どうか『意味』を理解する人になってください。それが『ロボットは東大に入れるか』を通じてわかった、AIによって不幸にならない唯一の道だから」

新井紀子
朝日新聞デジタル
(2016年11月25日)

この最後の「みなさん」から始まる一行を確信をもって中高生に言える。これが『ロボットは東大に入れるか』の大きな成果だと思いました。


3つの余談


プロジェクトの目的とは無関係ですが、東ロボくんで分かったことは、「MARCH・関関同立」に入学する学力と東大に入る学力には大きな差があり、その差は連続的変化ではなく不連続な落差だということです。なぜなら、東ロボくんが東京大学に入学できる日は、現在のAI技術だと永遠に来ないのだから・・・・・・。AIと人間の学力を同じ土俵で比較はできない思いつつも、「80%の確率で合格」と「永遠に合格できない」との差は決定的だと思いました。そこで思ったのは、東大と「MARCH・関関同立」の間にある大学です。おそらく京大は「落差の東大側」でしょう。では、たとえば早稲田と慶応はどうか。落差のMARCH側なのか東大側なのか。もちろん学部によるでしょうが、ちょっと気になりました。

東ロボ手くん.jpg
デンソーが開発した、解答代筆ロボットアーム「東ロボ手くん」
(www.itmedia.co.jp)
2つ目の余談は、今回の成果発表会に、デンソーが開発した "解答代筆ロボット" である「東ロボ手くん」が登場したことです。ボールペンで筆記ができるロボットアームです。No.176 「将棋電王戦が暗示するロボット産業の未来」に書いたように、デンソーは将棋電王戦のために「電王手さん」という "代指しロボット" を開発しています。そしてこのロボットは「人間の手と指の微妙な動きを完全に模擬できるロボットを開発するという、デンソーの大きな企業目標の一つとして位置づけられているのかも」と書きました。今回の「東ロボ手くん」もその一環でしょう。ここまで来たら、次には囲碁電王戦のために "代打ちロボット" を是非開発してもらいたい。碁石は丸みがあるので難しそうですが、デンソーの技術力をもってすれば可能でしょう。日本の "3大AIチャレンジ"(東ロボくん、将棋電王戦、囲碁電王戦)のすべてに参戦してこそ、デンソーのロボット技術の優秀性が証明されるはずです。特に囲碁は欧米、中国、韓国に広まっているので、"代打ちロボット" が活躍できる場はグローバルです。デンソーはあとには引けないはずです。

3つ目の余談です。日経産業新聞への寄稿文で新井教授は「東ロボくん」を「東ロボ」と "呼び捨て" にしています。これはおそらく「自分の身内は呼び捨てにする」という、日本語の慣習に忠実に書いているのでしょう。これでちょっと思い出しました。私は新井教授の講演を一回だけ聞いたことがあるのですが、彼女は講演に熱が入ってくると「東ロボ」とも言わずに「うちの子」と、母親的雰囲気の言い方になってしまうのですね。「呼び捨て」なり「うちの子」なり、新井教授がプロジェクトに賭けた意気込みを感じました。



 補記 

本文中に東ロボくんが挑戦した英語のリスニングの問題が出てきます。その問題が新井教授の著書「ロボットは東大に入れるか」(イースト・プレス。2014)にあります。それを紹介します。

このリスニングでは、父親の誕生日ために息子が母親とバースデー・ケーキを手作りする場面が英語で流されます。デコレーション・ケーキにブルーベリーを飾るやり方について息子が母に尋ね、母が答えます「クリームとクリームの間にブルーベリーをひとつずつ置いてちょうだい」。

この英語の会話のリスニングは、東ロボくんは完璧でした。東ロボくんは英語のリスニングが得意なのです。音声認識の最先端の研究は、たとえば新宿駅の雑踏でスマホでしゃべった音声の中から本人のものだけを聞き分けたり、またオーケストラの中からヴィオラの音だけを取り出すといったものです。雑音や余計な音が全くないセンター入試など、東ロボくんにとっては朝飯前なのです。

しかし設問は「できあがったケーキはどれか、4つのイラストから選びなさい」というものでした。これが東ロボくんは全くできなかった。

センター試験・英語リスニング・ケーキの問題.jpg
新井紀子「ロボットは東大に入れるか」
(イースト・プレス。2014)より

言うまでもなく正解は ② なのですが、考えてみると不思議なイラストです。「ブルーベリーがのったデコレーション・ケーキ」など、受験生は言うに及ばす、ほどんどの日本人は見たことがないはずです。ブルーベリーがどういうものか知っている受験生は多いとは思いますが、食べた記憶がある人は少数ではないでしょうか。そのブルーベリーは直径が1cm程度ですが、そうするとこのイラストのケーキの直径は12cm程度になります。デコレーション・ケーキとしては小さすぎる。父親の誕生日のためとしては不思議な大きさです。

しかしそんなことは人間の受験生にとっては関係ないのです。極端にはブルーベリーとクリームの意味を知らなくてもよい。「ケーキ」が分かりさえすれば、ケーキの上に2種類のモノが交互に並んでいるイラストを答えればよいのです。要するに、英語のリスニングができたとしたら人間の受験生はまず間違いなく正解する問題です。

しかし東ロボくにとっては難しいというより、無理です。「ロボットは東大に入れるか」の本には、国立情報学研究所の画像認識の専門家の「絶対に無理だね」との発言がありました。画像認識の主流はたくさんの教師画像を集めてコンピュータに学習させるというものですが、そもそもブルーベリーがのったケーキなど人間も見たことがないのです。さらに、画像認識で研究が進んでいるのは「写真画像の認識」です。イラストは人間が恣意的に描くものであり、同じモノを描いたとしてもバラツキが大きすぎます。写真画像の認識より圧倒的に難しい。ということは、東ロボくんが漫画を読むのはまず出来ないことにもなります。

まるで東ロボくんの弱点を知っている人が作ったかのような問題ですが、もちろん、センター試験の英語のリスニングにケーキを作る場面が出るのはこれ1回きりです。そして類似の問題は無限に考えられる。つまり、イラストを選ぶ形で出される英語のリスニングの問題は、東ロボくんは今後とも正解出来ないことになるのです。




nice!(1)  トラックバック(0) 

No.189 - 孫正義氏に潰された日本発のパソコン [技術]

No.175「半沢直樹は機械化できる」の補記(2016.9.18)に書いたのですが、みずほ銀行とソフトバンクは 2016年9月15日、AI(人工知能)技術を使った個人向け融資の新会社設立を発表しました。そのソフトバンクとAIについては、AI技術を使ったロボット「ペッパー」のことも No.159「AIBOは最後のモルモットか」で書きました。

二つの記事でソフトバンク・グループの孫正義社長の発言や人物評価に簡単にふれたのですが、今回は、その孫正義氏に関することを書きます。最近、ソフトバンク・グループが英国・ARM(アーム)社を買収した件です。以前に強く思ったことがあって、この買収でそれを思い出したからです。


ソフトバンクが英国・ARM(アーム)社を買収


ソフトバンク・グループの孫正義社長は、2016年7月18日にロンドンで記者会見をし、英国・ケンブリッジにあるARM社を240億ポンド(約3兆3000億円)で買収すると発表しました。ソフトバンクがボーダフォン日本法人を買収した金額は1兆7820億円、米国の電話会社・スプリントの買収は1兆8000億円ですから、それらを大きく上回り、もちろん日本企業の買収案件では史上最大です。

ARM(アーム)は、コンピュータ、パソコン、スマートフォンなどの心臓部である「マイクロ・プロセッサー」を設計する会社です。

  コンピュータで演算や情報処理を行う半導体チップがマイクロ・プロセッサー(Micro Processor)であり、MPU(Micro Processing Unit)とか、CPU(Central Processing Unit)とも呼ばれます。以下「マイクロ・プロセッサー」ないしは単に「プロセッサー」と書きます。

現代のマイクロ・プロセッサーの有名メーカーはインテルで、Windowsが搭載されているパソコンにはインテル製、ないしはそれと互換性のある(=代替可能な)マイクロ・プロセッサーが組み込まれています( "インテル、はいってる" )。

ARMがインテルほど一般に有名でないのは、ARMはマイクロ・プロセッサー(= 半導体チップ)そのものを製造する会社ではなく、マイクロ・プロセッサーの "設計仕様" と、その仕様に基づいて作られた "設計データ" を開発している会社だからです(専門用語で "アーキテクチャ" と "IPコア")。マイクロ・プロセッサーの開発会社はARMから "設計データ" を購入し、それに自社の設計データも付加して、そのデータをもとにマイクロ・プロセッサーを製造します。製造は自社の工場で行うか、ないしは台湾などの製造専門会社に委託するわけです。

ARMの "設計データ" の大きな特長は、それをもとに作られたマイクロ・プロセッサーの電力消費量が少ないことです。そこがARMのノウハウであり、技術力です。この特質があるため、現在の世界のスマートフォンの90%以上は、ARM仕様の(=ARMの "設計仕様" か "設計データ" を使った)半導体チップになっています。Androidのスマートフォンのみならず、アップルもARMから設計仕様を購入しています。

ちなみに、日本最速のスーパー・コンピュータ "けい" の後継機種である "ポスト京" を計画している富士通は、そのプロセッサーとして「スパコン拡張版のARM仕様」の採用を発表しました(2016.6.20)。富士通が出した拡張要求に ARM社が同意したことがポイントのようです。ARMはスパコンにも乗り出すということです。そしてスパコンで磨いた技術をもとに、現在はインテルなどが席巻している「業務用サーバ機」という巨大なコンピュータ市場を狙うのでしょう。

ARM-HP-Printer.jpg
ヒューレット・パッカード(HP)のプリンタに搭載された、ARM仕様のマイクロ・プロセッサー。半導体チップの製造メーカ・STマイクロエレクトロニクスのロゴとARMのロゴが見える(画像はWikipediaより)。

ところで、ARMという会社の名前は元々、

  Acorn RISC Machine

の略称でした。今は Advanced RISC Machine の略とされているようですが、元々は Acorn RISC Machine だった。この英単語の意味は以下の通りです。

  Acorn
  ドングリ
RISC
  Reduced Instruction Set Computer の略。処理可能な命令の種類が少ないマイクロ・プロセッサー。処理可能な命令の種類が少ないとプログラムの量が増えて非効率にみえますが、マイクロ・プロセッサーの回路がシンプルになり、個々の命令の実行速度は上がります。その兼ね合いの最適なところを狙って設計するのがRISCです。

ここでなぜ "Acorn(=ドングリ)" なのかというと、ARM社の前身が「エイコーン・コンピュータAcorn Computers)」という、英国のケンブリッジに設立された会社だったからです。


エイコーン・コンピュータ


エイコーン・コンピュータは、1978年に設立されたコンピュータ会社です。Acornと命名したのは、そこから芽が出て大きな木に成長するという意味だとか、また電話帳で Apple より前に記載されるようにだとか言われています。余談ですが、そのAppleという名前はスティーヴ・ジョブズが働いたこともあるゲーム会社・Atariより電話帳で前に来るようにしたという説があります。

エイコーン・コンピュータが大きく伸びたのは、1980年代から1990年代前半にかけて、イギリスの教育用コンピュータ(当時のマイコン。今のパソコン)の市場を独占したからです。

BBC_Micro.jpg
BBC Micro(1982~1986)。画像はWikipediaより
イギリスの公共放送のBBCは、これからの時代におけるコンピュータの重要性に気づき、コンピュータ教育を推進するため、BBC Computer Literacy Project を1980年に開始しました。この一環で "BBC Micro" というマイコンを開発することになりました。このときイギリス政府は、開発企業を英国企業にするようにという強い指導を行ったのです。いろいろと経緯があって、最終的に選ばれたのはエイコーン・コンピュータでした。その "BBC Micro" は1982年に発売されました。ちなみに、公共放送が教育に関与するのは日本と似ています。

1980年代、イギリス政府は全国の学校にコンピュータを導入する補助金をばらまき、また教師の訓練やコンピュータ関連プロジェクトにも補助金を出しました。このとき最も売れたのが "国策コンピュータ" の "BBC Micro" とその後継機種だったわけです。当然、エイコーン・コンピュータの売り上げは伸び、会社は発展を遂げます。そして1980年代の半ばにエイコーン・コンピュータ社内で始まったのが、全く新しい設計思想(=RISC)のマイクロ・プロセッサーを開発する "ARMプロジェクト" だった。だから "Acorn RISC Machine" なのです。そのARMプロセッサーを搭載した BBC Micro の後継機種は英国の学校にも導入されました。

AcornArchimedes.jpg
BBC Microの後継機種である, Acorn Archemedes(1987)。ARM仕様のマイクロプロセッサーが搭載されている。下位機種はBBC Archemedesのブランドで学校に導入された(画像はWikipediaより)
エイコーン・コンピュータはその後、いくつかの会社に分割されましたが、マイクロ・プロセッサー部門は ARM社として生き残り、現代のスマートフォンで世界を席巻するまでになりました。

以上の経緯を振り返ってみると、ソフトバンク・グループが買収した ARM は、英国政府と公共放送の施策に従って開発された「英国発の学校用コンピュータ」にルーツがあると言っていいわけです。もちろん現代のARMは、当時のマイクロ・プロセッサーからすると技術的に比べられないほど進化を遂げています。あくまでルーツをだどるとそこに行き着くという意味です。

1990年代半ばより、マイクロソフトのWindowsがメジャーになり、それに従って、マイクロ・プロセッサーとしてはインテル製品が普及しました。インテル(とアップル)のプロセッサーが、パソコン用として世界を制覇したわけです。

しかしARMは "英国発" の技術として生き残り、生き残っただけではなく特定分野(スマートフォン)では世界を席巻するまでになりました。その源流はと言うと、政府肝入りの教育用コンピュータだったのです。



ここで話は日本に飛ぶのですが、実は日本においても、日本発のコンピュータの基本ソフト(OS)とパソコンが、日本の教育現場に大量導入されてもおかしくない時期があったのです。そのコンピュータ基本ソフトが、坂村健・東大教授の TRON(トロン)です。


TRONプロジェクト


TRONはコンピュータの基本ソフト(OS:Operating System)です。コンピュータの作りを簡略化して言うと、まずハードウェアがあり、その中核がマイクロ・プロセッサーです。そのマイクロ・プロセッサーで動作するのが基本ソフト(OS)であり、基本ソフトの上で動作するのが各種のアプリ(アプリケーション・プログラム)です。現代のパソコンの基本ソフト(OS)の代表的なものは、マイクロソフト社の Windows や、アップル社の iOS です。

その意味で、TRON(= OS)は ARM とは位置づけが違います。ARMはマイクロ・プロセッサー(=ハードウェア)の設計仕様だからです。しかし TRON も ARM も、コンピュータの動作を基礎で支える基本的な技術であることには変わりません。むしろパソコンやスマートフォンを考えると、一般利用者から見た使い勝手はマイクロ・プロセッサーよりも基本ソフト(OS)に強く影響されます。そのためパソコンメーカーは、基本ソフト(OS)の仕様に合うようにパソコンのハードウェア全体を設計し、販売しています。

  なお、TRONプロジェクトでは各種の技術が開発されていて、中には "TRONチップ" のようなマイクロ・プロセッサーそのものもありますが、以下の記述での TRON は基本ソフト(OS)としての TRON に話を絞ります。

TRONプロジェクトではまず、機械に組み込まれたマイクロ・プロセッサーでの使用を前提とした ITRON( I は Industry )が開発されました。TRONは The Real-time Operating system Nucleus であり、Real-timeというところに「機器組み込み用」という本来の狙いが現れています。さらにTRONプロジェクトでは、一般の個人が家庭や学校、職場で使うパソコン用に BTRON( B は Business )が開発されました。以下はその BTRON の話です。


BTRON


BTRON プロジェクトを主導したのは、坂村教授と松下電器産業(現、パナソニック)であり、1985年に開発がスタートしました。BTRONを開発し、その仕様に合ったパソコンを開発しようとしたのです。BTRONは次第に知名度を高め、賛同するパソコン・メーカーも増えてきました。そしてこの開発と平行して、全国の学校にパソコンを設置する話が持ち上がったのです。イギリスから数年遅れということになります。

以下、日経産業新聞に連載された坂村教授の「仕事人秘録」から引用します。下線は原文にはありません。


当時の文部省と通産省が作ったコンピュータ教育開発センター(CEC、現日本教育情報化振興会)という団体があった。86年にCECはパソコン教育の必要性から、全国の学校にハソコンを配備しようとしていた。そのパソコンの標準OSとしてBTRONを検討したのだ。

その理由は私がロイヤルティー ── つまり使用料をとらなかったのと、世界中のメーカーが開発に参加できるようにしたことへの評価だった。全国の学校にトロン仕様のパソコンを配備するとなればその影響は大きい。我々は勇みたったが、そのことが大きな反動を生むとは、このときは思いもしなかった。

坂村 健「仕事人秘録⑧」
日経産業新聞(2014.7.31)

コンピュータ教育開発センター(CEC)がBTRONを教育用パソコンの標準OSとして検討するというニュースは大きく報道され、パソコンに関心があるメーカーが次々に参入した。

そのなかで乗り気でなかったのがNEC。すでにマイクロソフトのOS「MS-DOS」を使った「PC98」シリーズで成功を収めていた。BTRON仕様のパソコンとは食い合わせが悪かったのだろう。教育用パソコンの標準化自体にも反対していたが、最終的にはMS-DOSでもBTRONでも動くパソコンを作ることで合意した。

坂村 健「仕事人秘録⑨」
日経産業新聞(2014.8.1)

教育用パソコンの標準OSにBTRON、という動きに対して、当時はマイクロソフトのOS、MS-DOSをかつぐ勢力があり、それで成功していた会社もあったというのがポイントです。このことが、その後の "異様な" 展開を引き起こすのです。


潰された BTRON



そんな時、いきなり飛び込んできたのが、米通商代表部(USTR)がトロンを米通商法スーパー301条の候補に入れたというニュース。

今でもはっきり覚えている。1989年のゴールデンウィークで、私は長野県内の山小屋で休暇を過ごしていた。衛星放送でテレビを眺めていたら、突然トロンの名前が持ち上がったのだ。

これには驚いた。なにしろトロンは米国へ輸出などしていないし、誰でも無料で使える。米IBMも使っていたほどで、IBMの三井信雄副社長(当時)からは「ウチもトロンパソコンを作ろうとしていたのに、こういう間違いがどうして起こったのか」という心配の電話をもらった。

しかし、米国の不動産を買いあさるなどした日本の経済力への警戒が米国内で高まっており、冗談事ではないとすぐにわかった。ただ、マスコミは面白がって煽り、TRONがやり玉にあがった

坂村 健・日経産業新聞(2014.8.1)

1980年代後半というと、日本の経済力が飛躍的に伸びた絶頂期であり、バブル景気とも言われた時期です。アメリカとの貿易摩擦もいろいろと起った。そういう時代背景での出来事です。


米国のUSTRに文句を言ったら、すぐに会いたいとのこと。面会すると「どこからの申請とは言えないが、米国の企業に不利との訴えがあれば、まず制裁候補に挙げる。だから何か反論があれば言ってほしい」と言う。私は米国のメーカーだって使っているOSで、米国の不利益にはならないと主張したら、「調査する」と約束してくれた。

1年ほどして結局、トロンは制裁対象から外れるが、面倒事に関わりたくないメーカー100社近くがBTRONから手を引いた。政府内でも米国の機嫌を取りたい人たちは「パソコンのOSなんか米国から買えばいい」と言う。

まだ大した市場になっていないパソコンの、それもOSの規格などどうでもいいと思ったのだろう。今振り返れば、この先見性の無さが現在の情報通信分野における日本の苦境につながったと思う


マスコミは日の丸パソコンが日米の貿易障壁のように書き立てた。この件は米マイクロソフトが仕組んだに違いないとか様々な噂が流れたが、後に思いがけない事実が明らかになる

坂村 健・日経産業新聞(2014.8.1)

無料の(今で言う "オープン・ソース" の)基本ソフト(OS)を "国を越えて" 使っても、それは貿易ではないので貿易摩擦を生むはずがありません。唯一、BTRONが広まると困るのは「既存の有料のパソコン用OSやそのアプリでビジネスを展開している日米の人たち」であることは明白なわけです。そして実際その通りだったことは、坂村教授が「後に思いがけない事実が明らかになる」と書いているように、後で判明します。


1999年に出版された「孫正義 起業の若き獅子」(大下英治著、講談社)。孫氏の自伝的なノンフィクションだ。この本によると、当時の孫氏はパソコン用ソフトを米国から輸入していた。国がトロンを優遇し、ほかのソフトを閉め出そうとしているとして、トロン潰しに動いたという

後にある人の仲介で孫氏に会った。彼は「若気の至りで ・・・・・・。不愉快に思われたら、遺憾です」と言った

制裁対象から外れた後、米国政府から食事をしながら話がしたいという誘いがあった。港区にあるホテルに出向くと「調査の結果、トロンにまったく問題ないことがわかったが、先生に迷惑がかかったなら残念だ」と言われた。

米国の大学の先生も一緒にいて、技術論で盛り上がった。私の研究を高く評価し「米国の大学に来ませんか」と誘ってきた。そのときに「今回の件は日本側の事情のようですね」とやんわり言われた。当時は何の話かわからなかったが、後から考えると孫氏のことだったのだろう

この事件が与えた影響は大きく、BTRONから次々に日本の企業が脱退した。文部省などによる教育用パソコンの事業もなくなった。

坂村 健「仕事人秘録⑩」
日経産業新聞(2014.8.4)

現在のソフトバンク・グループは「情報通信業」であり、数々の事業を手がけていますが、元はというとソフトウェアの卸(=流通業)や出版をする会社でした。上の引用にあるような米国のソフトを輸入販売する立場から言うと、そのソフトはマイクロソフトやアップルのOSで動くように作られたものです。従って、日本で BTRON ベースのパソコンが広まるのは、孫氏のビジネスにとってはまずいわけです。だから "トロン潰し" に動いた。

この事件が坂村教授に「不愉快な思い」をさせただけならどうということはないのですが、それよりも坂村教授が一つ前の引用で語っているように、日本の情報通信産業に与えたダメージが大きかったわけです。

しかし、トロンが無くなったわけではありません。坂村教授の述懐を続けます。


トロンプロジェクトの本命である組み込み機器用ITRONは着実に広がっていた。デジタルカメラの普及のきっかけとなるカシオの「QV-10」や、90年代に立ち上がってきた携帯電話などに使われた。

ただ、貿易摩擦時に政府やマスコミがトロンを悪役扱いした影響か、トロンを自社製品に使っていることを公にしたいメーカーはほとんどなかった。

ただ、90年代後半になると、このようなトロンの現状に同情してくれたのか、トロンを正当に評価すべきだと言ってくれる人々が現れた。特に当時の三菱電機の常務で、トロン協会の専務理事にもなった中野隆生氏にはお世話になった。中野氏はあらゆる機会でトロンの独自技術や自由な開発環境を整える重要性を主張してくれた。

中野氏は多くのメーカーに「トロンを使っているならば公表してほしい」とまで言ってくれた。こうした手助けのおかげで99年にトヨタ自動車が SUV「プラド」にトロンを使ったことを発表。2003年にはNHKの番組「プロジェクト X」でトロンが取り上げられるなど、徐々に再認識されるようになった。

坂村 健・日経産業新聞(2014.8.4)


孫正義氏の "TRON 潰し"


孫正義.jpg
「孫正義 起業の若き獅子」
大下英治著
(講談社。1999)
坂村教授が言っているように、孫正義氏の "TRON 潰し" は「孫正義 起業の若き獅子」(大下英治著。講談社。1999)に書かれています。

当時、孫正義氏は情報産業や学界に"TRON反対" を説いて回るのですが、コンピュータ教育開発センター(CEC)は1988年1月にBTRONを教育用パソコンの標準OSとすることを決めます。一発逆転を狙った孫正義氏は1989年に入ってまもなく、ソニー会長の盛田昭夫氏に依頼し、通産省の高官とじかに話をしようとします。そのあたりの記述です。

(以下の引用では、漢数字を数字にしました。また段落を再構成しました。下線は原文にはありません)。


翌日、さっそく盛田から電話が入った。「機械情報産業局長の棚橋祐治君に電話を入れた。彼も、ぜひ君に会いたいと言っている」

孫はその日の夕方、棚橋局長と会った。棚橋局長は、あらためて孫から話を聞き眉をひそめた。「こいつは、ちょっとやっかいですね。どうしたらいいでしょう」

孫は言った。「僕に転換させるいいアイデアがあります。方法論については後日お話しますから、ちょっと待っていてください」「わかりました。では事務方については林という課長がいますので、そのものと話を詰めてください」

孫は林良造情報処理振興課長と話を詰めた。いよいよ通産省の幹部を巻きこみ、TRON壊滅へのレールが敷かれはじめた

そんな矢先の1989年4月28日、アメリカ通商代表部が各国ごとの貿易障壁を調査した「貿易障壁報告」を発表した。日本に対しては、たばこ、アルミニウム、農産物、医薬品・医療機器、電気通信・無線・通信機器、自動車部品、流通制度など34項目がヤリ玉にあげられた。その中の一つにTRONも含まれていた。

孫が危ぶんでいたように "TRONを小・中学校に導入しようとしているのは、政府による市場介入" だとする懸念を指摘していた。「貿易障壁報告」はスーパー301条の参考になる。つまり、TRON はスーパー301条の対象となっていた。孫は日本の報道機関が発表する前に、その情報を手に入れていた

(それみたことか!)

孫が林課長に電話を入れようとしてたときに、林の方から電話が入った。林の声は上ずっていた。「えらいことになりました」

孫はにやりとした。

「いえ、そうでもないですよ。このときこそ千載一遇のチャンスです。この機を逃したら、予算もなにもつけて動いている国家プロジェクトを潰すチャンスは二度とないでしょう。スーパー301条をたてにすれば相手もほこをおさめやすい。これを口実に一気にTRONを潰したほうがいいです」

「そうだ。きみのいうとおりだ」

通産省は小・中・高校における TRON仕様機を中止した。教育機関に TRON が蔓延するのをまさに波打ち際で止めることができたのであった。

大下英治
「孫正義 起業の若き獅子」
(講談社。1999.8.2)

坂村教授がアメリカ通商代表部に面会したとき、通商代表部側は「どこからの申請とは言えないが、米国の企業に不利との訴えがあれば、まず制裁候補に挙げる」と答えました。誰が TRON をアメリカ企業に不利だと申請したのか、大下英治氏の本には書いていません。しかしその申請者は、ソフトの流通業をやっていたソフトバンク=孫氏だと推測させるような書き方がされています。つまり、

「僕にいいアイデアがあります」と、孫氏が語ったこと
貿易障壁報告の内容を、報道される前に知っていたこと

の2点です。孫氏の「いいアイデア」とは何か、本には書かれていませんが、その後の経緯から推測できます。また坂村教授は、長野県の山小屋での休暇中に衛星放送テレビの報道で貿易障壁報告を知りました。つまり坂村教授にとってUSTRの貿易障壁に TRON があげられることは、全くの "寝耳に水" だったわけです。事前に何らかの噂でもあったのなら、TRONプロジェクトのリーダーの耳に入らないはずがない。

しかし孫氏は明らかに報告が出るのを注視していました。注視していたからこそ、報道以前に知り得たのです。わざわざ注視していた理由は一つしかないと思われます。


英国と日本の落差


孫氏の "TRON潰し" の行動は、別に悪いことではないと思います。孫氏のような「政治的な動き」も駆使して自社ビジネスに有利な状況を作ろうとすることは、大企業なら多かれ少なかれやっているし、米国企業だとロビイストを使った "正式の" 手段になっています。

そもそもソフトバンクの過去からの企業行動を見ていると、独自技術をゼロから育てるつもりはなく、技術は買ってくればよいという考えのようです。ましてや、日本発の技術を育てようとは思わないし、そこに価値を見い出したりはしない。

そのような企業のトップとして孫氏は「TRON潰しは、我ながらよくやった」と、今でも思っているはずです。孫氏が坂村教授に語った「若気の至り」は、あくまで社交辞令であって、そんなことは心の中では全く思っていないでしょう。TRONプロジェクトのリーダに会った以上、そうとでも言うしかなかったのだと思います。



それよりも、日本の "BTRON事件" で思うのは、このブログの最初に書いた英国と比較です。つまり、日英の官庁とマスメディアの、あまりにも大きい落差です。英国政府とマスメディア(BBC)は、断固として英国発の技術を使ったコンピュータを全国の学校にばらまく。それは(今から思うと)最終的には Windowsパソコンに置き変わることになったとしても、その中からARMのような世界を席巻する技術が生まれる。

片や日本の官僚は、ソフト流通業のトップといっしょになって日本発のコンピュータを潰しにかかる。通産省(当時)の機械情報産業局というと、日本の情報産業を育成する立場の組織です。その官僚が日本発の技術をつぶしていたのでは "日本国の官僚組織" とは言えないでしょう。まるでアメリカ商務省の出先機関です。それに輪をかけて、日本のマスメディアは貿易摩擦をおもしろおかしく書き立て、火に油を注ぐ。結果として起こった火災は、日本発のパソコンを壊滅に導いた・・・・・・。



最初に「ソフトバンク・グループの ARM 社買収で、以前に強く思ったことを思い出した」と書いたは、ARM(英国)とTRON(日本)の対比であり、日英の官庁の落差でした。

この対比において、日英の官庁の落差に加えてもう一つ重要なことがあります。官僚がTRON潰しに邁進したにもかかわらず、TRONは機器組み込み用のITRONとして生き残ったという事実です。ARMほどではないにしても・・・・・・。それは坂村教授というより、TRONを支えた日本の多数の技術者の功績のはずです。

新しいものを生みだそうという努力には敬意を払いたい、それが英国の ARM であっても日本の TRON であっても・・・・・・。そういう風に思いました。



 補記:ソフトバンクの ARM 買収 

記事の最初に書いたソフトバンクグループの ARMアーム社買収について、朝日新聞の大鹿記者が内情を書いていました。興味ある内容だったので、その前半3分の2ほどを紹介します。記事全体の見出しは「3.3兆円で買収した千里眼」です。「千里眼」の意味は以下の引用の最後に出てきます。まず、孫正義社長が買収を切り出した場面です。


エーゲ海に臨むトルコの景勝地マルマリス。ソフトバンクグループの孫正義社長は今年7月4日、ここのヨットハーバーに面するレストランを借り切った。

ランチに招いたのは、英半導体設計会社ARMアームホールディングスのスチュアート・チェンバース会長(当時)とサイモン・シガースCEO(最高経営責任者)。地中海で休暇中のチェンバース氏に、孫氏が急な面談をもちかけたところ、指定されたのが彼のヨットが寄港するこの港町だった。

ふだんは米シリコンバレーにいるシガース氏は、トルコへ呼び出されたことをいぶかしんだ。その1週間前、夕食をともにした孫氏から「IoT(モノのインターネット化)に関して何か一緒にできないか」と意味深長な提案を受けていたからだ。「買収だろうか。いやいや提携の申し入れぐらいだろう・・・・・・」

打ち解けた雰囲気のなか料理を楽しんでいると、孫氏が切り出した。「我が社なら御社の事業を加速できる。だから買収したい」

日本企業として過去最高の3.3兆円の巨額買収という大勝負に出た瞬間だった。それは、彼が10年越しで温めていた案だった。

朝日新聞(2016.10.24)
(大鹿靖明)

記事では続いて、この10年間の孫社長の動きが紹介されています。ボーダフォン日本法人を買収した直後から、アーム社買収の構想を練り始めたようです。


孫氏がアームに魅力を感じたのは、2006年に英ボーダフォンの日本法人(現ソフトバンク)を買収して間もないころ。シガース氏は、すでに「アームに淡い気持ちを抱いていた」という孫氏と東京で携帯電話の将来について語り合っている。孫氏側近の後藤芳光財務部長は当時をこう語る。「孫さんは『通信事業も大事だが携帯に入るチップ(半導体)はより重要だ。アームという面白い会社があるんだ』と言い出した。僕らへの刷り込みが始まっていた」

米通信大手スプリント買収を計画した12年、孫氏の念頭にアーム買収もよぎったが、「より直接的な相乗効果がある」と同業のスプリント買収を先行させた。だが、「毎年のようにアーム買収の研究をしてきた」(後藤氏)という。

パソコンのCPU(中央演算装置)は米インテルが制したが、携帯電話やスマートフォンの9割以上にアームが設計した中核回路(コア)が搭載。アームは低消費電力で小型化できる利点から携帯むけ回路設計で頭角を現し、今やアームのコアが組み込まれた半導体の年間出荷数は148億個以上にもなる。

孫氏は、保有する中国ネット通販大手アリババ株を一部売却するなど2兆円余りの軍資金を用意すると、一気に動きだしたのだった。

朝日新聞(2016.10.24)

2006年にソフトバンクがボーダフォンの日本法人を買収して間もないころ、アームのシガース氏は孫氏と東京で携帯電話について語り合った、とあります。このころ、スマートフォンはありません。iPhoneの米国発売は2007年、日本発売は2008年です。アームとソフトバンクを引きあわせたもの、それは日本の携帯電話だったわけです。日本の高度に発達した携帯電話のチップとして、省電力性能に優れたアーム仕様のチップが広まった。アームと日本のかかわり合いを示すエピソードです。

続く記事では、ソフトバンクがアームを買収した理由が出てきます。


IoT「次」は何?

英ケンブリッジ大に近いアーム本社の展示室には、一見ハイテク機器とは無縁な帽子やフォークが並んでいる。「中にチップが入っています」と社員。「この靴の中敷き。寒くなると自然と発熱します。スキー場や冬山で使えますね」。IoTで意外なものへのチップ搭載が進み、アームのコアへの需要は激増しそうなのだ。

アームは1990年、英コンピュータ会社から独立した12人のエンジニアが創業した。半導体業界でその成り立ちは特異だ。インテルや東芝などの半導体メーカーは開発から製造、販売まで自社で担う垂直統合型が一般的。だがアームは設計に特化した。回路の設計図をメーカーに売り、製品に搭載されたコアの知的財産権の使用料も収入源となる。量産工場はもたない。

創業メンバーの一人、マイク・ミュラーCTO(最高技術責任者)は「アイデアはあったが資金がなかったからね」と笑う。垂直統合型の半導体メーカーは毎年巨額投資が必要だし、過剰生産は値崩れを呼ぶ。量産工場をもたないアームはそうしたリスクを避けられる。売上高営業利益率は40%という高業績ぶり。企図せずに進化したビジネスモデルとなった。

最終製品の性能を決定する回路設計の担うだけに、注文は早い段階で舞い込む。シガース氏は「開発中のものは2、3年後に完成し、その後、出荷に1、2年かかる。消費者が製品として手にするまでにさらに数年」と言う。5~10年先の製品の回路設計に、いま取り組んでいるのだ。

シガース氏はソフトバンクとの相乗効果について「まったくない」と即答。むしろ孫氏に買収された背景をこう受け止める。「孫社長は『次に何がくるのか』と非常に気にしている。アームを買収したことで、次は何が重要なのか、どんな分野に投資すればいいのか、そいういうことが分かるのではないか

設計図の納入先との契約は新オーナーの孫氏にも秘密だが、今後の潮流ぐらいは占うことができる。孫氏の側近の後藤氏は「アームに集まる情報で未来を予測できる。ライフスタイルがどう変わるのか予見できるようになる」とみる。アームは孫氏にとって未来を見通す「千里眼」になりそうだ。

朝日新聞(2016.10.24)

「アームは1990年、英コンピュータ会社から独立した12人のエンジニアが創業した」という表現には注意が必要です。アーム仕様を最初に開発したのは、このブログ記事に書いたように "エイコーン・コンピュータ" です。アーム(ARM)の "A" は、もともとエイコーン(Acorn = ドングリ)の "A" だった。そのエイコーンの半導体回路設計部門が独立してアーム社になった。アーム仕様はベンチャー企業が独自に開発したのではありません。そのアームのルーツをたどると英国の学校用コンピュータに行き着くことは、このブログ記事に書いた通りです。

シガース氏がアームとソフトバンクの相乗効果は全くないと即答したのは、全くその通りだと思います。相乗効果が無いからこそ、独占禁止法に触れることなく買収できたのでしょう。インテルがアームを買収するのは無理というものです。

しかし記事にあるように、孫氏が「千里眼」を獲得するためにアームを買収したというのはどうでしょうか。確かにそういう面もあるでしょうが、「千里眼」のために3.3兆円というのはいかにも高すぎる。3.3兆円の裏には冷徹な計算があるはずです。

アームのビジネスモデルは、チップの設計仕様(アーキテクチャ)や回路設計データ(コア)を半導体メーカーに供与し、半導体が売れるたびに製品価格の何%かを収入として得るというものです。これは特許ビジネスと同じです。しかもアームのコアは、情報産業で言う "プラットフォーム" の一種です。いったんプラットフォームを握ると、そのビジネスは長期に続く可能性が高い。パソコン・スマホのOS(マイクロソフト、アップル、グーグル)、パソコンのCPU(インテル)がそうです。プラットフォームを乗り換えるには "コスト" がかかるのです。

プラットフォームを握り、日銭ひぜにを稼ぐ。それがアームのビジネスモデルです。つまり安定的な売り上げが見込める。この点は、ソフトバンクが過去に買収したボーダフォン日本(その前身はJ-Phone)、スプリントという携帯電話のビジネスと似ています。激しい競争はあるものの安定している。1年後に売り上げが30%ダウンなどどいう状況は、まず考えられません。しかもアームは設計に特化しているため、営業利益率が40%という高収益企業です。孫社長は今後のソフトバンクグループの成長戦略を描くために、そこに魅力を感じたのだろうと思いました。

(2016.11.7)



nice!(0)  トラックバック(0) 

No.188 - リチウムイオン電池からの撤退 [技術]

今までの記事で、リチウムイオン電池について2回、書きました。

No.39 リチウムイオン電池とノーベル賞
No.110 リチウムイオン電池とモルモット精神

の二つです。No.39はリチウムイオン電池を最初に作り出した旭化成の吉野氏の発明物語、No.110はそのリチウムイオン電池の製品化(量産化)に世界で初めて成功した、ソニーの西氏の話でした。

そのソニーですが、リチウムイオン電池から撤退することを先日発表しました。その新聞記事を振り返りながら、感想を書いてみたいと思います。No.110にも書いたのですが、ソニーのリチウムイオン電池ビジネスの事業方針はブレ続けました。要約すると次の通りです。

盛田社長・岩間社長・大賀社長時代(1971-1995)
  携帯機器用電池・自動車用電池を推進。1991年、世界で初めて携帯機器用を製品化。車載用は日産自動車のEVに供給。
出井社長時代(1995-2000)
  自動車用電池から撤退(1999年頃)
安藤・中鉢・ストリンガー社長時代(2000-2012)
  自動車用電池に再参入を表明(2009年、2011年の2回)
平井社長時代(2012-)
  電池ビジネス全体の売却を検討し(2012年末)、それを撤回(2013年末)

この詳しい経緯は、No.110「リチウムイオン電池とモルモット精神」に書きました。こういった事業方針の "ブレ" が過去にあり、そして今回の発表となったことをまず押さえておくべきだと思います。

SonyLion.jpg
(site : www.sony.co.jp)


撤退の発表、村田製作所への事業売却


2016年7月28日、ソニーはリチウムイオン電池から撤退を発表しました。それを報じた日本経済新聞の記事から引用します。以下、アンダーラインは原文にはありません。

(日本経済新聞 1面記事)

ソニー、電池事業売却
 リチウムイオン 村田製作所に

ソニーは28日、電池事業を村田製作所に売却すると発表した。ソニーはスマートフォン(スマホ)などに使うリチウムイオン電池を世界で初めて実用化したが、韓国勢との価格競争などで赤字が続き、事業継続は難しいと判断した。業績回復が続くなかでも不採算事業の切り離しを進め、競争力の高い画像センサーなどに集中する(関連記事11面に)。

福島県郡山市やシンガポール、中国など国内外に5カ所ある電池工場を2017年3月末をメドに売却する。ソニーブランドのアルカリ乾電池などの消費者向け販売事業は売却の対象外となる。

ソニーの電池事業の15年度の売上高は1600億円。今後具体的な売却条件を詰め、10月に正式に譲渡契約を結ぶ。売却額は400億円を下回る見通しで、売却損が発生する可能性がある。

同社は2次電池として幅広く使われるリチウムイオン電池を1991年に世界で初めて実用化したが、電池事業は10年度以降、14年度を除いて営業赤字が続いていた。

村田はスマホ部品でシェアを高めており、電池などエネルギー分野の強化も目指している。産業機器向けや車載向けのリチウムイオン電池の開発を続けてきた。

日本経済新聞(2016.7.29)

高性能2次電池の重要性は誰もが理解できるわけです。スマホや電気自動車は言うに及ばず、ロボットやドローンが21世紀に真に普及するかどうかの重要な鍵は "電池" です。ソニーの経営陣も存続させるかどうか迷ったでしょう。しかし存続するためには投資をしなければならないが、その投資は "非中核事業" と位置づけてしまった以上、優先度の観点から難しいということだと思います。「関連記事11面に」とあるように、日本経済新聞の11面に解説記事がありました。

(日本経済新聞 11面記事)

ソニー、収益改善を優先
 電池事業売却 赤字体質抜け出せず

ソニーが電池事業の切り離しを決めた。1991年に繰り返し充電できるリチウムイオン電池を世界で初めて実用化したが、パソコン向けの電池で過熱・発火の問題が発生して増産投資を手控えると、サムスンSDIなど韓国勢との競争が激化して赤字体質から抜け出せなかった。非中核事業となった電池に見切りを付けて収益改善を優先する。

ソニーは2012年ごろに日産自動車などとの事業統合を試みるなど、電池事業のリストラを模索した経緯があるが、スマートフォン(スマホ)向けの受注が増えた13年末には単独で事業を延ばす方針に転換していた。

だが競争環境は厳しいままだ。15年のリチウムイオン電池の世界シェアは前年の4位から5位に後退した。電気自動車向け電池への再参入も表明したが実現していない。画像センサーやゲームを中核事業に位置づけるソニーにとって、赤字が続く電池事業に「これ以上投資するのは難しい」(幹部)状況になった。

村田製作所は自動車やエネルギー分野に注力する方針を示している。車載部品は連結売上高の15%まで育ったが、エネルギー事業の規模は小さく、M&Aが必須とされていた。

村田はソニーから電池事業を買収すれば生産設備や事業ノウハウを一気に取得できると判断した。採算が厳しいモバイル機器向けのリチウムイオン電池も、村田の生産技術や顧客網を活用すれば改善できると見ている

村田はリチウムイオン電池より性能や安全性が優れた「全固体電池」と呼ぶ次世代電池も見据える。「全固体電池の研究が進んでいる」(村田製作所の藤田能孝副社長)というソニーの技術と村田の生産技術を組み合わせ、将来の市場で先行する戦略を描いている。

日本経済新聞(2016.7.29)

記事の中に「パソコン向けの電池で過熱・発火の問題が発生して」とあるのは、2006年のことです。ソニー製リチウムイオン電池の不具合により、米国を含むパソコンメーカが回収を余儀なくされまた。

リチウムイオン電池の過熱・発火事故というと、ソニーの事業売却の発表があった1ヶ月後の 2016年9月2日、韓国サムスン電子は、Galaxy Note7の回収を発表しました。グループ会社であるサムスンSDIが製造したリチウムイオン電池の発火事故が報告されたからです。対象となる台数は全世界で250万台といいます。ソニーの撤退の理由の一つとして「サムスンSDIなど韓国勢との競争が激化して」と日経の記事にあったのですが、ほかならぬそのサムスンSDIが問題を起こしたわけです。

振り返ってみると、2016年1月にも パナソニック製の一部の電池に、最悪の場合は発火の危険性があることが判明し、東芝のノートパソコンなどの該当機種が回収されました。ソニーの2006年の事故以来、消費者向け製品の回収事件はこれだけでなく、もっとあったと記憶しています。

リチウムイオン電池の安全性については、当初からの課題だったわけです。No.39「リチウムイオン電池とノーベル賞」の「補記4」に、ソニーで世界初の製品化を主導した西氏が「開発をためらった」という話を書きましたが、それはつまり安全性に懸念があったからです。ソニーが1991年に最初に製品化してから既に25年が経過しました。25年もたってまだ安全性の問題が解決できないのかと思ってしまいますが、この25年の間、リチウムイオン電池に求められ続けたのはコンパクト化・大容量化・低コスト化です。これらの市場の要求と安全性の両立が非常に難しいようです。この課題を根本的に解決するのが、日本経済新聞の記事にある「全固体電池」です。

「全固体電池」とは、電池の電解質に固体を使う電池です。リチウムイオン電池は、正極、負極、正極と負極の間の電解質、正極と負極を分離するセパレータから構成されていますが、現在の電池は電解質に有機溶媒液を使っています。このため液漏れのリスクがあり、最悪の場合は過熱から発火事故につながったりします。この電解質を固体(たとえばリチウムイオンを伝導できるセラミックス)で置き換えるのが全固体電池です。現在、各社が開発を競っていて、試作品も作られています。

とにかく、村田製作所への事業譲渡は決まりました。村田製作所に果たして成算はあるのかどうか。上の引用における「生産技術」と「全固体電池」がキーワードのようです。これについて日本経済新聞・京都支社の太田記者が、村田製作所の立場から解説を書いていました(村田製作所は京都が本社です)。


ソニーの電池事業は「利益は(黒字と赤字の)トントン」(藤田ソニー副社長)。ただ毎年10%の値下げを要求される電子部品の世界で培った(村田製作所の:引用注)生産技術と緻密な生産管理は定評があり、採算改善は可能とみているようだ。

さらに村田が見据えるのはリチウムイオン電池に比べ容量や寿命が格段に大きい「全固体電池」と呼ぶ次世代電池。同電池は村田が高い世界シェアをもつセラミックコンデンサの基盤技術である「積層技術」が必要とされる。ソニーの技術と、村田の生産技術を組み合わせ、次世代市場でも先行を狙う考えだ

日経産業新聞(2016.7.29)
(京都支社 太田順尚)

村田製作所の経営陣の判断を日経の記事から要約すると、以下のようになるでしょう。

村田製作所の生産技術と生産管理のノウハウをもってすると、現在のソニーのリチウムイオン電池事業は黒字化できる。

ソニーの「全固体電池」の研究は優れている。村田製作所が持つセラミックコンデンサの積層技術とを合わせて、次世代の「全固体電池」を新事業に育てられる。

の2点です。この村田製作所の経営陣の判断が正しいかどうかは分かりませんが、リチウムイオン電池を研究中という村田製作所にとっては、一気にエネルギービジネスに進出するチャンスと見えたのでしょう。村田製作所はまだ電池の生産ラインさえ持っていない段階です。

しかし「全固体電池」は世界的にみても試作レベルであり、量産技術が確立しているわけではありません。現在のリチウムイオン電池より安全性で上回ったとしても、大容量・コンパクト・コストのすべてで上回わらないと製品化はできないわけで、これは並大抵ではないと思います。従って、少なくとも現在のリチウムイオン電池が韓国勢と競争できるレベルになるのが必須条件でしょう。村田製作所の経営陣は、これが可能だと判断したと考えられます。


技術評論家の見方


ソニーが電池事業を村田製作所に売却する発表を受けて、技術評論家の志村幸雄氏がコラムを書いていました。以下にコラムの感想とともに引用します。アンダーラインは原文にはありません。


ソニー、電池事業売却
 往年の活力いまいずこ

7月下旬、ソニーが電池事業を電子部品大手の村田製作所に譲渡することで合意した。両社共同の報道資料によれば、双方のポートフォリオ戦略上の観点からも、事業の持続的拡大を図るうえでも、適切な対応だったとしている。だが、ソニーが1991年、今日主流のリチウムイオン電池を世界で初めて製品化し、長らく市場で先導的な役割を果たしてきたことを考えると、それほど説得力のある判断とは言いがたい。

志村幸雄
日経産業新聞(2016.9.6)

ソニーは1991年、リチウムイオン電池を世界で初めて製品化(量産技術を確立)しました。しかし、このブログの最初に書いたように、その後のソニーの電池ビジネスの方針はブレ続けたわけです。2012年末から2013年にかけて(現・平井社長の時代)は、一度、電池ビジネスの売却を検討しています。志村氏が言うように「長らく市場で先導的な役割を果たしてきた」のかどうか、それは疑問でしょう。志村氏のコラムを続けます。


ソニー側にしてみれば、リチウムイオン電池といえども価格競争によるコモディティ(日用品)化の波に洗われ、2010年度以降は14年度を除いて赤字事業と化していた。その元凶が韓国勢の安値攻勢にあるというのだが、高い技術力を蓄積してきたはずのソニーの実力をもってしても、性能・品質面での勝機はつかめなかったのか。

聞くところでは、ソニーは売り上げ構成比の大きいスマートフォン向けで米アップル社の iPhone 最新機種への採用を逸したとされ、その原因が「容量や充電速度に問題があった」と同社首脳の1人も認めている。「バッテリーウォーズ」などという言葉が飛び交う過剰な熱気の中で、こんな腰の引けた対応ではいかにもふがいない。

日経産業新聞(2016.9.6)

志村氏の指摘は、ソニーの電池事業の売却の要因は「技術力の低下」ではないかということであり、その象徴が「米アップル社の iPhone 最新機種への採用を逸した」ことだというわけです。この iPhone 最新機種とは、2016年9月8日に発表された iPhone7 /7 Plusのことでしょう。


リチウムイオン電池は技術的に成熟したと見る向きもあるが、異常発熱などの安全性の問題や大容量材料の開発も含めてまだ課題が山積しており、その限りで伸びしろのある技術領域なのだ。

一方、ソニーは今回の決定にあたって、リチウムイオン電池の市場性を過小評価してはいなかったか。最近では、電気自動車、電力貯蔵装置への急ピッチな普及、ロボット、ドローン、電動工具、そしてフォークリフトなど重機への採用が進んでいる。ソニーが得意とする消費者向けでも「ポケモンGO」の爆発的な人気による特需が生まれた。

日経産業新聞(2016.9.6)

志村氏が「リチウムイオン電池は伸びしろのある技術領域」というのは全くのその通りだと思います。上に書いたように、ソニーもパナソニックもサムスンSDIも問題を起こしている。それだけ難しい技術領域であり、逆にいうと未開拓技術がある領域なのです。

一方、志村氏が「ソニーは今回の決定にあたって、リチウムイオン電池の市場性を過小評価してはいなかったか」と書いているのは、ハズレていると思います。リチウムイオン電池の市場性は誰もが理解できるからです。ドローンをとってみても、積載重量を増やして長時間の飛行を可能にするには、電池の大容量化(かつコンパクト化)が必須です。ドローンが真に21世紀の大産業になるかどうかは、電池にかかっているわけで、これは素人でも理解できます。

そもそも "経営判断" というのは、

誰しも将来性を疑っている分野ではあるが、事業の成長を見越して経営資源を投入する

誰しも成長領域だと思っているが、経営資源を別領域に集中させるために、あえて撤退する

のどちらかです。「誰もが将来性を疑っている分野から撤退」したり、「誰もが成長分野と思っている事業に経営資源を投入」するのは、どの企業でもやっている "普通の事業の進め方" であって、経営判断と言うには "おこがましい" わけです。

ソニーの「リチウムイオン電池からの撤退」が正しい経営判断かどうかは分かりませんが、少なくとも "経営判断" と言うに値することは確かでしょう。「誰もが成長領域だと思っているが、あえて撤退する」のだから・・・・・・。志村氏のコラムは次のように結ばれています。


こんなことを考えながら、ソニー創立50周年記念誌「源流」を開くと「夢のリチウムイオン電池」と題した1章がある。新会社ソニー・エナジー・テックを中核に、ソニーグループ挙げての事業となった経緯を詳述。最後に「ソニーは先陣を切って開発に成功した後、高いシェアを維持し、リーディングカンパニーとしての地歩を固めた」と結んでいる。

ソニーこれまでにも、いったんは製品化したロボット、有機ELモニターなどに、なぜか中断や撤退策を講じている。世に言う「モルモット企業」から「日和見企業」に転じては、往時の活力いまいずこと言わざるをえない。

日経産業新聞(2016.9.6)

以降は、ソニーのリチウムイオン電池からの撤退についての感想です。


継続発展の難しさ


ソニーの電池ビジネス売却のニュースを読んで思うのは、新事業を創出し、かつそれを発展させることの難しさです。No.110「リチウムイオン電池とモルモット精神」に書いたように、いわゆる「モルモット精神」を発揮して世界で初めてリチウムイオン電池の量産技術を確立したのがソニーでした。しかし、そうして新事業を創出したあとの第2ステップが問題です。

第2ステップで必要なのは、参入してくる企業とのグローバルな競争に勝つことと、次世代技術への開発投資です。競争を勝ち抜くためにはコスト優位性が必須であり、そこでは生産技術や生産管理が大きなポイントになります。しかしこの領域は、新事業を創出するマインドや人材とは必ずしも同じではない。

またコスト優位性を確立できたとして、そこで得た利益を次世代技術の研究開発に投資する必要がありますが、「今成功しているのに、あえてリスクをとる必要があるのか」という意見が上層部から出てきます。

ソニーでリチウムイオン電池の製品化をした西氏によると、ソニーが角型リチウムイオン電池(携帯電話やノートPC用)に出遅れたのは「丸型で儲かっているのだから、あえてリスクをとる必要はない」という、当時の事業部長の反対だそうです(No.110「リチウムイオン電池とモルモット精神」の「補記1」参照)。リスクを恐れて保身に走る上層部の "不作為" がビジネスの足を引っ張るわけです。丸型・角型の件は、リチウムイオン電池の歴史全体からすると小さな件かもしれませんが、一つの典型例だと考えられます。

第2ステップでも成功するには、第1ステップ以上のハードルがある。そういうことを思いました。


ブレ続けた経営方針


最初に書いたように、ソニーのリチウムイオン電池ビジネスについての経営方針はブレ続けたわけです。自動車用電池については、1990年代に日産自動車のEVに電池を供給しながら、そこから撤退し、2000年代後半に再参入を表明したもののそれを実現させず、2012~2013年には電池ビジネス全体の売却を検討し、それを撤回する、といったブレようです。志村氏のコラムに「腰の引けた対応」とありましたが、それは今に始まったことではなく "歴史" があるのです。

こうなると、優秀な人材の継続的な確保は困難でしょう。たとえば自動車用電池に参入するときには、モバイル用電池の世界初の製品化を行った優秀な人材を投入したはずです。自動車メーカの安全に対する要求はモバイル用とは比較にならないぐらい厳しいからです。しかしそのビジネスから撤退してしまう・・・・・・。中核となっていた技術者は「やってられない」と思ったでしょう。2012~2013年に撤退の検討をしたときには、もうこれで終わりと、多くのこころざしがある技術者が思ったはずです。競合他社に移籍した人も多いのではないか。転職のオファーは国内外を含め、いくらでもあったでしょう。ソニーでリチウムイオンをやってるのだから。

リチウムイオン電池のような "奥深い" 技術領域については、志のある優秀な研究者、技術者、人材の継続的な確保が必須だと思います。それには、電池を会社のコア事業と位置づける一貫した経営方針が大前提となるはすです。


"世界初" から撤退する意味


技術評論家の志村氏が指摘しているように、ソニーは「自らが作り出した世界初の製品」について、撤退や中断の判断をしています。

AI型ロボット(AIBO)
有機ELテレビ
リチウムイオン電池

の3つです。AI型ロボット(AIBO)については、No.159「AIBOは最後のモルモットか」No183「ソニーの失われた10年」に書いた通りです。2006年に撤退し、2016年に再参入を発表しました。

この3つとも、ソニーが初めて製品化したのみならず、「誰もが今後伸びるだろう、重要だろうと思える領域」であるのが特徴です。もちろん、先ほど書いたように「伸びる領域だが、経営資源をコアビジネスに集中させるために撤退・中断する」という意志決定はありうるわけです。

ここで不思議なのは、有機ELテレビの表示装置である「有機ELディスプレイ(パネル)」です。

ソニーという会社は「映像と音響に関するビジネスをコアだと位置づけていて、そこからは撤退しない会社」だと思っていました。テレビ、ウォークマン、ビデオ、デジタル・カメラ、画像センサー、放送局用の映像装置、ゲーム機、映画などです。最新の製品でいうと、VR(仮想現実)機器もそうでしょう。「映像と音響」はソニーの "祖業" ともいえるもので、だからコアなのです。この定義からすると、AI型ロボット(AIBO)とリチウムイオン電池は「コア領域ではない」と言えないこともない。

XEL-1.jpg
ソニーの11型有機ELテレビ XEL-1。2007年12月発売。2010年1月生産終了。
(site : www.sony.co.jp)
しかし有機ELディスプレイは違います。それはソニーにとってコアのはずです。かつてソニーはブラウン管の時代にトリニトロンを発明し、かつ、平面トリニトロンまで開発・実用化しました。この大成功が、逆に液晶ディスプレイに出遅れることになったわけですが、それを取り戻すべく、液晶の次と位置づけたのが有機ELディスプレイだったはずです。ソニーは2007年12月に11インチの「有機ELテレビ」を世界で初めて商品化しました。しかしなぜか中断してしまった(最終的には、パナソニックとともに有機ELディスプレイの事業をジャパンディスプレイに事業統合。2015年にJOLED - ジェイオーレッド - が設立された)。

困ってしまった日本の有機EL材料メーカ(出光興産など)や製造装置メーカ(キヤノントッキなど)は、韓国メーカとの提携を進め、現在、有機ELディスプレイはLG電子(テレビ向け)とサムスン電子(スマホ向け)の独壇場です。

リチウムイオン電池からの撤退を報じた日経新聞に「画像センサーなどに集中する」とありました。「映像の入り口」が画像センサー(イメージセンサー)です。では「映像の出口」であるディスプレイはどうなのか。それはコア事業ではないのか。もちろん液晶テレビの建て直しに資源集中するためなどの経営判断なのでしょうが、不可解感は否めません。

人のやらないことをやるのが "ソニー・スピリット" だとすると、リチウムイオン電池、AIBO、有機ELディスプレイには、それを開発した技術者の "誇り" と "思い" が込められているはずです。自分たちこそ "ソニー・スピリット" の体現者だという・・・・・・。その世界初のビジネスからの撤退は、当然、人材の流出を招くでしょう。No.55「ウォークマン(2)」で引用しましたが、元ソニーの辻野晃一郎氏(VAIO開発責任者)は「未踏の領域に足を踏み入れて全く新しいものを生みだそうというソニーのスピリット」を踏まえて、次のように語っています。


私は、ソニーとは企業ではなく、生き方だと考えています。

辻野晃一郎
元ソニーのVAIO開発責任者
朝日新聞(2012.3.14)

VAIOは斬新な機能をもったパソコンだったのは確かですが、パソコンそのものは世界初でも何でもありません。パソコンの開発責任者でさえこうなのだから、世界初の製品(リチウムイオン電池、AIBO、TVに使える中大型の有機ELディスプレイ)を作り出した技術者は、辻野氏のような思いが人一倍強いのではないでしょうか。撤退することは、"ソニーという生き方" をしてきた、その人たちの存在理由を否定することになるでしょう。


ソニー・スピリット


リチウムイオン電池の話に戻ります。紹介した志村氏のコラムの最後に、ソニーは世に言う「モルモット企業」から「日和見企業」に転じたと、手厳しいことが書いてありました。

ソニーが、当時発明されたばかりのリチウムイオン電池の製品化に乗り出したのは1987年です(No.39「リチウムイオン電池とノーベル賞」の「補記4」参照)。2017年3月に村田製作所への事業譲渡が完了するとしたら、ソニーのリチウムイオン電池事業の生命いのちは30年だった、ということになります。

もし今後、仮にです。村田製作所がリチウムイオン電池を黒字転換させ、かつ、次世代電池(全固体電池)でも成功をおさめるなら、巨視的に長いスパンで見て「ソニーはモルモットの役割だった」と言えるでしょう。しかし、それでもいいから "人のやらないことをやれ" というのが、ソニー創業者である井深大氏の教えでした。それを改めて思い返しました。



 補記1 

SONY A1Eシリーズ(77型)-CES2017.jpg
SONY AE1シリーズと平井CEO
- CES 2017 にて -
(site : www.phileweb.com)
2017年1月5日から8日の日程で、米・ラスベガスでCES(セス)が開催されました。ここでソニーの平井社長は有機ELテレビへの再参入を発表しました。ブラビア A1E シリーズで、画面は 77/65/55型の3種類(4K)です。ユニークなのは「画面そのものから音を出す」機能があることです。有機ELだからこそできた、とありました。もちろん有機ELディスプレイ(パネル)は他社から調達するそうです。

このブログ記事で「ソニーは映像と音響に関するビジネスからは撤退しない会社と思っていたが、有機ELディスプレイからは撤退してしまった」との主旨を書きました。確かに有機ELディスプレイからは撤退したのですが、有機ELテレビのビジネスは中断しただけであり、撤退はせずに再参入したということでしょう。

しかも新しい有機ELテレビは「映像と音響を一体化させた」製品であり、スピーカーなしでちゃんとステレオ・サウンドが出る。いかにもソニーらしいし、誰もやらないことをやるというソニー・スピリットの発揮に見えます。有機ELテレビに再参入ということより、未踏の世界に挑戦した(している)ことの方が大切でしょう。これからのソニーに期待したいと思います。

(2017.1.6)


 補記2 

このブログの本文に、村田製作所がソニーのリチウム電池事業を買収することを書きました。買収は2017年4月に完了する見込みです。一方、2017年2月3日付の日本経済新聞に、サムスン電子が村田製作所とリチウム電池の調達交渉中とありました。これには本文にも書いた Galaxy Note7 の発火事故が関係しています。日経新聞の記事を以下に引用します。


村田製作所と協議
 サムスン スマホ充電池の調達

【ソウル=山田健一】  韓国サムスン電子が今春発売予定の新型スマートフォン(スマホ)「ギャラクシーS8」に採用する充電池の調達について、村田製作所と協議を始めたことが、2日分かった。サムスンは昨年発売した最上位機種の発火事故で、足元のスマホ販売が低迷。信頼回復が最優先課題となるなか、日本メーカーとの取引を通じて信頼性の高い調達体制の構築をめざす。

サムスンは「S8」を、昨年の発売後に発火事故が相次いだ「ギャラクシーノート7」に代わる最上位機種に位置づける。同社は先月下旬、「発火事故は充電池が原因」とする調査結果を発表した。充電池の調達戦略はスマホ事業復活のカギを握る。

村田は昨年7月、ソニーの電池事業を買収すると発表した。買収は今年4月中に完了する見通し。サムスンはソニーが開発したリチウムイオン電池の実績と信頼性を評価しているもよう。

ノート7の充電池は、サムスンSDIとTDK子会社のアンプレックステクノロジーの2社購買だった。サムスンによると2社の充電池は、設計ミスと製造ミスといったそれぞれ別々の原因で発火事故を誘発した。

2社購買を3社購買に改めれば、リスクは低減する。サムスンは充電池を韓国LG電子から調達することも検討したが、S8での搭載は見送る公算が大きい。S8にアンプレックス社の充電池を採用することも確定していない。サムスンと村田の協議次第では、SDI社と村田の2社購買に変わる可能性も残る。

日本経済新聞(2017.2.3)

村田製作所のリチウム電池事業の買収と、Galaxy Note7 の発火事故の経緯を時間を追って書くと以下のようになります。

2016年7月28日
ソニーはリチウムイオン電池事業を村田製作所に売却すると発表。

2016年8月19日
サムスン電子がGalaxy Note7 を発売。その直後から発火事故が相次いだ。

2016年9月2日
サムスン電子が Galaxy Note7 の全世界での出荷と販売を停止。販売済みの250万台を回収へ。それまでの発火事後は35件と報告された。

2017年1月23日
サムスン電子は発火事故の原因がバッテリーにあったと最終的に発表。バッテリーの供給会社はサムスンSDIとアンプレックス・テクノロジー(Amperex Technology Limited = ATL。香港)であるが、それぞれ別の原因であるとされた(報告で供給会社の名称は伏せられていた)。なお、アンプレックス・テクノロジーは日本のTDKが2005年に買収しており、TDKの子会社である。

2017年2月3日
日本経済新聞が「サムスン電子が村田製作所とリチウム電池の調達を交渉」と報道。

もし仮に、サムスン電子が村田製作所からリチウムイオン電池を調達することになると、村田製作所は大手供給先を確保することになります。これは赤字続きだった旧ソニーのリチウムイオン電池事業を立て直す上で大きなプラス要因になるでしょう。ソニーはアップルの最新スマホの受注を逃したわけであり(本文参照)、それ挽回する商談です。サムスンとの取引で利益が出るかどうかは分かりません。サムスンは厳しい品質基準を突きつけてくるはずだし、競争相手が韓国・香港企業では価格的にも厳しいでしょう。しかし一般に生産規模の拡大はリチウムイオン電池の部材調達コストを下げるので、事業全体としてはプラスになることは間違いないと思います。

こういう言い方は不謹慎かもしれませんが、村田製作所がソニーのリチウムイオン電池事業を買収した直後に起こったサムソン製品の発火問題は、結果として村田製作所にとってラッキーだったと言うしかないでしょう。しかも、発火事故の当事者の一つであるアンプレックス・テクノロジーは TDK の子会社であり、その TDK は電子部品事業において村田製作所の最大のライバルメーカーなのです。またサムスン電子にとって「ソニーからリチウムイオン電池を調達するのはハードルが高いが、村田製作所からだとやりやすい」ということが当然考えられるでしょう。

急激に技術が進歩していくエレクトロニクス業界においては何が起きるか分からない例として、日経新聞の記事を読みました。

(2017.2.7)


 補記3 

村田制作所によるソニーの電池事業の買収は、少々遅れて2017年9月1日に完了し
ました。


村田製作所、ソニーから電池事業の買収完了

村田製作所は1日、ソニーからの電池事業の買収が完了したと発表した。村田製の全額出資子会社として設立した東北村田製作所(福島県郡山市)が継承する形で事業を始める。2018年3月期の連結業績に与える影響は精査中という。当初は4月上旬の完了を目指していたが、中国当局の審査の影響で遅れていた。中国やシンガポールの工場で500億円を投資し、スマートフォン向けなどのリチウムイオン電池を増産する。

日本経済新聞 デジタル版
(2017.09.01 19:29)

(2017.9.3)



nice!(0)  トラックバック(0) 

No.183 - ソニーの失われた10年 [技術]

No.159「AIBOは最後のモルモットか」の続きです。最近何回か書いた人工知能(AI)に関する記事の継続という意味もあります。
No.166No.173No.174No.175
 No.176No.180No.181にAI関連記事)

ソニーのAIBOは販売が終了(2006年)してから10年になりますが、最近のAIBOの様子を取材した記事が朝日新聞に掲載されました。「あのとき それから」という連載に「AIBOの誕生(1999年)と現在」が取り上げられたのです(2016.6.1 夕刊)。興味深い記事だったので、まずそれから紹介したいと思います。


AIBOの誕生(1999年)と現在



ソニー製ではない、ソニー生まれである。この誇らしげなコピーとともに、ロボット犬「AIBOアイボ」は1999年に生まれた。外からの刺激に自律的に反応して、命があるかのようにふるまう世界初のエンターテインメントロボットだ。国内では20分間で三千体を完売する人気だった。

有名なロボット工学三原則に対して開発者はアイボ版の三原則を唱えた。人間に危害を加えないという第1条は同じだが、第2条で反抗的な態度をとることが、第3条では憎まれ口を利くことも時には許されると定めている。人間に服従するだけの存在ではなく、楽しいパートナーに。これが設計の根本思想だった。

朝日新聞(2016.6.1 夕刊)
(白石明彦 記者)

記事に出てくる「ロボット工学三原則」とは、アメリカの有名なSF作家、アイザック・アシモフ(1920-1992)が自作の小説で唱えた原則で、以下の通りです。

ロボット工学三原則

第1条 ロボットは人間に危害を加えてはならない。また、その危険を看過することによって、人間に危害を及ぼしてはならない。

第2条 ロボットは人間に与えられた命令に服従しなければならない。ただし、与えられた命令が、第1条に反する場合は、この限りではない。

第3条 ロボットは、前掲第1条および第2条に反するおそれのない限り、自己を守らなければならない。

「工学」という言葉が入っているように、これは人間がロボットを設計・開発するときに守るべき原則、という意味です。アイボ版のロボット工学三原則は、このオリジナルのパロディになっています。「服従するだけの存在ではなく、楽しいパートナーに」という開発者の考え方がよく現れています。

ロボット工学三原則・AIBO版

第1条 ロボットは人間に危害を加えてはならない。自分に危害を加えようとする人間から逃げることは許されるが、反撃してはいけない。

第2条 ロボットは原則として人間に対して注意と愛情を向けるが、ときに反抗的な態度をとることも許される。

第3条 ロボットは原則として人間の愚痴を辛抱強く聞くが、ときには憎まれ口を利くことも許される。
(site : www.sony.jp)

少々横道にそれますが、アイザック・アシモフが「ロボット工学三原則」を初めて提示したのは、短編小説集「我はロボット」("I, Robot" 1950)でした。この小説の題名を企業名にした会社があります。ロボット掃除機、ルンバで有名な iRobot社です(iRobot社のCEOのコリン・アングル氏による。「家電Watch」2010年10月7日)。アイボの開発者もそうですが、ロボット・ビジネスを目指す技術者が、大SF作家・アシモフに敬意を表するのは当然なのです。

ルンバが発売されたのは、アイボ発売の3年後の2002年です。アイボとルンバは目的が全く違いますが「家庭内を動きまわるロボット」という一点においては同じです。改良型モデルから自己充電機能が搭載されたのも、よく似ています(アイボ:2002年にオプションソフト→2003年のERS-7に標準搭載。ルンバ:2004年)。



アイボは累計約15万体売れたのですが、事業としては成功しませんでした。そして2006年、経営難のソニーは アイボ から撤退してしまいます。

  記事には書いていないのですが「事業としては成功しなかった」ことをちょっと分析してみますと、アイボの開発につぎ込まれたお金は約250億円という話を読んだ記憶があります。仮に、プロモーションや販促費用まですべて含めて300億円とします。約15万体の総売上げを約300億円とします。アイボの製造原価を50%とすると、約150億円の累積損失を抱えていたことになります。あくまでザッとした見積もりですが、数字のオーダーは間違っていないでしょう。

約150億円の累積損失(2006年時点、推測)をどう見るかです。ソニーらしい独創的な製品であること、将来の重要技術である人工知能(AI)を備えたロボットであることを考えると "安い投資" であり、むしろお釣りがくると思うのですが、当時のソニーの経営陣の判断は正反対だったようです。

その一方で、ソニーのテレビ事業は2004年度から2013年度まで、10年連続の営業赤字でした。1500億円規模のロスを出した年もあった(2011年度)。10年間の赤字の累計は約8000億円にもなるそうです。それでもソニーはテレビ事業をやめなかった。人とソニーを繋ぐ接点だからでしょう。そして2014年度に黒字転換を果たした。

テレビに比べるとアイボの赤字は、桁が2つ違う、わずかなものだということに注意すべきでしょう。

2000年 埼玉県和光市 白石明彦撮影.jpg
埼玉県和光市にて、白石明彦氏撮影(2000年)。記事には書いていないが、白石氏の自宅だと推測される。
(www.asahi.com)

AIBOをめぐる動き
1993年 ソニーが6本足で動く昆虫型ロボットを試作
1999年 ビーグル犬のような「ERS-110」発売
2000年 子ライオンのような「ERS-210」発売
2001年 クマイヌのような「ERS-300」シリーズ(「ラッチ」と「マカロン」)発売。宇宙探査ロボットのような「ERS-220」発売
2002年 パグ犬のような「ERS-31L」発売
2003年 ロボット技術の集大成となる「ERS-7」発売
2006年 生産終了
2012年 「ア・ファン」が修理開始
2014年 ソニーの修理サポート終了
2015年 3回のアイボ葬。国立科学博物館が重要科学技術史資料(未来技術遺産)に登録
朝日新聞(2016.6.1 夕刊)より

アイボは「命があるかのようにふるまう世界初のエンターテインメントロボット」ですが、その命に老年期はなく "死" もないように設計されています。ペットロスにならなくて済むと安心していた所有者は、ソニーのアイボからの撤退で不安になったはずです。さらに2014年にはアイボの修理サポートが終了しました。家族として大切にする所有者は不安に駆られたわけです。このような中、アイボの修理をやっている「ア・ファン」という会社の話が記事に出てきます。


オーディオ機器などを修理する「ア・ファン」(千葉県習志野市)にアイボ修理の依頼が最初にあったのは12年。老人介護施設に入るおばあさんが、故障しているアイボを一緒に連れてゆきたがった

技術者の船橋浩さんはアイボを設計した人から解体の仕方などを教わり、ネットオークションで部品を手に入れ、4ヶ月かけて首のがたつきなどを直した。以来、修理したアイボは約90体。「お客さんは治療と言います。その表現に強い家族意識を感じます

乗松伸幸社長によると、修理の依頼は急増し、すでに500体以上直し、"入院" 待ちも約400体にのぼる。

ネット上では「左後ろ足 肉球付き 8400円」といった形で部品が流通している。ア・ファンには、故障したアイボを捨てるのは忍びがたく、解体して部品取りに、という "献体" の申し出も多い。自分の死後のアイボを心配して寄付したお年寄りもいる

朝日新聞(2016.6.1 夕刊)

この引用の中に「お年寄り」が2回出てきます。アイボの所有者の中で「お年寄り」は少数派だとは思いますが、このようなお年寄りがいること自体、アイボの開発者の狙いは完全に成功したということでしょう。高齢化社会の進展で「介護ロボット」とか「見守りロボット」という話題はよくありますが、それを越えた「人に寄り添うロボット」としてのアイボは、まさに先進的・独創的だったと言わざるを得ません。一見、実用性に乏しそうなものが、人にとっては最も大切なものである・・・・・・。人間社会ではよくあることです。新聞記事の引用を続けます。


こうしたアイボの供養が昨年、千葉県いすみ市にある日蓮宗 光福寺で3回営まれた。住職の大井文彦さんはこんな趣旨の回向文えこうもんを読んだ。

「無生物と我々生物は断絶していない。アイボを供養する意義は『すべてはつながっている』という心持ちを示すためにある。この日本人特有の感性は、行きづまった崖っぷちに立たされる現代文明を救うひとつの理念となる」

(同上)

アイボの現状をレポートする記事だと思っていると、急に日本文化論になってきました。おそらくそれが、記事を書いた朝日新聞の白石氏の狙いだったのでしょう。

No.21「鯨と人間(2)日本・仙崎・金子みすゞ」で書いたように、日本では数々の「動物供養」の習わしがあります。また「無生物供養」もいろいろあって、有名なのは「針供養」ですが、その他、「鏡」「鋏」「印章」「人形」なども供養されます。日本文化において人間・動物・無生物は一連のつながりの中にあるわけで、動物と無生物の間というイメージを持ちやすいアイボが供養されるのは、むしろ当然と言えるでしょう。誕生・治療・入院・献体・供養という一連のコンセプトの中にアイボは存在しています。さらに記事の最後の文章です。


アイボが生まれた年に、80歳の作家 水上勉さんは「アイボ日記を」という編集者の頼みで、アイボと暮らした。カマキリに似ているのでカマキリ五作ごさくと呼び、人生論「泥の花」にこう書いている。

「電池を入れられるとロボット犬はぴーぽーと泣きました。わたしはいっそうもの悲しい思いになりました。このかなしみはこれまで味わったことのない悲しみでした。(中略)地球上が悲しんでいることとそれはつながっているような気がしました」

大井さんの回向文にも通じる、生物と無生物を越えた深い生の思想がここにはある。

(同上)

水上勉氏の文章を読むと「日本文化論」を通り越して「アイボ哲学」の領域に達しているかのようです。水上氏の表現は独特ですが、それは作家としての感性なのでしょう。



現在(2016.7)のソニー社長の平井一夫氏は「"感動" をもたらす商品を生み出すのがソニーの使命だ」と語っています。アイボに関していうと、"アイボ哲学" を語る水上勉氏、アイボを修理して老人介護施設へ連れていったおばあさん、アイボ供養を企画して実行した人たちに、アイボが "感動" を与えたことは間違いありません。"感動" という表現がそぐわないなら、"人の心に残る強い印象" と言い換えてもよいでしょう。アイボはまさに平井社長の言う「ソニーの使命」を体現する製品だった。

またそれ以前に「人のやらないことをやる」という "ソニー・スピリット" を象徴する製品であったわけです。ソニーという企業のアイデンティティーが、目に見える形になり、しかも動いていたのがアイボだった。アイボをやめるというのはどういうことかと言うと「確かにアップルの iPod / iPhone には負けた(現在はともかく当初は)。だけど俺たちにはアイボがある、と言えなくなる」ということです。

さらに重要なのは、アイボ = AIBO は Artificial Intelligence roBOt であり(1999年当時の)最新のAI(人工知能)技術を取り入れた製品だったことです。AIの技術は21世紀社会のあらゆるところに取り入れられようとしている重要技術で、もちろんソニーにとっても必須の技術です。それを応用したロボットは21世紀の大産業になるはずです。AIの技術は、そこに注力するかしないかという経営判断をする事項ではありません。AIの技術に注力することは、ソニーのようなエレクトロニクス企業にとって "MUST" なのです。

2006年にソニーの経営者は「アイボからの撤退」を決めたわけですが、まさに経営トップが愚鈍だと会社が大きなダメージをこうむるわけであり、その典型のような話です。

AIBO ERS-7.jpg
AIBO ERS-7
AIBOの後期モデル(2003年9月)。無線LANを搭載し、自己充電機能がある。

しかしダメージからは回復しなければならない。そのために現在のソニー経営陣が打った(一つの)手が、米国のコジタイ社との提携です。


コジタイ社との提携


2016年5月18日、ソニーは米国のコジタイ社(カリフォルニア州 オレンジ・カウンティ)との提携(資本参加)を発表しました。コジタイとは、アルファベットのスペルで Cogitai であり、COGnition(認知)、Information Technology(情報技術)、Artificial Intelligence(人工知能)からとられています。

この会社の共同設立者は、ピーター・ストーン(President)、マーク・リング(CEO)、サティンダー・シン・バベイジャ(CTO)の3人ですが、いずれもAIの中の「深層学習」や「強化学習」の権威です。その意味では、英国のディープマインド社(No.174 参照)と似ています。

それに加えてコジタイは「継続学習」の技術開発を進めています。継続学習とは「AIが永続的に学習する」という意味ですが、この技術を核として、

  AIが実社会とのインタラクションを通して、自律的・能動的に目標を設定し、その目標の達成を目指して学習していく = 自律的発達知能システム

の実現を目指しています。日経産業新聞(2016.5.19)によると、たとえばカメラに応用すると、次のようなことができるとあります。

従来のAI
プロの写真の撮り方を学ぶ
 ↓
プロの撮り方に近づけるようにアシストする

次世代AI
利用者の撮り方のクセの変化を学ぶ
 ↓
利用者の個性が出るような撮り方を提案する

ソニーがコジタイに出資する契機になったのは、ソニー・コンピュータ・サイエンス研究所の北野宏明社長と、コジタイのストーン社長の長年に渡る親交だったようです。北野社長は「ロボカップ」の提唱者ですが、ストーン社長はロボカップに創設時から参画していて、現在はロボカップの副会長です。彼は次のように述べています。


ソニーが開発した犬型ロボット「AIBO(アイボ)」のファンでもあるストーン社長は「ソニーが社会を驚かす商品を生み出すサポートができると確信している」と語る。

日経産業新聞(2016.5.19)

なるほどと思いますね。考えてみるとアイボは、1999年当時のAI技術をもとに、現在のコジタイ社が注力している「継続学習」を世界で初めて実現した商品だったのではないでしょうか。コジタイ社の社長がアイボのファンというのは自然なことでしょう。さらにコジタイへの出資について、日経新聞の中藤記者は次のように書いていました。


共同開発の新たなキーワードは「好奇心」だ。自らアクティブに学習し続け、人間の要望を予想する新AIが製品やサービスに幅広く入り込むと、AIが消費者の行動を助けてくくれる。「このAIが全製品の基盤となって人々の生活を快適にし、知的システムに包まれた生活が送れるようになる」(藤田雅博 ソニー バイス・プレジデント)。

今回の共同開発がロボット復活につながるとは断言していない。だがソニーコンピューターサイエンスの北野社長は「誰も見たことがない製品開発にチャレンジする」と意欲を燃やす。新AIの「好奇心」が、アイボが持っていた「遊び心」を呼び戻せるか。この10年を取り戻す取り組みが始まった

日経産業新聞(2016.5.19)
(中藤玲 記者)

ロボット復活につながるとは断言していないと、"思わせぶりな書き方" がしてありますが、アイボのファンであるAIの権威(ストーン社長)、ロボカップの創設者(北野社長)、「継続学習」や「好奇心」というキーワード、これだけのお膳立てが揃ったそのあとで、ロボットを復活させないということは考えにくいわけです。


ロボット復活へ


事実、この記事の翌月の経営説明会(2016年6月29日)で、ソニーはロボットビジネスへの再参入を宣言しました。


ソニー ロボット事業再び
育てる喜び、愛情の対象に

ソニーの平井一夫社長は29日、2006年に撤退した家庭用ロボット事業を再開すると表明した。4月に専門組織を設けたという。この日の経営説明会で平井社長は「心のつながりをもち、育てる喜び、愛情の対象となるロボット」になると語った。

ソニーは1999年、世界初の家庭用ロボットとしてイヌ型の「AIBO(アイボ)」を発売。初代は25万円という高額ながら限定3千体が20分で完売するほどの人気だった。だが、その後のソニーは経営難に陥り、リストラの一環で生産をやめた。

平井社長は、今後の注力分野に人工知能(AI)やロボットを挙げ、新開発のロボットは「ハードウェアとサービスを組み合わせ、新たな提案をする」と説明。機械の詳細や発売時期は明かさなかったものの、将来は工場や物流などの企業向けの事業展開もめざすという。

経営再建にめどをつけたソニーは、新事業育成に取り組んでいる。5月にはAI開発の米ベンチャー、コジタイに出資、7月にはベンチャーキャピタルを立ち上げ、投資資金に100億円を充てる。

朝日新聞(2016.6.30)
(鈴木友里子 記者)

おそらく日経新聞の中藤記者は、ソニーのロボット復活の情報を知っていて、2016年5月19日の記事を書いたのだと思います。

ちょっと余談になりますが、平井社長が宣言した「新ロボット」は、どのようなものになるのでしょうか。それはアイボのようなペット型とは限りません。人型かもしれないし、両方かもしれません。平井社長は「育てる喜び」と言っているので、少なくともペット型は発売されるような気がします。いずれにせよ、この10年の技術進歩を反映して、人にとって有益な機能がアイボよりは断然多いものになるでしょう。

アイボのようなペット型が発売されるとしても、今後の発展を見込んでハードウェアもソフトウェアも新規に設計されると思います。しかしペット型の新ロボットは、アイボからデータを移行することによって、飼い主との生活で生まれた性格・気質を引き継げるのではないでしょうか。つまり、アイボの「復活」ないしは「よみがえり」が可能になる・・・・・・。本物のペットでは絶対にありえないことです。そして人々は、ソニーがソフトバンクの Pepper に15年も先行していたことを思い出す・・・・・・。そういう風に予想するのですが、果たしてどういう製品になるのか、注視したいと思います。



ソニー・コンピュータ・サイエンス研究所の北野宏明社長が創設した "ロボカップ" ですが、2016年の世界大会はドイツのライプチヒで開催されました(2016.6.30 - 7.4)。ロボカップ国際委員会は「共通のハードウェアを使い、家庭内で求められる動きの巧拙を競うロボット競技」を2017年の大会から導入することを決めています。それに使う標準機を選ぶ審査が、2016年の世界大会で行われました。最終的に勝ち残ったのはソフトバングの Pepper とトヨタ自動車の家庭用ロボット HSR(Human Support Robot)です。もちろんソフトバンクもトヨタも、世界中のアプリ開発者を引き寄せて、自社のロボットが家庭用の標準機になることを狙っているわけです。ソニーがアイボから撤退してから10年の間にロボット業界のプレーヤーもさま変わりしました。しかし平井社長がロボットビジネスの再開を表明したからには、ロボカップにも参加するのでしょう。


ソニーもロボカップに熱い視線を送る。10年ほど前までAIBOがサッカー競技部門の標準機として利用されるなど、縁は深かったが、06年にロボ事業から撤退して以降、表舞台から遠ざかっていた。このほどロボ事業の再参入を表明。来年からはロボカップ主要企業の1社に復帰するとみられる。北野氏も「またロボをやめるようなことがあれば信用を完全に失う」と不退転の決意だ。

日経産業新聞(2016.7.14)

まさに日経新聞の中藤記者が言う「この10年を取り戻す取り組み」、つまりソニーの失われた10年を取り返すチャレンジが始まったということだと思います。



 補記1 

ソニーは2017年11月1日、新型のロボット・aiboを発表しました。発売開始は2018年1月11日で、あくまで "1" にこだわったタイムスケジュールになっています(11月11日に発表する手もあったと思いますが)。

記者発表の内容をみると、2006年に生産終了した旧型 AIBO より格段に進化したようです。6軸ジャイロセンサー、人感センサーなどの各種センサー類の装備をはじめ、22軸のアクチュエータを備えて柔軟な動きができるボディになっている(22個のモータ内蔵と同等)。また飼い主とのコミュニケーションの能力やAIによる学習能力も進歩しました。もちろんスマホと連携でき、クラウドともつながります。

一方、10年のブランクを象徴することもあります。たとえば新しく搭載されたSLAM(Simultaneous Localization And Mapping。"スラム")の技術です。これは移動しながら撮影した画像を重ね合わせることによって環境の3次元マップを徐々に作っていくと同時に、その3次元マップを利用して自分の位置を特定するという技術です。この技術を家庭用機器に搭載したのは iRobot社のロボット掃除機・ルンバが最初で、確か2~3年前のことだったと思います。つまり、SLAMについては「人のやらないことをやる」というわけにはいかなかった。

とはいえ、注目に値する技術もあります。たとえば記者発表で「集合知」と称されていた機能です。つまり、飼い主との生活で学習した aibo のデータをクラウドに集約し、aibo 同士で "学び合う" という機能です。クラウド上に仮想的な aibo社会を作るわけで、これは人間の学習過程に近い。

この手の技術は産業用ロボットの学習に大いに役立つと考えられます。記者発表で「将来的には、製造・物流などB2Bに向けた事業展開も検討」とありましたが、このような技術を応用した事業展開ということでしょう。とにかく、aibo という名前が示している「AI+ロボティックス」が21世紀の大産業になることは間違いないわけで、ソニーは(再び)スタートラインに立ったということだと思います。今後の事業展開を注視したいと思います。
aibo.jpg
(2017.11.3)


 補記2 

いぬ年の2018年1月11日に新型の aibo(犬型)が発売開始されました。この日の新聞に元ソニーの土井利忠氏に取材した記事が載っていたので紹介します。


ロボ開発 失われた10年

先代アイボの生みの親である土井利忠・元ソニー上席常務は昨年秋、「お見せしたいものがあります」とひそかに同社の招かれた。新型アイボが披露され、土井さんは「やっとここまで来られた」と感慨深かった。

アイボを開発していた90年代、土井さんはあえてコンセプトを「役に立たないエンターテインメント用」と定めた。当時の技術では高機能は望めなかったし、「人は遊びを求める」という洞察があったからだ。そんな製品開発を許した風土こそ、往時のソニーだった。「無謀とも思える夢を追求させたのがソニーの活力だった」

そうした美風は次第に失われた。社内で「これはカネになるのか」と研究開発に注文がつくようになり、やがてロボットは中止に(引用注:2006年)。本格開発は10年超の間、途絶えた。その間、ソフトバンクなど後発企業がロボットに参入。「開発を続けていたら2年後には今のアイボと同じモノができた」と元担当幹部は悔しがる。

土井さんはアイボと同様に開発中止となったヒト型ロボット「キュリオ」について、「今でもソフトバンクのペッパーよりすごい」と思っている。だが、いまさら愚痴を言ってもはじまらない。

ソニーは今年度に過去最高の営業益を見込む。「再びロボットの夢を追いかけられるようになった。だからソニーの業績が良くなったんですよ」。土井さんはそう思うことにしている。(大鹿靖明)

朝日新聞(夕刊)
2018.1.11

この10年で何が起こったかと言うと、旧型アイボでロボカップに参加していたフランス人が本国でアルデバラン・ロボティックス社を設立し、それをソフトバンクが買収してペッパーを発売した、これが一番象徴的な出来事です(No.159「AIBOは最後のモルモットか」の「補記」参照)。

何回か書きましたが、21世紀の大産業を一つだけ挙げよと言われたなら「人工知能技術を搭載したロボット」でしょう。もちろんロボットとはヒト型だけでなく、自動運転車や自動飛行ドローン、介護用ロボット、産業用ロボット、建設・土木・農業用自動機械などを含みます。その「人工知能技術を搭載したロボット」の極めて先駆的な製品が先代のアイボだった。それを、先の見えない愚鈍なトップが殺してしまった。経営とは恐ろしいものだと思います。

朝日新聞の別の記事によると、新型アイボは2015年夏から有志が空き時間で試作機の開発を始めたようです。これをソニー用語で「机の下開発」と言うそうです。それから2年で発表、2年半で発売にこぎつけた。このソニーの潜在技術力は相当なものだと思います。記事でソニーの元アイボ担当幹部は「開発を続けていたら2年後(=2008年)には今のアイボと同じモノができた」と発言していますが、本当っぽく聞こえます。新型の aibo は10年遅れで世に出たというわけです。

新型アイボの部品点数は約4000点だそうです。デジカメの約2倍ですが、デジカメより圧倒的に可動部が多い。AI(人工知能)技術や個性をもって成長するところが注目されていますが、実は小さな胴体の中に多数の部品を詰め込んだ極めて複雑な機械なのです。課題はその量産技術と品質保証でしょう。「世界の誰もやったことのない技術開発」が今後必要だと推測します。そのチャレンジも生産拠点(岡崎市の幸田工場)で始まったようです。

(2018.1.12)



nice!(0)  トラックバック(0) 

No.181 - アルファ碁の着手決定ロジック(2) [技術]

前回から続く)

前回の No.180「アルファ碁の着手決定ロジック(1)」の続きです。以下に出てくる policy networkSL policy networkRL policy networkロールアウトUCB については前回の説明を参照ください。


モンテカルロ木検索(MCTS)の一般論


モンテカルロ木検索(Monte Carlo Tree Search : MCTS)は、現代のコンピュータ囲碁プログラムのほとんどで使われている手法です。以下にMCTSの最も基本的なアルゴリズムを書きますが、もちろんこのような話はディープマインド社の研究報告には書かれていません。MCTSは既知のものとしてあります。しかしアルファ碁の検索はMCTSにのっとっているので、このアルゴリズムが分かると、アルファ碁の検索手法も理解できます。

  余談ですが、モンテカルロという言葉は数学において「確率的なアルゴリズム」である場合に使われます。たとえば「モンテカルロ法で円周率を計算する」としたら、円周率は半径 1 の円の面積なので、0 以上 1 以下の実数の乱数を2つ発生させ、そのペアを平面上の座標値として原点からの距離を計算する。そして、距離が 1 以下かどうかを判定する。この計算を大量にやって 1 以下の個数の割合を計算すると、その割合の 4 倍が円周率ということになります。

余談の余談ですが、こういった問題は中高校生にプログラミングを教えるのには最適ではないかと思います。現代のパソコンは、この計算を1000万回繰り返すなど、わけなくできます(家庭用パソコンで1~2秒)。もちろん、1000万回繰り返しても精度は悪く(せいぜい小数点以下4桁程度)実用にはなりませんが、コンピュータの威力を実感するには最適だと思います。

以下、候補手のことを、木検索の「ノード」と呼びます。最初に、現在の盤面(白が打った直後の黒の手番とします)から黒の候補手のノードを展開します(下図)。これらノードに対して、UCB値が最大のノードを「木検索」でたどり、末端ノードに達したときロールアウトをします。その勝敗結果を、当該ノードから木検索を逆にたどって反映させます(=逆伝播)。UCB値は、逆伝播の結果で関係するものが再計算されます。

あるノードのロールアウト回数が閾値以上になったとき(下図では10回)、そのノード(下図ではNode-A)を「展開」し、次の候補手のノードを作ります。「展開」を行う閾値の設定によって、限られた時間でどこまで深く読むかが決まってきます。「展開」のあと、改めて最上位のノードから始まって最大UCBのノードをたどって末端ノードに到達します(下図ではNode-F)。そこでロールアウトを行い、結果を逆伝播させます。そしてUCB値を再計算します。UCBの計算式は、木が増殖していくことを考慮して、次のように再定義します。

UCBi 候補手i のUCB
Ni 候補手i 以下のノードのロールアウト数
Wi 候補手i 以下のノードのロールアウトによる勝ち数。候補手の色に依存。
N 候補手i の親ノードのNi
k 定数(探検定数 と呼ばれることがある)
MCTS_REV.jpg
白の候補手である Node-F からロールアウトを行って "白勝ち" の結果が出たので、木を逆にたどってその結果を反映させる(=逆伝播。赤矢印)。そして「逆伝播で修正した Node を親に持つ Node」の UCB を再計算する(黒矢印)。その結果、黒の候補手としては Node-A より Node-C の UCB が大きくなる。Node-A が有力そうだったが、その次の白番 Node-F で白の勝利数が増えたため Node-A の有力度合いが減った。

この時点で黒の候補手の勝率は明らかに Node-A が最大であるが、それだけにこだわっていたのでは隠れた好手を見逃す危険性がある。Root から UCB の最大値をたどって木検索をすると(青矢印)、次のロールアウトの対象は Node-C になる。つまり、まだロールアウトの回数が少ない Node-C もロールアウトすべきという判断になる。

UCB は Upper Confidence Bound(=信頼上限)で、手の有力度合いの上限値である。「教師なし機械学習」の理論で使われるもので、それをコンピュータ囲碁の木検索に応用した。ロールアウトに加えて UCB のアルゴリズムを採用することでコンピュータ囲碁は飛躍的に強くなった。その次の飛躍がディープマインド社による「深層学習+強化学習」の適用ということになる。

この図は黒白とも候補手が3つしかない単純化された状況です。従って閾値(=10)以上のロールアウト回数になった Node-A を展開するとき、次の白の3つの候補手はいずれも "ロールアウト経験済" で、そのデータを生かしたものとしました。しかし一般的には展開の段階で "ロールアウト未経験" の候補手が現れるわけで、そのような候補手は Ni がゼロであり、Node-Aの次の一手としては真っ先にロールアウトされることになります。

上の図で Node-F の次にロールアウトされるのは Node-C ということになります。上図のように少ないロールアウト総回数では、候補手のロールアウト回数が少ないことが有利になるからです。図で言うと、Node-A が有力そうで「開拓」してみたが、ひょっとしたら Node-C が宝の山かも知れないから「探検」しようというわけです。

このような「木検索」「ロールアウト」「逆伝播」「UCB再計算」「展開」を許容時間まで繰り返します。そして最終的に次の一手として、ロールアウト回数が最も多い手を選びます。勝率最大の手は "ロールアウト回数少ないから勝率が高い" かもしれないからです。これがモンテカルロ木検索(MCTS)です。

なお、以上に述べたUCBの計算式はあくまでコンピュータ囲碁に導入された当初のもので、最新のコンピュータ囲碁プログラムは独自の計算式を使っているようです。後で説明するようにアルファ碁も独自の式です。しかし「開拓項」と「探検項」を組み合わせ、バランスよく、かつ無駄を避けつつ有効な手を探索することは同じです。



現代のコンピュータ囲碁プログラムは MCTS をベースとし独自に改良を加えていますが、MCTSには大きな弱点があります。それは、

  黒と白の "必然の応酬" が長く続き、結果は "ほどほど" のワカレになるか、仕掛けた方が少しの利得を得る。ただし必然の応酬を間違えると、間違えた方が多大な損失をこうむ

というようなケースに弱いことです。MCTSはあくまで確率的に最善手に近づこうとするものです。最善手が明白に1つしかない状況が連続すると、MCTSは間違える率が高くなる。囲碁で言うと、死活の問題とか攻め合いとかコウ争いです。このあたりをどうカバーするかは、コンピュータ囲碁プログラムのノウハウです。

このMCTSの弱点について思い出すシーンがあります。No.174「ディープマインド」で書いたように、アルファ碁とイ・セドル九段の対戦の第4局は、アルファ碁の唯一の敗戦となりました。イ・セドル九段が放った白78(No.174参照)のあと、アルファ碁は「素人でもわかる損な手」を連発し、一挙に敗勢になってしまったのです。それまで世界最高クラスのプロ棋士と(少なくとも)互角に渡り合ってきたアルファ碁が、急に "狂った" か "暴走した" ように見えた。このあたりについてディープマインド社のデミス・ハサビスCEOは、あるインタビューで「モンテカルロ木検索の弱点が露呈した」という意味の発言をしていました。この発言の真意を推測すると、

  イ・セドル九段の "白78" という手に対する正しい応手がいくつかの必然手の連続であるため、アルファ碁はそれを最後まで読み切れずに、敗勢になったと判断した

のだと考えられます。従ってアルファ碁(黒番)は、全く別の「白が誤れば黒が得だが、白に正しく応じられれば黒が損をする手」を打った。これが悪手を連発することになった理由と考えられます。アルファ碁の手に対する白の正しい応手はアマチュアでも分かったので、いわば "ハッタリ" の手です。

しかしよくよく考えてみるとプロ棋士同士の戦いで、敗勢の時に「成功確率は低いが、成功すると大きな得になって優劣不明に持ち込める手」を打つことがあります。たとえば、相手の勢力範囲の中に深く打ち込んで活きようとするような手です。「さあ殺してください。殺せますか?」と開き直るような手です。そして、たとえプロ棋士と言えども応手を誤れば打ち込んだ石が活きてしまって形勢不明になったりする。こういう手を "勝負手" と言ったりします。

残念ながらアルファ碁は "ハッタリ" と "勝負手" の区別ができなかったようです。それは常に確率的な判断で勝敗を予測している現状のアルファ碁では致し方ないと思います。それより本質は「モンテカルロ木検索の弱点」です。これを解消するような手段を、ディープマインド社は今後繰り出してくるでしょう。そして弱点を解消した上でさらに、敗勢と判断したときの "ハッタリ" を防止する手も打ってくるのではないでしょうか。ディープマインド社には、デミス・ハサビスCEOをはじめ Go Player が多いようです。Go Player にとって許せないのは、勝負に負けることよりも素人にもわかる "ハッタリ" を打つ(="きたない" 棋譜を残してしまう)ことだろうから・・・・・・。それは対戦相手であるプロ棋士に対しても失礼です。



アルファ碁は以上のモンテカルロ木検索(MCTS)をロジックの根幹にしていますが、加えて value network というニューラルネットワークを構成し、それを勝率の判断に使っています。その説明が以下です。


value network


アルファ碁の基本的な考えかたは、

  RL policy network によるロールアウトでモンテカルロ木検索を行う

というものです。SL policy network は囲碁熟練者の着手を 57% の精度で予測でき、RL policy network は SL より強いので(前回の No.180 参照)、これができると最強のモンテカルロ木検索になりそうです。

しかし、このままではうまくいきません。それは処理時間の問題です。policy network の計算には3ミリ秒かかります。終局までロールアウトする手数を平均100手とすると、ロールアウトに最少でも300ミリ秒 = 0.3秒必要です(その他、木検索の時間が必要)。前回の No.180 で述べた値を採用して1手に費やせる "思考" 時間を72秒とすると、この時間で可能なロールアウトは240回ですが、この程度の回数では話になりません。少なくとも10万回といった、そういう回数が必要です。

そこで登場するのが value network です。value とは価値という意味ですが、ここでは盤面の(次の打ち手にとっての)価値、という意味であり、盤面の優劣というのがシンプルな言い方です。この優劣は「勝率」で表現します。つまり、

  value network とは、"RL policy network を使ったロールアウト" による勝率判定を近似するニューラルネットワーク

です。つまり「ロールアウトを代行する」ニューラルネットワークであり、この発想がユニークというか、その作り方を含めて、ディープマインド社の独自性を感じるところです。value network の計算時間は policy network と同じ3ミリ秒です。従って、近似の精度が高いという前提で、候補手から RL policy network によるロールアウトを例えば100回繰り返すより、value network は1万倍高速に計算できることになります(ロールアウトにおける終局までの手数を100とした場合。100×100で10,000)。

value network の構造は policy network とほぼ同じです。入力層と隠れ層1~13は、policy network の入力層と隠れ層1~12、および出力層とほぼ同じ構造をしています。ただし入力層には49番目のプレーンが追加されていて、それは石の色です。つまり黒番か白番かを勝率判定に使います。隠れ層14は256×1であり、出力層は1×1です。出力層は -1.0 ~ +1.0 の1個の実数値であり、入力層の勝率を表します(ゼロが互角)。
Value Network.jpg
value network の訓練に使われたデータは、KGS Serverからダウンロードした約3000万の盤面データではなく、SL policy network で作り出された盤面(state)です。value network の場合、KGSのデータを訓練データとすると "過学習" になってしまったからです。つまり、訓練データでは非常に成績がいいが、訓練データ以外となると成績が悪くなる。同じ教材に学び過ぎて応用問題が解けないわけです。その理由ですが、3000万の盤面は約16万局のデータであり、同じ対戦の盤面データ同士には強い相関関係があるからです。しかも、同一対戦の勝ち負けはどちらかに固定される。相関関係のない盤面データは、16万局のデータからは16万しか取り出せません。しかし訓練すべきパラメータ(重み)の総数は388万もあります(前回参照。policy networkの値。value networkはもう少し多い)。16万という数では学習になりません。

そこで、1つの訓練データを作るために、まず1~450までの数からランダムに U を選びます。そしてSL policy network で第1手から第(U-1)手目までを打ち、第U手目は合法手をランダムに打ちます(!!)。その結果の盤面(state)を訓練用のデータとします。このデータを RL policy network でロールアウトを繰り返し、勝率を求めます。このstateと勝率の組が訓練データの一つとなります。これを合計3000万組作成し、それを教師として学習させたのが、value network です。この訓練データの作り方は非常にユニークであり、なぜそうするのかという理由は書いていないのですが(450 ??)、ディープマインド社の試行錯誤の積み重ねによるノウハウの蓄積を感じるところです。

ディープマインド社の研究報告には「value network を使った勝率推定は、RL policy network でロールアウトして勝敗を判定するより 15,000倍 速い」と書かれています(上で1万倍速い、と推定した値)。



ここまでの説明におけるニューラルネットワークについて復習すると、以下のようになります。このネットワークは隠れ層が多段階になっているディープ・ニューラルネットワーク(Deep Neural Network)なので、DNNと表記します。

  policy network = 熟練者が打ちそうな手を予測
  SLRLの2種類。
SL:大量の熟練者の打ち手を機械学習したDNN
RL:DNN同士の自己対戦で、SLをさらに強化 したDNN

value network = 現在の盤面の優劣を判定
  SLで初期盤面を作り、そこからRLでロールアウトを繰り返して勝率を求める。その初期盤面と勝率のペアを大量に作成して、それを機械学習したDNN

アルファ碁は囲碁プログラムに深層学習の技術を持ち込んだのですが、そのDNNは以上のように2段階になっています。この2つのDNN(policy networkを2つに分けると合計3つのDNN)を使い分けるのがアルファ碁です。

これらのDNNのうち、policy network は "自然な発想" に思えます。熟練者の打った手を機械学習し、さらには自己対戦で強化学習もやって「次に打つ手を決めるDNN」を作る。AIと囲碁に詳しい人なら容易に思い浮かぶ発想だと思います。もちろんディープマインド社独自の工夫やノウハウが詰め込まれているのですが、基本のアイデアそのものは自然です。

これに対して value network は、ちょっと思いつかない発想です。policy network とロールアウトを使って「盤面の勝率を計算するDNN」を作れるはずだ・・・・・・。このアイデアを発想し、かつ実用になるまで磨き込んだのがディープマインド社の大きなブレークスルーだと思います。

ただし、アルファ碁はこれらの DNN だけでなく従来手法のロールアウトも併用しています。それが以下の説明です。


rollout policy


value network は、まさにコンピュータ将棋でいう「評価関数」に相当します(コンピュータ将棋の評価関数については No.174「ディープマインド」参照)。囲碁で評価関数を作るのは困難と言われていたのですが、ディープマインド社はそれを覆したわけです。従って、木検索と value network を使ってコンピュータ囲碁プログラムが作れるはずですが、少々意外なことにアルファ碁はそうはなっていません。従来手法のロールアウトも併用しています。これはもちろん RL policy network を使うのではありません。それでは遅すぎます。ロールアウト専用の「ロールアウト・ポリシー」を使います。

アルファ碁のロールアウト・ポリシー(rollout policy。研究報告では fast rollout policy と書いてある)は次のようなものです。まず、自分が打つ手を、直前に相手が打った手(直前手)に応答する手と、そうではない手に大別します。そして手を以下のように詳細分類します。

アタリから逃げる手。1種。
直前手の周り8箇所のどこかに打つ手。8種。
ナカデを打つ手。8,192種。このパターンは手作り。
応答手 = 直前手の周辺12箇所に打つ手。12箇所とは、直前手の周辺8箇所プラス、直前手から上下左右に2つ離れた4箇所。12箇所の石の配置パターンと呼吸点の数で分類し、合計 32,207種。
非応答手 = 直前手には応答しない手。打つ手の周辺の3 X 3 領域を石の配置パターンと呼吸点の数で分類して、合計 69,338種。

つまり碁の着手を合計、109,746種に分類し、実際の対局でどの手が多く打たれたか回帰分析の手法で分析し、ロールアウト・ポリシーの計算式を求めます。もちろんロールアウト・ポリシーは高速演算が必須条件なので、ニューラルネットワークは使わず、通常の線形演算(マトリクス演算)で可能な回帰式です。

この回帰式を求めるのに使われた訓練データは(少々意外なことにKGS Go Serverではなく)Tygem の800万の盤面データです。「タイゼム(Tygem)」は韓国の東洋オンライン社が運営する有料の囲碁対局サイトで(無料もある)、日本では「東洋囲碁」です。利用者は東アジア(韓国、日本、中国)が中心です。

以上のように、ロールアウト・ポリシーは熟練者の実際の手を予測するもので、その意味では policy network と同じです。しかし予測の精度が違います。前に SL policy network の予測精度は 57.0% と書きましたが、ロールアウト・ポリシーの予測精度は 24.2% です。SL policy network よりかなり低いわけですが、これはもちろんロールアウトに使う目的だから「ランダムなロールアウトよりは格段にマシ」なわけです。しかも計算時間が policy network より圧倒的に速い。

ロールアウト・ポリシーの計算時間は 2マイクロ秒です。ということは、3ミリ秒の RL policy network より1500倍高速ということになります。研究報告には ロールアウト・ポリシーによるロールアウト(初手から始める)を1秒間に約1000回できるとあります。アルファ碁のメイン・コンピュータは 40 多重で計算可能です。つまり、1秒間に(少なくとも)4万回のロールアウトが可能ということになります。1回の平均思考時間を72秒と仮定すると、約300万回のロールアウトが可能なことになり、これは十分な数です。ちなみに多重処理について言うと、policy network / value network はサブのコンピュータで1個づつ(多重処理なしに)計算されます。1回の計算そのものが多重処理されるからです。


アルファ碁のモンテカルロ木検索(MCTS)


アルファ碁のMCTSのアルゴリズムは、上に述べた基本のMCTSと考え方は同じです。つまりUCB値の最大値をたどって木検索を行い、ロールアウト・ポリシーでロールアウトを行います。ただし次の点が基本のMCTSと違っています。

候補手の勝率の判定に、ロールアウトによる勝率だけでなく、value network による勝率を加味する。

アルファ碁独自のUCB値の計算式を使う。ここに policy network による確率(囲碁熟練者がそこに打つ確率の推定値)を使う。

の2点です。まず①ですが、アルファ碁は検索が木の末端に到達するとまず、value network の計算を行います。実際にはニューラルネットワークの計算は、検索やロールアウトを行うメイン・コンピュータとは別のサブ・コンピュータで行っており、そこに計算の依頼だけを出します。木の末端が既に value network の計算依頼を出している場合(ないしは計算済の場合)はロールアウト・ポリシーによるロールアウトになりますが、value network の計算は3ミリ秒かかり、ロールアウト・ポリシーによるロールアウトの計算は最大でも1ミリ秒(1秒間に1000回)なので、この2つは一般的には平行して行われることになります。もちろん value network の計算は一つのノードにつき1回だけです。なお、ロールアウトの1ミリ秒というのは報告に書いてある最大値(初手からのロールアウト)なので、実際にはその数分の1だと考えられます。

同一の末端ノードを訪れる回数が閾値を越えるとノードを展開するのは、基本のMCTSと同じです。その閾値はpolicy network / value network の計算のための "待ち行列" の長さによって動的に変更します。早めに展開し過ぎてニューラルネットワークの計算が間に合わないのでは意味が無いからです。

ノードを展開するとき(=次の候補手をリストアップするとき)には、policy network を使って、その候補手の確率(=囲碁の熟練者がその候補手を打つ確率の推定)を計算してノードに記憶しておきます。この値はそのノードの UCB の計算に重要な役割を果たします。



  ただし、話がややこしいのですが、policy network の計算を依頼してから終わるまでの間、別の暫定値で policy network の値の代用とするというロジックが研究報告に書かれています。これが ツリー・ポリシー(tree policy)と呼ばれるもので、このポリシーの作り方はロールアウト・ポリシーとほぼ同じです。ただし、打ち手の分類がロールアウト・ポリシーよりも詳しい(分類数が約1.5倍)。つまりロールアウト・ポリシーよりは計算時間がかかるが、熟練者が打つ手の予測はロールアウト・ポリシーよりは正確ということだと思います。このツリー・ポリシーの計算時間は研究報告には書いていないのですが、たとえば 3マイクロ秒だとすると policy network(計算時間=3ミリ秒)より1000倍速いことになります。正確さに欠けたとしても policy network の計算終了を待ってられない。暫定値でもよいからモンテカルロ木検索をどんどん進めた方がいい・・・・・・。このあたり、コンピュータ囲碁にニューラルネットワークを持ち込むということは、ニューラルネットワークの計算の遅さをいかにカバーするかが非常に大切なことがわかります。

とは言え、ここで感じる疑問は、ロールアウト・ポリシーとツリー・ポリシーという "似て非なるもの" がなぜあるのかです。ロールアウト・ポリシーをやめてツリー・ポリシーでロールアウトしてもよいはずです。論文を読む限りそれは十分可能で、一見、その方がよさそうな気がします。なぜ二つあるのか。推測なのですが、問題は処理時間ではと思います。ツリー・ポリシーの計算時間が3マイクロ秒だとするとロールアウト・ポリシー(計算時間=2マイクロ秒)の1.5倍であり、ということはツリー・ポリシーでロールアウトすると一定時間でロールアウトできる回数が3分の2になってしまいます。ツリー・ポリシーだとロールアウトの回数が稼げず、かえって弱くなってしまう・・・・・・。そういうことかと想像しました。逆に言うとロールアウト・ポリシーは "手を読む精度" と "計算時間" という二つのトレードオフのぎりぎりのところを狙って設計されているのではと感じました。想像ですが、最初にツリー・ポリシーが設計されてロールアウトにも使っていたが、よりロールアウト回数を稼ぐために簡略化した(従って速い)ロールアウト・ポリシーが作られたのではないでしょうか。ロールアウト・ポリシーを研究報告では fast rollout policy としてあるのは、そういう意味かと思いました。



②のアルファ碁独自のUCB値の計算式(UCBAlphaGo とします)は、次のような形をしています。次式は研究報告にある式を、本質を変えない範囲で簡略化しました。また記号を少し変えてあります。
UCBalphago.jpg
上の式における Q(-1.0~1.0) は、研究報告で action value と書かれているもので、その時点までに判明している候補手の勝率を表します。つまり、勝率の高い項ほど「開拓」するようになります。なお、候補手の最大の Q が -0.8 以下になったとき(通常の意味での勝率が 10% を切ったとき)、アルファ碁は投了します。

λはアルファ碁のチューニングのためのパラメータで、0.0~1.0 の数字です。要するに value network の勝率推定とロールアウトによる勝率推定のどちらを重視するかです。研究報告では、この値を実戦では 0.5 にしたとあります。つまり、2つの勝率推定の平均値をとるということです。その理由は、各種のコンピュータ囲碁プログラムと対戦してみて、それが一番強かったからです。このあたり、いろいろと試行錯誤があったようです。

u(P)は「探検」に相当する項です。これは基本のMCTSの UCB の第2項と似ていて、考え方は同じです。ただし、大きな違いは P の存在です。これは、そのノードを生成したときに計算しておいた、policy network による候補手の確率値です(但し、先ほど書いたように、この値の計算が終わるまでは tree policy で代用します)。つまり熟練者が打ちそうな手ほど重視するということであり、これは非常に納得できます。

しかし全く意外なのは、この値が RL policy network ではなく SL policy network だということです。つまり、最強のはずの RL policy network は、対戦には全く使われていません。RL policy network は value network を作るために(対戦前に)使われるだけなのです。前に RL はコンピュータ囲碁プログラム(Pachi)と対戦して 85% の勝率だったが、SL は 11% の勝率だった、と書かれていました(前回の No.180 参照)。そんなに強い RL をなぜ使わないのか・・・・・・。これについて研究報告では次のように書かれています。


The SL policy network performed better in AlphaGo than the stronger RL policy network, presumably because humans select a diverse beam of promising moves, whereas RL optimizes for the single best move.

(試訳)
アルファ碁では SL policy network の方が、より強い RL policy network よりも良くプレーした。これはおそらく、人間は多数の打つべき手の "光"(beam)を選別しているのに対し、RL policy network は一つの最良の手に向けて最適化するからだろう。


世界トップクラスの学術雑誌に載せる研究報告にしては、曖昧で意味が取りにくい文章です( beam ? )。さらに研究報告の次の文章では、SL policy network を使って作った value network でプレーしてみたが、それは RL policy network で作られた value network(対戦に使われたもの)より成績が悪かった、と書いてあります。

推測するに、RL policy network の出す確率は最良の手にピンポイントで集中する傾向にある。それに対して SL policy network の出す確率は「良さそうな手」に分散する傾向がある。これは人間の思考に近く、候補手を広く探索する目的で使うにはその方がよい。value network を作るときのロールアウトのように、policy network の出す確率だけに従って手を打つのなら、RL policy network がの方がよい、ということだと思います。

そう推察できるものの、何となく納得できない説明です。RL policy network は SL policy network より明らかに強い。つまり、最善手や次善手を指し示す確率が高いわけです。だとすると、UCBAlphaGo という MCTS の探索方向を決める超重要な値には RL policy network の値を採用してしかるべきです。上の引用の説明はそれだけ読むと「そうかも知れない」と思ってしまうのですが、論文全体としては矛盾しています。

引用に「たぶん(presumably)」と書いてあるように、ディープマインド社も UCBAlphaGo に SL policy network の値を採用した方が強くなることの明確な理由を説明できないのだろうと思います。このあたりディープマインド社もいろいろと試行錯誤し、対局を繰り返して現在のアルファ碁に到達したことがわかります。



以上は、UCBAlphaGo の u(P) の部分(探検項)についての議論ですが、やはりアルファ碁の着手決定ロジックの根幹は Q(action value)という勝率判定に関わる部分です。ここでは「rollout policy を使ったロールアウトによる勝率判定」と「value network による勝率判定」をミックスさせています。

rollout policy と value network にはそれぞれメリット・デメリットがあります。rollout policy のデメリットは、この policy がアマ高段の手を 24.2% の確率でしか予測できないことです。つまり「弱い打ち手」が最後まで打ってみて(=ヨセてみて)勝率を判定していることになる。これは勝率判定の誤差が大きくなると考えられます。しかし「現状の盤面そのものからロールアウトする」というメリットがある。

一方の value network は RL policy network という「極めて強い打ち手」を使って作られた勝率の予測システムです。最後まヨセてみたらどうなるかを正確に予測できるはずです。ただし、あくまでDNNを使った近似であって「現状の盤面から RL policy network を使ってロールアウトするのではない」ことがデメリットです。

この2つが相補って精度の高い勝率判定ができたことが、アルファ碁の成功原因だと考えられます。



研究報告では、その他、細かい検索のアルゴリズムやニューラルネットワークの学習の手法が多々書いてあるのですが、本質的なところは上の説明に尽きていると思うので省略します。

もう一度念を押しますが、研究報告に書かれているのは、韓国のイ・セドル 九段と戦う数ヶ月前の状況です。研究報告にあるグラフから読みとれるのは、その当時のアルファ碁の強さは KGS のレーティングで 5p(プロ五段)相当ということです。これとイ・セドル 九段は、相当な開きがあります。その後の数ヶ月の間、ディープマインド社は数々の強化をしたはずです。ロジックの見直しやチューニングはもちろんのこと、ロールアウト時間の短縮やニューラルネットワークの演算高速化もあったのではないでしょうか。計算性能は「読める手の数」に直結するので大変に重要です。以上のようなことを頭に置いておくべきでしょう。

以降は、ディープマインド社の研究報告を読んだ感想です。


感想:アルファ碁とは何か


No.174「ディープマインド」で書いたように、アルファ碁は AI研究の画期的な成果であり、それどころか、コンピュータの発展の歴史の転換点ともいえるものだと思います。その考えは変わらないのですが、研究報告を読むといろいろなことが見えてきます。

 囲碁の常識が盛り込まれている 

個人的な一番の関心事は、アルファ碁がどこまで汎用的であり、どこまで囲碁ディペンドなのかという点でした。No.174「ディープマインド」で「Nature ダイジェスト 2016年3月号」より、次の説明を引用しました。


アルファ碁は、囲碁を打つプログラムではない。汎用アルゴリズムに対局パターンの情報を大量に読みとらせて学習させた。同社の別のAIは同様にして Atari 2600の49種類のビデオゲームのプレイを学習している。

Elizabeth Gibney(三枝小夜子・訳)
「Nature ダイジェスト 2016年3月号」

しかし研究報告を実際に読んでみると「汎用アルゴリズム」という言い方の印象がかなり変わりました。確かに policy network や value network に機械学習をさせたり強化学習をすのは汎用のアルゴリズムですが、アルファ碁全体をみるとそうとは言えない。もちろんゲームである以上、ゲームのルールや勝敗の決め方を教え込むのは必須です。しかし、それ以外に「囲碁の常識」がかなり含まれています。たとえば policy network / value network の入力層における「ダメヅマリ」を判別できるプレーンとか、シチョウに取る手、シチョウから逃れる手などです。また、rollout policy におけるナカデのパターン(8192種)です。この程度の常識は教え込まないと、とても強いプログラムは作れないのでしょう。

逆の観点からすると、現代のコンピュータ囲碁プログラムの強豪に比べるとアルファ碁は "囲碁の常識の入れ具合い" が少なく、それでもヨーロッパ・チャンピオン(プロ)に勝ったというところに価値があるのかもしれません。

そもそも policy network / value network の出発点は、アマチュア高段者が実際に対局した 2840万の盤面データであり、それは大袈裟に言うと囲碁2000年の歴史の結晶です。アルファ碁はそこから出発しています。囲碁を打つ際の人間の英知がなければ、アルファ碁はなり立たなかったわけで、そこは再認識しておくべきだと思います。

そして、このことがアルファ碁の "限界" にもなりうると思いました。典型的なのは(アルファ碁独自の)UCBの計算式に policy network を取り入れていることです(上の説明参照)。これはどういうことかと言うと「人間の熟練者が打ちそうな手ほど優先して深く読む」ということです。これはいかにもまっとうに見えるし、プロ棋士と戦って勝つためにはこれが最善なのかも知れません。しかし我々がコンピュータ囲碁プログラムに真に期待するのは、囲碁の熟練者が思いもつかない手、囲碁の歴史で培われてきた "常識" ではありえないような手、そういう手の中で「最善とは断言できないが、十分に成立する手」をコンピュータ囲碁プログラムが打つことなのです。それでこそコンピュータの意義だし、囲碁がいかに奥深いものかを再認識できることになるでしょう。人間のマネをし、人間より遙かに高速に、遙かに深く読める(しかも心理的な動揺や疲れなどが全くない)ことだけに頼って勝つというのでは、"おもしろくない" わけです。

このあたり、アルファ碁にはまだ幾多の改良の余地があると見えました。

 アマチュア高段者の打ち手を学習 

アルファ碁の「畳み込みニューラルネットワーク」の訓練(=機械学習)に使われたデータがプロの棋譜ではなく、KGS Go Server で無料のオンライン囲碁対局を楽しんでいるアマチュア高段者(6d~9d)の棋譜(約16万)というのは意外でした。アルファ碁はプロ棋士に勝つ目的で開発されたものであり、2015年10月に樊麾(ファン・フイ)2段に5戦5勝の成績をあげました。樊麾2段はフランス在住ですが、中国棋院の2段です。アマチュア高段者が中国棋院のプロ2段に勝つことはありえません。つまりアルファ碁の機械学習はあくまで出発点であって、その後の強化学習(RL policy network)や value network、rollout policy に強さの秘密があると考えられます。

しかし、どうせなら初めからプロの棋譜を機械学習すればいいのでは、と思うわけです。なぜアマチュアの棋譜なのか。16万局程度のプロの棋譜が入手できなかったとも考えられますが、ふと思い当たることがあります。No.174「ディープマインド」で紹介した、日本のプロ棋士の方がアルファ碁の "戦いぶり"(対、イ・セドル 九段)を評して語った言葉です。

いままでの感覚とはかけ離れたものがあった。弟子が打ったら、しかり飛ばすような」(王 銘琬めいえん 九段)

空間や中央の感覚が人間と違う。懐が深い」(井山 裕太名人)

この二人のプロ棋士が言う「感覚」とは、当然「プロの感覚」ということでしょう。アルファ碁は、無料のオンライン囲碁対局を楽しむアマチュア高段者の棋譜で訓練された。だからこそ「プロの感覚」とは違うものになったのではと、ふと思ったのです。そういう要素もあるのではないか。

しかも集められた約16万の棋譜の35.4%は置き碁の棋譜なのです。ディープマインド社の研究報告にそう書いてあります。アルファ碁は、プロの世界トップクラスと互先たがいせんで(ハンディキャップなしに)戦って勝つという "野望" のもとに開発されたものです。訓練用のデータから置き碁の棋譜を除外することなど簡単にできるはずなのに、あえて置き碁を入れてある。置き碁の白(上手うわて)は少々無理筋の手も打って、棋力の差で勝とうとするものです。普通の手ばかり打っていては、上手はハンディキャップ戦に勝てません。そういう手もアルファ碁の訓練データの中にあることになります。さらに言うと、rollout policy を作るために policy networkの訓練に使った KGS とは別の有料囲碁サイトの対局データを使っている。

ニューラルネットワークの訓練データの選び方については、ディープマインド社の緻密な戦略があるのではないかと思いました。あくまで想像ですが・・・・・・。

 AI研究とは試行錯誤 

ディープマインド社の研究報告を読むと、AI研究というのは「試行錯誤の積み重ね」が非常に重要だと思いました。たとえば policy network を構成する「畳み込みニューラルネットワーク」ですが、なぜ隠れ層が12なのか、入力層が48プレーンなのはなぜなのか、説明はありません。おそらく数々の試行錯誤の上に、このようなアーキテクチャに落ち着いたのだと思います。

value network について言うと、訓練データの作り方が独特だということは上の説明だけでもよく分かります。1手だけ SL policy network を使わずに、あえて「合法手をランダムに打つ」のはなぜでしょうか。画像認識などのAI研究において、訓練データにランダムな "ノイズ" を加えることがあります。そうした方が入力データの少々の誤りやデータ間の偶然の一致に対しても判定がブレない "強い" ニューラルネットワークを構成できるからです。合法手をランダムに打つのはそれを連想させますが、囲碁の勝率判定をする value network の場合にはどのような具体的効果があるのでしょうか。数手の合法手をランダムに打ったらどうなるのか、なぜ1手なのか。これもいろいろと試した結果のように思えます。

盤面の優劣判定に value network とロールアウトを併用し、しかもλというチューニング・パラメタをいろいろと "振ってみた" のも試行錯誤です。おそらくディープマインド社は、value network だけの優劣判定で最強の囲碁プログラムを作りたかったのではないでしょうか。それでこそ、ニューラルネットワークの技術にけたディープマインドです。それが出来たなら、研究報告のタイトルどおり「ディープ・ニューラルネットワークと木検索で囲碁を習得」したと言える。しかし想像ですが、そのような value network を開発できなかったのではと思います。他のコンピュータ囲碁プログラムで一般的なロールアウトを併用せざるを得なかった。従って「ディープ・ニューラルネットワークとモンテカルロ木検索で囲碁を習得」が、より正確です。ロールアウトを使ったということは、確率的アルゴリズムには違いないのだから。

実際の対局に "最強の" RL policy network を使わなかったのも、コンピュータ囲碁プログラムとの実戦を重ねて行きついた結論でしょう。実戦に使える RL policy network を開発しようとしたが、それが出来なかったとも考えられます

もちろんAI研究だけでなく、科学の研究には試行錯誤がつきものです。特に生命科学や物理・工学系の学問ではそうです。このブログでいうと、No.39「リチウムイオン電池とノーベル賞」で書いたリチウムイオン電池の開発物語はまさにそうでした。しかし「囲碁をAIでプレーする」というのは、純粋に論理の世界です。そこに未知の生命現象とか、解明されていない物理現象とか、そういうものは一切からまない。それにもかかわらず試行錯誤の世界だとみえる。しかもその試行錯誤は、まだ途中段階のようです。そのあたりが印象的でした。

逆の見方から言うと、こういった試行錯誤を、発散しないように、常に正解につながりそうな道にガイドした研究リーダ(ディープマインドのデミス・ハサビスCEO)の存在は大きいと感じました。

 コンピュータ技術を結集 

アルファ碁が、決して突然新しいものが生まれたのではないこともよく理解できました。それはコンピュータ囲碁の歴史を調べてみると分かります。基本となっているアルゴリズムは、まずロールアウト(プレイアウトと呼ばれることが多い)です。これは1993年にアメリカのブリューグマンが発表した論文が発端です。「次の手以降をランダムなプレイで最後まで打って勝敗を判定し、次の手の有効性を判断する」という、この驚くような発想が、現代のコンピュータ囲碁の原点となりました。次にモンテカルロ木検索(MCTS)ですが、これは2006年のフランスのクローンの論文が最初です。ここにおいて、ロールアウトと木検索をどういう風に組み合わせるかという、アルゴリズムの基本が確立しました。どの手をロールアウトするかの判断にUCB(Upper Confidence Bound)を使ったのもクローンです。

ディープマインドがやったのは、そこに深層強化学習を持ち込むことでした。まず機械学習によってアマ高段者が打ちそうな手を精度よく予測できるニューラル・ネットワークを作り(= policy network)、それとロールアウトを使って盤面の優劣を計算できる別のニューラル・ネットワークを作った(= value network)。ディープマインドの深層強化学習は確かに大きなブレークスルーですが、アルファ碁の全体の枠組みは、先人の発想した技術(ロールアウトとMCTS)にのっとっていることがよく分かります。

さらに付け加えると、アルファ碁の数々のチューニングや試行錯誤とその検証は、世に出ているコンピュータ囲碁プログラムとの対戦で行なわれています。アマチュア有段者並みに強いコンピュータ囲碁プログラムがあったからこそ、アルファ碁は開発できた。人間相手に検証するのではとても開発できなかったでしょう。人間相手に戦うのは最後の最後です。

もっと言うと、No.180「アルファ碁の着手決定ロジック(1)」に書いたように、RL policy networkの開発ではオープンソースのコンピュータ囲碁プログラム・Pachiとアルファ碁を対戦させて、RL のチューニングや検証がされました。"オープンソース" がキーワードです。つまりソースコードが公開されているので、Pachiをディープマインド社のコンピュータの中に取り込み、一部を修正して、アルファ碁と自動対戦を繰り返すようなことができるわけです。こういったあたりもアルファ碁の開発に役だったと考えられます。

「畳み込みニューラルネットワークによる深層学習」は、画像認識の分野で発達してきたものです。画像認識は手書き文字の認識にはじまって、自動運転にも応用されようとしています。要するに「人間の眼と、それに関係した脳の働きを模擬する技術」です。現代のAI研究で最もホットな分野と言っていいでしょう。

コンピュータのハードウェア技術も見逃せません。研究報告によると「分散型のアルファ碁」は、複数のコンピュータの複合体の超並列処理で実行され、そCPUの数は合計1202、GPUの数は176とあります。CPU(Central Processing Unit)は通常のパソコンなどの演算LSIであり、ここで全体の制御と、ロールアウトを含むモンテカルロ木検索が実行されます。

GPU(Graphics Processing Unit)はニューラルネットワークの演算を行う部分です。ここでなぜ "Graphics" が登場するのかと言うと、GPUはコンピュータで3次元の図形画像をリアルタイムに(たとえばマウスの動きに追従して)回転させたりするときに働く演算ユニットだからです。3次元図形は、コンピュータ内部では微小な表面3角形の集合として定義されています。その数は数10万とか数100万になることも多い。その微小3角形の内部を、視線の向き、光の方向、3角形の位置から計算したグラディエーションで塗る。これを全部の3角形に行うことで、いかにもなめらかに陰影がついた3次元画像が表示されるわけです。このすべての処理を1秒間に10回以上繰り返します(でないと、なめらかに動かない)。そのためのユニットがGPUです。

つまりGPUは、比較的単純な処理を、同時平行的に、大量に、超高速に行うために開発された画像処理用LSIです。それをニューラルネットワークの計算に応用した。特に、画像認識に使われる「畳み込みニューラルネットワーク」は GPU との相性がよい。この応用は何もディープマインドだけではないのですが、もしGPUの技術がなければ「コンピュータ囲碁プログラムにニューラルネットワークを持ち込む」のは "絵に書いた餅" に終わったに違いありません。コンピュータ・ゲームやコンピュータ・グラフィックスの世界で長年培われてきた技術によってアルファ碁が成立したことは確かです。

逆の視点から言うと、このようにコンピュータ技術を結集しているということは、アルファ碁の経験から新たなコンピュータ技術が生まれてもいいわけです。たとえば上に書いたGPUですが、GPUがあったからこそアルファ碁が "絵に書いた餅" ではなくなったことは確かでしょう。しかしそのGPUでもニューラルネットワークの計算は遅い。RL policy network の計算に3ミリ秒もかかるから、RL policy network によるロールアウトを近似する value network が作られたわけです(value network の説明参照)。value network による勝率の推定は、RL policy network によるロールアウトを繰り返して勝率推定するより 15,000倍速いと報告に書かれています。

そうであれば、今より10,000倍程度速く RL policy network が計算できたとすると、value network は不要になり(ないしは補助的なものになり)、それが「最強のコンピュータ囲碁」になると考えられます。10,000倍速くするには「アルファ碁が採用した規模の "畳み込みニューラルネットワーク" を演算できる専用LSI」を開発すれば可能なのではないでしょうか。10,000倍とまではいかなくても、1000倍速く計算可能な専用LSI・数10個の並列処理でいいのかもしれない。コンピュータ囲碁のためにそんなことをする会社はないと考えるの早計です。「畳み込みニューラルネットワーク」は、画像認識の中核的なアルゴリズムです。その画像認識が超重要技術になるのが自動運転です。そしてディープマインドの親会社のグーグルは(自動車会社ではないにもかかわらず)自動運転の研究を進めていることで有名です。ひょっとしたらグーグル・ディープマインドは、そういった専用ハードウェアの開発を始めているのかもしれません。そのときに必須になるのは「畳み込みニューラルネットワーク」の動作についての深い専門知識なのです。

憶測で話を進めることには意味がありませんが、要するにアルファ碁の開発が「単に囲碁の世界に閉じたものではない」ということを言いたいわけで、それは全く正しいと思います。


画期的だが、道は遠い


アルファ碁は画期的な技術であり、AI研究のターニングポイントを越えたと思います。しかしそこを越えてみると、その先はまだまだ長いと感じました。その先とは人の「知性」と呼ばれている領域に入ることです。

No.174「ディープマインド」で、ディープマインド社のAI技術が「Atari社のビデオゲームのプレーを学習した」ことを書きました。「コンピュータ画面に表示される得点を知ることによって、ゲームのルールや遊び方を学習した」わけです。現在、ディープマインドはグーグルの子会社ですが、グーグルが買収するきっかけとなったのは「最高経営責任者のラリー・ペイジ氏が、ある種の人間性の萌芽を思わせるAIの登場に感銘を受けた」ことのようです(No.174)。2016年5月末のNHKスペシャルで、将棋の羽生 善治さんがディープマインド社を訪問する様子が出てきましたが(デミス・ハサビスCEOと羽生さんがチェスをプレーしていました)、そこでもAtari社のビデオゲームの習得の様子が解説されていました。

この話と、研究報告の題名である「Mastering the game of Go」の "マスター" とは、意味がかなり違います。アルファ碁は、2840万のKGSの盤面データと、800万の東洋囲碁の盤面データ(いずれもアマチュア囲碁プレーヤの打ったデータ)から、囲碁の戦い方を学習したわけです。Atari社のゲームの場合のように「ゲームのルールや遊び方を学習した」とはとても言えない。その意味で「Nature ダイジェスト 2016年3月号」の記事(上に引用)にあった「Atari社のゲームの習得と囲碁の習得を同一視するような書き方」は間違いだし、少なくとも大きな誤解を招く言い方です。

画期的な成果だが、まだ道は遠い。そのことはディープマインドのCEOであるデミス・ハサビス氏が一番実感していることでしょう。どこかのインタビューで、彼はそういう発言をしていたと記憶しています。


人の知性のすばらしさ


実は、ディープマインド社の研究報告を読んで一番感じたのは、アルファ碁と対戦できるプロ棋士の「知力」の素晴らしさでした。ここまでやっているコンピュータ囲碁プログラムと「戦える」こと自体が驚きというのが率直な感想です。相手はプロセッサーを1400個近くも並列処理させる、超高速コンピュータです。その相手に勝てることもある(2016年3月のイ・セドル 九段の一勝)

人間の知性や知力の奥深さはすごいし、その秘密を解明するにしても、まだまだ先は遠いと思いました。


欧米に囲碁を広める努力をしたのは・・・・・・


これからは余談です。このディープマインド社の研究報告を読んでみようという気になったのは、アルファ碁とイ・セドル 九段の対決がきっかけでした。その対局のネット解説(マイケル・レドモンド 九段)を見ていて思ったのですが、英語の囲碁用語には日本語がいろいろとあるのですね。aji(アジ、味)とかdamezumari(ダメ詰まり)とかです。普段、英語の囲碁用語に接する機会などないので、これは新しい発見でした。

ディープマインド社の研究報告にも、atari(アタリ、当たり)とか nakade(ナカデ、中手)とか dan(段)とか komi(コミ)とか、いろいろ出てきます。最も驚いたのは byoyomiです。「持ち時間を使い切ったら一手30秒の秒読み」と言うときの「秒読み」です。世界トップクラスのイギリスの科学誌「Nature」に byoyomi(= 日本語)が出てくるのです。日本語について言うと、No.174 にも書きましたが、そもそも英語で囲碁を示す Go(AlphaGo の Go)が「碁」の日本語発音です。

囲碁の発祥地は中国です。しかし、囲碁英語に日本語がたくさんあるという事実は、欧米に囲碁を広めたのは日本人棋士、ないしは日本で囲碁を学んだ欧米人だということを如実に示しています。欧米に囲碁が広まったのはその人たちの功績だった。日本のプロ棋士では、特に岩本薫・元本因坊です。

そうして広まってくると、欧米でも囲碁の深淵さが理解されるようになり、コンピュータ囲碁プログラムを開発する人が欧米に現れた。それがAI研究者のチャレンジ意欲をかき立て、そして英国・ロンドンでアルファ碁が誕生した・・・・・・。

欧米に囲碁を広めた人たちの努力(日本人プロ棋士、欧米人を含む)

欧米で囲碁が普及

コンピュータ囲碁プログラムの出現(欧米で)

AI研究者が囲碁に挑戦

ディープマインド社とアルファ碁の出現

というのは、一本の線で繋がっているのではないでしょうか。これは決して「風が吹いたら桶屋が儲かる」式の話ではなく、ロジカルな繋がりだと思うのです。

ディープマインド社はアルファ碁の開発で得られた知見を社会問題や産業分野に応用しようとしています。そのルーツをたどると、一つとして「日本のプロ棋士、ないしは日本で囲碁を学んだ人たちが、欧米に囲碁を普及させた努力」がある。そう考えられると思いました。



 補記:AlphaGo Zero 

AlphaGo を開発した DeepMind は、2017年10月に AlphaGo Zero を発表しました。このシステムに組み込まれた知識は「囲碁のルール」でだけです。つまり、

① 人間の対局データ(棋譜)を使っていない
② 囲碁の常識(いわゆる "ドメイン知識")も使っていない

システムです。にもかかわらず、AlphaGo 及びそれ以降に作られた改良版のすべてを凌駕する強さです。

本文中に、AlphaGo が高段者の棋譜やドメイン知識を利用していることを念頭に「画期的だが、道は遠い」と書きましたが、道は遠いどころか、ゴールは間近にあったわけで、「遠い」という推測は全くのハズレでした。このことの教訓は、

AI 技術の進歩は急激であり、いつなんどき驚くような技術が現れるかわからない

ということです。現状の技術内容だけから安易な判断は慎むべきだと思いました。




nice!(0)  トラックバック(0) 

No.180 - アルファ碁の着手決定ロジック(1) [技術]


アルファ碁(AlphaGo)


No.174「ディープマインド」で、英国・ディープマインド社(DeepMind)のコンピュータ囲碁プログラム、アルファ碁が、世界最強レベルの囲碁棋士である韓国の李世乭(イ・セドル)九段に勝利した話を書きました(2016年3月。アルファ碁の4勝1敗)。

AlphaGo vs Lee Sedo.jpg
AlphaGo vs イ・セドル9段(右)第1局
(YouTube)

このアルファ碁に盛り込まれた技術について、No.174 では「Nature ダイジェスト 2016年3月号」に従って紹介しました。要約すると、ディープマインド社のやったことは、

次に打つ手を選択して碁盤を読む能力をもったニューラルネットワークを、深層学習と強化学習によって作った。

このニューラルネットワークを、手筋のシミュレーションによって最良の手を選択する市販の囲碁プログラムの探索アプローチと組み合わせた。

となります。非常に簡単な説明ですが、そもそも「Nature ダイジェスト」の解説が簡素に書いてあるのです(それが "ダイジェスト" の意義です)。

もうちょっと詳しく言うとどういうことなのか、どこに技術のポイントがあるのか、大変気になったので「Nature 本誌」の記事を読んでみました。ディープマインド社が投稿した「ディープ・ニューラルネットワークと木検索で囲碁を習得した - Mastering the game of Go with deep neural network and tree search」(Nature 2016.1.28)という研究報告です。以下、この報告に書かれているアルファ碁の仕組みを分かりやすく書いてみたいと思います。以下の要約によって「Nature ダイジェスト」の説明を詳しく言うとどうなるのかが見えてくると思います。たとえば「次に打つ手を選択して碁盤を読む能力をもったニューラルネットワーク」というのは、実は「次に打つ手を選択するニューラルネットワーク」と「碁盤を読む能力をもったニューラルネットワーク」の二つあることも分かります。

Mastering_the_game_of_Go_1st_Page.jpg


前提


前提事項が2つあります。まず1点目ですが、「Nature」の研究報告(2016.1.28)が発表された時点で、イ・セドル 九段との対戦はまだ行われていません。アルファ碁は、2015年10月に囲碁の欧州チャンピオンに5戦5勝の成績をあげました。相手は樊麾二段(ファン・フイ。中国出身でフランス国籍。フランス在住。中国棋院二段)で、その成果を受けての報告です。おそらくディープマインド社はイ・セドル 九段との戦いまでの間に、アルファ碁のロジックの強化やチューニングを繰り返したと思います。囲碁のトップレベルの国は中国・韓国・日本であり、韓国のイ・セドル 九段は樊麾二段とは "格" が違います。イ・セドル 九段との戦いという、ディープマインド社にとっての(そして親会社のグーグルにとっての)晴れ舞台に向けて、アルファ碁の強化を繰り返したことが十分に想定できるのです。以下の研究報告の解説は2015年10月時点の技術内容と考えるべきであり、それ以降の強化は含まれないことに注意が必要です。

2番目は専門用語です。ディープマインド社が「Nature」に投稿したのは「囲碁を素材にしたニューラルネットワークや強化学習の研究報告」なので、専門用語や数式がいろいろ出てきます。しかしそういった用語や数式は、以下の要約では必要最小限にしました。さらに、研究報告の内容を順番に説明するのではなく、そこに書いてあることを、補足を交えて再構成しました。ニューラルネットワークや強化学習については、各種Webサイトに紹介やチュートリアルがあります。また多数の書籍も出版されているので、そちらを参照ください。


4つの技術


ディープマインド社の研究報告を読むと、アルファ碁は次の4つの技術の組み合わせで成り立っていることが分かります。

policy network
value network
モンテカルロ木検索(Monte Carlo Tree Search : MCTS
rollout policy

このうち、①policy network、②value network はディープマインド社の独自技術です。一方、③モンテカルロ木検索と ④rollout policy は、現在、世に出ている多くのコンピュータ囲碁プログラムが採用しています。もちろん③④についてもディープマインド社独自の工夫や味付けがあるのですが、基本的なアイデアは既知のものです。「Nature ダイジェスト」に「ニューラルネットワークと既存の検索アプローチを組み合わせた」という意味のことが書かれていましたが、これは ①② と ③④ を組み合わせたことを言っています。「Nature ダイジェスト」の要約に①~④を対応させると次の通りです。

次に打つ手を選択して(= policy network)碁盤を読む能力をもった(= value network)ニューラルネットワークを、深層学習と強化学習によって作った。

このニューラルネットワークを、手筋のシミュレーションによって最良の手を選択する(= rollout policy)市販の囲碁プログラムの探索アプローチ(= MCTS)と組み合わせた。

以降、この4つの技術について、順に説明します。なお、「④rollout policy」は「③モンテカルロ木検索」の一部とするのが普通ですが、説明の都合上、分けてあります。


policy network


まず言葉の意味ですが、ポリシー(policy)とは、着手を決めるロジック、ないしはアルゴリズムのことです。現在の盤面の情報をもとに、次にどこに打つべきかをコンピュータ・プログラムで決める、その決め方をいっています。またネットワーク(network)とは、AI(人工知能)の研究で多用されるニューラルネットワーク(neural network)のことです。つまり、

  policy networkとは、現在の盤面の情報をもとに、次にどこに打つべきかを決めるためのニューラルネットワーク

です。ディープマインド社がコンピュータ上に構築した policy network は、ニューラルネットワークの中でも「畳み込みニューラルネットワーク(Convolutional Neural Network. CNN)」と呼ばれるタイプのもので、画像認識の研究で発達しました。画像認識で、たとえば画像の中にある猫の顔を認識しようとすると、それは画像いっぱいにあるもしれないし、画像のごく一部かもしれない。また猫の顔が移動しても(どこにあっても)、大きさが違っても、少々変形していても認識できないといけない。画像の大域的な特徴と局所的な特徴を同時にとらえ、かつ移動や変形、拡大縮小があったとしても普遍的な特徴をとらえる。「畳み込みニューラルネットワーク」はこのようなことが可能なニューラルネットワークです。ディープマインド社が使ったのは隠れ層が12層あるもので(いわゆるディープ・ニューラルネットワーク。Deep Neural Network。DNN)、図示すると以下のようです。
Policy Network.jpg
kは "フィルタ" の数で、プロとの実戦では 192 が使われた。入力層から第1隠れ層への "カーネル" は5×5である。従って、周辺に 0 を2つパディングした 23×23×48 が入力層となる(19+2+2=23)。5×5×48個の重み値(フィルタ)と、入力層の5×5×48の部分領域の値を掛け合わせて合計した値を活性化関数(ReLU関数)への入力として、第1隠れ層の1つの値が決まる。この操作を、入力層の部分領域を上下左右に1ずつずらしながら19×19回繰り返すと、第1隠れ層の1つのプレーンができる。さらにこの計算全体を、フィルタをかえて192回繰り返すと第1隠れ層ができあがる。

第1隠れ層から第12隠れ層に至るカーネルは3×3である。出力層へのカーネルは1×1であるが 19×19 個の異なったバイアスを使用し、また出力層の合計値が 1.0 になるように調整される。ニューラルネットワークの訓練とは、訓練データが示す出力(19×19のどこか1箇所が1で残りは全部ゼロ)と最も近くなるように、フィルタ(重み)およびバイアスの値を調整することである。

このニューラルネットの重みがいくつあるか計算してみると、第1隠れ層への重みは5×5×48×192、第2隠れ層から第12隠れ層については3×3×192×192×11(=11層)、出力層への重みは1×1×192である。さらに出力層には19×19のバイアスが加味される。これらをすべて合計すると約388万(3,880,489)である。388万個のパラメータ(重みとバイアス)を最適に決めるのがニューラルネットワークの訓練である。

なお、画像認識における「畳み込みニューラルネットワーク」で使われるプーリング層(画像を "サマライズ" する層)はない。19×19程度の "画像" をサマライズする意味はない。

このニューラルネットワークの出力層は 19×19×1 で、碁盤の 19×19個の交点(目)に対して 0.0 ~ 1.0の数値が出力されます。この数値は囲碁の熟練者がそこに打つ確率を表します。すべての交点の確率を合計すると1.0になります(いわゆる確率分布)。

入力層は 19×19×48 のサイズで、碁盤の19×19の交点が48層(48プレーン)があります。一つのプレーンの一つの交点は 1 か 0 の値をとります。コンピュータに詳しい人なら「19×19の交点のそれぞれに48ビットを割り当てた」と言った方が分かりやすいでしょう。No.174「ディープマインド」で紹介した「Nature ダイジェスト 2016年3月号」の記事では、「入力層は碁盤の黒石・白石の配置パターン」と受け取れる表現がありましたが、実際の入力層はそれよりもかなり複雑です。48のプレーンは以下のように構成されています。全ての情報は打ち手(次に手を打つ人)を基準に計算され、一手進むごとに再計算されます。

policy network の入力層の構成
プレーン
の数
説明
1 打ち手の石(打ち手の石があれば 1)
1 相手の石(相手の石があれば 1)
1 空点(空点であれば 1)
1 すべて 1
8 その交点に石が打たれてから現在までに進んだ手数。
8 石の呼吸点(上下左右の空点)の数。その交点の石と連結している石全体(いわゆる “連”)の呼吸点を表す。
8 その交点に打ち手の石を打ったとしたとき、相手の石を取れる数。
8 その交点に相手が石を打ったとしたとき、打ち手の石が取られる数。
8 その交点に打ち手の石を打ったとき、その石と連結している石全体(連)の呼吸点の数。
1 その交点に打ち手の石を打って相手の石をシチョウで取れるとき 1
1 その交点に打ち手の石を打ってシチョウから逃げられるとき 1
1 合法手。その交点に打ち手の石を打つのが囲碁のルールで許されるとき 1。ただし打ち手の目をつぶす手は合法手とはしない。
1 すべて 0

8つのプレーンで一つの数を表すものが5種類ありますが、いずれも「0, 1, 2, 3, 4, 5, 6, 7, 8以上」を表します。1 の場合は1番目のプレーンだけが 1、2 の場合は2番目のプレーンだけが 1、以下、8以上の時は8番目のプレーンだけが 1です。情報科学でいう one-hot encoding("8ビット" のうち 1 は一つだけ)になっています。

この構成で分かるように、入力層は単なる黒石・白石の配置パターンではありません。囲碁のルールが加味されています。さらに「シチョウに取る・シチョウから逃げる」や「ダメヅマリ(連結する石の呼吸点の数)」というような、ルールから派生する囲碁の常識(が判別できる情報)も含まれています。

以上の 19×19×48 の入力層の情報をディープマインド社の研究報告では盤面の "state" と読んでいます。これに従って、以下「盤面(state)」ないしは単に「state」と書くことにします。

当然ですが、盤面(state)の情報は、打った手の履歴が分かれば計算できます。アルファ碁は着手を決定する際に policy network を使うのですが、まず state を計算し(再計算し)、ニューラルネットワークの計算を行って、囲碁の熟練者がどこに打つかの確率を求める。これを着手ごとに繰り返すことになります。


SL policy network


ディープマインド社がまず作成した policy network は、教師あり機械学習(supervised learning)による policy network で、これを SL policy network と呼びます。以下、単に SL と書くこともあります。SL policy networkの「訓練データ」は、KGS Go Server からダウンロードされた、囲碁の対局データです。

KGS Go Serverは、もともと神奈川県茅ヶ崎市の囲碁用品店、棋聖きせい堂が運営していた無料の囲碁対局サイト(Kiseido Go Server : KGS)で、現在はアメリカの篤志家と各国のボランティアが運営しています。このサイトには世界の囲碁愛好家が集まっていて、無料の囲碁対局サイトとしては最も広まっているものの一つです。

参加者はアマチュア30級(30k)から1級(1k)、アマ初段(1d)から九段(9d)までにレーティングされます。このレーティングは、KGSの独自のアルゴリズムにより対局が行われるたびに自動更新されます。KGS にはプロ棋士も参加しており、自ら参加を公表しているプロ棋士もいます。プロの段位は d ではなく p と表示します(レーティングはなく申請方式)。アマチュアの中には、コンピュータ囲碁のプログラムも参加しているようです。

ディープマインド社が SL policy network の訓練データとしたのは、KGS のアマチュア高段者(6段~9段。6d~9d)の約16万局の対局データで、それには2940万の盤面データがありました。このうち100万の盤面データは、できあがった SL policy network の評価に使用されました。従って実際の訓練データは「2840万の盤面データと、その場面で囲碁熟練者が実際に打った手」です。もっとも、囲碁には対称性があるので盤面を90度づつ回転した4つの盤面データ、およびそれらの裏返しを含めた合計8つの盤面データが教師データとして使われました。従ってSL policy networkにとっての訓練データの総数は2億2720万ということになります。訓練データの数が2840万とか2億2720万というと非常に多いようにみえますが、SL policy network のパラメータの数(重みとバイアス。上の policy network の図の説明参照)は388万もあります。これと比較すると約7倍とか60倍という数です。深層学習の訓練データの必要数はパラメータの数の数倍以上とされているようなので、この数はリーズナブルな数なのでしょう。

これら訓練データの state をあらかじめ計算しておき、policy networkを "教育" しました。つまり「出力層の確率分布」と「実際に打たれた手の確率分布(どこか1箇所が 1 で、その他は 0)」との誤差の総体が最も小さくなるように、ニューラルネットワークの重みを調整していったわけです。この調整には "確率的勾配降下法"(stochastic gradient descent。SGD。報告では ascent も何回か使われているが、同じ意味)という手法が使われました。こうして出来あがったのが SL policy network です。

この SL policy network が、どの程度の精度で熟練者の実際の手を予測できるかを、訓練データとしては使わなかった100万の盤面データで調べた値があります。それによると予測精度は57.0%とのことです。この定義ですが、実際に打たれた手に対応する SL policy network の出力層での確率(の100万個の平均値)だと読み取れます。とすると、出力層の最高確率の手を打てばアマチュア高段者の手がかなりの精度で近似できるということになります。57.0%は100万のテストデータの平均値なので、中にはハズレもあるでしょう。また、アマチュア高段者が打った手が最善手だとは限りません。しかしこの57.0%という数字は SL policy network が有効だということを示しています。想像するに、確率が上位の3つぐらいの手の中にアマチュア高段者が実際に打った手が極めて高い確率で含まれるのではないでしょうか。

興味あるデータがあります。もし SL policy network の入力層が48プレーンではなく11プレーン(石の配置が3プレーン、手数が8プレーン)ならどうなるかということです。それを実際にやってみると、予測精度は 55.7% になったとのことです。わずか 1.3% の違いなのですが、研究報告で強調してあるのは、この程度の予測精度のわずかな違いが囲碁の強さに大きく影響するということです。

予測精度をあげるためには、畳み込みニューラルネットワークの隠れ層を増やすという案も当然考えられます。しかしそうすると、policy network の計算時間が増えます。つまり、限られた時間内に「読める」手が少なくなる。ディープマインド社は超高速コンピュータシステムを使っているので、policy network の一回の計算は3ミリ秒で終わります。しかしあとから出てくるように、コンピュータ囲碁に適用するにはこの速度でも遅すぎるのです(その回避策もあとで説明します)。

入力層のプレーンが48や、畳み込みニューラルネットワークの隠れ層が12というのは、ディープマインド社が精度と速度のバランスを試行錯誤して決めたものだと想像できます。

  補足ですが、No.174「ディープマインド」で紹介した「Nature ダイジェスト 2016年3月号」に「プロ棋士どうしの対局の3000万通りの局面を調べ」とあるのは間違いです(原文か訳か、どちらかの間違い)。SL policy network の訓練データは KGS Go Server のアマ高段者の対局データです。


RL policy network


RL policy networkとは、強化学習(reinforcement learning)の手法を使って、SL policy network をさらに "強く" したものです。基本的な方針は policy network 同士の「自己対局」です。policy network に従って碁を打つということは、policy network が示す確率分布に従って手を打つということになります。

まず初期値として RL = SL とします。そして「強化試合相手の集合(policy pool)」を設定し、初期状態ではSLをひとつだけ policy pool に入れておきます。

一回の「強化」は次のように進みます。policy poolの中から「強化試合相手」をランダムに選び、RLをその相手と128回対戦させます。この対戦過程の全盤面を記憶しておき、RLの対戦成績が最も高くなるように、RLのニューラルネットワークのパラメータ(重み)を調節します。つまり、勝った対戦では勝ちに至った手をできるだけ選ぶようにパラメータを調節し、負けた対戦では負けに至った手を選びにくいように調節するわけです。このあたり、ディープマインド社のCNNを使った強化学習の技術蓄積が生きているところです。

以上の強化を500回行うごとに、その時点でのRLを policy pool に入れます。この強化を1万回(1回あたりの対戦は128回)繰り返して、最終的なRLとします。従って「自己対戦」は128万回行ったことになります。もともと SL policy network は KGS Go Server の約16万局のデータをもとに訓練されたものでした。それからすると RL の作成で行った自己対局の128万回は断然多いことになります。

こうして作成された RL policy network を市販のコンピュータ囲碁プログラムと対戦させた結果が報告に載っています。Pachi というプログラムは、オープンソースの(ソースコードが公開されている)コンピュータ囲碁プログラムでは最強と言われていて、KGSのレーティングではアマチュア2段(2d)です。RL はPachi と対戦して 85%の勝率でした。一方、SL は 11%の勝率でした。RL policy network は SL policy network に比べて格段に強くなったと言えるでしょう。このように、すべてコンピュータ内部で自動的に行える「自己対局」を繰り返すことで強くできるアルゴリズムを作れることが、ニューラルネットワークをコンピュータ囲碁に持ち込む大きなメリットでしょう。



RL policy network はなぜ強くなったのかを推定してみます。SL policy network の最大の弱点は、機械学習の教師データとした「2840万の盤面における次の一手」が最善手とは限らないことです。教師データは、あくまでアマチュア高段者の実際の対局データ(約16万局)です。高段者と言えども、次の一手には悪手や疑問手が多数含まれているはずだし、中には "ポカ" もあるでしょう。それらを全部 "正しい" 教師データとして機械学習したのが SL です。

RL は SL 同士の自己対局で作られました。「SL に勝つような SLの修正版が RL」であり、そういった "カイゼン" を次々と繰り返していって完成したのが最終的な RL です。しかも "カイゼン" のための自己対局の数は、元の教師データの対局数より圧倒的に多い。この結果、元々の SL に含まれていた「疑問手・悪手・ポカ」を打つ傾向が薄まったと考えられます。RL が最善手を打てるとは言わないまでも「最善手を打たない傾向は、かなり弱まった」と考えられるのです。想像するに「アマチュア高段者が実際に打った手を予測できる」という点に絞れば、RL は SL より予測精度が悪いのかも知れません。RL の予測精度は研究報告には書いてないのですが、つまり「そういった議論は意味がない」ということでしょう。しかし RL が最善手を示す確率は SL よりも高い。おそらくそういうことだと考えられます。

強化学習というと何か新しい能力を獲得したように感じてしまいますが、この学習はあくまで自己対局によるものです。「SLには無かった良い面」を新たに獲得したとは考えにくい。むしろ「SLの悪い面」を少なくした、これが強化学習の意義だと思います。市販のプログラム、Pachi との対戦で 85%もの勝率をあげたのは、このような理由だと推定できます。



Pachi との対戦での重要な注意点は、市販のコンピュータ囲碁プログラムは、打つ手の先を次々と読んで有力な次の手を判断していることです。一方の policy network は「手を先読みする」ことは一切せず、現在の盤面(state)だけから、次に打つべき有力手を計算します。つまり人間同士の囲碁の勝負でいうと、盤面を見て直感で打つことに相当します。直感で手を打つ RL policy network が、手を先読みする市販のコンピュータ囲碁プログラムと対戦して85%の勝率をあげたということは、RL policy network を手を先読みする機能と組み合わせれば非常に強いコンピュータ囲碁プログラムができるだろう、と推定できるのです。

ディープマインド社がやったことはまさにそういうことであり、市販のコンピュータ囲碁プログラムで「手を先読みする」ときに広く使われているモンテカルロ木検索(Monte Carlo Tree Serch. MCTS)と policy network を組み合わせることでした。

次にその「モンテカルロ木検索」ですが、その前に、モンテカルロ木検索で使われる「ロールアウト」です。ロールアウトもディープマインド社の発明ではなく、現在のコンピュータ囲碁プログラムで一般的に使われている手法です。ディープマインド社の研究報告にロールアウトの具体的な説明はなく、既知のものとしてありますが、モンテカルロ木検索の理解のためには必須の事項なので、以下に説明します。


ロールアウト(rollout)という手法


ロールアウトとは、モンテカルロ木検索で使われる重要な手法です。プレイアウト(playout)と呼ぶことが多いのですが、ディープマインド社の研究報告に従ってロールアウトとします。ロールアウトとは次のようなものです。

ある盤面において次に打つ候補手が複数あるとする(たとえば合法手のすべて)。

どの候補手が一番有力かを見極めるために、候補手の次から始まって黒白交互に合法手をランダムに打って終局まで進め、その勝敗をみる(=ロールアウト)。

これを何回か繰り返して勝率を計算する。そして勝率のよい候補手ほど有力とする。別の言い方をすると、候補手を打ったときの盤面の優劣を、そこからのロールアウトの勝率で判断する。

この「黒白交互に終局まで合法手をランダムに打って勝敗をみる」のがロールアウトです。ランダムということは、候補手の有力な度合いを確率的に判断するということです(自分の目をつぶす手は合法手から除外します)。かつ、序盤であれ中盤であれ、また終盤であれ、とにかく最後までヨセてみる。それを繰り返してその勝率で候補手の有力度合をみるということです。これは人間の思考とはかなり違います。人間なら「最後までヨセたらどうなるか」という思考で打つのは終盤だけです。序盤・中盤でそんなことは考えない(考えられない)。ロールアウトはコンピュータ囲碁の着手に人間とは違った要素を持ち込むと考えられます。

ロールアウトという "乱暴な" 手法がなぜ成立するのかと言うと、囲碁というゲームが「どこに打ってもいいから合法手を順に打っていくと終局に至るゲーム」だからです。囲碁は着手をするたびに打てる所が少なくなっていきます。だから成り立つ。ちなみに将棋だとこうはいきません。将棋の合法手を互いにランダムに指していって王様が詰むという保証はどこにもありません(逃げられる王手を見逃すのは将棋のルール違反)。

ロールアウトを使うと、次のような着手決定アルゴリズムが考えられます。まず許された時間に何回ロールアウトが可能かを見積もります。囲碁は持ち時間(考える時間)が決まっています。たとえばアルファ碁とイ・セドル 九段の対戦では、持ち時間はそれぞれ2時間でした。囲碁の平均手数を200手とすると、黒白それぞれ100手ですから、1手あたり許される思考時間は72秒です。もちろんそれは平均であって、思考時間の配分もコンピュータ囲碁プログラムを設計する時のポイントです。とにかく許される思考時間の間に、たとえば10万回のロールアウトが可能だとしましょう。そして着手可能な合法手(囲碁のルール上許される手)は100手だとします。そうすると、100手のそれぞれで1000回のロールアウトを行い、最も勝率の良い手を着手する・・・・・・。

もちろん、こんな単純なアルゴリズムでは強いコンピュータ囲碁プログラムにはなりません。なぜなら「無駄なロールアウト」をいっぱいやっているからです。ルール上許される合法手といっても、アマチュア初心者でも絶対打たないような手がいっぱいあります。そんな手にたくさんのロールアウトを繰り返すのは時間の無駄です。ロールアウトはあくまで「確率的判断」で有力な手を見極めようとするものです。有力そうな手にはできるだけ多くのロールアウトを割り当て、ダメそうな手は早々に切り上げる。そうしないと確率的に最善手に近づくことができません。つまり、まず候補手をそれぞれ何回かロールアウトして様子を見て、その中から良さそうな手を選択し、さらにそこをロールアウトする・・・・・・。そのようなアルゴリズムが必要です。しかしロールアウトによる勝敗判断はあくまで確率的なので、何回かロールアウトしてみてダメそうな手であっても、もっとロールアウトすると勝率が良い手に "ける" かもしれないのです。では、どうしたらよいのか。

実は、どの手をロールアウトすべきか、それを決めるための「数学的に最良な方法」が知られています。それが、候補手の Upper Confidence Bound(UCB。信頼上限)という値を計算し、常にUCB値が最大となる手をロールアウトするというアルゴリズムです。UCBは1回のロールアウトのたびに変化していく値で、次の式で計算されます。

  UCB.jpg
UCBi 候補手i のUCB
Ni 候補手i をロールアウトした数
Wi 候補手i のロールアウトによる勝ち数
N ロールアウトの総数(logは自然対数)
k 定数(理論的には2の平方根だが囲碁プログラム依存)

その時点で「UCB最大の手」をロールアウトします。もしUCBが第1項(Wi/Ni)だけだと「その時点で最も勝率が高い手を常にロールアウトする」ことになってしまいます。しかし第2項があるためにそうはなりません。第2項にはNiの逆数があるので「その時点でロールアウトの配分が少ない手」ほどロールアウト候補として有利になります。しかし第2項を見ると分子には logN があります。この意味するところは、ロールアウトの配分率が少ない手が有利だとはいうものの、ロールアウトの総数(N)が大きくなると第2項の効果は相対的に薄れていくということです(logN ではなく N だと薄れない)。k は第2項をどの程度重要視するかという定数です。k が小さいと、より勝率の高い手をロールアウトするようになり、k が大きいと勝率が小さくても "チャレンジ" するようになる。このあたりの決め方がコンピュータ囲碁プログラムのノウハウとなっています。第1項を開拓(exploitation)、第2項を探検(exploration)と呼んだりします。



UCB についての補足です。UCB(Upper Confidence Bound。信頼上限)は、教師なし機械学習の理論の一つである「多腕バンディット問題」で出てくる値です。バンディット(Bandit)は山賊の意味ですが、ここではスロットマシンのことです。山賊は旅人や商人からお金を巻き上げるので、これをスロットマシンになぞらえたものです。

スロットマシンにはアーム(腕)があり、コインを入れてアームを操作すると "当たり" か "ハズレ" になる。「多腕」とは、そのアームが複数あるという意味です。説明をシンプルにするために、以降同じことですが、複数のスロットマシンがあることとします。

ポイントは、複数のスロットマシンで "当たり" の出る確率がそれぞれ異なっていて、事前にはその確率が分からないことです。プレーヤーの持っているコインは限られていますが、スロットマシンの台数に比べて十分な量とします。では、この複数のスロットマシンを相手にどういう戦略でプレーをすれば最大の利得が得られる(=当たりの回数を最大化できる)でしょうか。これが問題です。

とりあえず、まず全部のマシンを試してみるのが妥当でしょう。そうすると、たとえば2台のマシンが "当たり" だったとします。では残りのコインでその2台を集中的に試すべきでしょうか。

もちろんこんな戦略ではダメです。最初に "当たり" が出なかったマシンにも高い確率のものがあるかもしれないからです。また2台を試してみてずっと "当たり" が出なかったとき、いつ諦めるべきかという問題もある。では、どうするか。

要は、結果として "当たり" の出る確率が高いマシンにより多くのコインを投資するようにプレーを誘導できればいいわけです。それ実現する "数学的に正しい戦略" が「UCB を判定し、常に最大UCBのマシンを試す」というものなのです。

これがスロットマシンの問題だとすると実用性はありませんが、この理論の応用は現代のビジネスで使われています。その例ですが、今、あるWebページがあり、そのページには50のコンテンツがあるとします。1画面には10のコンテンツが表示できるので、別画面に移るときにはクリックして移ることとします(全部で5つの画面)。最初に表示される第1画面は一般的にコンテンツの良し悪しにかかわらずクリックされる確率が高く、第2、第3となるにつれて急速に確率が落ち、第5画面が最低になる。

この状況で、Webページのページビューを最大化するにはどうすべきでしょうか。そのためには「本質的に最も人気のあるコンテンツを上位画面に集める」ことができればよい。しかしどれが人気が出るコンテンツかは、事前にはわからない。こういう場合サイトの設計者としてはログをとり、そのログを見ながらコンテンツの表示順位を決めますが、よく閲覧されたコンテンツを決めるファクターは「人気がある」と「過去に上位に表示された」の2つがあるので、この2つのバランスをどうとって判断するか、そのアルゴリズムが問題です。

これは、条件はスロットマシンよりは複雑ですが、本質的に「多腕バンディット問題」と同じです。教師なし機械学習はAIの一部と言ってもいいわけで、このような「AI技術を使ってページビューを最大化」しているサイトは多々あるはずです。



コンピュータ囲碁の話に戻ります。この数学的裏付けにもとづいたUCBを使うアルゴリズムでも、まだ問題点があります。一つはランダムに合法手を打ってロールアウトするところです。これではいくらなんでも単純すぎる。囲碁には「常識的な手」があります。相手の石が取れるなら取るとか、ノゾキにはツグとか、また、アマチュアで段位を持っている人なら誰でも知っている手筋も多い。そういう常識的な手が打てるなら打つ。そうした方がランダムなロールアウトより盤面の優劣の判断がより正確になると考えられるのです。

実際、現代のコンピュータ囲碁プログラムでは、ランダムではなく一定のロジックに基づいてロールアウトをしています。このロジックをロールアウト・ポリシー(rollout policy)と呼びます。後で書きますが、アルファ碁もロールアウト・ポリシーによるロールアウトを使っています。ロールアウト・ポリシーの必須条件は、高速に計算できることです。ロールアウトによる勝率の推定は、あくまで確率的なものです。ロールアウトの回数が多いほど推定が正確になるので、高速性が大変重要です。

さらに上のアルゴリズムの問題点は、候補手をリストアップする段階で「合法手すべて」としていることです。少なくともロールアウト総数が少ない初期の段階では、それらを均等に扱っている。合法手の中には「囲碁の常識上ダメな手」があるはずです。「囲碁の常識上ダメな手」がロールアウトなしで高速に判別できれば、候補手の中でもロールアウトの優先度を落とすべきでしょう。このロジックも、現代のコンピュータ囲碁プログラムで採用されています。



以上の「常にUCB値を再計算しながら、それが最大となる候補手をロールアウトし、その勝敗の数で手の有力度合いを判定する」アルゴリズムに「手を先読みする」機能を加えたのが、次の「モンテカルロ木検索」です。



nice!(0)  トラックバック(0) 

No.176 - 将棋電王戦が暗示するロボット産業の未来 [技術]

No.174「ディープマインド」No.175「半沢直樹は機械化できる」に続いて AI(人工知能)の話を書きます。特に人工知能とロボットの関係です。考える糸口としたいのはタイトルに書いた "将棋電王戦" なのですが、まずその前に、ロボットについて振り返ってみます。


産業用ロボット


ロボットはすでに現代社会において広く使われています。いわゆる「産業用ロボット」で、主に工場や倉庫で活躍しています。ここで言う "ロボット" とは、単なる機械ではありません。複数の工程や手順の組み合わせを自律的に行って、まとまった仕事や人に対するサービスを行う機械です。単一の動作、たとえば "瓶に液体を積める作業" だけを繰り返す機械は、ロボットとは言いません。また常に人間の指示によって動く機械、たとえば建設現場のクレーンや遠隔操縦のマジックハンドのような「非自律的な機械」も、ふつうロボットとは言いません。複数手順の組み合わせを自律的に行うのがロボットであり、そのうち、主として工場・倉庫などで使われているのが産業用ロボットです。具体的な用途としては、自動車の生産ラインにおける溶接や塗装、製品や部品の搬送、部品の研磨、電子部品の装着、製品の検査などがあります。

No.71「アップルとフォックスコン」で書いたマシニングセンター(工作機械の一種)は、ふつう "ロボット" とは呼びませんが、ロボットと同等の機械です。鴻海ホンハイ精密工業は、iPad / iPhone の外装ボディを金属塊から削って作っていますが、ここで使われているマシニングセンターは、複数のドリル・工具をとっかえひっかえして "自律的に" iPad/iPhone の複雑な曲面を切削していきます。日本のファナックの製品名は「ロボドリル」であり、このネーミングは産業用ロボットだと言っているわけです。

以上のように産業用ロボットは「自律的」に動作するのですが、この動作は人間があらかじめ "教え込んだ" ものです。一連の動作をどう進めるか、どういう条件ならどいういう風に動作を変えるかなどがあらかじめ詳しく指示されていて、その指示がプログラムとしてロボットの制御装置の中に内蔵されています。この指示通りにロボットは動きます。

産業用ロボットは日本の有力産業であり、世界のシェアの60%程度は日本企業が占めています。安川電機、ファナック、川崎重工、不二越、パナソニック、ヤマハ発動機、デンソーなどが有力メーカーです。


次世代ロボット


一方、産業用ロボットと対比する形で、今後大きく伸びると考えられているロボットがあります。それを「次世代ロボット」と呼ぶことにします。次世代ロボットは次のような特徴を備えています。

 知能化 

まず、人間の「脳の働き」がメジャーだと考えられている仕事を行うという特徴があります。力仕事や高速動作などの "物理的身体能力" を越えた仕事やサービスを行うのが次世代ロボットです。何点かの例をあげます。

二足歩行
人間とは "二足歩行するサル" という言い方もあるぐらいです。二足歩行は人間の顕著な特徴であり、脳の複雑な機能で達成されています。この二足歩行ロボットの先駆けとなったのは本田技術研究所の ASIMO です。二足歩行は、平坦な床ならまだしも、"階段を上る・下る" となるととたんに難しくなるし、"瓦礫がれきの中を進む" となると格段に難しくなります。

画像認識や音声認識
画像から意味を認識するのも、知能の働きです。たとえば手書き文字を認識したり、猫の写真をみて猫だと認識したり、顔の画像から同じ人だとわかるといった認識機能です。

言語認識
画像や音声の認識をベースに、もっと高度な知能として言葉の認識があります。言葉の意味を理解して、行動したり質問に答えたりするものです。

また、これらの機能が「固定的ではない」のが次世代ロボットです。つまり次世代ロボットの特徴として次があげられます。

学習する
ソニーのAIBOやソフトバンクのPepperがそうであるように、次世代ロボットは学習し、成長します。つまり、
使っていると、使用者に合わせるようになる
だんだんと賢くなる
次第に効率的に仕事をこなせるようになる
といった特徴、性質です。

類推する
あらかじめ学習しなかった状況、いままで無かった状況にも対応します。新しい状況にどう対応すべきか、過去の経験をもとに類推し、推論して行動を決めることができます。
これは、No.174「ディープマインド」で書いたコンピュータ将棋のプログラムと本質的に同じです。プロ棋士の過去の指し手をもとに、局面の優劣を判断する「評価関数」が決まるのですが、この評価関数はもちろん過去に現れなかった局面でも優劣を判定できます。将棋のは、序盤はともかく特に終盤は過去の棋譜と同じ形が現れることはまずないので、類推・推論ができないとコンピュータ将棋のプログラムにはなりません。

 社会で活躍 

工場や倉庫だけでなく、家庭、病院、オフィス、公共施設、小売店の店頭、リクレーション施設、道路、空、農場、牧場、海や河川、など、社会のさまざまな場所やシーンにロボットの活躍の場が広がります。その目的も、エンターテインメントから、移動、介護、窓口対応、案内、危険作業まで、さまざまです。

一つだけ例をあげると、道路を活躍の場とする自動運転車です。これは次世代ロボットの代表と言っていいでしょう。自動車各社は自動運転の公道実験を繰り返しているようで、実現時期を公表している会社もあります。公表時期が一番早いのは日産自動車で、2016年に高速道路の1車線、2018年に高速道路の複数車線、2020年に交差点を含む市街地となっています。2016年4月15日の日経新聞は、高速道路での自動運転ができるミニバン(セレナ)を2016年8月に売り出すと報じました。

高速道路の1車線限定でも自動運転ができれば、そのメリットは大です。高速道路の長距離運転をしていて一番怖いのは(私にとっては)居眠りです。眠気を感じてゾッとすることがある。万一、事故を起こしたら・・・・・・と思ってゾッとするわけです。もちろん "休み 休み" 運転するのが大原則ですが、自動運転モードにすることが可能だと非常に大きな安心材料になります。

自動運転ではありませんが、一般的になってきた「自動ブレーキ」だけでもメリットは大きい。スバル車の自動ブレーキ機能(EyeSight)を搭載したクルマは、非搭載車より1万台あたりの追突事故件数が84%も減ったそうです。スバルが2016年2月にこの調査データを公表しました。自動ブレーキだけでこの効果です。自動運転が実用化されると交通事故は激減するでしょう。

さらに、任意の道路での自動運転までいかなくても、たとえば過疎地において「自宅と、指定した数カ所を巡回するだけの自動運転」が実用化できれば、高齢者の足の確保に大きな威力を発揮するはずです。地方再生にもつながるでしょう。

 動かないロボット 

「知能化」が大きな特徴だとすると、その特徴を生かすなら「次世代ロボットは動かなくてもいい」わけです。この点で、今後一番ホットな開発競争なるのは、個人が常時携帯するスマートフォンでしょう。

No.159「AIBOは最後のモルモットか」でスマートフォンのビジネスを展開するソニーモバイルコミュニケーションズの話を書いたのですが、そこで「知性をもち、個人に対して働きかけ、役立つスマホ」や、「人工知能(AI)やロボティックスが非常に重要な要素」といった会社幹部の発言を紹介しました。全くその通りだと思います。



いろいろと書きましたが、もちろん次世代ロボットが上にあげたすべての特徴を持つというわけではありません。部分的な特徴から順次組み込まれていくはずです。現在の工場で働いている検査用ロボットの中には、画像認識だけで不良品を検出するものがあります。これなどは「次世代ロボット」の先駆けでしょう。また「知能」と言っても程度問題です。どういう特徴を備えたら「知能」と言えるのか、明確になっているわけではありません。

つまり「産業用ロボット」と「次世代ロボット」の区別は厳密なものではなく、両者の境界に属するようなロボットもいろいろあります。あくまでロボットのトレンドとして、ないしはロボット産業の方向性として、今までは「産業用ロボット」が市場の中心だったが、今後は「次世代ロボット」にシフトしていく、そいういう傾向だと言いたいわけです。そして重要なのは、

  21世紀の大産業を一つだけあげよ、と言われたとしたら、その答えは「次世代ロボット」

だと思うのです。ここに世界の産業の浮沈、大げさにいうと国の経済の盛衰がかかっていると思うのです。


将棋電王戦


以上の「産業用ロボット」と「次世代ロボット」を踏まえた上で、題名にあげた「将棋電王戦」を考えてみたいと思います。将棋電王戦は、将棋のプロ棋士とコンピュータ将棋がハンディキャップなして戦う棋戦で、ドワンゴと日本将棋連盟が主催し、過去何回か行われました。現在も「第1期 電王戦」が進行中です(2016.5.13現在)。

  第1回 将棋電王戦2012年
  第2回 将棋電王戦2013年
  第3回 将棋電王戦2014年
  将棋電王戦 FINAL2015年
  第1期 電王戦2016年

①は米長邦雄永世棋聖との1番勝負、②~④は、プロ棋士とコンピュータ将棋の団体戦(5番勝負)でしたが、⑤から方式が変わりました。⑤は、ドワンゴがスポンサーになって2015年から始まった「叡王戦」の優勝者と、コンピュータ将棋選手権「将棋電王トーナメント」の優勝プログラムとの頂上決戦(2番勝負)です。2016年は山崎隆之 八段と ポナンザ(ponanza。山本一成いっせい氏が開発したコンピュータ将棋プログラム) の戦いです(ポナンザ が先勝。2016.5.13現在。第2局は2016.5.21-22)。

ここでは、プロ棋士とコンピュータ将棋の勝ち負けを論じるのが目的ではありません。注目したいのは、この電王戦のためにデンソーが開発した将棋用ロボット(コンピュータの代わりに将棋を指すロボット=代指しロボット)です。以下はその話です。


デンソーが開発した「代指しロボット」


株式会社 デンソーは、2014年の第3回将棋電王戦から、コンピュータ将棋のプログラムの指令に従って将棋を指すロボットを提供しています。プログラムの代わりに将棋を指すので「代指しロボット」と呼ばれています。その後、改良が続けられて、現在は第3代目になっています。このロボットはデンソーの子会社、デンソーウェーブが開発したものですが、以降、デンソーもデンソーウェーブも区別せずに "デンソー" と記述します。

棋戦 ロボット名称
2014年 第3回 将棋電王戦 電王手くん
2015年 将棋電王戦 FINAL 電王手さん
2016年 第1期 電王戦 新電王手さん

将棋電王戦FINAL・第2局.jpg
将棋電王戦 FINAL・第2局の対戦風景(2015年3月23日)。プロ棋士は永瀬拓矢六段。ロボットはデンソーが開発した「電王手さん」。永瀬六段が勝利した。
(日本将棋連盟のホームページより)

まずデンソーのホームページから、これらのロボットの説明をみてみましょう。下線は原文にはありません。


【電王手くん】

「電王手くん」は、将棋界で初めてプロ棋戦に採用されたロボットアームで、2014年に開催された第3回将棋電王戦において、全5局を通じてコンピュータソフトの代指しを務めました。

棋士が安全かつストレスなく真剣勝負を行うことができるように開発され、駒が斜めになっていたり、ずれて置かれていても、アーム先端に装着したカメラが多方向から将棋の駒を認識し、1mmの誤差もない着手が可能です。また、駒をコンプレッサで吸着して移動させるので、隣の駒に触れることがなく、公式棋戦と同じ将棋盤と駒を使用することができます

デンソーのホームページより

電王手くん.jpg
電王手くん
(デンソーのホームページより)

最初に開発された「電王手くん」は、画像認識の技術が駆使されていて、駒をつかんで置くために「吸着」が使われていることが分かります。


【電王手さん】

「電王手さん」は、2014年の第3回将棋電王戦で代指しを務め話題となった「電王手くん」の代わりに、新たに開発したロボットアームです(中略)。

《駒をはさめる》
新たに開発したアーム先端のグリッパーで駒を挟んでつかみ、隣の駒に触れることなく移動が可能です。公式棋戦とおなじ将棋盤と駒が使用できます。

《成りができる》
世界初の技術となる "成駒" の動作を実現! グリッパーで駒をつかみ、裏側に回転させて成り駒にすることが可能になり、より通常に近い将棋の対局を再現します。

デンソーのホームページより

電王手さん.jpg
電王手さん
(デンソーのホームページより)

最初に開発された「電王手くん」では、駒をつかむために "吸着" が使われていました。吸着は工場のロボットでモノを搬送するのに広く使われている技術です。ホームページの説明にあるように、上から駒を吸い付けるので「隣の駒に触れることがない」というメリットがありました。

しかし第2世代の「電王手さん」では吸着を使わず、駒をはさむ特殊なグリップが開発されました。駒をはさんでも隣の駒に影響を与えない小型のグリップで、しかも駒を裏返しにできるという特殊なものです。おそらくデンソーの開発陣としては、吸着を使っているのでは技術者のプライドが許さない、どうしても人間の手の動きと同様のグリップを実現したかったのでしょう。技術者魂を感じるロボットです。


【新電王手さん】

《消音化》
厳粛な対局の雰囲気に合わせて、静かに駒をつかみ、静かに駒を指します。新電王手さんはTPOに配慮した紳士的な存在に!

《成りの高速化》
成りの時間が17秒から約7秒に大幅短縮! より早く、正確に動くことで対局のテンポを乱すようなことはありません。

デンソーのホームページより

新電王手さん.jpg
新電王手さん
(デンソーのホームページより)

第3世代の「新電王手さん」は、第2世代の技術を継承しつつ、消音化と高速化がされたようです。ということは、代指しロボットとしては一応の完成域に近づいたということだと思います。



これらのロボットを開発したデンソーの技術者のチャレンジ精神と開発力は大したものだと思います。何しろ、全く前例のない世界最初のロボットです(あたりまえだけれど)。本物の将棋盤と駒を使い、画像認識技術を駆使し、専用に開発したロボットアームとグリップの微妙な動きを制御しなれければならない。

最も大変だったのは、ロボット動作の信頼性の確保ではないでしょうか。対戦相手は生身の人間であるプロ棋士です。ロボットの誤動作や不正確な駒の動きは許されないし、駒を盤上に落とすようなこともあってはならない。工場のロボットであれは、ラインを止めてやり直しができます。しかし一発勝負ではだめです。プロ棋士の方も、コンピュータに負けるのは恥という意識があるはずだから、真剣勝負です。トラブルが起こると対局の雰囲気を壊し、プロ棋士のリズムを乱してしまう。そうなるとデンソーとしても責任を問われるでしょう。全国の将棋ファンが固唾かたずをのんで見守る棋戦を「ぶちこわす」ことにもなりかねない。また、デンソーのロゴをつけたロボットが大舞台でトラブルとなると、ブランド・イメージにもマイナスになるでしょう。

こういったハードルとプレッシャーを越えて、過去3回の棋戦を乗り切ったデンソーの技術陣は、大いに賞賛されてしかるべきだと思います。


産業用ロボット・メーカーは衰退する


しかしプロ棋士と「代指しロボット」が対決する動画や画像を見ていて、私としては大きな違和感というか、奇妙で複雑な感じを受けたのです。というのも「代指しロボット」に対する指令は、すべてコンピュータ将棋のプログラムが与えているからです。つまり「プログラム + ロボット」で1人の人間だと考えると、

コンピュータ将棋のプログラムが「頭脳」
ロボットが「腕と手と指」

に相当するのは明らかです。ロボットがやっていることは、あくまでプログラムの「代指し」に過ぎない。

さきほど書いたように、この「代指しロボット」には最先端の技術が盛り込まれています。ロボット技術者たちのチャレンジ精神も詰まっている。しかしそれでもなおかつ「代指しロボット」は "コンピュータ将棋プログラム = 頭脳" の "しもべ" であって、意志を持たない機械に過ぎません。そういうポジションに "成り下がっている" のです。どんなに「代指しロボット」が将棋をうまく指したとしても、また成り駒がうまくできたとしても、棋戦としての価値の100%はコンピュータ将棋のプログラムにあるのです。

デンソーは自動車部品メーカーとして有名ですが、一つの顔は産業用ロボットのメーカーです。「代指しロボット」は "産業" に使われるわけではありませんが、機能としては "産業用ロボット" の典型です。一方、コンピュータ将棋プログラムと代指しロボットを合わせた「複合体」を考えると、この複合体は "次世代ロボット"の典型と言えるでしょう。ゲームをプレーするまでの知能を備えた、エンターテインメント分野の次世代ロボットです。「代指しロボット」のハードウェアの中にコンピュータを埋め込み、そこでコンピュータ将棋のプログラムを動かすことなど、いくらでも(やろうと思えば)できます。対戦するプロ棋士が指した手を画像認識で判別することだってできる。そうなると本当の「将棋指しロボット」ということになります。

  将棋電王戦で我々が見た光景は、産業用ロボットが次世代ロボットに置き替わっていき、現在の産業用ロボットメーカーが衰退していくことの「暗示」

だと思えたのです。さきほど書いた「違和感」や「奇妙なで複雑な感じ」は、そいういうところからきています。



デンソーの経営陣は、将棋電王戦を見て危機感を覚えたはずです。それは、デンソーとの取引関係が深いトヨタ自動車を考えてみるとすぐに分かります。トヨタの経営陣は、グーグルがトヨタ車を改造した自動運転車の公道実験をしている映像を見て、最大級の危機感を抱いたはずです。将来の自動車の「価値」がグーグルに握られるのではないかと・・・・・・。それと同じ構図が、コンピュータ将棋のプログラムと代指しロボットです。自動車(ロボット)技術者が精魂を傾けて開発した機械が、それとは全く無関係なソフトウェア技術者によって意のままにあやつられている。そのあやつり方にこそすべての価値がある。全く同じ構図です。デンソー経営陣が危機感を抱かなかったはずがない。

ちなみに、2016年の第1期 電王戦を山崎隆之 八段と戦っているコンピュータ将棋プログラムは「ポナンザ」ですが、このプログラムを開発した山本一成氏は、AI応用ソフトを開発するベンチャービジネス、HEROZ(ヒーローズ。東京)の社員です。第1期 電王戦は、ベンチャーの頭脳が大企業(デンソー)の腕・手・指をあやつる構図なのです。

それともデンソー経営陣は「将棋はゲームだから大したことはない」と思ったでしょうか。しかし、ゲームをあなどってはいけません。No.174「ディープマインド」で書いたように、ディープマインド社のAI技術を使った「アルファ碁」は世界トップクラスの囲碁棋士に勝ったのですが、歴史的に眺めてみると、そこで使われたAI技術(深層強化学習)は「ゲームに導かれた革新」だったわけです。

デンソーのホームページを見ると、代指しロボットの開発経緯に取材した動画が公開されています(2016.5.13 現在)。技術者としてこの開発成果を誇るのは当然だし、またデンソーの広報部としてもPR(= Public Relation)の観点から、ホームページの目玉の一つとして掲載しているのだと思います。しかしもっと大きな視点からすると、代指しロボットを短期間に開発したことを誇るだけでいいのかと思うわけです。局所的に素晴らしいが大局には遅れる、ないしは、局所的に素晴らしいからこそ大局に遅れる、ということがあるのではないか。

デンソーは、代指しロボットの開発を契機に「コンピュータ将棋選手権」に参戦すべきだったと思うのですが、どうでしょうか。もちろんコンピュータ将棋のプログラムの開発は一朝一夕にはできません。すでに「コンピュータ将棋選手権」に参戦されている開発者の方に "三顧の礼を尽くして"、デンソーに迎える。そして、コンピュータ将棋のプログラムを開発するとともに、デンソーのAI技術のアドバイザーをしてもらう。ことによっては、別にAIの専門家を迎えて「本格的にAI技術や深層学習を使ったコンピュータ将棋プログラム」を開発してもいいわけです。繰り返しになりますが「知能をコンピュータで実現する技術 = AI技術」の活用は、単にゲームにとどまりません。No.174のディープマインド社は、コンピュータ囲碁ソフトを開発する会社でなく、そこで得られた技術をさまざまな社会問題にまで応用しようとしている会社です。

デンソーはロボットメーカーとしては中堅ですが、自動車部品メーカーとしては日本最大の会社であり、世界でも有数の会社です。そのデンソーが目標とする自動車部品メーカーはドイツのボッシュ社でしょう。そのボッシュは、自動運転の研究を大々的にやっています。その自動運転で使われる重要技術がAIです。上に書いたように、自動運転車こそ次世代ロボットの典型であり、自動車部品メーカーの雄であるデンソーは、そこに深くコミットせざるを得ないはずです。その自動運転車と将棋を指すロボットは「次世代ロボット」というキーワードでつながっていると思うのです。



自動車が知能化していくように、産業用ロボットも知能化して次世代ロボットへと変身していかざるを得ない。これには他の理由もあります。現在の産業用ロボットのメーカーは、ある競争にさらされようとしているからです。日経新聞の比奈田記者は、最近、次のような記事を書いていました。


産ロボ、TVの道歩む?
 参入障壁低く、後発急伸

デンマークの産業用ロボットベンチャー、ユニバーサルロボットの業績が急伸している。2015年の売上高は14年比91%増の4億1800万デンマーククローネ(約70億円)、税引き前利益は2.2倍となる10億円に達した。12年以降、販売台数ベースで年平均75%の成長を遂げている。

同社は05年に設立。製品のURシリーズは、周囲の物との接触を検知すると止まる。ヒトと並んで作業する協調型ロボットの先駆的な存在であり、ドイツの大手自動車メーカーなどで一気に採用が広がった。

従来、独KUKAやスイスのABBのほか、ファナックや安川電機などの日本勢が席巻してきたのが世界の産ロボ市場だ。ところが近年はベンチャーが台頭しており、世界的な需要地の中国でも、瀋陽新松機器人自動化といった新興メーカーが存在感を増している。

産ロボはモーターの力を引き出す高精度の減速機を調達すればつくれることから、他の製造業と比べると参入障壁は低い。大手メーカーも「キーデバイス」の減速機は調達品だ。

これに世界中の起業家が目を付けた。耐久性や品ぞろえは大手が依然として先行しているが、ユニバーサルロボットのようにきらりと光る技術と戦略があれば、風穴を開けられる。

思い浮かぶのは、高い品質を誇りながら衰退した液晶テレビだ。海外の後発の破壊的な価格戦略に押され、競争力を失った商材になお固執した電機メーカーは経営の危機を迎えた。日本の産ロボメーカーがビジネスモデルの転換を求められる日は確実にやってくる。合従連衡を含めた業界地図の変化は案外と近いかもしれない。(比奈田悠佑)

日経産業新聞(2016.4.4)

比奈田記者が書いている産業用ロボットのキーデバイスですが、ロボットのすべての関節にはモーターとともに "精密減速機" が内蔵されています。精密減速機がモーターの回転数を大きく落とすことで、ロボットは強い力を発揮する。この産業用ロボット用の精密減速機で世界の60%ものシェアを握っているのが、日本のナブテスコです。上の記事にある「デンマークの産業用ロボットベンチャー、ユニバーサルロボット」が、ナブテスコから精密減速機を調達しているということは大いにありうると思います。

比奈田記者は産業用ロボットを液晶テレビになぞらえていいますが、これはちょっと違うのではと思います。液晶テレビはロボット(=メカトロニクス製品)と違い、完全なエレクトロニクス製品(動かない、デジタル製品)だからです。しかし、ごくマクロ的なアナロジーとして読めば理解できます。そして、比奈田記者の言うビジネスモデルの転換のための重要技術が、個々のロボットの高度な作業や、工場全体のロボット群の協調作業を見据えた「知能化」だと思います。



以上の状況を考えると、将棋電王戦で、頭脳に相当するコンピュータの指示どおりに黙々と "手" を動かしているだけの「代指しロボット」は、それがいかに技術的に優れていたとしても、ロボット・ビジネスとしての凋落を暗示するように思えてしまったのです。開発したデンソーは自動車部品の大会社であり、かつ産業用ロボットメーカーです。知能化の研究や先行開発は社内で鋭意やっているのでしょう。しかし、将棋電王戦だけをみると凋落に見えたということです。


産業用ロボット・メーカーは変身し、発展する


ここまで、将棋電王戦の「代指しロボット」について否定的なことを書いたのですが、もう一度よくよく考えてみると、この「代指しロボット」は、産業用ロボットメーカーであるデンソーの大きな戦略の一環かもしれないとも思えました。それはこのロボットが、将棋の駒をつかむときの人間の(プロ棋士の)手と指の動きと同等の働きをするからです。つまりこの代指しロボットは「人間の手と指の微妙な動きを完全に模擬できるロボットを開発する」という、デンソーの大きな企業目標の一つとして位置づけられているのかもしれないと思ったわけです。

ここで思い出すのは、No.71「アップルとフォックスコン」で紹介した鴻海ホンハイ精密工業の工場の光景です。鴻海精密工業はアップル製品(iPhone や iPad など)の筐体きょうたい(= 外装ボディ)を金属の塊から "削り出す" ことで製造しています。そのための工具を自社生産する工場の様子が、下の写真の右中です(No.71に掲載した写真)。小型のマシニング・センター(=産業用ロボット)がズラッと並び、当然のことながら、人の姿はまばらです。残念ながら iPhone / iPad の筐体きょうたいの製造工場の写真はないのですが、下の工具製造工場と類似の風景であることは間違いありません。

Foxconn3.jpg
アップル製品の筐体と、製造のための工具、工具製造工場。工作機は数万台ある。必要な工具は内製している(日経ものづくり 2012年 11月号より引用。出典はフォックスコンの社内報「画説富士康」2010.7)

一方、アップル製品を組み立てる工場が下の光景(同じくNo.71に掲載した写真)ですが、ここはまさに "人海戦術 " です。アップルの製品は最新のデジタル技術を使い、先端のエレクトロニクス部品のオンパレードなのですが、最終組立ては人手に頼らざるを得ない。従って鴻海精密工業(ないしは、同業の製造受託会社)に委託せざるをえない。ここにアップルのビジネスモデルの最大の隘路あいろがあると考えられます。

Foxconn1.jpg
フォックスコンの組み立て工場(日経ものづくり 2012年 11月号より引用。出典はフォックスコンの社内報「画説富士康」2010.7)

もしアップル製品の最終組立てが出来るような「組立てロボット」ができたとしたらどうでしょうか。ものづくりは大変貌するに違いありません。ものづくりだけでなく、たとえば衣類の縫製ができるような「縫製ロボット」が出来たとしたら、ユニクロのビジネスモデルも大きく変わるでしょう。当然、工場の立地も変わってくる。

「組立てロボット」の開発は難しいはずです。まず人間の手に近い柔軟性を持ち、微細な動きが可能なロボット・ハンドを開発する必要があります。その制御プログラムも非常に難しそうです。高度な画像認識技術も必要だし、当然、学習する能力も必要で、つまりAIを駆使しなければならない。これは明らかに「次世代ロボット」の範疇に入るものです。

ロボットの導入コストも問題です。仮に、鴻海精密工業の中国工場の労働コストを1人・1ヶ月あたり日本円換算で10万円とすると(あくまで "仮に" です)、3交代で30万円、1年で約400万円になります。ロボットの減価償却期間を3年間とし、ランニングコストを無視すると、ロボットの価格が1200万円で人と同じということになります。ということは、その半分程度、たとえば500万円程度でロボットが導入できないと、人に置き代わるのは無理でしょう。その価格でロボットが大量生産できるかどうかです。あくまでざっとした見積もりですが、製造コスト面でも「次世代組立てロボット」は大きなチャレンジだということが分かります。中国より人件費が安い国もあります。

しかし障壁を乗り越えて「次世代組立てロボット」ができたとすると、産業構造が大きく変わります。アップルも、アメリカ国内の土地の値段が安い場所(ただし、道路のアクセスが良い所)を選んで自社工場を建ててもいいわけです。論理的にはそうなります。



ここで、前回の No.175「半沢直樹は機械化できる」で紹介したオックスフォード大学の研究チームの「雇用の未来」が思い当たります。このレポートは、AI技術によって仕事が機械に奪われる、その「奪われ易さ」を数値で出しているのですが、エレクトロニクス製品の組立て作業はどうなっているかです。レポートをみると、次の記述があります。

職 業 奪われる確率
Electromechanical Equipment Assemblers97%
Electrical and Electronic Equipment Assemblers95%

Electromechanical Equipment Assemblers は「何らかの稼働部(メカ)を電子制御する製品の組立て」であり、家電製品でいうと掃除機などでしょう。今問題にしているのは iPhone/iPad などのアップル製品の組立てなので Electrical and Electronic Equipment Assemblers の方です。この95%という確率は、全702の職業について機械に奪われそうな確率を並べた表で、上位から82番目にリストされています。意外にも、エレクトロニクス製品の組立ては機械に奪われる確率が高いと予測されているのです。前回のNo.175「半沢直樹は機械化できる」でも引用した、小林雅一著『AIの衝撃』からもう一度引用してみましょう。


これまでコンピュータ科学者やAI専門家の間では、コンピュータやロボットにも苦手な仕事があると言われてきました。その一つが新しいビジネスモデルを生み出す企業家のように創造的な仕事、あるいはマネージメントやマーケティングなど高度なコミュニケーション能力を要する仕事、さらにはベストセラー小説を書いたり大ヒット映画をプロデュースするといった芸術的な仕事です。言うまでもなくこれらは一般に高収入の職業です。

もうひとつコンピュータやロボットが苦手とする仕事は、たとえば「庭師」や「理髪業者」、あるいは「介護ヘルパー」や「料理人」などの非定型的な労働です。この主の仕事では、対象とする人や物に対する注意深い観察や器用な手先の動きが必要とされます。より専門的な用語で言い直せば「視覚や聴覚のような高度なパターン認識と、繊細な運動神経や移動運動など」を組み合わせる仕事です。これは数百万年に及ぶ進化の歴史を経て、高度な発達を遂げた人間の脳にしかできません。つまりある意味ではハイレベルの仕事でありながら、これらの職種はどちらかと言えば低賃金です。この逆説的な傾向は「モラベックスのパラドックス」と呼ばれ、1980年代にAI専門家のハンス・モラベックス氏やマービン・ミンスキー氏らが指摘したものです。

小林雅一『AIの衝撃』
(講談社 現代新書 2015)

この引用に書かれていることをまとめると、現代のコンピュータやロボットが苦手とする仕事は、二つのジャンルに分類される、つまり

創造的な仕事、高度なコミュニケーション能力が必要な仕事、芸術的な仕事(=高収入)

視覚や聴覚のような高度なパターン認識と、繊細な運動神経や移動運動などを組み合わせる仕事(=低収入)

の二種類というわけです。これは非常に納得できます。ところが、オックスフォード大学の研究チームの「雇用の未来」は見解が違います。


しかし、オックスフォード大学による「雇用の未来」調査では、今後、機械学習とロボット技術の発達により、これまで「モラベックスのパラドックス」という一種の防御壁によって守られてきた非定型的な肉体労働も、今後はロボとやAIに奪われてしまう可能性が高いとみています。

小林雅一『AIの衝撃』


機械学習とはコンピュータやロボットが各種センサーから取得した大量データ(いわゆるビッグデータ)を解析し、それによって認識能力や理解力を高めていくという技術です。これに加え、繊細な人間の手の動きを忠実に再現する、ロボット・アームなどの研究開発も急ピッチで進んでいます。

(同上)

iPhone/iPad などのエレクトロニクス製品を組立てるには「繊細な人間の手の動きを忠実に再現するロボット・アーム」が必要なことは言うまでもありません。これが出来たとして、問題はそのロボット・アーム制御するコンピュータ・プログラムの作り方です。これは、従来の産業用ロボット的な発想では無理であり、小林氏が指摘するように、AI技術の要となっている「機械学習」が必須でしょう。たとえば、人間がロボット・アームを遠隔操縦して部品を掴む様子を動画に撮る。それを大量に集めて手と指の動きを解析する。人間は部品が少々ずれても微妙な指の動きで修正できます。部品と手の位置関係によって指をどう動かせばよいのか、それを大量データをもとにした機械学習でロボットに学ばせるというやり方です。

まとめると、精巧なメカと機械学習で「視覚や聴覚のような高度なパターン認識と、繊細な運動神経や移動運動などを組み合わせる仕事」は、ロボットに置き換えられていくというのがオックスフォード大学の予測なのです。一言で言うと、ロボットの「知能化」の効果です。

現在、工場内部で各種作業を行っている産業用ロボットですが、それらもいずれ「知能化」し、現在は人間でないと無理と思われる作業、たとえばエレクトロニクス製品の組立てとか、工業用ミシンを使った服の縫製などに乗り出していく、つまり産業用ロボットが「次世代ロボット」に変身していく。そういった将来が予測できるのです。



将棋電王戦に登場したロボットの話に戻ります。デンソーの「代指しロボット」は、

  視覚や聴覚のような高度なパターン認識と、繊細な運動神経や移動運動などを組み合わせる仕事の、ごく初期段階を実現したもの

と見なすことができます(聴覚はありませんが)。つまりこのロボットを突き詰めていくと、製品組立てなどの、今はロボットには不可能と思われていることができる可能性があるのです。「代指しロボット」は、そういったデンソーの企業戦略の一環かもしれないのです。


「代指しロボット」が暗示する将来


デンソーの「代指しロボット」が予感させる産業用ロボットの将来として、「産業用ロボット・メーカーは衰退する」と「産業用ロボット・メーカーは変身し、発展する」の二つを書きました。改めてまとめると、将来についての次の2つのシナリオです。

シナリオ1
AI技術にけた勢力が勃興して「知能」の部分を担当し、現在の産業用ロボットメーカーはその手足となって指示どおりに動く存在となる。もちろん知能とモノとの接点である「手足」がなくなることはないが、全体としての価値が他企業に移転し、現在のメーカーは実質的に衰退する。

シナリオ2
現在の産業用ロボットは、知能をもった「次世代産業用ロボット」へと高度化し、組立てや縫製などの(現状のロボットでは無理な)複雑な仕事を担当することになる。つまり産業用ロボットメーカーは変身して、発展する。

この2つのシナリオの間の中間的な将来も考えれるでしょう。もちろん現在の産業用ロボットメーカーにとってのベストのシナリオは、シナリオ1における「AI技術にけた勢力」に自らがなり、かつシナリオ2も実現させることです。

デンソーは、なぜ将棋電王戦に「代指しロボット」を提供したのでしょうか。おそらくその直接的な理由は、会社の認知度の向上でしょう。デンソーの顧客は自動車会社などの企業であり、一般消費者向けの製品は(ほとんど)作っていません。将棋電王戦に "参戦" することによって認知度を上げ、ブランドの強化につなげる。そういう思惑でしょう。

しかしはからずもこの "参戦" は、現在の日本の産業用ロボット・メーカーの将来を予見させるものとなった。その予見には「明るい将来」と「暗い将来」の両方が混在しています。そして重要なことは、日本の産業用ロボットの世界シェアは60%と極めて高く、現代日本の有力産業だということです。たとえ現在のロボット・メーカーの勢力地図が変わったとしても、産業全体としては「明るい方の将来」であって欲しいと思いました。



 補記1:アディダスの国内回帰 

アップル製品の組立てが出来るような次世代ロボットが出現したら、産業構造が変わり、工場の立地も変わるだろうという意味のことを本文に書いたのですが、それに関連して、ドイツの有名なスポーツ・シューズのメーカー、アディダスが、ドイツ国内での靴の生産を再開するという記事を紹介します。


ロボットで靴大量生産
 アディダス 24年ぶり国内回帰

【フランクフルト=加藤貴行】独アディダスは24日、2017年からドイツ国内でロボットを使って靴を量産すると発表した。1993年に国内生産から撤退していたが、中国の人件費高騰やロボットの生産性向上を受け、24年ぶりに国内回帰する。欧米市場に近いドイツで生産し、トレンドへの対応も早まる。

アディダスは昨年末から独自動車部品・医療機器メーカーと協力し、本社のある独南部バイエルン州に「スピード・ファクトリー」を設置、試験的に500足を小規模生産していた。数百万単位を効率よく生産するめどがつき、大量生産へ移行を決めた。18年には米国でも量産を始める計画だ。

ロボット活用で24時間の生産が可能になり、欧米で流行に即応したモデルを柔軟に生産できる。中国やベトナムからの輸入コストも削減できる。

日経産業新聞(2016.5.26)

記事には書いてないのですが、アディダスとともに「スピード・ファクトリー」を立ち上げたのは、エクスラー(Oechsler GmbH)という会社です。ウェブサイトを見るとこの会社は、記事にあるように「自動車部品・医療機器メーカー」であって、ロボットメーカーではありません。ただ、グループ会社のエクスラー・モーションが工場自動化ラインに強みをもっているようです。ということは、既存の最新ロボットを使って、アディダスの「スポーツ・シューズ自動製造ライン」を作りあげたと推測できます。

この工場のロボットが「次世代ロボット」かどうかは別にして、アディダスの発表から分かることは、

24年ぶりに雇用がドイツ国内に復活(回帰)した。

しかしその雇用は、24年前の「スポーツシューズを手で作る」という仕事ではなく「ロボットを開発・製造する」仕事、ないしは「ロボットを工場ラインへ設置し、維持・管理する」仕事へとシフトした。

ということです。もちろん、スポーツシューズをロボットで生産できたからといって、アップルの iPhone の自動組立てや、ユニクロのキャジュアル・ウェアの自動縫製ができるわけではありません(難易度が違う)。しかしこの記事は、ロボットが産業構造や社会構造を変えてしまう可能性を秘めていることを強く示唆しています。21世紀の大産業を一つだけあげよと言われたなら "次世代ロボット"と本文に書きましたが、その思いを強くしました。



 補記2:電王戦を戦った山崎隆之 八段 

第1期電王戦は、山崎隆之 八段 対 ポナンザで行われ、ポナンザの2連勝で終わりました(第1局:2016.4.9-10。第2局:2016.5.21-22)。この棋戦に挑む山崎隆之 八段に密着取材したドキュメントが、先日NHK総合で放映されました。「NEXT 未来のために 不屈の人間力で人工知能に挑む 山崎隆之 八段」(NHK総合。2016.6.18。17:30-18:00)です。

ドキュメントを見る限り、山崎 八段の敗因は「人間である限り避けられない心理面の弱さ」が現れてしまったという感じです。そういう風に受け取りました。歩を打ってじっと自重すべきところで攻撃に転じてしまう(第1戦)。角を切って決戦に突入すべきところで守りに回ってしまう(第2戦)。いずれも控え室の予想を裏切った手でした。もちろん控え室の予想通りで勝てたとは限りません。しかし山崎八段に心理的な迷いが生じ、それが指し手に現れてしまったと感じました。

しかし、このドキュメントの最後で山崎隆之八段が語った言葉は大変に印象的で "爽やかな" ものでした。


「こんなに新鮮な気持ちで、自分の将棋を見つめ直さなければいけないという気持ちに、また帰れたかなと思うので、非常にいい経験をさせていただきました。」

「(自分にはまだ)変なこだわりとかや、頭の堅さがかなりある。もうちょっと素直な吸収力がほしいなと・・・・・・。」

山崎隆之
「NEXT 未来のために」より
(NHK総合 2016.6.18)

人工知能との戦いで山崎隆之 八段が感じたのは、自分の「変なこだわり」や「頭の堅さ」であり、彼自身がもっと欲しいのは「素直な吸収力」なのです。まさにこの "素直な" コメントは、人間と人工知能が共存していく未来を予感させるものでした。

第1期電王戦 第1局.jpg
第1期電王戦 第1局。2日目の朝に封じ手を指す 山崎隆之 八段。岩手県平泉町中尊寺。2016年4月10日。
(site : www.asahi.com)



 補記3:キヤノンの完全自動生産 

補記1でアディダスが、スポーツシューズのドイツ国内生産を再開することを紹介しました。グローバルにビジネスを行っている日本企業で国内生産にこだわっている会社の一つがキヤノンです。そのキーワードは、ロボット技術を駆使したデジタルカメラの「完全自動生産」です。

2016年7月26日、キヤノンは2016年1月~6月の連結決算を発表しました。その関連記事から紹介します。


「1ドル=100円から110円の範囲であれば、企業努力で解決する必要がある」。この日の決算会見でキヤノンの田中稔三としぞう副社長はこう語った。

田中副社長の「企業努力」とは生産の完全自動化だ。キヤノンは15年8月、18年をめどにデジタルカメラの生産を完全自動化すると発表した。

カメラの製造拠点の大分キヤノン(大分県国東市)では「テクノ棟」と呼ばれる建物の建設が進んでいる。投資額は約130億円で年内には稼働する。自動化に不可欠な製造装置を研究開発する組織が移動する予定で、テストラインも置く。

日経産業新聞(2016.7.27)


《増子律夫・キヤノン執行役員(大分キヤノン社長)のインタビューより》

一眼レフの量産機では、すでに組み立ての7割は自動化されている。全工程の自動化もテストモデルでは実験済みで、技術は基本的に確立している。残る3割は、単純に自動化すると投資対効果が見合わない、人手の方が安く済む部分だ」

「自動化で難しいのはワイヤやリード線、フレキシブル基板など軟らかい部品の取り付けだ。自動化は不可能ではないが、ひねって差し込むなどの動作が必要で、複雑な機構をもつ専用装置が必要になる。だが専用機では汎用性が失われる。カメラ業界はモデルチェンジも早いので、すぐ置き換えられなくてはいけない」

低コストでの自動化が実現できるよう、製品の構造や設計の工夫が必要だ。こうした発想は部品にも及ぶ。例えばロボットが組みやすい、つかみやすい部品を造る

「部品の製造プロセスにも踏み込んで、精度のばらつきが少なくなるよう品質管理も必要だ。精度が高くないと感圧センサーでの検査が余計に必要になる。部品を入れるトレーも装置に負担がかからない工夫が要る」

日経産業新聞(2016.7.27)

増子執行役員の言う「低コストでの自動化が実現できるよう、製品の構造や設計の工夫、部品の工夫が必要」というところがポイントだと思います。完全自動化はロボット技術だけの問題ではなく、部品設計・製品設計の課題でもあり、部品を調達する場合は部品メーカーをも巻き込むことになります。そして、このような "総力戦" は、まさに日本企業の最も得意とするところだと思いました。



 補記4:アディダスの米国生産 

「補記1:アディダスの国内回帰」の続報です。アディダスは先進国において靴のロボット生産を展開し、世界シェア1位のナイキを追撃する戦略を加速しているようです。米国での生産開始の記事がありました。


米でロボット、靴生産
 アディダス ナイキの牙城攻略

【フランクフルト=加藤貴行】スポーツ用品世界第2位の独アディダスは10日、2017年後半から米国でロボットによる靴生産を始めると発表した。当初予定より約1年の前倒しとなる。同年に稼働する独工場を上回る最大のロボット工場となり、中期的に年産50万足を見込む。

世界最大市場の米国での流行に対応し、すぐに商品を届けられる生産体制を築いて、ライバルの米ナイキの牙城に挑む。

米国工場はジョージア州アトランタに建設し、工場面積は約7万4000平方フィート(約6900平方メートル)。本社に近い独バイエルン州アンスバッハで計画する第1弾のロボット工場(4600平方メートル)より5割大きくなる。

米国ではまず17年にランニングシューズを5万足生産し、段階的に生産量を増やす。店舗からの売れ筋の情報や、マーケティング戦略に応じ、靴の色や素材、サイズを柔軟に変えられるようにする。

現状のアジアからの輸送期間とコストの大幅な削減にもつながる。生産現場は無人だが、管理や物流部門などで160人を雇用する計画だ。

アディダスの売上高に占める北米の比率は約16%。ナイキが圧倒的に強い市場で、米アンダーアーマーなどの新興勢力にも押されていた。

ただ、アディダスの足元の北米売上高は前年比で2割増収と勢いを取り戻している。米国で前倒しでロボット生産を始めることで現地でのシェア拡大を狙う。

日経産業新聞(2016.8.15)




nice!(0)  トラックバック(0) 

No.175 - 半沢直樹は機械化できる [技術]

No.173「インフルエンザの流行はGoogleが予測する」No.174「ディープマインド」は、いずれもAI(Artificial Intelligence。人工知能)の研究、ないしはAI技術によるビッグデータ解析の話でした。その継続で、AIについての話題です。

AI(人工知能)が広まってくると「今まで人間がやっていた仕事、人間しかできないと思われていた仕事で、AIに置き換えられるものが出てくるだろう」と予測されています。これについて、国立情報学研究所の新井紀子教授が新聞にユニークなコラムを書いていたので、それをまず紹介したいと思います。新井教授は、例の「ロボットは東大に入れるか」プロジェクトのディレクターです。


金融におけるITの活用


新井教授は、金融サービスにおける "フィンテック" が日本を含む世界で熱を帯びていることから話を始めます。


フィンテックはファイナンス(金融)とテクノロジー(技術)を合成した造語で、ITを駆使して金融サービスを効率化したり新しい金融サービスや商品を生み出したりすることを意味する。

金融とITの組み合わせというと、大手銀行がコールセンターにかかってくる問い合わせの電話の応対に人工知能(AI)を導入するという話題が記憶に新しい。AIの発達で銀行や証券会社の窓口係がロボットに置き換わると予測する人工知能学者も少なくない

新井紀子
コラム「Smart Times」
(日経産業新聞 2016.3.3)

2014年末、三井住友銀行とみずほ銀行は、コールセンター業務にIBMの人工知能コンピュータ「ワトソン」を導入すると発表しました。新井教授はそういった銀行業界の動きを言っています。しかし新井教授によると、窓口業務よりも、もっとAI向きの銀行業務があると言います。


だが、私の予想は少し違う。2014年、私は「窓口担当者より先に半沢直樹がAIによって代替される」という予想をたてた。

銀行を舞台にした池井戸潤氏の小説の主人公である半沢直樹は、ローンオフィサーである。取引相手の返済能力の信用度を審査する。個人融資ならば、担保物件の価値や年収、雇用主である企業の事業規模、さらには年齢や家族構成まで考慮に入れるだろう。

データに基づいて融資の条件を計算し、判断する。それが彼の仕事である。融資が焦げ付くこともあるだろう。その場合は他の融資の利益でカバーできればよい。半沢直樹の仕事は「計算の確率的な妥当性」が問われる仕事だといえる。

このような仕事は、ビッグデータによる機械学習と極めて親和性が高い。つまり、機械で置き換えられる可能性が非常に高いはずなのである。

新井紀子「同上」

こういうコラムを読むと、研究者と言えども一般向けに文章を書く(ないしは講演をする)ときには、言葉の使い方が極めて重要だということがよく分かります。「銀行の融資業務は機械化できる」というよりも、「半沢直樹は機械化できる」と言った方が圧倒的にインパクトが強いわけです。研究者も、言いたい事の本質を伝えられる。

新井教授が主導している「ロボットは東大に入れるか」プロジェクトも同じです。「ロボットは大学入試に受かるか」ではなく、あえて「東大」としてあります。プロジェクトの存在感を内外に示すためには、ここは是非とも「東大」でないとまずいのでしょう。しかも最後は「か」という疑問形です。このプロジェクトによって「ロボットが東大に入れるようになるのか、ならないのか、分からない」ようにしてあるわけです。想像ですが、ロボットが東大入試問題を解いて合格するのは無理だと、新井教授は思っているのではないでしょうか。特定の科目で合格点をとるならまだしも・・・・・・。しかし、無理だと言ってしまうと身もフタもない。国立の研究所としては、このプロジェクトを進めることで日本のAI研究を底上げするのが目的でしょうから、ここは疑問形が最適なのですね。

コラムに戻って、では、新井教授は銀行の窓口業務をどう考えているのでしょうか。


一方、窓口業務はそうではない。ひとりひとりの客のニーズを正しく酌み取らなければならない。このような「一期一会的な妥当性」を問われるとAIは弱い。だから窓口業務より先に半沢直樹を機械化するほうが数学的には妥当だと考えたのである。

新井紀子「同上」

確かに窓口での対応は、銀行が顧客に直に接する最前線の一つです。融資担当者(ローンオフィサー)も最前線ですが、接する顧客の数が全く違います。窓口では、顧客のそのときの状況にマッチした「一期一会」の対応が、本来、大変に需要なのです。


14年にこの意見を初めて披露したとき、講演会場は笑いに包まれた。誰もが冗談だと思ったからである。しかし、その直後、英オックスフォード大学の研究チームは、機械に代替されやすい職業のトップ20にローンオフィサーをランクインさせた。そして翌15年、ついに与信審査を完全に自動化した銀行が現れた。

新井紀子「同上」


アマゾンによる与信審査の完全自動化


新井教授がコラムの最後で書いている「与信審査の完全自動化」ですが、アマゾンはすでに日本でもやっています。


ビッグデータを解析 即融資

「5千万円までのローンをご利用いただけます」。家電製品や雑貨などを販売する会社を大阪市で営む松本尚也(31)は昨秋、パソコン画面の表示に目を見張った。「なんじゃこりゃ」。出店するインターネット通販大手アマゾンから、突然の融資の申し入れだった。

返済期間6ヶ月、金利4%台。ちょうど売れ筋のプリンターを多めに仕入れる資金も必要だった。アマゾンの担当者からの電話説明をうけて画面をクリック。わずか2営業日で5千万円が振り込まれた。

返済期間は短く金利は高めだが、ネットですべての手続きが完結する。普通の銀行と違い、決算書や事業計画書は求められず、担保も取られない。2014年設立で社員5人ほどの松本の会社は、地元の地方銀行には融資を断わられていた。「新規創業の会社にも貸してくれる。これが米国標準なんだと驚いた」

アマゾンの融資ビジネスを支えるのは、出店する事業者がもたらす「ビッグデータ」だ。どのくらいの頻度で注文を受け、売り上げは伸びているのか。日々のやりとり集積を独自のプログラムが解析し、お金を貸しても返せる事業者なのかを判断。必要額や金利、返済機関などを自動的に算出し、「人手は一切、介在しない」(アマゾンジャパン セラーサービス事業本部長の星健一)という。・・・(藤崎麻里)

朝日新聞(2016.4.21)

アマゾンにとってみると、適切な事業者(=アマゾン出店者)に、適切な金額を必要な時期に融資できれば、アマゾン経由の通販の量が増え、それによって手数料収入が増える。さらに融資の金利が収入になる。一石二鳥とはこのことでしょう。

事業者のビジネス動向をつぶさにとらえられるという、インターネット通販の特性を生かしたアマゾンのビジネスです。その意味では「融資を断った地方銀行」とは立場が違うのですが、コトの本質は「与信審査は自動化できる」ということです。銀行にその波が押し寄せるのは時間の問題でしょう。


雇用の未来:The Future of Employment


新井教授のコラムに戻ります。新井教授はコラムの最後で言及しているのは、オックスフォード大学の研究チームが発表した「雇用の未来」という論文です。前回の No.174 でも引用した小林雅一著『AIの衝撃』(講談社 現代新書 2015)から、その概要を紹介します。『AIの衝撃』では、AIの進歩が "雇用の浸食" をもたらすだろうという、ビル・ゲイツ氏(マイクロソフト創業者)の講演の紹介に続いて、次のような文章が出てきます。


学界からも、同様の声が上がっています。たとえば英オックスフォード大学の研究者、カール・フレイとマイケル・オズボーンの両博士が2013年9月に発表した「雇用の未来:私たちの仕事はどこまでコンピュータに奪われるか?(The Future of Employment : How Susceptible are Jobs to Computerization ?)」という論文です。これは日本のメディアでもたびたび紹介されましたが、「現存する職種の47%がAIに奪われる」というセンセーショナルな結論しか報じられていないので、今回はどのようにして、そうした結論に至ったのかを、簡単に紹介しておきます。

この論文のポイントは今後、AIを搭載したコンピュータやロボットに奪われるであろう職種を定量的に割り出したことです。具体的には、米国の労働省が提供する「O*NET」と呼ばれる雇用データベースに登録されている702種類の職種を調査対象として選びました。英国の研究者が書いた論文ですが、調査対象は米国の雇用データなのです。

そこには「大工」や「介護士」「料理人」などから、「弁護士」「大学教授」「作家」「ファッション・デザイナー」などまで、現代社会における、ほぼ全ての職業が網羅されています。また各職種がどんな仕事であるかについて、具体的な説明も記されています。

フレイとオズボーンの両氏は、まず702種類の中から70種類の代表的な職種を選び出しました。そしてこれらを(AIの一種である)機械学習の専門家グループに見てもらい、それぞれの職種が今後10~20年の間に、どの程度の可能性でAIを搭載したロボットやコンピュータに奪われるかを 0~100% の間で推定してもらいました。たとえば間違いなく奪われる職種には 100%、逆に絶対に奪われる危険性がない職種には 0% 、両者の中間にある職種には 20、30、40% ・・・・・・ などの採点が下されます。

最後に回帰分析という手法(これ自体が機械学習の一種です)により、これら70種類の採点結果(人間による推定値)をお手本にして、今度はコンピュータが702種類の職種全部を採点します。こうした分析の結果、今後10~20年の間に米国の雇用の47%が、コンピュータやロボットに職を奪われる危険性が高いとの予想が得られました。特に毛危険性が高い職種と、逆に危険性が低い職種を示したのが上の表(引用注:ここでは下の表)です。

仕事を「奪われそうな」職種の例
職 業 奪われる確率
電話による販売員99%
データ入力99%
銀行の融資担当者98%
金融機関などの窓口係98%
簿記・会計監査98%
小売店などのレジ係97%
料理人96%
給仕94%
タクシー運転手89%
理髪業者80%

仕事を「奪われそうにない」職種の例
職 業 奪われる確率
医師0.4%
小学校などの教師0.4%
ファッション・デザイナー2.1%
エレクトロニクス技術者2.5%
情報通信システム管理者3.0%
弁護士3.5%
ライター・作家3.8%
ソフトウェア開発者4.2%
数学者4.7%
旅行ガイド5.7%

小林雅一『AIの衝撃』

AIの衝撃.jpg
この引用における注意点が2つあります。まず、新井教授は「オックスフォード大学のチームが2014年に、機械に代替されやすい職業のトップ20にローンオフィサーをランクインさせた」という主旨の文を書いていますが、引用したオックスフォード大学の研究チームの論文は2013年9月に発表されたものです。従って新井教授が正しければ「機械に代替されやすい職業のトップ20」という発表が、2014年に別にされたことになります。ひょっとしたら新井教授の勘違いかもしれません(2014年となっている所は、正しくは2013年)。しかしどうであれ本質は変わらないので、2013年9月のオックスフォード大学の論文をベースに話を進めます。注意点の2つ目は、引用において、

70の職業の「機械に代替されやすさ」をAI専門家が採点し、
この採点をもとに、702の職業の「機械に代替されやすさ」を、回帰分析の手法で推定した

と書いてあるところです。このうち、②の具体的な推定方法が大事だと思うのですが、そこが書かれていません。オックスフォード大学の論文はネットで公開されているので、それをざっと眺めてみると、おおよそ次のような方法です。

まず「機械に代替されやすさ」を採点するための「職業の数式モデル」を作る必要があります。このモデルの変数を、

知覚による手作業
知的創造
社会スキル

の3つとします。それぞれの必要性や重要性が高い仕事ほど機械で代替しにくい、との仮説をまず置くのです。

次に米国・労働省の「O*NET」の各職業に関する記述項目のうち、 に影響すると考えれる項目、9個を選びます。たとえば については3つで「指先の器用さ」「手の器用さ」「窮屈な姿勢での仕事」です。また は「創造性」と「芸術性」、 は「交渉力」「説得力」「社会的理解力」「他人への援助やケア」です。各職業におけるこれら9つの項目の重要度と必要レベルの数値をもとに、回帰分析の手法で70の職業の "機械化されやすさ" の「採点関数」を求め、その関数を使って702の職業の採点をする、というのが大まか流れです。

これは No.174「ディープマインド」で書いた、コンピュータ将棋における局面の優劣の評価手法と本質的には同じです。つまり、プロの対局で実際に現れた局面をもとに、局面の優劣を判断する評価関数を回帰分析で求め、その関数を使って一般の局面の優劣を判断するという手法と同じです。オックスフォード大学の研究チームは70の代表的な職業が機械で代替されやすいかどうかのAI専門家の判断をもとに、702の職業全部についての判定をAIの手法でやったわけです。


銀行の「融資担当者」と「窓口係」


新井教授の意見とオックスフォード大学の研究チームの結論に共通しているのは、銀行においてAIで代替しやすい職業は融資担当者だということです。つまり半沢直樹は機械化できる、これが共通の結論です。

しかし違っているところもあります。それは、新井教授は窓口係は機械化しにくいと見ているのに対し、オックスフォード大学の研究チームは(融資担当者と同程度に)機械化しやすいと推測していることです。どちらが妥当なのでしょうか。

どうも新井教授に分があるのではと思います。窓口に来た顧客(ないしはコールセンターに電話した顧客)の要望や質問に対して正確に答えることは、十分、コンピュータで出来るようになると思います。しかし、そうであったとしても銀行としては窓口係を配置し、コンピュータの答えも参考にしつつ顧客に寄り添った応対をするのが本筋でしょう。顧客の年齢、緊急度、相談事項の重要度などは千差万別です。まさに新井教授の言うように「一期一会」の対応が必要であり、しかもその対応の数は融資申し込み数より圧倒的に多い。窓口係を機械化することは、銀行の存在基盤を危うくするでしょう。

さっきあげたアマゾンの例が象徴的です。アマゾンは与信審査を完全自動化しているが、アマゾンからオファーをうけた個人事業主は、アマゾンに電話していろいろ聞いているのですね。それで融資を受ける決断をしたわけです。もちろん、コールセンターで運営時間外の問合わせ応答を完全機械化するといったことは、顧客サービスの向上という視点から大いにありうると思います。

この考えからすると、銀行の融資担当者も完全にAIに置き変わるのではないかもしれない。融資可能か否か、可能だとしたらいくらまで可能かは、コンピュータが答えるようになるでしょう。しかし将来の融資担当者はその答えをもとに、融資を申し込んだ顧客と「一期一会の」対応をするのかもしれない。個人事業主からの1000万円の融資申し込みに対し500万円までしか貸せないとしたら、どのように事業を改善すればいいか、その相談に乗るとか・・・・・・。あくまで想定ですが、機械(AIを搭載したコンピュータ)をうまく使いつつ、より高度なサービスを展開するというやり方です。

とは言うものの、この銀行の融資担当者(半沢直樹)と窓口係の話は、我々に大きな意識変革を迫っていると感じます。私たちは暗黙に融資担当者の方が窓口係より価値が大きいと思い込んでいるわけです。実際、銀行に入社10年目の融資担当者と窓口係の給料を比較してみると、大きな差がついているはずです。前者の方が銀行にとって重要であり、ノウハウも知識も経験も必要な仕事だと見なされているからです。

しかし半沢直樹は機械化できる。窓口係よりも機械化しやすいか、少なくとも窓口係と同程度に機械化しやすいのです。つまり、仕事の付加価値は今後、大きく変貌するかもしれないという認識を私たちは持つべきでしょう。


料理人の価値とは


オックスフォード大学の『雇用の未来』という研究報告をつらつら眺めてみると、いろいろとおもしろい発見があります。その一つですが、上に引用した小林雅一著『AIの衝撃』で、仕事をコンピュータに奪われやすい職種として「料理人」がありました。

職 業 奪われる確率
料理人96%

のところです。ここで言う料理人(Cook)とは、決められレシピ通りに料理を作る人という意味であり、新しい料理のレシピを考える人は、当然ですが「奪われにくい」のだと思います。実は、オックスフォード大学の研究報告では Cook が3つに分かれています。

職 業 奪われる確率
Cooks, Restaurant96%
Cooks, Short Order94%
Cooks, Fast Food81%

つまり『AIの衝撃』に引用されている「料理人: 96%」とは「Cooks, Restaurant(レストランの料理人): 96%」のことであり、それよりも比較的仕事を奪われにくいのは「Cooks, Fast Food(ファストフードの料理人): 81%」なのです。我々は暗黙に、ファストフードで料理を作る店員の方が機械化しやすいと考えるのですが、そうではない。この報告では料理の値段が高いか安いかよりも「短時間に素早く料理をつくる必要性」が「機械に仕事を奪われにくい」理由になっているようです。

もちろんこれはAI専門家による推測に過ぎないし、15%程度の差異を議論するのは妥当ではないでしょう。たとえ機械化しやすいとしても、高価な料理は料理人が自らの手で "心をこめて" 作るのが当然とされるでしょうから、"社会的に" 機械化しにくいはずです。技術論だけで「仕事を奪われる・奪われない」という議論をするのも意味がありません。

しかし「料理人の機械化」の話は、先ほどの「融資担当者と窓口係」と同じく、仕事の価値とは何かについての一つの教訓と考えられると思います。我々には、現代社会における給料の多寡や "社会的地位" からくる暗黙の思い込みがあるのではないか・・・・・・。その思いこみを排して考えたとき、仕事の真の価値とは何かが見えてくるでしょう。



機械化によって仕事が変貌するとともに、不必要な仕事・職業が出てくるのも必定です。この数十年の例から言うと、たとえば「バスの車掌」という職業がそうです。バス内部の機械化によって運転手が車掌を兼ねるようになった。もっと大きく言うと、教科書で習った世界史では英国の産業革命の時代に機械化に反対する労働者の暴動まで起きました。何回か引用した『AIの衝撃』には、産業革命よりもっと前の歴史エピソードが出てきます。


16世紀の英国で靴下編み機が発明されたとき、当時の女王エリザベス一世はこれを発明した技術者に「あなたは、この発明物が我が臣民(つまり靴下を手編みで製造する労働者たち)にどんな影響を与えるか考えたことがあるのですか? あなたはこの者たちの職を奪い、路上の物乞いに変えようとしているのですよ」と叱り、靴下編み機の技術に特許を与えようとはしませんでした。

小林雅一『AIの衝撃』

エリザベス一世の思考に入っていなかったのは、靴下編み機を使うと製造コストが大きく下がり、臣民に広く靴下が行き渡るだろうということです。その方が、全体として英国経済の活性化に寄与するはずです。ただし仕事を追われる人たちが出てくる・・・・・・。

ともかく、エリザベス一世の時代から400数十年がたっているのですが、その間ずっと「機械が仕事を奪う」現象が世界のどこかで起き続けてきたわけです。その一方で、機械による効率化で国全体の経済が発展し、人々の暮らしが楽になり、余裕が出てきたとも言える。健康を損なうような "奴隷的肉体労働" も無くなった。ものごとには両面の見方があります。今また、その「機械化」の大きな波が来ようとしている。そう考えられると思いました。



 補記1:与信審査の自動化 

みずほ銀行とソフトバンクは2016年9月15日、個人向け融資における与信審査を自動化したサービス提供に乗り出すことを発表しました。


融資にAIを活用
 ソフトバンク みずほ銀と新会社

ソフトバンクとみずほ銀行は15日、11月にも共同出資会社を設立して新しい融資事業を始めると発表した。人工知能(AI)やビッグデータ分析などの最新技術を使って、顧客の学歴や思考、行動などに基づき融資額や貸出金利を柔軟に決められるようにする。2017年前半のサービス開始をめざす。

新会社はソフトバンクとみずほ銀行が折半出資する。資本金は50億円になる予定。

みずほ銀行が持つ金融関連のノウハウやビッグデータとソフトバンクのAIなどの技術を融合して、個人の将来の可能性まで考慮して融資の上限額や貸出金利を柔軟に決められるシステムを構築する。

スマホで申し込みから融資まで簡潔できる。融資の前に個人や家族の情報を入力すると借り入れの条件の基になる「スコア」が表示される。スコアはいつでも確認でき、様々な情報を入力するほどスコアが更新され有利な条件で借りやすくなる。

ソフトバンクグループの孫正義社長は15日の記者会見で「若者がもつ将来の能力や稼ぐ力に合わせて貸し出せる。若者が夢をかなえられる」と述べた。みずほフィナンシャルグループの佐藤康博社長は「今までとは全く違うサービスを提供していく」と話した。

日経産業新聞(2016.9.16)

みずほフィナンシャルグループ・ソフトバンク.jpg
みずほフィナンシャルグループの佐藤康博社長とソフトバンクグループの孫正義社長の記者会見。2016年9月15日。
(site : mainichi.jp)
あくまで個人向けの融資ですが、このブログの本文に書いた新井教授の「半沢直樹は機械化できる」という予想が、日本でも現実化してきたわけです。

ソフトバンクとみずほ銀行の発表の一番のポイントは、将来の能力や稼ぐ力も考慮して貸し出すというところですね。これには、いわゆるビッグデータが必要です。つまり現代日本の個人の年収と、その人の学歴や家族構成、家族の職歴、居住地区・番地をはじめとする個人情報のビッグデータです。これをAI技術で分析し、将来の能力や稼ぐ力を推定する。どこまでの個人情報を収集する(した)のか、それは完全に秘密にされるでしょうが、個人の購買履歴やライフスタイルに関するさまざまな情報が参考になると思われます。もちろん推定がハズレることもあるでしょうが、個人向けローンのビジネスが成立する程度の正確さで推定できればよいわけで、それが出来るというのが新会社設立の背景です。

「若者がもつ将来の能力や稼ぐ力に合わせて貸し出せる。若者が夢をかなえられる」という孫社長の発言の裏にあるのは、

  「本人からの申告データ」と「合法的に入手できるデータから推定できる個人情報」をもとに、AI技術を使って、個人向け融資ビジネスに使える程度の正確さで、本人の将来の稼ぐ力を推定できる

ということであり、既にそういう時代に突入していることは認識しておくべきでしょう。

(2016.9.18)


 補記2:アマゾン・ゴー 

2018年1月22日、Amazon はシアトルに「レジ係がいないコンビニ」をオープンさせました。ここにはAI技術が駆使されています。本文の中で紹介したオックスフォード大学の「雇用の未来」に、AIによって職を奪われやすい職種として「小売店などのレジ係」が "97%の高確率" でリストアップされていました。それが現実化する第1歩が踏み出されたわけです。日本経済新聞の記事(オープン直前に書かれた記事)を引用します。


米に無人AIコンビニ
 アマゾン、レジなく自動精算

【シリコンバレー = 中西豊紀】 米アマゾン・ドット・コムは22日(米国時間)、米シアトルに無人のコンビニエンスストアを開業する。人工知能(AI)の技術を駆使して、レジを無くした。来店客は買いたい商品を棚から取り出し、そのまま外に出るだけで自動的に支払いが済む。ネット小売りを制したアマゾンが実店舗のあり方も変えようとしている。

「アマゾン・ゴー」の名称でシアトルの本社下に開く。広さは1800平方フィート(約167平方メートル)で、サンドイッチなどの総菜や半調理食材、飲料などを扱う。最大の特徴はお金を払うレジがないことだ。

客は専用アプリをダウンロードしたスマートフォン(スマホ)を入り口にある自動改札のような専用ゲートにかざして入店。欲しい商品を自分の買い物バッグなどに入れて、そのままゲートから出るだけで買い物が済む。店内には買い物かごもなければレジ待ちの行列が生じることもない。

店内はそれぞれの客がどの商品を選んだかを天井に大量に設置されたカメラや棚のセンサーを通じて常時把握している。仕組みについて同社は「画像認識と機械学習の仕組みを駆使している」とのみ説明。Aという客が一度選んでその後また棚に戻した総菜を「Aにとっての決済対象外商品」と認識できるだけの精度がある。

これまでの小売業は無線のタグを店内の商品すべてに取り付け、それを基に在庫管理を簡素化するなどしてきた。無人のレジを置く店舗も増えているが、客は決済時に自分で商品情報を機械に読み込ませる必要があり利便性が高いとは言い難かった。

アマゾンはAIを使って店舗内の商品と客をまるごと認識するやり方をとっており、実店舗の常識にとらわれていない点で発想が違う。同じAIの活用を勧めるウォルマートでは「いかにレジの行列待ちを減らすか」(幹部)に注力しているが、アマゾンは「そもそもレジは必要か」という視点に立っている。

日本経済新聞(2018.1.23)

Amazon Go.jpg
Amazon Goの出入り口
記事の見出しだけを読むと誤解しそうですが、この店舗は無人でありません。総菜を調理する人や商品の棚出しをする人、警備員などはいます。これは「レジ係無しの店舗」です。日本でも広がってきたセルフ・レジは決して無人のレジではなく、レジ係を利用客に代行させるという奇妙なレジですが、アマゾンの店舗は本物の無人レジであり、その意味では画期的でしょう。

報道で思ったのは、やはり AI(ないしは、AIを含む広い意味での機械)で代替しやすい仕事と、そうではない仕事があることです。多くのスーパーで見られるような「バーコードをスキャンし決済するだけのレジ係」は機械で完全に代替されてしまうことが証明されました。しかし日本のコンビニのような「多機能レジ係」はそうとも言えないでしょう。コンビニでは「スキャンと決済」だけでなく、保温商品の提供(おでんやフライなど)、代行収納、宅配便の保管、チケットの販売など、"コンビニエンス" を利用客に提供するための多様な業務を行っています。仕事の価値とは何かを考えさせられます。

アマゾンの店舗で使われているAI技術は非公開のようです。技術の詳細が分かると悪用されるからでしょうが、今後、研究が進んで徐々にメディアで報道されると思います。たとえば、利用者のプライバシーに配慮して顔認識はあえてせず、服装などで人を特定していると米メディアが既に報じています。この、店舗全体を自販機に変えてしまう技術に注目したいと思います。

(2018.1.23)



nice!(0)  トラックバック(0) 

No.174 - ディープマインド [技術]

最近の記事で、AI(Artificial Intelligence。人工知能)について3回書きました。

No.159 AIBOは最後のモルモットか
No.166 データの見えざる手(2)
No.173 インフルエンザの流行はGoogleが予測する

の3つです。No.159 の "AIBO" は AI技術を利用したソニーの犬型ロボットで、1999年に発売が開始され、2006年に販売終了しました。さすがソニーと思える先進的な製品です。また、No.166「データの見えざる手(2)」で紹介したのは「ホームセンターの業績向上策」をAI技術を利用して見い出したという事例でした。さらにNo.173は、グーグルが人々の検索ワードを蓄積したビッグデータをもとに、AI技術を応用してインフルエンザの流行予測を行った例でした。

そのAI関連の継続で、今回はグーグルが2014年に買収した英国の会社、ディープマインド社について書きたいと思います。この会社がつくった「アルファ碁」というコンピュータ・プログラムは、囲碁の世界トップクラスの棋士と対戦して4勝1敗の成績をあげ、世界中で大変な話題になりました。


「アルファ碁」とイ・セドル九段の5番勝負


2016年3月、韓国のイ・セドル(李世乭)九段とディープマインド社の「アルファ碁」の5番勝負がソウル市内で行われ、「アルファ碁」の4勝1敗となりました。イ・セドル九段は世界のトップクラスの棋士であり(世界No.1とも、No.2とも言われる)、囲碁の世界では大変な強豪です。コンピュータはその棋士に "勝った" ことになります。

AlphaGo vs Lee Sedo.jpg
AlphaGo vs イ・セドル9段(右)第1局
(YouTube)

もっとも、これが真に "対等な勝負" なのかは疑問があります。それは、「アルファ碁」は世界のプロ棋士の過去の対局・数十万の棋譜を記憶しているが(数は推定。後述)、イ・セドル九段はもちろんそんな数の棋譜を知っているわけではないし、さらに「アルファ碁」の棋譜もほとんど知らなかったと想定できることです。想像ですが「アルファ碁」は過去のイ・セドル九段の全対局を "予習" したのではないでしょうか。ディープマインド社にとって(そしてグーグルにとって)イ・セドル九段に勝つことは会社の価値を上げる最大の見せ場になるからです。違うかもしれません。しかし「相手の手の内を知る」という意味で、双方には圧倒的な情報格差があったことは事実でしょう。

それに加えて、人間側には不利な面があります。それは「人間があるがゆえの弱点」です。まず、イ九段には "この対局に負けると囲碁2000年の歴史を汚す" というような精神的プレッシャーがあったと想像できます。また、第1局に負けたあとは当然、大きな焦りが出てきただろうし、人間には一般的に言って「体調が悪い」とか「疲れ」とか「集中力が切れる」とかの弱さがあります。機械にはこういった弱点は全くありません。単純には比較できない感じがします。

とはいえ従来、コンピュータ囲碁がトップクラスの棋士に勝てる日などいつになるか分からないと考えられていたものが、こんなにも早く勝利するとは素晴らしいことだと思います。報道で「機械が勝利するのにあと10年はかかると考えられていた」とありましたが、IT技術やコンピュータ技術がこれだけ急速に進歩する中で「10年はかかる」というのは「いつになるか分からない」と同じことでしょう。その意味で、ディープマインド社の技術は凄いと言えます。まるで生命の突然変異のように急激な進化を遂げたように感じます。

この「アルファ碁」を開発したディープマインドとはどういう会社でしょうか。


ディープマインドの設立


グーグルは2014年1月に英国・ディープマインド社を推定4億ポンド(約700億円)で買収しました。そのとき設立3年目に入っていたディープマインドは、まだ売り上げを出していなかったし、それどころか製品すら出していなかった。なぜグーグルは約700億円も投じてそんな会社を買収したのでしょうか。実績のないベンチャー・ビジネスに対する投資としては金額が大きすぎます。

ディープマインド社は 2011年に3人の共同創業者によってロンドンで設立されました。いずれも20~30代の青年です。その共同創業者の一人がデミス・ハサビス氏で、現在の最高経営責任者(CEO)であり、アルファ碁開発の中心人物です。イ・セドル九段との5番勝負の報道でも、たびたび登場しました。

以下、小林雅一著『AIの衝撃』(講談社 現代新書 2015)から引用します。小林氏はKDDI研究所のリサーチフェローです。


ディープマインドの共同創業者の一人であるデミス・ハッサビス氏は英ケンブリッジ大学でコンピュータ科学の学位を取得した後、1998年にゲーム会社を設立。このビジネスで成功を収めた後、2005年にロンドン大学の博士課程に再入学し、神経科学(脳科学)を学び始めました。その研究テーマが脳の一部領域である「海馬かいば」でした。

それまで海馬は「記憶」など過去の出来事を保存する領域と見られてきました。しかし、ハッサビス氏は記憶喪失の患者の脳を研究することにより、海馬を損傷した患者が未来も想像できなくなることを発見しました。つまり海馬は過去の出来事から未来を思い描くための、橋渡しの役割を果たしていることが分かったのです。この研究成果は2007年に、世界的な科学論文誌「サイエンス」における「今年最大のブレークスルー(Breakthrough of the Year)に選ばれました。

やがてディープマインド社を設立(引用注:2011年)したハッサビス氏は、この研究成果を生かして「過去の経験から何かを学んで、それを未来の行動に反映させるニューラルネット」を開発しました。

小林雅一『AIの衝撃』
(講談社 現代新書 2015)

この経歴をみるとハサビス氏はコンピュータ・サイエンスを学んだあと、脳の研究に取り組み、そのあとにディープマインド社を設立しています。おそらく新たなAI技術を確立するため海馬を研究し、そしてベンンチャー・ビジネスを起こすという長期的な考えがあったと想像されます。

Demis Hassabis.jpg
ディープマインド社 デミス・ハサビスCEO
(sie : www.nature.com)

引用中で "ニューラルネット" と書かれているのは、脳の神経細胞(ニューロン)の機能を模擬したコンピュータ・プログラムです。その中でも、多段に構成したニューラルネット(ディープ・ニューラルネットワーク)を用いて機械に学習をさせる「深層学習(ディープ・ラーニング)」が、現在のAI研究の主流になっています。ハサビス氏がディープマインド社で開発したのは深層学習の一分野である「強化学習」と呼ばれるジャンルのプログラムです。では、引用にある「過去の経験から何かを学んで、それを未来の行動に反映させるニューラルネット」とはどういうものでしょうか。


ディープマインドが専門とするAI技術は、ディープラーニングの中でも「強化学習」と呼ばれる細分化された領域に属します。これはコンピュータ、つまりそこに搭載されたAIプログラム(ソフト)に対し、非常に限定的なフィードバック(反応)を返すことによって、この世界について何かを学ばせる技術です。

そいう言われてもピンとこないかも知れませんが、もっと簡単に言うと、こういうことです ─── このAIプログラム(ニューラルネット)に何かの仕事をさせ、それが上手くできたら「よくできたね!」と私たち人間が褒めてあげる。逆に失敗したら「駄目じゃないか!」と叱る。たったこれだけのことで、このAIプログラムは自分のやり方のどこが良くて、どこが悪かったのか自分で発見して、どんどん上達してく。これが強化学習にもとづくAIです。

小林雅一『AIの衝撃』

AIの衝撃.jpg
小林氏の『AIの衝撃』は一般読者向けに書かれた新書であり、その制約の中で「強化学習」を説明するのは難しいことがよく分かります。ちゃんと説明するのなら本来、数式を出さざるを得ないのでしょう。従って上の引用のような説明になり、我々読者としても "感覚的に" 理解するしかありません。

この説明のポイントは「限定的なフィードバック」というところですね。プログラムが出した答えに対して、OK / NG などの簡潔なフィードバックを与えることで、プログラムが学習し、正しい答えを出すように自ら変化していく。OK / NG だけでなく、どの程度 OK か、どの程度ダメかという点数を教えるのも「限定的なフィードバック」と考えられます。とにかく「この点がダメだから、ここをもう少しこういう風に直したらいい」というような "微に入り細に渡る" フィードバックではなく「限定的なフィードバック」を返すことによって、ニューラルネットのプログラムを成長させる。ここがポイントでしょう。

ゲーム機でスカッシュを模した単純なゲームで遊ぶことを考えてみます。ビデオ画面にはボールが上方から投げられ、それを下辺にあるラケットを左ボタン・右ボタンを動かすだけで打ち返す。再び上・左・右の壁で跳ね返ってきたボールをまた打ち返す。ボールのスピードはだんだん早くなり、打ち返せなかったらゲーム終了。打ち返した数がポイントになり、そのポイントの多さを競う。そういうゲームを想定します。

とすると、ディープマインド社の「強化学習型のディープ・ラーニング = 深層強化学習」は次のようなことが出来ることになります。そのコンピュータ・プログラムに、0.1秒ごとのビデオ画面の画像データを送り込む。そうすると直前の数個の画面データを覚えていたコンピュータ・プログラムは、どのボタンを押すか(押し続けるか・離すか)を判断する。これを0.1秒ごとに繰り返す。ボールを打ち返せなければNGのフィードバックを与え、多く打ち返せるとOKのフィードバックをポイント分だけ与える。そうすると、初めはすぐにゲーム終了になるが、次第にコンピュータ・プログラムは玉を打ち返すようになる・・・・・・。

強化学習ができるということは、そういうことになります。当初、コンピュータ・プログラムはゲームのルールを知りません。次第に上達するということは、コンピュータ・プログラムがルールを「理解した」と考えてもいいわけです。

これは革新的な技術です。なぜなら、ゲームをしてフィードバックを返すということがすべてコンピュータ内部で出来るわけであり、24時間、365日、延々とゲームを繰り返えせるからです。そのたびに深層強化学習のプログラムは、少づつ "賢く" なっていく。ついには人間に追いつくでしょう。この "スカッシュ ゲーム" どおりのことがあったわけではありませんが、ごく簡略化して書くと、本質的にはこのようだと思います。

事実、ディープマインド社はゲームソフトで有名なアタリ社の商用ゲームで強化学習の有用性を実証したのです。


ディープマインドはこの技術を使って「Pongポン」(1972年に米アタリ社が開発した卓球ゲーム)など、ごく初歩的なビデオ・ゲームで遊ぶAIプログラムを開発しました。このプログラムは7種類のゲームにおいて、コンピュータ画面に表示される「ポイント(得点)」を知ることによって、ゲームのルールや遊び方を学習し、そのうち3つのゲームでは人間の名人にも勝てるようになりました。つまり何をすればポイントが自分に入り、何をすればポイントが相手にいくか。これだけを知ることによって、このAIプログラムはゲームのやり方を学んでいったのです。

小林雅一『AIの衝撃』

実はグーグルのディープマインド買収のきっかけになったのは、この「ビデオ・ゲームを人間並に(人間以上に)うまくやるAIプログラム」だったのです。


以上の成果をディープマインドの研究者たちは学術論文にして発表しました。これがグーグルの目にとまり、最終的に同社買収へと至ったのです。この論文に対しグーグル、特に最高経営責任者のラリー・ペイジ氏が感銘を受けた点は、ある種の人間性の萌芽を思わせるAIの登場であったことと言われます。

小林雅一『AIの衝撃』


アルファ碁(AlphaGo)


ディープマインドが開発したアルファ碁の話です。「Nature ダイジェスト 2016年3月号」にその技術の紹介が載っていました。この号が発売された時点で、イ・セドル九段との対戦はまだ行われていません。アルファ碁は、2015年10月に囲碁の欧州チャンピオンに5戦5勝の成績をあげました。ディープマインド社はそれを踏まえ、「Nature誌 1月17日号」に「機械学習によって人工知能(AI)が囲碁をマスターした」との発表をしました。そのダイジェストが2016年3月号の記事です。

まず大切なことがあります。従来のボード・ゲームのプログラムは、そのゲーム専用のものでした。チェスの世界チャンピオンを破ったIBMのディープ・ブルー、日本で多く開発されているコンピュータ将棋のソフト、欧米や日本で盛んな囲碁ソフトなどは皆そうです。しかしアルファ碁は違います。


アルファ碁は、囲碁を打つプログラムではない。汎用アルゴリズムに対局パターンの情報を大量に読みとらせて学習させた。同社の別のAIは同様にして Atari 2600の49種類のビデオゲームのプレイを学習している。

Elizabeth Gibney(三枝小夜子・訳)
「Nature ダイジェスト 2016年3月号」

小林雅一『AIの衝撃』にも、アタリ社が開発した卓球ゲームをAIがマスターしたことが書かれていました。それと同じ種類のプログラムが囲碁をマスターしたというわけです。もちろん、基本的な囲碁のルール(たとえば、ダメを打てるのは相手の石を取る時だけとか、コウはすぐには取り返せないとか、地の多さで勝敗を決めるとか・・・・・・)は覚え込ませる必要があります。しかし基本的にはビデオ・ゲームをプレイするのと同じアルゴリズムで囲碁をするというわけです。ここは重要だと思います。というのも、汎用アルゴリズムであるからには他のゲームにも応用が利くし、さらにはゲームを越えて各種の社会問題にも適用できる可能性を示唆しているからです。「Nature ダイジェスト」には、囲碁をマスターした具体的なやりかたが書かれています。


囲碁は局面の優勢・劣勢を認識することがチェスよりもはるかに難しい。どの碁石の価値も同じであるほか、それぞれの石が盤面全体に微妙な影響を及ぼすからだ。

アルファ碁には、脳神経回路を模倣したニューラルネットワークという情報処理プログラムが搭載されている。何層にも重ねられたネットワーク間の結合を、実例や経験に基づいて強化する「ディープラーニング(深層学習)」と呼ばれる手法を導入した。

まずプロ棋士どうしの対局の3000万通りの局面を調べ、盤面データから形勢に関する抽象的な情報を抽出した。画素に基づいて画像を分類するプログラムと同様である

Nature ダイジェスト(2016年3月号)

ここの説明のポイントは、

  何層にも重ねられたニューラルネットワークを使った、ディープラーニング(深層学習)を使って、盤面の形勢を判断する手法を確立した

というところです。日本で盛んなコンピュータ将棋のプログラムからの類推で考えますと、コンピュータ将棋で第一に重要なのは、局面の形勢(優劣)を判断する「評価関数」を作ることです。コンピュータ将棋の初期において、評価関数は将棋の知識のあるプログラム開発者の "手作り" でした。つまり、どういう変数を使い、どのような演算をして局面の優劣を的確に判断できる「評価値」を導くのか、それはプログラム開発者の将棋の経験にたよっていました。

この状況を一変させ、コンピュータ将棋がプロの棋士を破るまでになったのは、2005年に公開された Bonanza(ボナンザ)が契機でした。Bonanzaは当時カナダのトロント在住の学者(専門は化学)、保木ほき邦仁くにひと氏が開発したプログラムですが、画期的だったのは評価関数の作成に「機械学習」を取り入れたことです。つまり保木氏はプロ棋士の棋譜を6万局以上集め、統計で用いる回帰分析の手法で評価関数を作り出したのです。この関数に使われた変数は1万以上と言います。

将棋の平均手数を120手とすると(これはいろんな説があります。仮に、ということです)、6万局の棋譜には720万の局面があることになります。この720万の局面には、それぞれ一つ前の局面があります。そこからプロが1手を指してその局面になったわけです。ということは、プロが指さなかった多数の手(将棋のルールでは可能な手)があることになり、その多数の手によって実際には現れなかった局面が仮定できます。評価関数としては「実際には現れなかった局面」より「実際に現れた局面」の評価が高くなるように変数を決め、関数を調整するということになります。

もちろんプロと言えども「最善手」を常に指せるわけではないし、中には「悪手」もあるでしょう。しかし悪手といっても「プロが指した悪手」です。アマチュアの悪手とはわけが違う。さらに6万局の中には「アマチュアでもやらないようなポカミス」が混じっていることもありうる。しかしそのような手はプロである限りごく少数であり、評価関数の大勢には影響しないでしょう。

重要なことは、こういった機械学習の手法で評価関数を作るのに将棋の棋力はあまりいらないことです。保木氏は著書(「ボナンザ VS 勝負脳」角川書店)で、自分の棋力をアマチュア5級程度と述べています。棋力よりも統計学や数学、コンピュータ・サイエンス、論理的思考の勝負です。

以上を踏まえてアルファ碁の話に戻りますと、上の引用の中に、

  盤面データから形勢に関する抽象的な情報を抽出した

と書かれているのは、コンピュータ将棋で言うと「評価関数を作った」ということと同等でしょう。それをディープマインド社はニューラルネットワークを用い、深層学習の手法で行った。その手順は引用にあるように、

  画素に基づいて画像を分類するプログラムと同様

なわけです。グーグルがネット上に公開されている大量の猫の写真をもとに深層学習で「与えられた画像が、猫か猫でないか」を判別するプログラムを作ったと話題になったことがありました。また深層学習を使った手書き文字の認識プログラムも同じです。人間は猫の特徴やアルファベットの各文字の特徴をプログラムに教えず、プログラムが深層学習で判別能力をつけていく。アルファ碁もそれと同様です。囲碁のある局面は、19×19の合計361の交点に白石があるか、黒石があるか、何もないかのパターンです。そのパターンを入力すると、形勢判断ができる。そういうプログラム(ニューラルネットワーク)を深層学習で作ったことになります。

プロ棋士の3000万通りの局面と書かれています。囲碁の平均手数を仮に200とすると、15万局の棋譜ということになります。囲碁の自由度の多さを考えると、コンピュータ将棋・Bonanzaが機械学習に使った6万局と比べて少ないと感じますが、これがプロ棋士の棋譜を集められる限界だったのかもしれません。


その後、コンピュータ上で自己対局を行って、対局を繰り返すたびに改良を重ねていった。「強化学習」と呼ばれる手法だ。こうして盤面の意味を読み取って最良の一手を選択する術を学んだ。

アルファ碁はこの段階で、市販の囲碁プログラム(手筋のシミュレーションによって最良の手を選択する)と同等の強さになっていた。次にハサビスらはこの探索アプローチを次に打つ手を選択して碁盤を読む能力と組み合わせた。これによって、どの戦略がうまくいきそうかを、より正確に判断できるようになった。

Nature ダイジェスト(2016年3月号)

ここでディープマインドの得意技術である「強化学習」が出てきます。「強化学習」とは、先に引用した小林雅一『AIの衝撃』に書かれている通りですが、その強化学習はプログラム同士の自己対局で行ったわけです。もともとアルファ碁が機械学習で "評価関数" を作る際に用いたプロの対局は15万局程度と推定されるのですが、自己対局による強化学習ではそれより遙かに多い対局数をこなしたと想像できます。このあたりに、強化学習というAI技術のメリットが現れていると思います。強化学習を終えたアルファ碁は「市販の(最強の)囲碁プログラムと同等の強さ」になったようです。

このあとは「読みの力」をつける作業です。ふたたびコンピュータ将棋から考えますと、評価関数に続く第二のポイントは「指し手の探索アルゴリズム」です。先手に(評価の高い)数手が考えられ、それぞれの手について後手にも数手が考えられるとすると、これを続けていくことで、いわゆる「ゲーム木(ツリー)」ができます。この「ゲーム木」を探索する必要がある。このとき、先手も後手も最善を尽くすと仮定します。数手~数十手先の「先手にとっての評価が高い局面」を探索するのですが、しかしその先手有利の局面が直前の後手の「悪手」で引き起こされたのなら、それは読みから排除しなければならない(双方が最善の原則)。というように、先々どうなるかを読んで次の一手を決める必要があります。

「ゲーム木」は先読みの数が増えるとすぐに膨大な数になるので、制限時間内にどこまで先を読むか、どの手を評価してどの手を評価しない(読まない)のか、プログラムが判断する必要があります。もちろんコンピュータの性能にも大きく依存します。この「ゲーム木の探索アルゴリズム」の優劣が、プログラムの強さを決める第二のポイントです。上の引用における

  次にハサビスらはこの探索アプローチ次に打つ手を選択して碁盤を読む能力と組み合わせた

のところは、この「ゲーム木の探索」のことを言っているのですが、少々分かりにくい文章です。まず「この探索アプローチ」とは、文のつながり上、「市販の囲碁プログラム(手筋のシミュレーションによって最良の手を選択する)の探索アプローチ」だと理解できます。そして「次に打つ手を選択して碁盤を読む能力」とは、強化学習の結果得られた「盤面の意味を読み取って最良の一手を選択する術」のことだと読めます。つまりアルファ碁は、強化学習で得られたディープマインド独自の "評価関数" と、市販の(最強の)囲碁プログラムと同等の「ゲーム木探索アルゴリズム」を組み合わせたということでしょう。もちろんここで書いた "評価関数" は、多層に重ねられたニューラルネットワーク(ディープ・ニューラルネットワーク)で実現されているものです。

以上の「Nature ダイジェスト」の記事を総括すると、ディープマインドのアルファ碁の独自性とは、

局面の優劣の判断にディープラーニング(深層学習)による機械学習を用いた

さらにディープマインド独自の強化学習によって正確な優劣判断ができるようになった

の二つだと読み取れます。つまり一言で言うと「深層強化学習」です。このうち、①の深層学習は他の囲碁プログラムにも実装例があるようです(例:フェイスブック開発のdarkforest)。ということは、最初に紹介した小林氏の『AIの衝撃』にあった「ディープマインドが専門とするAI技術は、ディープラーニングの中でも強化学習と呼ばれる細分化された領域」というところに戻るわけです。そこがアルファ碁の強さの秘密だと判断できます。もっと詳しい技術情報が Wikipedia などのネットで公開されているのですが、細かくなるので割愛したいと思います。


AlphaGo-LeeSedol Matchh4 White78.jpg
アルファ碁(黒)対 イ・セドル九段(白)第4局
白78(K9)が打たれた局面

イ・セドル九段がアルファ碁に唯一勝ったのが第4局だが、上の図はイ・セドル九段が白78(K9)のワリコミを打った局面。ライブ中継の解説を担当していたマイケル・レドモンド九段は白78を予想していなかったが、打たれた瞬間 "Exciting" と評していた。イ・セドル九段が放った勝負手である。レドモンド九段の解説にあったように、この手は白H6のキリを睨んでいて、黒の応手は難しい。黒にシノギの筋はあるのだが、その読みが簡単ではない。

これ以降、アルファ碁は疑問手を続発し、明らかな悪手も加わって、アルファ碁の投了で終わった。イ・セドル九段の白78は人間の創造力を見せつけた一手だった。
(YouTube)



以降、この対局とディープマインドについて強く印象に残った4点をまとめます。「囲碁に新しい風を吹き込む」「コンピュータの歴史の転換点」「人工知能のリスク」「ゲームが導いた革新」の4つの視点です。


囲碁に新しい風を吹き込む


まず「アルファ碁」とイ・セドル九段の5番勝負ですが、この対局に関する各種の報道で印象的だったのは、勝負を観戦した日本のトップ・プロの感想でした。第5局(アルファ碁の勝ち)についての朝日新聞(2016.3.24 夕刊)の記事からです。

  「勉強になりました。右辺を広げる手の中には、いままでの感覚とはかけ離れたものがあった。弟子が打ったら、しかり飛ばすような」(王 銘琬めいえん 九段)

  「こう打てばいいんだよ、と教えてくれているような感じでした。空間や中央の感覚が人間と違う。懐が深い」(井山 裕太 名人)

二人の意見に共通しているのは、アルファ碁は空間や中央の打ち方にプロ棋士とは違った "感覚" を示したということです。これには、なるほどと思いました。

囲碁は最終的には地の多少を争うゲームです。地は隅が作りやすく、その次に作りやすいのが辺で、中央が一番作りにくい。手を読むのも、特に序盤から中盤にかけては、隅→辺→中央の順に読みにくくなります。中央はいちばん手が広い(=たくさんの選択肢がありうる)からです。中央が読みにくいということから、中央を打つときには "感覚" に頼ることが多くなる。この "感覚" がくせ者です。それは先生から弟子へと(王九段が言うように、弟子は先生に叱り飛ばされながら)受け継がれてきたものでしょう。さらには先人から現代の棋士へと受け継がれてきた。その囲碁の歴史で醸成されてきた "感覚" は、果たしてどの程度まで正しいのか。中央の手を読むより、隅や辺の手を精密に読むことに慣れた人間の "感覚" がどこまで正当化できるのか、ということがあると思うのです。

アルファ碁にとって、隅・辺・中央の違いはありません。盤面全体を一つのパターンとしてとらえて最善手を見つけようとする。辺の打ち方で20手先を読むのも、中央の打ち方で20手先を読むのも変わらない。中央の手が広ければ、読みの探索範囲が増えます。従って読みを省略する手は相対的に増えるでしょうが、読む "深さ" は、隅や辺と変わらないはずです。

アルファ碁は空間や中央の打ち方にプロ棋士とは違った "感覚" を示したということは、はからずも今までのプロ棋士たちの囲碁研究で「手薄だった」部分が露呈したということではないでしょうか。アルファ碁はそれを明らかにした。上に引用した王九段も井上名人もそれを感じたのではと思います。

二人の発言から感じるのは、囲碁の世界においてもコンピュータと共存していこうという意志です。確かに今回は教えられた、しかしその教えられたことをベースに、自分自身ももっと強くなるぞ、というような二人の意欲を感じます。コンピュータ技術と人間の知恵の相乗効果で、双方がレベルアップしていくという未来を感じさせる、さわやかなコメントでした。


コンピュータの歴史の転換点


アルファ碁の勝利を前にすると、AIは万能のように考えてしまう人が出てくると思いますが、それは違うでしょう。まず、アルファ碁は「人間の知恵の集積」がベースになっています。アルファ碁が機械学習に使った3000万の局面はあくまで近年のものだと思いますが、そのバックには「囲碁2000年の歴史」があり、アルファ碁はそこからスタートしているわけです。しかも人間なら3000万の局面を記憶する必要はなく、少量の過去の棋譜から類推・推量が可能です。

さらに囲碁は「情報が全部開示されている」ゲームですが、ゲームにはそうでないもの(たとえば麻雀)があります。またゲームを離れてAIを広く適用すること考えると、たとえば医療診断では情報は不完全なことが多いし、中には間違った情報があるかも知れない。医療診断にかかわらず、社会で行われている判断の多くはそうです。情報は不完全であり、しかもルールが変わったり、グレーだったりする。囲碁のルールは変わりませんが・・・・・・。AIを万能のように考えるのは大きな誤りでしょう。

とはいえ、アルファ碁がトッププロとの5番勝負に勝ったという「事件」は、非常に素晴らしいことだし、単にゲームの世界の話に留まらないと感じます。IBMのコンピュータがチェスの世界チャンピオンを負かしたことや、クイズ番組で優勝したことよりも格段に大きな事件でしょう。現代のデジタル・コンピュータのルーツは1946年のENIAC(ペンシルヴァニア大学。真空管式)と言われていますが、そうするとコンピュータには70年の歴史があることになります。そのコンピュータ70年の歴史の転換点がこの対局であり、後世の人から必ずそう言われると確信します。


人工知能(AI)のリスク


ディープマインド社は大きなブレークスルーを成し遂げました。しかし一般に科学技術には負の側面があることが多いわけです。ディープマインド社について非常に印象に残った逸話があります。グーグルに買収されるにあたって、ディープマインド社はグーグルに対し「AI倫理委員会」の設立を要求したという件です。


(ディープマインドは)グーグルに買収される条件として、「AI倫理委員会」なるものの設立を要求したと言われます。

ディープマインドの共同創業者の一人であるシェーン・レッグ氏は「最終的に、人類はテクノロジーによって絶滅するだろう。(中略)今世紀におけるその最大の危険要因はAIだ」と語っています(QAサイト「Less Wrong」より)。だからグーグル社内にAI倫理委員会を設けて、今から、その正しい開発・活用の仕方を検討しておくべきだというわけです。

小林雅一『AIの衝撃』

「人類はテクノロジーによって絶滅するだろう」というのは、ずいぶんペシミスティックな発言(ないしは人)ですが、核兵器の前例があるわけですね。AI専門家の重大な警告と受け取った方がいいでしょう。ふと、アーノルド・シュワルツネッガーを一躍スターにした「ターミネーター」を思い出しました。あの映画において、未来は人間とロボットの戦争状態になっているのですが、その発端は「人工知能が人間に核戦争をしかけた」という想定です。

しかし、AIのリスクはそういうことではないと思います。たとえばAI技術を使って新型の核兵器が開発できるかもしれません。現在の核兵器の開発は(条約加盟国は)実験ができず、コンピュータ・シミュレーションで開発されています。AIもコンピュータ技術の一種なのです。また、極めて効果的なサイバー攻撃(テロ)の手段がAI技術で生み出されるかもしれません。もっと一般には、AIを「活用」した犯罪はいくらでも考えられそうな気がします。

他の有用な科学技術と同様、AIも「光」とともに「影」を背負っているということでしょう。ディープマインドのレッグ氏の発言はそれを最も強い形で言ったと解釈できます。逆にいうと AI はそれだけ人間社会へのインパクトが強い技術である。そいういうことかと思いました。
 

ゲームが導いた革新


ディープマインド社が、自社の「強化学習」の有用性を検証するのに、米・アタリ社のビデオ・ゲームを使ったという話が出てきました。アタリ社は1972年に設立されたビデオ・ゲームの老舗しにせです。設立者はノーラン・ブッシュネルという人ですが、彼は囲碁が大好きで、日本棋院の初段の免状を持っていました。社名の「アタリ」は囲碁用語の「アタリ」(次の手で相手の石が取れる状態)です。

  つまり「アタリ」は日本語(=当たり)です。囲碁は中国が発祥ですが、近代囲碁が発達したのは日本で、そのため英語の囲碁用語も「ハネ」「シチョウ」「ダメヅマリ」など、日本語が多い。そもそも、英語で囲碁を示す Go は「碁」の日本語発音です。

ひょっとしたらノーラン・ブッシュネルはゲーム会社を設立しながら、将来に囲碁プログラムが出てきて人間との対局が可能になり、それがアマチュア高段者なみになり、ついにはプロのトップ棋士を破るまでになることを夢見ていたのかもしれません。反対に、そんなことは夢想だにできなかったのかもしれない。しかし、囲碁プログラムがトップ棋士を破る日は、アタリ社が設立されてから 44年後にやってきた。IT技術の驚くべき進歩です。

さらにコンピュータ・ゲームつながりで言うと、アルファ碁を開発したディープマインド社のデミス・ハサビス氏は、ディープマインドを設立する前にゲーム会社を作っているのですね(小林雅一著『AIの衝撃』)。おそらく彼はゲームのプログラムを開発しながら、そのゲームをプレイするプログラムを作りたいと強く思ったのではないでしょうか。

囲碁、アタリ社、デミス・ハサビス、アルファ碁は、すべて「ゲーム」というキーワードで相互につながっています。人間社会を革新するかもしれない重要なAI技術が、ゲームとの深い関わりの中で生まれてきた。その中でも特に囲碁がAI技術者の挑戦意欲をかき立て、そこで実証された革新が社会に応用されようとしているわけです。

ゲームは「暇つぶし」であり「娯楽」ですが、同時に「頭脳のスポーツ」でもあり、また、それを職業とする人が成立するほど人間社会に根を下ろしたものです。しかしゲームはそれ以上のものでしょう。それは人間社会における革新を導く何かでもある。今回のアルファ碁の勝利で強く思ったのは、それが「ゲームに導かれた技術革新」だということでした。



 補記 : アルファ碁のロジック 

ディープマインド社のアルファ碁が実現しているアルゴリズムの詳細を、次の二つの記事に書きました。合わせて参照ください。

No.180 アルファ碁の着手決定ロジック(1)
No.181 アルファ碁の着手決定ロジック(2)

(2016.6.24)



nice!(0)  トラックバック(0) 

No.173 - インフルエンザの流行はGoogleが予測する [技術]

No.166「データの見えざる手(2)」において、『データの見えざる手』という本の著者である矢野和男氏が行った「ホームセンターの業績向上策」の実験を紹介しました。今回はこれと関係のある話を書きます。ホームセンターの業績向上策がどういうものだったか、復習すると以下のようになります。

実験の目的は、あるホームセンター顧客単価(顧客一人当たりの購買金額)を向上させることである。

まず、従業員と客にセンサー内蔵のカードを身につけてもらい、店内における行動と体の動きの全データ(以下、ビッグデータ)を詳細に記録した(2週間分)。

次に、人工知能(AI)の技術を利用し、顧客単価に影響がありうるデータの組み合わせ、約6000項目を自動抽出した。

それらの項目の実測データとレジでの購買データを付き合わせ、相関関係をチェックした。

その結果、「従業員の滞在時間が長いと顧客単価があがる特定の場所=ホットスポット」の存在が明らかになった。

従業員がホットスポットに意図的に長く滞在するようにして実測したところ、実際に顧客単価が上昇した。

という経緯でした。この話のポイントは2つあります。

ビッグデータを網羅的に全部収集した。

目的(顧客単価の向上)と相関関係にありそうな項目を、AI技術を使って自動抽出した。

の2点です。①についていうと、従来行われていたサンプリング(サンプル従業員、サンプル顧客、サンプル時間帯)ではないところに意義があります。とにかく「人の行動と体の動き」に関するデータを網羅的に全部集めた。ここがポイントです。これを可能にしたのがセンサー技術とIT技術の発達です。また②に関しては、人間が経験に基づいて仮説(=顧客単価の向上と相関関係にありそうな項目)を設定するのではなく、AI技術を使ってコンピュータが網羅的に設定したのがポイントです(約6000項目のデータの組み合わせ)。



ところで、以上の「ホームセンターの業績向上策」と類似の話が『ビッグデータの正体』(講談社 2013)という本に載っていました。アメリカの事例ですが、それを紹介したいと思います。本の著者は、ビクター・マイヤー=ショーンベルガー(オックスフォード大学教授)とケネス・クキエ(英・エコノミスト誌)の二人です。


インフルエンザの流行予測


ビッグデータの正体.jpg
ビクター・マイヤー=
ショーンベルガー
ケネス・クキエ
「ビッグデータの正体」
(講談社 2013)
2009年、新型インフルエンザである「H1N1ウイルス」が発見されました。鳥インフルエンザ・ウイルスと豚インフルエンザ・ウイルスが部分的に組み合わさり、人間に感染する新型ウイルスが出現したのです。

米国の場合、インフルエンザのような感染症の実態を把握し、対策を指示するのは疾病予防管理センター(CDC)と呼ばれる政府機関です。2009年のインフルエンザの場合もCDCは全米の医療機関に報告を求め、それを集計してインフルエンザの流行状況を公表しました。

しかし、CDCのデータ集計には問題点がありました。一つは医療機関からCDCへの報告のズレであり、情報としては1~2週間前のものが集まることです。そもそも感染患者は具合が悪いと感じてから病院に行くまでに数日かかるのが普通です。またCDCの集計と公表は1週間ごとでした。あれこれの要因で、CDCの公表データはインフルエンザ流行の実態から2週間程度遅れていたのです。新型インフルエンザのように人々に免疫がなく感染力の強い病気の場合、2週間の遅れは、的確な対策を講じる上で "致命的遅れ" になりかねません。

ところが、2009年のH1N1ウイルスがマスコミをにぎわす数週間前、グーグルのチームが有力科学論文誌「ネイチャー」で注目すべき発表をしていました。米国の冬のインフルエンザの流行を州単位まで予測できたという論文です。グーグルが予測のもとにしたのは人々の「検索行動」です。グーグルでは、2009年当時でも1日 30億件の検索が全世界で実行されていて、グーグルは長年にわたってそれを蓄積していたのです。


グーグルは、まず米国人が検索時に入力した言葉のうち、上位5000万件を抽出した。そして2003年から2008年までの季節性インフルエンザの流行に関するCDCのデータとの相関関係を調べた。つまり、インターネットでの検索内容から、インフルエンザ・ウイルスの感染状況が明らかになると考えたわけだ。実はグーグル以外にも、インターネットの検索データを使って感染状況を把握しようとする動きは過去にもあった。しかし、データ量、処理能力、統計処理のノウハウでグーグルが群を抜いていた

マイヤー=ショーンベルガー、クキエ
『ビッグデータの正体』(講談社 2013)

インターネットでどのようなキーワードを検索をするかは、人々のその時点での関心事そのものと言えるでしょう。従って、感染症の流行と検索語に相関関係があるはずと考えるのは自然な発想です。しかしその発想を実行に移すには、ビッグデータを利用可能な形で蓄積していることと、コンピュータのパワー、そして分析技術が必要なのです。上の引用はそのことを言っています。


人々がネットでインフルエンザ情報を探すときは、「せきの薬」や「解熱剤」といったキーワードで検索するはず、とグーグルのチームは推測した。しかし、それが何かはわからないし、そんなことにいちいち注意を払うようなシステムに設計されているわけでもなかった。グーグルのシステムは、各検索語の使用頻度と、インフルエンザ感染の時間的・空間的な広がりとの間の相関関係の有無を見ていただけだ。グーグルは、合計4億5000万にも上る膨大な数式モデルを使って検索語を分析し、CDCが提供している2007年、2008年の実際のインフルエンザ症例とグーグルの予測を比較検討した。そこで彼らは大変なことに気付く。特定の検索語45個と、ある数式モデルを組み合わせたとき、グーグルの予測と公式データの間に高い相関関係が見られたのだ。

『ビッグデータの正体』

「合計4億5000万にも上る膨大な数式モデル」と書かれているところは、冒頭に引用した「ホームセンターの業績向上策」における「6000項目のデータの組み合わせ」と、本質的には同じことでしょう。その中に「宝物」が潜んでいた。

インターネットにおける人々の検索というのは、玉石混交です。自分がインフルエンザにかかったのではと思う人は検索するでしょうが、単なる興味もあるだろうし、ワクチンを製造する製薬会社の株購入を検討している人もいるはずです。とにかく種々雑多であることはだけは確かです。そもそもインフルエンザが流行している時にも "普通の風邪" をひく人だっていっぱいるわけです。従って「咳の薬」や「解熱剤」という検索ワードが増えたからインフルエンザが流行しているとか、そういった単純なことには絶対にならないのです。

「意味」を考えていてはダメなのですね。あくまで膨大なビッグデータをもとに、統計処理で(AI技術でと言ってもよい)インフルエンザの流行と関係のありそうな4億5000万種のデータの組み合わせを自動抽出し、それとCDCの流行データとの相関関係を網羅的に全部チェックする。その結果判明したのが「検索語45個を使ったある数式」だった。

おそらくグーグルの技術者にも、この検索語45語からなぜ流行が推定できるのか、分からないのではないでしょうか。45語の中に「咳の薬」や「解熱剤」が入っていることは間違いないと思いますが、残りは43語もあります。医療関係者や社会衛生の専門家、心理学者を集めて検討したとしても、その43語は分からなかったに違いありません。インフルエンザの流行予測という視点からすると「玉石混交」である検索データは、そのほとんどが「石」だったはずです。しかし検索語45個を使うことで中から「玉」が現れた・・・・・・。


つまり、CDCと同じようにグーグルもインフルエンザがどこで流行しているのか特定できることになる。両者に決定的な違いがあったとすれば、グーグルは1~2週間遅れではなく、ほぼリアルタイムに特定できた点だ。

その結果、2009年にH1N1ウイルスによる新型インフルエンザ危機に見舞われた際、どうしても報告手順に遅れが生じる政府の公式データよりも、グーグルの方がはるかにタイムリーで有効な指標になることが判明した。公衆衛生当局に貴重な情報が蓄積されていたことは間違いない。一方、グーグル方式は、口の粘膜を綿棒で採取する検査もなければ、医療機関との接触もない。

『ビッグデータの正体』

このグーグルの事例は、冒頭の「ホームセンターの業績向上策」と本質的に同じです。つまり、「網羅的に集められたビッグデータの中から、目的とする情報と強い相関関係をもつ "データの組み合わせ" をAI技術で見いだした」という点で "全く同じ" です。社会衛生と店舗の営業業績は性質の異なる問題ですが、ビッグデータとAIに問題を還元できれば同様の手法で解決できることを、この二つの例は示しています。


ビッグデータの分析から分かること。


『ビッグデータの正体』という本には、グーグルが行ったインフルエンザの流行予測以外にも、いろいろと興味ある事例が紹介されています。AI技術を使ったもの、使わないもの、さまざまですが、いずれもビッグデータの解析をビジネスや研究に生かしたものです。そのうちの3点を紹介します。



No.149「我々は直感に裏切られる」で、アルバート = ラズロ・バラバシ教授の『新ネットワーク思考』という本から「6次の隔たり」という仮説を紹介しました。この本を書いたバラバシ教授の研究が『ビッグデータの正体』に出てきます。


アルバート = ラズロ・バラバシと言えば、さまざまなネットワークの研究を手がける世界的権威である。そのバラバシ率いる研究チームが、全国的な規模で「人々の交流のあり方」の研究に乗り出した。国民の約5分の1に相当するユーザ数を抱える携帯電話会社に協力を依頼、匿名処理された4ヶ月分の通話データを分析した。「N=全部」のデータを基に、社会レベルでネットワークを分析した研究としては初の試みだ。一定期間に何百万人もの人々の間でやりとりされたすべての通話を分析した結果、従来のやり方では到底見つけられそうにない新たな事実が浮かび上がってきた。

『ビッグデータの正体』

「人々の交流のあり方」というような社会科学の分野において、従来の研究手法は「サンプリング(標本)調査」しかなかったわけです。あるコミュニティー(町、組織など)を選び、アンケート用紙を配り、あるいは面接調査をする。もちろん全員の調査はできないことが多いので、標本の抽出が必要であり、どのように抽出するかが非常に重要です。「全体の傾向を表す、少ない標本」の選び方が研究の最重要事項と言ってもいいでしょう。

しかし携帯電話の通話記録をもとにするという方法では、サンプル抽出の必要はありません。国民の約5分の1と書いてあるので、アメリカ人の4000万人とか5000万人とか、そういった数です。全国民というわけではありませんが、このレベルの数となると実質的にアメリカ人全員と言っていい数字です。サンプルの数(N)は "全部" である。「N=全部」とはそのことを言っています。その全員の4ヶ月間の通話記録を網羅的に調査したわけです。その結果、新たな発見があったと言います。


おもしろいことに、小規模の調査とは違う結果だった。あるコミュニティ内で多くの接点をもつ人がいなくなると、残った人々の交流は低下するものの、交流自体が止まることはない。一方、あるコミュニティの外部に接点を持つ人がいなくなると、残った人々はまるでコミュニティが崩壊してしまったかのように、突如として求心力を失う。

注目に値する話で、まったく予期していなかった結果だ。ある集団内の交友関係を盛り上げているのは、その集団内に親友の多い人だろうと思われがちだが、実は、集団外部の人々とつながりを持つ人間のほうが盛り上げ役になっていたのだ。つまり、集団や社会の中では、多様性がいかに大切であるかを物語っている。

『ビッグデータの正体』

分析の具体的な手順は書いていないのですが、容易に想像できるは次のような手順です。

通話頻度が高い人の間で構成されるネットワークを分析し、そのネットワークを人間集団の「かたまり=クラスター」に分解する。つまり、クラスターの内部では頻繁に会話が行われ、クラスター内とクラスター外の会話は少ないようにクラスターを選び出す。

クラスターの4ヶ月間の時間的な通話量を追いかける。この中から、ある時点を境に全体の通話量が激減したクラスターを見つけだす(全体通話量が激減したものは、交友関係が減少したものとみなす)。

一方、クラスターからいなくなった人(退出者)がいるかどうか調べる。ある時点からクラスターでの通話がなくなった人(激減した人)は退出者と見なせる。

退出者の存在と、クラスターの全体通話量の激減の相関関係を調べる。相関関係があるのなら、退出者のクラスターでの位置づけを調べる。

この結果、クラスター外部との通話が多い人が退出者となった場合に、クラスターの全体通話量が激減することが分かった。

詳細手順は分かりませんが、ほぼこのような手順だと想像できます。この手順において「通話量が多い・少ない」「通話量が激減」「退出者」などを判定するには、それなりの "しきい値" やロジックが必要です。このあたりをどう決めればよいのか、その決め方には試行錯誤があったと考えられます。

この分析は「匿名化(暗号化)された携帯電話番号と、その携帯電話の時系列の全通話記録」というデータさえあればできます。逆に言うと、かたまり(クラスター)が何なのかは不明なはずです(暗号化されているのだから)。それは地域のサークルかもしれないし、企業のある部門かもしれない。また「退出者」がクラスターからいなくなった理由も不明です。引っ越しかもしれないし、死亡かもしれない。入院かもしれないし、転勤かもしれません。

とにかくこの調査手法では分からないことがいっぱいあるのですが、逆に言うと、それだけ「汎用的」「一般的」な「交友関係を盛り上げる原理」が見つかったことになります。さらに従来のサンプリングとアンケート(面接)調査では「キーマンがいなくなったら、交友関係はどう変化するのか」といった調査は非常に難しいわけです。運がよければそういったサンプルにぶつかるでしょうが・・・・・・。しかし4000~5000万人の通話記録の全数分析をすれば、中にはそういう事例があり、その原因が推定できるわけです。まさに「N=全部」の威力と言えるでしょう。

引用の最後にある「集団や社会の中では、多様性がいかに大切であるかを物語っている」というのは、この結果だけからは言い過ぎだと思いますが、新たな知見が得られたことは確かだと思います。



個人のライフスタイルのデータを抽出し、そこから健康リスクを算出するという、保険会社の例も紹介されていました。


英国の大手保健会社アビバは、特定の保健加入申込者について、採血・採尿による診断の代わりに、与信情報や消費者マーケティングデータを活用できないか検証中だ。高血圧や糖尿病、鬱病の発症リスクが高いかどうかの判断に使うという。趣味、閲覧するウェブサイト、テレビ視聴時間、推定所得などといった数百種類ものライフスタイルのデータが使われている。

アビバの予測モデルは、デトロイトコンサルティングが開発したものだが、健康リスクの特定に使えると評価する企業は多い。プルデンシャルやAIGといった保険会社も同様の方式の導入を検討しているという。保健加入申込者にとっては、面倒な採血や採尿が不要になるメリットがあるし、保険会社側も1人当たり125ドルのコスト削減になる(純粋なデータ主導型なら5ドルで済むのだ)。

『ビッグデータの正体』

善悪判断は別にして、このようなことも現実味を帯びてきた時代だという認識は必要でしょう。また、個人のライフスタイルまで "筒抜け" になりかねない時代という認識も必要です。



ビッグデータの活用例として有名なアマゾンの「おすすめ」機能(リコメンデーション)も本書に紹介されています。アマゾンはユーザの閲覧履歴・購入履歴を蓄積し、そこからリコメンデーションを行っています。しかし初期のシステムは、

  ポーランドの書籍を1冊買っただけで、東欧関係の書籍案内が怒濤のごとく送られてきたり、赤ちゃん関係の書籍を買えば、似たような本の紹介であふれかえる(本書)

ようなリコメンデーションだった。つまり、

  前回の購入書と大差ない書籍を延々と紹介し続けていた。客にしてみれば、はた迷惑な店員につきまとわれながら買い物をしているようなものだった(本書)

わけです。この状況を大きく変えたのが、ワシントン大学の博士課程で人工知能を研究していたグレッグ・リンデンという人です。彼は地元のアマゾンで働きだしました。彼はリコメンデーションの問題点を解決する方法が分かったのです。


グレッグ・リンデンの頭の中には解決策が浮かんでいた。顧客全体の買い物内容から共通項を探るような機能は商品推薦システムには不要だと気づいたのだ(技術的にも面倒な機能だ)。重要なのは、一見関係のなさそうな商品同士の相関関係を見つけることだった。(中略)この手法に切り替えたことが大きな転換点になった。

相関関係の計算はあらかじめ済ませておけるので、おすすめ商品は即座に表示できる。また、汎用性も高く、商品カテゴリーにまたがるおすすめも可能だった。アマゾンが書籍以外の商品の販売にも手を広げると、ビデオやトースターなども推薦できるようになった。しかも、あらゆるデータを利用するため、おすすめの精度がはるかに高まった。
『ビッグデータの正体』

村上春樹の本を購入した人に、村上春樹の新刊の「おすすめ」を表示する。これはよく分かります。そういう購買行動をする人(村上ファン)が多いからです。しかしアマゾンの「おすすめ」では、村上春樹の本を購入した人に、ある特定メーカーのトースターの「おすすめ」がされることがありうるわけです(これは、上の引用にトースターとあったための架空の例です)。「村上春樹の本」と「特定メーカーのトースター」に購買行為の相関関係が強ければ、そういう「おすすめ」になる。アマゾンはなぜそういう相関関係があるのか知らないわけです。いや、知る必要はないのです。もし理由を考えるとしたら「村上春樹の(ある)小説の主人公が、そのトースターを愛用していたのか?」となるでしょう。確かにそうかも知れない。しかしそれも仮説に過ぎません。

理由や因果関係を推定したり顧客をカテゴリーに分類することは必要ないし、むしろ有害なのです。有害というのが言い過ぎなら、労多くして実りが少ないということでしょう。大量のデータに語らせる、つまり大量データに含まれる相関関係に注目すればよいのです。


ビッグデータの本質


以上、紹介したのは5つの事例でした。

ホームセンターの業績向上策
インフルエンザの流行予測
人々の交流関係を盛り上げるのは誰か
ライフスタイルのデータから健康リスクを推定する
アマゾンのリコメンデーション(おすすめ)

の5つですが、これらに共通している事項があります。

 質より量 

まず言えることは、分析のもとになったデータには「無関係データ」がいっぱいあるだろう、ということです。つまり、分析の目的には全く関係のないデータです。それどころか、中には意図的に歪曲されたデータさえあるでしょう。

しかしそうであっても、大量に集めれば分析技術によって本質(目的)に到達できる。質の良い少量のデータではなく、大量のデータ(ないしは全部のデータ)を集め、それを質に転化させる。各事例に共通している点です。

 因果関係より相関関係 

共通している2番目は「因果関係」や「理由」を問題にせず、相関関係だけに着目していることです。私たちはどうしても理由を求めます。事象の裏にある「因果関係」を知りたがります。それは人間のさがともいえる。科学の発達は、因果関係を知りたい、原因を知りたいという欲求が大きな動機でしょう。

しかしその一方で、理由は分からないが「Aという入力をするとBという結果が出た」「Aが多いとBも多い」という相関も大切なのですね。数百年続く職人技術はすべてそうです。先人たちの膨大な試行錯誤の積み重ねから、結果がよいものが選択され、絞り込まれて「技術体系」になっている。今から考えるとそれは「科学的に見ても正しい」となるのですが、それは結果論です。正しい理由があって体系ができたのではありません。これは伝統技術だけでなく、現代のものづくりの現場での品質向上活動や改善活動も同じだと思います。



こういった「質より量」「因果より相関」という流れの中では、専門家のありかたも変化してきます。『ビッグデータの正体』には次のように書かれていました。


ビッグデータ活用コンテスト「カグル」の入賞者を見ると、門外漢の分野でめざましい成果を上げている。保険金支払い請求を予測し、欠陥の多い中古車を特定するアルゴリズムを開発したのは、英国の物理学者だし、化学物質に対する生物学的反応を予測するコンテストで優勝したのは、シンガポールのアクチュアリー(保険数理専門家)である。グーグルの機械翻訳グループでは、メンバーの誰1人として話せない言語の翻訳に取り組んでいる。マイクロソフトの機械翻訳部門の統計専門家らは、「言語学の専門家がチームから去るたびに翻訳の質が上がる」と皮肉る始末だ。

『ビッグデータの正体』

「因果」の専門家と「相関」の専門家は違うということでしょう。もうすこし広く考えると、さきほど書いた「ものづくりの現場での品質向上活動や改善活動」も同じと思います。現場で品質向上の中心になっているのは、現場で働いている人たちです。学歴もさまざまで決して専門家ではない人たちの改善提案、アイデアです。一方で生産技術の専門家が必要であり、その一方で現場の知恵の集積がある。それが "ものづくり企業" の強さです。この両方が必要ということかと思いました。

こういった「質より量」「因果関係より相関関係」をさして『ビッグデータの正体』の著者は「価値感の転換」と言っていますが、それはちょっと大袈裟だと思います。人間社会に昔からある "2つのものの見方" であり「帰納か演繹か」「論理か統計か」といったことともつながる事項です。

ただ、現代のデジタル技術、情報技術は、扱えるデータの規模と網羅性が格段にアップしました。これにはデータを集めるセンサーの発達も大きく寄与しています。またそれを分析する統計処理や人工知能関連の技術も進化した。さらにコンピュータのパワーが急激にアップしました。今、日本を含む世界で、ビッグデータを分析して得られた知見をビジネスから農業・漁業にまで生かそうという動きが急速に進んでいます。

「データそのものに語らせる」のは昔も今も重要ですが、昔は「一部のデータ」「選んだデータ」「特徴的なデータ」だった。そこに既に人間の判断が入っていた。そうではなく「すべてのデータに語らせる」ことができるようになった。そこが重要だと思いました。





nice!(0)  トラックバック(0) 

No.172 - 鴻海を見下す人たち [技術]

今回は、2016年4月2日に正式決定された「鴻海ホンハイ精密工業のシャープ買収」について書きたいと思います。鴻海精密工業(Hon Hai Precision Industry)に関連しては、前に4つの記事を書きました。

No.58 アップルはファブレス企業か
No.71 アップルとフォックスコン
No.80 アップル製品の原価
No.131 アップルとサプライヤー

の4つです。これらの記事で "フォックスコン" と書いたは、鴻海精密工業の中国子会社、富士康科技集団の通称です。記事の中心はアップル製品の中国大陸における組立てのことだったので "フォックスコン" としました。しかし最近では「鴻海精密工業」の名前が広がってきたし、特にシャープ買収の報道では "鴻海" の名前が広く報道されました。この記事も以下、鴻海としたいと思います。

この買収劇については、さまざな報道がなされました。特に、この買収をどう見るかについて、企業M&Aの専門家から一般市民の街頭インタビューまで、各種の意見が報道されました。その中で私が一番印象的だったのは、以下に紹介する朝日新聞のコラムです。その内容について感想を書きたいと思います。


鴻海隆隆 シャープ寂寂


2016年3月20日(日)の朝日新聞のコラム、"日曜におもう" に「鴻海隆隆 シャープ寂寂」と題したコラムが掲載されました。著者は、朝日新聞の特別編集委員の山中 季広としひろ氏です。大変興味ある内容だったので、以下に引用してみたいと想います。まずコラムの出だしは、筆者が鴻海の本社を訪問した時の話です。


台北郊外にある鴻海ホンハイ精密工業の本社前で車を降りたとたん、地元テレビ4社に撮影された。シャープから来た日本人社員とまちがえられた。

交渉のヤマ場を見逃すまいと張り番の記者がずらり。「違います、私も記者です」と言うと、マイクを取り出して「じゃあひと言。交渉の見通しを」。関心の高さを実感した。

山中 季広としひろ(朝日新聞 特別編集委員)
「鴻海隆隆 シャープ寂寂」
(朝日新聞 2016.3.20)

このコラムが印象的なのは、「鴻海のシャープ買収」を台湾サイドでどう受け止めているかを書いていることです。鴻海の本社前には台湾の各種メディアの「張り番」が陣取り、人の出入りを全部チェックしているわけです。台湾の人たちの関心の高さがうかがえます。


投資会社を経営する蔡明彰さん(57)によると、シャープ買収は特大のニュースだ。「台湾企業が中国へ進出する『西進』、アジアへ進出する『南進』なら珍しくもない。でも日本の名門を台湾企業が買収するのは驚き。かつて日本に植民地化され、いままで日本企業に圧倒されてきましたから」

「鴻海隆隆 シャープ寂寂」

なるほど・・・・・・。台湾の人たちの心情(の一端)が分かるリポートです。あくまで投資会社を経営する一個人の感想ですが、「かつて日本に植民地化され」というところまでさかのぼるわけですね。日本の台湾植民地政策はインフラや学校の整備など台湾の "役にたった" ことも多く、今の台湾の人たちも日本に好意的な人が多いと聞きます。それでも「植民地にされた」のは事実なのです。さらにコラムでは鴻海の郭会長の人物像についても書かれています。


鴻海を率いる郭台銘クオタイミン会長(65)は知らぬ人のないカリスマ経営者だ。大陸生まれの警官を父にもち、専門学校を出て、テレビのチャンネルのつまみ製造から一代で財をなした。1日に16時間働き、夜の24時から幹部会議を開く。

「鴻海隆隆 シャープ寂寂」

これは従来から報道されている通りです。とにかく郭台銘クオタイミン会長は大変な "やり手" であり、カリスマ経営者であることは間違いないようです。ここまでのコラムは、従来の報道(郭会長の人物像)に加えて、台湾の人たちがこの買収をどう見ているかという情報があり、有用な記事だと思いました。

Head Office of Hon Hai Precision Industru(ajw.asahi.com).jpg
鴻海精密工業・本社ビル(台北)
(www.asahi.com)

ところが、その次の文章を読んで「あれっー」と思ってしまいました。コラムが変な方向に行くのです。次の引用です。


鴻海を "見下みくだす" 態度



鴻海は技術力で伸びてきた会社ではない。社運が開けたのは米アップルとの契約からだ。故スティーブ・ジョブズ氏に冷たくあしらわれても郭氏は粘りに粘った。大陸に工場を設け、スマホなどを安く大量に代行製造した。

「鴻海隆隆 シャープ寂寂」

鴻海は技術力で伸びてきた会社ではない」と書いてあるのですが、朝日新聞の編集委員ともあろう人が、こんないいかげんなことを言っていいのですかね

鴻海は、No.71「アップルとフォックスコン」で紹介したように「技術力で伸びてきた」会社だと思います。それはまず「金型製造技術」です。コラムに「テレビのチャンネルのつまみ製造」とあるように、鴻海は電機製品のプラスチック(樹脂)部品の製造で始まった会社です。"つまみ" もそうだし、No.71に書いた各種のコネクタがそうです。これらの部品を製造するためには金型が必要ですが、鴻海はその金型を内製化しているのですね。これは日本の企業では珍しいことです。日本なら「金型専門会社」に製造委託するのが普通だからです。

No.71は中川・東京大学名誉教授の雑誌記事からの紹介でしたが、鴻海は社内に「金型学校」をもち、グループ全体の金型技術者は3万人いるそうです。もちろんエキスパートから経験の浅い技術者まで "ピンキリ" なのでしょうが、3万人というのはありえないような数です。日本全国の金型製造業の従業員総数は10万人程度と推定されているのだから。

  ここでちょっと疑うのですが、ひょっとしたら朝日新聞の編集委員氏は「金型」のような昔からあるアナログ的技術は「技術」の中に入らないと見ているのかもしれません。デジタル技術や、いわゆるハイテクしか目に入っていないのかもしれない。だとすると、ものづくりのことが何も分かっていないということになります。

金型を製造するためには、金属の塊を工作機械で切削する必要があります。この切削技術が生きたのが、鴻海が製造しているアップル製品の筐体きょうたい(= 外装ボディ)です。この外装部品をアップルは "Unibody" と呼んでいますが、この "Unibody" は金属塊から一つ一つ削り出すことで作られているのですね。これに使う工作機械はほとんどがファナックなどの日本製だと言われています。しかし切削に使う超硬工具(ダイヤモンド工具)は鴻海が自社で製造しています。

No.71に紹介したのですが、アップルは "Unibody" の美しさ、デザインの良さをホームページで誇らしげにうたっています。もちろんデザインしたのはアップルですが、そのデザインを具現化し、製造して精密に仕上げたのは鴻海です。アップル社が自社製品の一つの部品だけを取り上げて誇っているのは、この "Unibody" 以外には見たことがありません

アップル製品は大量生産されます。それは多い時には日に50万台とか、そういうレベルの数です。こんな大量生産品の部品を一個一個削りだしで作るというのは、完全に製造業の常識を越えています。その常識を越えた破天荒な製造方法をちゃんとやっている鴻海の技術力は大したものだと思わずにはいられません。会社の正式名称は鴻海精密工業です。「精密」の2文字を入れた創業者の意気込みを感じます。



さらに上の引用での違和感は、アップルとの契約のところの、(スマホなどを安く大量に)「代行製造した」という表現です。「代行製造」とは聞きなれない言葉です。ここはなぜ「製造」ではまずいのでしょうか。鴻海はアップルのスマホなどの最終組立てを行っていますが、代行とは「代わりにやる」という意味であり、アップルがやるべきことを鴻海が代わりにやっているという意味になります。

スマホなどの最終組立ては機械化できず、人手に頼るしかありません。従って鴻海は中国大陸に工場を作り、従業員を集めて人海戦術で行っています。さっき書いたようにアップル製品の製造は日に50万台といった大量製造です。これだけの数の組立てを品質よく、市場不具合を起こさずにやることは必ずしも容易なことではないと思います。確かに金型製造というような意味での精密技術は必要ないかもしれない。しかし従業員の教育から始まって、これだけの大量生産をうまく "廻す" のは、それなりのノウハウの蓄積が必要なはずです。朝日新聞のコラムは「代行」という言葉で、なんとなく価値が低いというニュアンスを匂わせていますが、そんなことはありません。No.58「アップルはファブレス企業か」で書いたように、アップルは自社では絶対にできないことを鴻海に委託しているのだと思います。

この朝日新聞の編集委員氏は「鴻海は技術力がない代行製造会社」と言いたいようですが、何となく鴻海を「見下している」と感じます。しかし、鴻海は「見下す」ような会社ではない。


鴻海ごときに・・・・・・


さらにこのコラムには、違和感を覚える記述が続きます。


本社は簡素な4階建てで、一見どこかの町工場風だ。地味な作りの玄関を見ながら、ふいにSHARPのロゴが頭に浮かんだ。長年親しんだ電卓や掃除機、冷蔵庫を次々に思い出す。

あのシャープがこの鴻海の手に渡るのかと思うと寂しさが胸にズンと来た。

「鴻海隆隆 シャープ寂寂」

あたりまえですが「町工場風の簡素な4階建ての本社」は別に悪いことではありません。鴻海はシャープ買収に4000億円を出す会社です。最新のデザインと建築技術を盛り込んだ本社を建てることぐらい、わけないと思います。なぜ「町工場風」のままなのかは分かりませんが、厳しくコストを削減するという宣言かもしれないし、創業時代を忘れるなという意味なのかもしれない。それに、大阪市のシャープ本社だってそんなに豪華なものではありません。編集委員氏がシャープ本社を取材したのかどうか知りませんが・・・・・・。

朝日新聞の編集委員氏が鴻海について書いた言葉を並べてみると、彼の言いたいことが見えてきます。

テレビのチャンネルのつまみ製造
夜の24時から幹部会議を開く
技術力で伸びてきた会社ではない
粘りに粘った(アップルとの交渉)
安く大量に代行製造した
一見どこかの町工場風

つまり、鴻海精密工業は「技術力はないけれど、猛烈に働くカリスマ経営者に率いられ、馬力で伸びた会社」と言いたいのでしょう。そして、

  このような鴻海ごときに(しかも台湾企業ごときに)シャープが買収されるのは寂しい

と思っているのでしょう。そうはっきりは書いていないが、言外にそう言っている。これでは鴻海傘下になるシャープの社員が可哀想です。

思い起こすと、日本の名門大企業が海外企業の傘下に入ったのはシャープが初めてではありません。そうです。1999年にルノーの傘下になった日産自動車です。朝日新聞の編集委員氏はそのとき「ルノーのような会社に日産が買収されるのは寂しい」と感じたのでしょうか。ルノーのパリ本社は "町工場風" ではなくて立派だから寂しくはなかったでしょうか。それとも、フランスの名門企業に買収されるのはいいが、台湾企業では寂しいのでしょうか。

鴻海のシャープ買収についての各種報道に接して、何となく暗に台湾企業を見下しているような発言を何回か聞いたことがあります。その典型が、この朝日新聞の編集委員氏ということでしょう。

付け加えますと、現在、シャープの社員で不安を感じていない人はいないと思います。しかし第三者の視点で冷静に見ると、鴻海傘下になることで液晶およびシャープの技術の販路が広がり、今後のシャープがグローバルに活躍するチャンスが訪れたことは明白だと思います。そう感じているシャープ社員の方も少なからずいるのではないでしょうか。

Head Office Of SHARP(www.asahi.com)3.jpg
シャープ・本社ビル(大阪市)
(www.asahi.com)


海外企業に「学ぶ」姿勢


朝日新聞の編集委員氏のような見方をしている限り、日本のものづくり企業は危うくなると思います。もちろん彼は新聞社の人間であり、ものづくりとは何の関係もありません。しかし新聞社の編集委員といえば、日本のオピニオンリーダー層の人間のはずです。その人が鴻海精密工業を "見下す" ようなコラムを書いて公表すること自体、大いに問題だと思います。こんな「オピニオン」で「リード」されては、日本の製造業にとって大迷惑というものです。

鴻海精密工業のシャープ買収をひとつのきっかけとして、むしろ "鴻海に学ぶ" という態度が必要だと思います。ものづくりの技術やビジネスモデル、市場の中心はどんどん変化していきます。鴻海精密工業がこれだけの大会社になった理由を研究する意義は十分あると思います。もちろんマネをする必要はないし、また "カリスマ経営者" をマネることなど出来ないのですが、日本企業が参考にすべきものがあるかもしれない。そういった謙虚な態度が必要でしょう。傲慢な態度を続けると転落する。買収のきっかけとなったシャープの液晶ビジネスの経緯は、まさにそいういうことなのだから。





nice!(0)  トラックバック(0) 

No.166 - データの見えざる手(2) [技術]


前回より引き続いて『データの見えざる手』(矢野和男・著。草思社。2014)の紹介と感想です。『データの見えざる手』は次のような章構成になっています。

第1章 時間は自由に使えるか
第2章 ハピネスを測る
第3章 「人間行動」の方程式を求めて
第4章 運とまじめに向き合う
第5章 経済を動かす新しい「見えざる手」
第6章 社会と人生の科学がもたらすもの

データの見えざる手.jpg
前回は第1章の内容の紹介と感想でした。第2章は "ハピネス"(幸福だと感じること)が人間の身体の動きにどうあらわれるか、また従業員の "ハピネス" と企業の業績の関係が説明されています。

第3章は、人間がある行動をしてから次に同じ行動をするまでの経過時間(T)の分析です。ここでは、Tの逆数に比例して行動の確率が低下していくことが述べられています("去るものは日々にうとし")。

第4章は、「運がよい」ことを「人との出会い(直接的・間接的)の回数が多いこと」ととらえ、"運がよい組織" のありかたが検討されています。第5章は以下で紹介します。

第6章は、著者が主催した瀬戸内海の直島での「討論会」(人と社会についての大量データの取得・分析にもとづく、科学と社会の新しい関係)の結果が説明されています。

以下では第5章、"経済を動かす新しい「見えざる手」" で書かれていることを紹介します。前回の第1章と同じく人の行動に関するビッグデータの分析の話ですが、第5章は購買活動に関するものです。


ホームセンターの業績向上策


第5章で紹介されているのは、あるホームセンターの業績向上策をビッグデータの分析から見い出し、その策が妥当かどうかを実験で検証した例です。業績を測る指標は、来店客一人当たりの購入金額(=顧客単価)とします。

データの取得に用いられたのは「名札型のウェアラブル・センサー」です。これは名刺大のカードで、首からぶら下げて使います。このカードの中には、前回(No.165)の「リスト・バンド型のウェアラブル・センサー」と同じように加速度センサーが組み込まれていて、人の動きを詳細に(1秒間に20回)記録します。

またこのカードは赤外線の発信と受信ができるようになっていて、カード同士が近接したことが検知できます。これと加速度センサーの情報から、誰と誰が会話したか、また会話の方向がわかります(話している方と聞いている方では体の動きが違う)。

さらにこのカードは、地上に設置されたビーコン(発信器)からの電波を受信できます。ホームセンターの測定では、1000坪の店舗に500個のビーコンが設置されました。この設備により、カードをつけた人がいる場所が2~3メートルの精度で特定でき、人の動き(動線)が時々刻々記録できます。

従業員の店内動線.jpg
ウェアラブル・センサーで得られるデータの例
(「データの見えざる手」より)

まず、大量データを取得するための測定では、このカードをホームセンターの店長、従業員、および測定の目的を説明した顧客に装着してもらい、10日間にわたってデータが集められました。こうして得られたデータは、著者が「H」と読んでいる人工知能を組み込んだコンピュータで分析され、顧客単価に影響がありうるデータの組み合わせ、約6000項目が自動抽出されました。その項目の実測データとレジでの購買データが付き合わされ、相関関係がチェックされました。以下は著者の説明です。


この結果、顧客単価に影響がある、意外な業績要因を人工知能 H は提示した。それは、店内のある特定の場所に従業員がいることであった。この場所を「高感度スポット」と呼ぼう。この高感度スポットに、従業員がたった10秒滞在時間を増やすごとに、そのときに店内にいる顧客の購買金額が平均145円も向上するということを H は定量的に示唆したのだ。これに従い、実験の際には従業員にできるだけその高感度スポットに滞在してもらうように依頼することにした。

矢野和男
『データのみえざる手』(5章)

人工知能を組み込んだコンピュータは「高感度スポット」に従業員が滞在する時間が顧客単価に影響することを示したわけです。これを業績向上のための「仮説」とし、この「仮説」が正しいかどうか、実験で確かめたというのが上の引用の主旨です。その実験の結果はどうだったのかが次の引用です。


H が指摘した高感度スポットに、従業員になるべく多くの時間いてもらうように依頼したことにより、従業員の滞在時間が1.7倍に増加した。そしてその結果、店全体の顧客単価が15%も向上したのである。

矢野和男
『データのみえざる手』(5章)

ちなみに、コンピュータによる業績改善策と平行して、流通業の専門家二人による改善提案とその実験も行われました。しかし1ヶ月後の結果をみると、専門家の施策は効果がなかったことが判明したといいます。

さらに、ここからが重要です。コンピュータによる業績改善策は、なぜ業績改善になったか、どうもはっきりしないのです。


おもしろいのは、高感度スポットに従業員が滞在することと顧客単価の上昇を結びつける機序が自明ではなく、うまく言葉で説明するのがそう簡単ではないということだ。その場所に従業員がいることで客の店内での流れが変わり、それまで人通りの少なかった単価の高い商品の棚での客の滞在時間が増えたことが寄与しているし、エビデンスもある。しかし、そのように客の流れを変えるために、問題の商品棚から遠く離れた場所が「高感度スポット」として選ばれたのがなぜなのかは(実際かなり離れている)、直感的にはわからない。

矢野和男
『データのみえざる手』(5章)


コンピュータが仮説を作る


この最後の引用のところで、コンピュータが指摘した「業績向上に結びつく高感度スポット」について、それがなぜ業績向上に結びつくのか、人間には(直感的には)分からないと述べられています。ということは、この「高感度スポット」の存在は、コンピュータにしか提示できない仮説ということになります。流通業の専門家が考えても、そんな仮説は絶対に思いつかない。

従って、人工知能を組み込んだコンピュータを使って業績向上策を検討するときには、次の3つの原則が重要になります。


第1の原則
向上すべき業績(アウトカム)を明確にする。

第2の原則
向上すべき業績に関係するデータを、ヒト・モノ・カネにわたって広く収集する。

第3の原則
仮説に頼らず、コンピュータに業績向上策をデータから逆推定させる。

矢野和男
『データのみえざる手』(5章)

この「第3の原則」がキモです。もちろん、ここで言う「仮説に頼らず」というのは「人間の考える仮説に頼らず」という意味です。


コンピュータにはできない仕事


これは一見すると、人間のやるべき領域にコンピュータが踏み込んできたように見えます。これが進んでいくと、人間の領域がどんどん浸食されていくのでしょうか。

そんなことはありません。人間にしかできない領域が残るからです。筆者はコンピュータにはできないことを3つ例示しています。以下で言う「学習するマシン」とは筆者が使用した「H」のような人工知能を組み込んだコンピュータ、特に大量データから自動的に学習する機能(=機械学習)をもったコンピュータのことです。


第1に、学習するマシンは、問題を設定することができない。あくまでも、与えられた問題に関して、データを活用して的確な情報と判断を提供するだけである。人間は、解くべき問題を明らかにし、学習するマシンを活用して得られた判断を実行することが求められる。

第2に、学習するマシンは、目的が定量化可能で、これに関わるデータがすでに大量にある問題にしか適用できない。しかし、我々は未知の状況であっても、前に進むことが求められる。目指すところがあいまいだったり定性的だったり、過去のデータがない状況でも、霧のなかを進むように前進することが求められる。このような状況で意志決定するのは人間である。

第3に、学習するマシンは結果に責任をとらない。そしてこの責任をとることこそ、人間に固有の能力である。第1、第2の制約を考慮して、学習するマシンを活用すべきかどうかを判断し、かつ学習するマシンを活用する問題については、解くべき問題を定義し、適切なデータをマシンに提供するのは人間の仕事である。そして学習するマシンを使ったとしても、使わなかったとしても、結果の責任をとるのは常に人間である。責任が人間に帰することと、仕事や技術がより人間中心のものになることとは、表裏一体である。

矢野和男
『データのみえざる手』(5章)


感想 : 人間と機械の関係


ここからは『データのみえざる手』の第5章の感想です。この第5章は、人間と機械の関係についての新しい関係のありかたを示唆しているように思えました。

 人間と機械の共存 

従来、機械や電気製品の多くは、

人間の労働を軽減・代替する
人間ではできない労働を行う
距離を無くす(電話やネットなど)
時間を短縮する(乗り物など)
速く仕事をこなす(コンピュータなど)
記録する(DVDなど)

などの目的のものでした。他にもっとあると思います。しかし、第5章で書かれている「ホームセンターの業績向上策の提示」は、それらとはちょっと違います。第5章で書かれていることは、

コンピュータが業績向上のための仮説を作り、その仮説が正しいことが実証された
しかしなぜ正しいのかは分からない

ということです。このの「コンピュータが仮説を作る」というところは、一見、人間の知的作業と思えるものを機械でやったわけであり、人間と機械の関係が新しいステージに入ったことを感じさせます。しかもが問題です。つまり、コンピュータの出した仮説は、

なぜだか分からない
でも、結構正しい

というわけです。

これは、ある意味では "不気味さ" を感じないわけでもない。このことも一因となって、いわゆる人工知能(AI)に対する反対意見もあるわけです。大袈裟に言う人は「人類を滅ぼすものだ」となる。

しかし第5章の例で冷静に考えてみると、人間と機械の共存の新しい段階というのが正しそうです。確かに「高感度スポット」を最初に指摘したのはコンピュータ(に搭載されている人工知能プログラム)です。その高感度スポットに従業員の滞在時間を増やすことで業績は延びた。であるなら人間は「なぜ業績が延びたのか」を必死に考え、分析するはずです。なぜなら、高感度スポットによって業績が延びる原理や理由が分かってしまうと、今後はウェアラブル・センサーを使った大量データの取得という、時間も手間もコストもかかることをしなくても、業績向上が図れるからです。

本書には全く書いていないのですが、想像するに「高感度スポットがなぜ業績向上に寄与するのか」が、実験の舞台となったホームセンターでは既に判明しているのだと思います。しかしそれは店のノウハウに属することであり、企業秘密なので本には書けない。そういうことではないでしょうか。

学習するマシンが出した仮説に、人間が学び、人間もそれだけ賢くなる。そして人工知能プログラムを改良する。また新たな仮説が生まれる。そういった「新しい関係」が示唆されているように思いました。


答は現場にある


さまざまなビジネスにおいて「答は現場にある」というのは、多くの場合の真実でしょう。もちろん現場の知見からは生まれてこない方針や意志決定はあるのですが、それとて現場の実態から遊離したのでは、業績向上は期待できません。

第5章の実験が行われたホームセンターを例にとると、仮にこの店長は「答は現場にある」をモットーとしていて、時間を作っては現場(店内やバイヤーの交渉)に出ていたとしましょう。従業員に声をかけ、必要に応じて顧客にも声をかけ、どの棚に顧客が多いのかを観察し、製品の陳列の状況を見回っていたとします。その日の天気や客層にも気を配っていた。そういう行為を10年というレベルで行っていて、詳細なメモを取っていたとします。そうだとすると、この店長の経験とメモは業績向上策を考える上での大きな財産に違いありません。ここまでは非常に分かりやすい話です。

しかし、個人の経験にはおのずと限界があります。メモにも記憶力にも限界がある。第5章で述べられている、ウェアラブル・センサーによる人(従業員・顧客)の行動データの収集は、「個人の経験を越えた、人間の集団の経験の総体に学んだ例」と見なすことができると思います。現場の実態が大切なことは間違いありませんが、個人の視点だけでの現場経験には限界があるのです。

製品を作る工場の例で考えてみると、不良品を減らすことが当面の課題だとします。ウェアラブル・センサーで収集したビッグデータの解析により「不良品が少ない」ということと最も強い相関関係にあるのが「休憩時間における従業員の会話の活発さ」だと分かったとします(想定です)。もしそうなら、休憩時間の会話を活発にする策を講じればよい。こういう策は、品質管理の専門家は思いつかないわけです。しかし従業員にとっては製造現場も休憩ルームも連続した「現場」であることに変わりがない。

以上はあくまで想定ですが、この想定を書いたのは本書の第2章にコールセンターの業績と休憩時間における体の動きの活発さに相関があることが書かれていたからです。十分にありうる想定なのです。

本書にも書かれていますが、コンピュータ将棋はさらに分かりやすい例だと思います。現代のコンピュータ将棋のプログラムは、プロの棋士を負かす(ことがある)ところまで来ています。ここまで強くなったのは、過去のプロ棋士の棋譜をすべて記憶し、最も有利な手を判別できるように機械学習で「かしこく」なった結果です。

もちろんプロ棋士は自分の過去の棋譜を全部記憶しているだろうし、他の棋士の棋譜を並べて研究することも怠りないはずです。その際にパソコンを使うことも広まっていると聞きます。しかしいくらプロ棋士とは言え、他の棋士を含めた過去の棋譜すべてを記憶することはできないわけです。コンピュータ将棋は、一人の棋士の経験ではなくすべてのプロ棋士の、過去に遡ったすべての勝負経験の総体からシステマティックに学ぶことで、プロ棋士を負かすまでになったと言えます。

答は現場にあります。現場での実践(実戦)と経験に答はあり、流した汗と失敗経験の中にあります。この現場経験を強力に拡大できるのがコンピュータによる分析であり、学習するマシンだと感じました。


"学習するマシン" の有効性と限界


『データのみえざる手』の第5章の事例は、ビッグデータをもとにした機械学習の有効性と同時に、その限界を示したものと強く感じました。「有効性」とはホームセンターの業績(=顧客単価)が向上したことであり、本書に書かれている通りです。では限界とは何か。

それは、ビッグデータが取得可能な問題でしか使えないことです。第5章で述べられているホームセンターの業績向上策ですが、著者は慎重に、業績向上策が見いだせそうなビッグデータを選び、測定したと感じます。それが従業員と顧客の10日間の行動データだったわけです。

しかし業績向上というと、もっと別の策も考えられます。たとえば商品の棚の配置をどう変えたら業績がどう向上するのか、またどういう新商品を仕入れたら業績が向上するのか、などです。常識的に考えて、ホームセンターやスーパーにとって商品の配置は重要なはずだし、新商品の導入も重要なはずです。しかし、商品配置の変更や新商品が顧客の購買行動にどう影響するかというビッグデータは取得できません。商品の配置方法は無限にあるし、新商品も多数ある。リーズナブルなコストと期間でビッグデータを取るなど、とてもできない。あくまでこういった変更は、人間の経験やノウハウ、競合他社の研究、顧客のニーズ分析などによるしかないわけです。

ビジネスにおける意志決定は(特に重要な意志決定は)、そのために必要な情報が不足している中で行われるのが普通です。意志決定までの時間は限られており、その時間で取得できる情報には限度があるからです。また、情報を取得するためのコストにも限度がある。そういった中で正しい(と信じる)決定をするのが責任のある立場の人間です。そういう意味で、第5章のホームセンターの例は、ビッグデータを人工知能で分析するという手法の限界を示しています。

ただし、"本当にビッグな" データが低コストで取得できる問題についはどんどんやればよい。その時には、仮説の作成は機械に任せるべきである、"本当にビッグなデータ" の解析は人間にはできないから・・・・・・。これが本書から読み取れることです。それは同時に、人間と機械の新たな関係を示しているように思いました。





nice!(0)  トラックバック(0) 

No.165 - データの見えざる手(1) [技術]

No.148「最適者の到来」で書いた内容から始めます。No.148 中で、チューリヒ大学のワグナー教授が、

  コンピュータは21世紀の顕微鏡

と語っているのを紹介しました。進化生物学者のワグナー教授は、進化の過程を分子レベルでコンピュータ・シミュレーションし、なぜランダムな遺伝子変化の中から環境に合った最適なものが生まれたきたのか、一見すると確率的に起こり得ないように思える変化がなぜ起こったのかを解き明かしていました。

進化は極めて長い時間をかけて起こるものであり、かつ分子レベルの変化なので、実験室で "見る" ことはできません。その "見えない" ものをコンピュータは "見える" ようにできる、だから "21世紀の顕微鏡" だという主旨です。

「21世紀の顕微鏡」を「見えないものを見えるようにする」という意味にとると、他の分野の例として医療現場で使われている「CT装置」「MRI装置」が思い当たります。この2つの装置の原理は違いますが、いずれも電磁場を照射し、人体を透過した電磁場の変化を測定し、それをコンピュータで解析して人体内部を画像化する(輪切りの画像や3次元画像)ということでは共通しています。まさに「見えないものを見えるようにする顕微鏡」です。

クルマの開発にもコンピュータが駆使されています。クルマは、衝突したときに前方のエンジン・ルームはグチャグチャに壊れ(=衝撃を吸収し)、運転席はできるだけ無傷なように設計してあります。これもコンピュータを使って、衝突時にクルマを構成する各種部品にどういう力が加わり、どういう風に壊れていくのか(壊れないのか)、その一瞬の出来事を時間を引き伸ばして可視化する、そのことでより安全なクルマが開発されています。試作車を作って衝突実験をするのはあくまで最終段階であって、そんなことを始めからやっていたのでは時間もコストもかかり過ぎてダメなのです。

そして今回の本題なのですが、自然科学や工学の分野だけでなく、社会科学の分野でもコンピュータを使って「見えなかったものを見えるようにする」動きが広まってきました。その例として『データのみえざる手』(矢野和男・著。草思社。2014)という本を紹介したいと思います。この本は、

  人間の体の動きや行動を "時々刻々" 詳細に記録し、そうして集められた大量データ(ビッグデータ)をコンピュータで分析することで得られた知見

をまとめたものです。まず、この本の第1章の内容です。


腕の動きを分析する


データの見えざる手.jpg
『データのみえざる手』の第1章に、リスト・バンド型のウェアラブル・センサーを用いた人間の行動分析の結果が述べられています。

このウェアラブル・センサーは腕時計のような格好をしていて、腕(実験では左手首)に常時装着します。この中には高精度の加速度センサーが組み込まれていて、人の腕の動きを常時記録します。

加速度は、空間の3つの軸について1秒間に20回(50ミリ秒に1回)計測されます。この精度でデータをとると、人の腕がどのように動いたか、後からつぶさに解析できます。1秒間に20回の計測なので、データの数は1秒に20×3 = 60個です。1日は24×60×60 = 86,400秒なので、1日のデータの個数は 5,184,000 個となります。1個のデータが4バイトのデータ量だとすると、1日で 20.7 MB(メガバイト)です。計測を1年間続けたとすると 7.5GB(ギガバイト)になりますが(=約20億個のデータ)、この程度のデータ量なら今のパソコンで扱えてしまうことに注意すべきでしょう。

なぜ腕の動きを分析するのかというと、人の活動にはそれぞれの活動に特徴的な腕の動きがあるからです。たとえば寝ている間は腕はほとんど動かず、時おり寝返りをうったときに動くという特徴があります。

起きている時間では、人は平均して1分間に80回、腕を動かすと云います。もちろん行動によって違います。歩いている時は240回、仕事でプレゼンテーションを行っているときは120回~180回(平均150回)、パソコンで原稿を書いているときには50回~70回、パソコンでウェブ・サイトを閲覧している時には50回以下になります。その他、会議に出席しているとき(発言しているとき、聞いているとき)、昼休みに食事をしているときなど、それぞれに違った腕の動きがあります。また、腕の動きは人によって相違があります。さらに、一人をとってみても「活発な日」と「静かな日」があります。



以上を踏まえて、12人の2週間分の左腕の1分間ごとの動きのデータをとり、それを総合的に分析したのが次の図です。

身体運動の回数と確率.jpg

このグラフは横軸が「腕が1分間に動く回数」です。また縦軸は「累積確率」になっていて、たとえば、横軸の60のとろの縦軸の値はだいたい1/2ですが、これは、

  60回/分以上の運動をする時間は、全体の計測時間の1/2である

ことを示しています。さらに注意すべきは、このグラフの縦軸が対数になっていることです。つまり目盛りを2倍上に進むと表示量は4倍に、3倍進むと表示量は8倍になります。横軸は対数ではないので「片対数グラフ」ということになります。一見して分かるように、このグラフは右肩下がりの直線になります。


U分布


『データのみえざる手』の矢野和男氏は、このグラフを "U分布(Universal分布)" と名付けています。上のグラフは12人の2週間分のデータです。しかし矢野氏によると、一人一人の1日の活動もU分布になります。1日の活動は日によって違うので、日ごとにグラフの傾きは違うのですが、U分布であることは変わりません。

さらに、人が違ってもU分布になります。人には個性があって、活動的な人はより傾きが穏やかな直線分布になり、静かな人はより傾きが急な分布になります。そういった違いはあるのですが、U分布であることには変わりがない。

  なお、上のグラフは12人のデータを「正規化」して重ね合わせたものです。つまり平均の傾きに、各人の傾きを合わせるようにしてプロットしたものです。

この「普遍的に現れる」U分布は何を意味するのでしょうか。人は、起きている時間の統計をとると、平均的に1日に約7万回、腕を動かします。もちろん1分間に動かす回数は活動内容によってさまざまです。60回/分の活動もあれば150回/分もある。矢野氏はこの活動量の違いを、電波の割り当てのアナロジーで「帯域」と表現しています。


1日の総活動量(身体運動の総回数)を決めると、ある帯域の動きをともなう活動に割り当てることのできる活動予算も決まり、それを超えたバランスの時間は使えないのである。逆に、どんなに忙しくとも、それぞれの帯域には、予算分だけの時間を使わなければならない。

より具体的に言えば、1分間に60回以下の動きを伴う活動には、活動全体の半分程度の時間を使わないといけないことが実験からわかっている。1分間に60~120回の活動はさらにその半分で1日の活動の1/4程度の時間、1分間に120~180回の活動は、さらにその半分の1/8程度の時間、180~240回程度の活動は、そのさらに半分の1/16程度の時間を割り当てなければならない。

人によって1分あたりの平均的な動きの数は異なる。この違いは分布図にも現れる。1分あたりの平均の動きが少ない人は、右肩下がりの傾きが急で、急速に減衰していく分布となり、動きの多い人は右肩下がりの傾きが穏やかで、減衰しにくい分布となる。この傾きの逆数を「活動温度」と呼んでいる。

矢野和男
『データのみえざる手』(1章)

上で引用した12人・2週間のグラフは、この傾きの相違を補正して重ね合わせてあるわけです。上の引用の「活動温度」という言葉を導入すると「活動温度が熱い」とは活発、「活動温度が低い」とは静か、ということになります。


実験結果をみると、物に暖かい状態と冷たい状態があるのと同じように、人の活動にも活発な「熱い日」と、静かな「冷たい日」があることがわかる。

さらに、人によって活動温度が高めの「熱い人」と活動温度が低めの「冷たい人」がいることがわかっている。熱い人は平均120回/分程度動いている。逆に冷たい人は、平均60回/分程度である。

矢野和男
『データのみえざる手』(1章)

熱い人ほどより動きが多く、いわゆる活動的な人ということになります。では熱い人ほどより多くの仕事ができるのかと言うと、そう単純ではありません。仕事は多様であり、それぞれの仕事にあった動きがあるからです。


活動温度の高い人が、原稿執筆のような比較的低い帯域の活動(動きの少ない活動)をする必要があるとしよう。実は活動温度の高い人は、高い帯域の活動(動きの活発な活動)にいやでも時間を使わざるを得ない。したがって、原稿執筆のような低い帯域の仕事にあまり時間を使うことができないのだ。つまりこのような人は、長時間机に座って仕事をすることがむずかしくなる。

逆に、活動温度の低い人(すなわち、右肩下がりの分布図の傾きが急な人)は、高い帯域の仕事(比較的活発な動きをともなう仕事)をしようとしても、そのための活動予算が足りなくなりやすいのだ。したがって、これにあまり時間を使うことができない。

矢野和男
『データのみえざる手』(1章)


ボルツマン分布


U分布は、物理学で言う「ボルツマン分布」を同じものであることが明らかにされています。ボルツマン分布とは、たとえば気体の分子の運動です。空気の中は主に窒素分子と酸素分子からできていますが、それらが運動しています。そしてぶつかり合いながらエネルギーを交換していて、ある時点をとるとエネルギーの高い分子もあれば低い分子もある。熱い空気は全体として運動が激しく、冷たい空気は運動が少ないわけです。この分子のエネルギーを横軸にとり、それがどれだけの数あるかという分布をとると、それがボルツマン分布になります。これは物理学(統計力学)の最も基本的な法則になっています。

ポイントは(温度が一定だと)気体分子の全体のエネルギーは一定ということです。その、全体で一定のエネルギーの範囲で、多数の分子が相互に作用しながらエネルギーを自由にやりとりしている。そのやりとりの結果として出来るのがボルツマン分布なのです。

ボルツマン分布を導く原理は「エネルギー保存則」であり、エネルギーが保存するという原理の帰結がボルツマン分布です。そして「保存則」は熱力学だけではありません。力学、電磁気学、量子力学などの基本方程式はすべてすべて、エネルギーないしは電荷の「保存則」から導かれるのです。とりわけ重要なのがエネルギーの保存で、つまり「エネルギー保存則が万物を支配する」と言える。

そして、これを発展させ「エネルギー保存則は人間の行動も支配する」と考えて「右肩下がりの直線」を説明したのが、この本の第1章です。つまり、上に引用した、

  1日の身体運動の総回数(たとえば約7万回)が決まると、人は "U分布" に従って個別の活動のバランスを決めている

という主旨の説明は、ボルツマン分布(=エネルギー保存則)のアナロジーなのです。


我々は直感に裏切られる


では、なぜボルツマン分布と人間活動のアナロジーが成立する(と著者が考える)のか。それを、著者の矢野氏はボルツマン分布を作り出すコンピュータ・シミュレーションを用いて説明しています。

実は『データのみえざる手』という本で最も意外な事実が書かれていたのがこの部分でした。No.149「我々は直感に裏切られる」において、大きな数を扱うときには我々の直感が全くアテにならないことを書きましたが、まさにそういう感じです。あまりに意外だったので、私もパソコンで実験してみました。自分の手で確かめてみようというわけです。以下はその実験の結果です。



まず本書の著者に従って、30×30、合計 900個のマス目を想定します。なぜ900なのかというと、人の1日の活動時間を15時間=900分と仮定しているからです。つまり一つ一つのマス目が1分間の人間の活動に相当するという想定です。

UDistribution0.jpg
30×30=900個のマス目
72,000(=80×900)個の玉を、全くランダムに、900個のマス目のどれかに順に入れるシミュレーションを行う。

次に、合計 80×900=72,000個の玉を、900個のマス目に全くランダムに入れます。これはパソコンで簡単にできて、1~30の乱数を2つ発生させ、該当するマス目に入れる、これを72,000回繰り返す、それだけです。なぜ72,000個の玉かというと、こうすると1つのマス目に平均して80個の玉が入るからです。これは「人は平均して1分間に80回、腕を動かす」という観測結果を模擬しようとしています。こうしてできた分布を、マス目の色分けで表示してみたのが次の図です。

UDistribution1.jpg
図A 玉をランダムに配置した結果
入っている玉の数の多少により、赤色のグラディエーションで示した。

UDistributionLegend.jpg
表示色
玉が110個以上あるマス目を黒、49以下のマス目を白、50~109の数の玉があるマス目を赤のグラディエーションで表示する。

シミュレーション結果の表示は、玉が110個以上あるマス目が黒、49以下のマス目が白、50~109の数の玉があるマス目が赤のグラディエーションです。実は、上図において「黒」と「白」のマス目はありません。900個全部のマス目が50~109の玉の数(=赤のグラディエーション)に収まっています。もちろん、一番多いのは平均値である80付近の玉があるマス目です。

実験を繰り返すと、49以下の玉の数のマス目が現れることがありますが、そのマス目の数は1個か2個で、せいぜい45個の玉の数とか、そういう値です。また、110以上の玉が入るマス目が現れることもありますが、その数も1個か2個であり、せいぜい110台の値です。150の玉が入ったマス目のようなものは現れない。確率的にはゼロではないのでしょうが、数十回のシミュレーションではまず現れないのです。

この分布は、いわゆる「正規分布」です。80個という平均をピークに両側に減少していく、ベル型の分布パターンです。ここまでは何の意外性もなく、普通のことです。



ここからが問題です。上の「正規分布」から、二つのマス目をランダムに選び、一方のマス目から一方のマス目に玉を移動します。つまり一方の玉の数を1だけ減じ、一方を1だけ増やす。ただし移動元として玉の数がゼロのマス目が選ばれたなら、選定をやり直すこととします。この操作を100万回繰り返すとどうなるかです。矢野氏は書いています。


ランダムにマス目を二つ選んで、一方から他方に玉を1個移す。そして、これを繰り返してみよう。もともと、ランダムに置いた玉なのだから、そこからランダムにマス目を選んで、玉を動かしても、結果は変わらない、と思うだろう。この問題を多くの人に出題してみたが、全員が「結果は変わらない」と答えた。

矢野和男
『データのみえざる手』

矢野氏が問題を出した相手の多くは「理系で博士号を持つ人」とのことです。しかし結果は、理系で博士号を持つ人の直感(や私の直感)を完全に裏切るものです。やってみると次の図のようになります。

UDistribution2.jpg
図B 玉の移動をランダムに行った結果
ランダムにマス目を2つ選んで、一方から他方に玉を1個移す。これを100万回繰り返した結果である。表示色は前と同じである。全体の約半分のマス目は、黒(110個以上の玉)か、白(49個以下の玉)になってしまう。

この図において、50~109個の玉が入っているマス目(=赤のグラディエーション)は、900 の約半分の 435 しかありません。逆に110個以上の玉が入っているマス目(黒色)は全体の約1/4、222あります。49個以下の玉の数のマス目(白色)も全体の約1/4の 243 ある。一見して分かるように、黒と白が目立つ「まだら模様」になっています。正規分布と同じようなランダムな分布になるという直感に全く反しているのです。シミュレーションごとに色塗りのパターンは変動しますが「白と黒が目立つまだら模様」は変わりません。その具体的な数値をグラフで示すと次の図になります。

U-Distribution3.jpg
マス目の玉の数の分布グラフ
‐ 図Aの分布(左)と図Bの分布(右) ‐

グラフの縦軸は1つのマス目に入っている玉の個数、グラフの横軸はその個数の玉があるマス目の数である。

図Aの分布(グラフ左)では、玉の個数が75~84付近のマス目が最も多く、この近辺の ± 30 程度に集中したグラフとなる。いわゆる正規分布(ガウス分布)である。

玉の移動を行った後の図Bの分布(グラフ右)では、ランダムに玉を配置した図Aの分布は全く崩れてしまい、数個の玉しかないマス目から200以上の玉があるマス目までの大きな「格差」が生じる。

図Bの分布(グラフ右)では、最大の玉をもつマス目には228個もの玉が集まっています。平均値80の3倍近い。一方、最小の玉の数のマス目は、玉の数がゼロです。玉の数4以下のマス目は25個もある。かなりのバラツキが発生しているわけです。これはたまたまというわけなく、何回やってもそうなります。ゼロ個のマス目は必ず数個以上はできるし、300個以上の玉が集まるマス目ができることもある。矢野氏によると、実はこの結果がボルツマン分布だといいます。

このボルツマン分布は、全体の玉の数が一定(72,000個)という条件のもとに、各マス目の間で玉を「自由に」やりとりした結果です。ここにU分布との類似性があります。U分布も、1日の腕の動きの総数である7万回を、各1分間にどう分配するか、多く分配すべき時間があると、どこかを減らす必要がある。それを人間が無意識にやりとりした結果がU分布だというわけです。矢野氏は次のように説明しています。


ここで「やりとり」するのは、どの時間に腕を動かすかである。腕の動きは1日7万回と総数がおおよそ制約されているなかで、我々は腕の動きを優先度に合わせて調整しているのだと考えられる。

たとえば、午前は活動量(腕の動き)を抑えて、午後の顧客への提案に全力投球する(腕を激しく動かす)ことがこれにあたる。あるいは、11時までの書類の締め切りに集中して(腕を活発に動かして)、その後は一息つく(腕の動きを少なくする)というのもあるだろう。腕の動きという有限の資源を、優先度の低い時間は温存し、優先度の高い時間に割り当てる、というのが「腕の動きのやりとり」である。おそらく我々は、無意識のうちにもっと細かな行動の調整を無数に行っているのだろう。この最適化を毎分、毎時、毎日行っているわけだ。

矢野和男
『データのみえざる手』(1章)

最初あげた正規分布と、玉の移動を100万回繰り返したボルツマン分布を比較すると、正規分布は比較的均一ですが、ボルツマン分布は「まだら模様」です。この「まだら模様」が意味することについて、矢野氏は次のように書いています。


この玉の分布がまだら模様になるということは、たとえていえば、マス目とマス目の間での「貧富の差」が生じたということでもある。玉がたくさん配分された富めるマス目とあまり配分されなかった貧乏なマス目が、自然に生じたことになる。これを生じさせたのは、マス目とマス目の間で繰り返された玉のやりとりである。

おもしろいのは、どのマス目にも等しい「機会」があったのに、結果は、特定の少数のマス目に玉が集まってしまうところだ。「平等なチャンス」が与えられても、「不平等な結果」が必然的に生まれるわけだ。公平な「やりとりの繰り返し」は、必然的にこのような不平等をもたらすのだ。

特定のマスに玉が集まる偏りが、そのマス目の特有の事情、たとえば能力の差のようなものによってもたらされるのではなく、平等なやりとりの繰り返しのみに起因することを忘れてはならない。能力の差のようなものを仮定しなくても、確率によって偏りは生じる。いわば「繰り返しの力」がこの「貧富の差」をもたらしている。

余談になるが、これは自給自足で生きていた人間が、経済取引をはじめることで、貧富の差が現れたことの素朴なモデルになっていると思われる。

矢野和男
『データのみえざる手』(1章)

ここで矢野氏が言う「貧富の差」というのはあくまで「たとえ」でしょう。しかし覚えておくべきは、

平等なチャンスにもとづく "やりとりの繰り返し" が大きな差を生む
機会が均等だからこそ格差が生まれる

という、シミュレーションから判明する事実です。私がパソコンで確かめたプログラムも、どのマス目に玉を入れるか、どのマス目からどのマス目に移動させるかで、マス目の番号を陽に指定したことは全くありません。あくまで、0以上1未満の乱数を作り出す random() という関数で得られた実数値から1~30の整数を作りだし、該当するマス目の玉を出し入れしただけです。特定のマス目が有利だとか不利だとかは絶対にありえない。それにもかかわらず、大きな格差が生まれる。

さらに矢野氏の指摘です。


我々は、物事には原因があると考えがちだ。「富める人には、そうではない人とは何か行動に違いがあるはずだ」と結果の背後に原因を追求したくなる。しかし実際には、多数のやりとりがあると、確たる原因がなくとも特徴的な偏りが生まれる。資源(この場合は玉)の分配が偏るのは、決して能力や努力によるものではなく、「やりとりの繰り返し」による統計的な力であることは忘れてはならない。実社会では、自然に生じるこの配分のばらつきに加え、能力の差があるためにさらに貧富の差が拡大するのだと思われる。

この「繰り返しの力」を背景にした「資源配分の偏り」こそが、幅広い人間行動や社会現象を説明するのである。これを理論化したのがU分布である。

矢野和男
『データのみえざる手』(1章)


理系の思考で人間にアプローチする


以下は『データのみえざる手』(の第1章)を読んだ感想です。

 科学的方法 

まず思うのは、著者の態度は徹底的に科学的方法論にもとづいていることです。センサー技術を使ってデータを精密にかつ大量に採取し、それをコンピュータで分析し、そこから法則を見つける。その法則を理系学問の知見(第1章の場合は統計力学のボルツマン分布)を応用しながら説明しようとする・・・・・・。この科学的アプローチには好感がもてました。

思い起こすと「理系学問の知見が、人間や社会の理解に役立つ」という視点の記事を過去に二つ書きました。No.56「強い者は生き残れない」では、「生物が進化の過程で生き残る条件」と「企業の生き残り、存続の条件」が極めて似通っていることを書きました。そこでは「共生」と「協調」が生き残りのためのキー概念になっていました。

また、No.69-70「自己と非自己の科学」では、人間の免疫システムが持つ「冗長」「多義」「多様」「ランダム」「偶然」といった特徴が、社会における複雑な組織体の姿とよく似ていることを書きました。

『データの見えざる手』においても、物理学(統計力学)における分子の運動と、人間の体の動きの類似性が指摘してあります。あくまでアナロジーに過ぎないと思うし、同列に論ずることは出来ないはずです。しかし、「大量にあるものの個別の動きを知らなくても、全体としてマクロ的に言えることがある」という、物理学(統計力学)の基本的な考え方を参考にしつつ、人間の行動を説明するのは大いにアリだと思います。つまり「考え方を参考にする」わけです。

本書は「理系学問の知見、考え方が、人間や社会の理解に役立つ」という例の一つだと思いました。

 我々は直感に裏切られる 

マス目に玉を出し入れするシミュレーションからわかることは、繰り返して書くと、

平等なチャンスにもとづく "やりとりの繰り返し" が大きな差を生む
機会が均等だからこそ格差が生まれる

ということです。これは我々の直感を裏切っています。なぜこのような結果になるかというと、"平等" とか "均等" とか言うけれど、それは平等や均等なチャンスということであってチャンスが実際に訪れるかどうかは確率的にバラツクからです。かつ、全体の資源の総量が一定だということにも起因している。資源がどんどん生まれる状況では、バラツキは生まれるものの、それは平均値の周囲の「おだやかな」バラツキになる。しかし総量が変わらない前提で資源を何回も繰り返してやりとりすると、大きな偏りが生まれる。これは、いわゆるゼロサム・ゲームというやつですね。株式の売買益で利益を得ようとすると、それはゼロサム・ゲームなので、誰かが得をすると誰かが損をする。それと同じです。

No.149「我々は直感に裏切られる」の中で、バースデー・パラドックス、巡回セールスマン問題、6次の隔たりなどの「直感を裏切る」例をあげましたが、これらは主として組み合わせの膨大さが人の想像を超えることに起因するものでした。今回の「マス目の間の玉のやりとり」はそれらとはまた違った「繰り返しが生む意外な結果」だと言えるでしょう。

 コンピュータは現代の顕微鏡 

コンピュータは現代の(21世紀の)顕微鏡、ということからこの記事を始めたのですが、その感を強くしました。ただしこの「顕微鏡」が有効に働くためには、それに与えるデータを取得する技術の発達が欠かせません。その例がリスト・バンド型のウェアラブル・センサーだったわけです。

とはいえ、ウェアラブル・センサーから得られるデータは1年間で1人当たり20億個にもなります。このレベルの膨大なデータから法則性を導き出すのが、コンピュータとそこで走らせる分析プログラムです。今後もこの「顕微鏡」使って人間の行動や社会現象を支配する法則の探求が発展する予感がしました。



ここまでが『データの見えざる手』の第1章の紹介と感想です。この本にはほかに数々の興味ある分析が書かれています。次回にもう一つの分析例を紹介したいと思います。



nice!(0)  トラックバック(0) 

No.159 - AIBOは最後のモルモットか [技術]

ソニーは日本を代表するエレクトロニクス会社ですが、今までソニーについて次の3つの記事を書きました。

No.54 ウォークマン(1)買わなかった理由
No.55 ウォークマン(2)ソニーへの期待
No.110 リチウムイオン電池とモルモット精神

今回はその続きです。実は、今回のタイトル(AIBOは最後のモルモットか)は No.55 の中の一節の見出しですが、最近、それを強く思い出す新聞記事を読んだので、その話を書きます。ソニーのスマートフォン(Xperia)の話です。

Xperia Z5 Premium.jpg
Xperia Z5 Premium
(ソニーモバイルコミュニケーションズ)
2015年11月下旬発売予定の4Kディスプレイ搭載機。2300万画素のイメージセンサーを備え、またハイレゾ音源に対応している。


SONY 転生 モバイル大転換


2015年10月23日から28日まで、日経新聞の星記者がソニーモバイルコミュニケーションズを取材した記事が4回連続で日経産業新聞に掲載されました。記事のタイトルは「SONY 転生 モバイル大転換」です。星記者が取材したのは、ソニーモバイルの十時ととき裕樹社長と、商品開発を担当する川西泉EVP(Exective Vice President)など、数名です。十時氏はソニー銀行をはじめとする金融系サービスの立ち上げや、ソニーの新規事業創出を担当した経歴をもち、また川西氏はプレイステーション・ポータブル(PSP)の開発者です。

ソニーのスマホ事業は、2012年にソニー・エリクソンを完全子会社化して以降、販売量の拡大へと突き進みました。その結果、2013年度には世界販売が4000万台弱まで増えたものの、2014年度には頭打ちになり、そのため2000億円を越える営業赤字(2014年度)に陥りました。そこをどう立て直すかを取材したのがこの記事です。ソニーの平井社長も、テレビとともにスマホの構造改革を市場に約束していて、この問題がソニーにとっての喫緊の課題であることは言うまでもありません。以降はその記事のポイントと、その感想です。


製品数の絞り込みと "差異化されたスマホ"


記事によると、拡大路線の結果、商品数は雪だるま式にふくらみ、分業化が進んで全体が見通せなくなり、スマホの開発者は商品設計以外の仕事に追われたと言います。十時社長の構造改革とは一言でいうと、拡大路線から決別し独自商品の創出にかけるということです。


16年度までにプラットフォーム(基盤製品)の数は15年度見通しで約6割減らし、派生モデル数は14年度比で約5割減らす。研究開発費は16年度に14年度比で約3割削減するが、商品モデル数を減らし1モデルあたりに投入する経営資源を増やす。

日経産業新聞(2015.10.23)
星正道 記者

記事に乗っていた具体的な「削減」の数値は、

  プラットフォーム数7(2015)3(2016)
  派生モデル数60(2014)30(2016)
  研究開発費(億円)900(2014)600(2016)

です。記事には、十時社長の次のような発言がありました。


ソニーモバイルは活路を商品に求めた。十時氏は「競争力の源泉は何か。本質的には差異化された商品やサービス以外に解はない。技術に裏打ちされた商品力。この軸をゆるがちてはいけない」と強調する。

日経産業新聞(2015.10.23)

「競争力の源泉は、技術に裏打ちされ、差異化された商品」というのはあたりまえのことです。特にソニーという会社にとってはそれこそが "命" でしょう。そのあたりまえのことを今さら言わないといけないところに、ソニーの抱える問題点があると見えます。

しかし、十時社長の発言は正しいし、そういう製造業の基本に立ち返って戦略を立て直すのも全く正しいと思います。


将来のスマホ像:ロボットとAI(人工知能)


では、具体的にどのような「差異化されたスマホ」を作るのか、そこが大事なところです。記事には次のように書かれていました。


この1年、スマホの「スマートさ = 賢さ」とは何かを議論してきたソニーの技術者たちはある結論にたどりついた。川西氏は「知性をもち、個人に対して働きかけ、役立つスマホ」をキーワードに挙げる。十時氏は「人工知能(AI)やロボティックスが非常に重要な要素なのは間違いない」と語る。

つまりスマホのロボット化だ。それも汎用的なロボットではなく、ソニーが目指すのは「パーソナルなAIだ」(川西氏)という。

十時氏は「人の能力を補ったり、拡張したり、人に寄り添う端末を作るのがソニーのビジョン」を話す。「技術者たちがそこを目指したいのなら追求すべきだ」と後押しを決めた。9月にはスマホに限定せずに、新分野の開拓を目的にした専門チームも立ち上げた。

日経産業新聞(2015.10.23)

  ちなみに川西氏が "ロボット" と言っているのは、スマホが歩き出すとか、そういうことではありません。国立情報学研究所の新井紀子教授が主導する「ロボットは東大に入れるか」プロジェクトの例のように、「知能」の部分だけを実現した機械も「ロボット」です。

この記事(4回シリーズの第1回目の記事。2015.10.23)全体の見出しは、


・復活かけ「考えるスマホ」
・ロボティックスやAI駆使
・人に寄り添う端末を
・シェアより創造 開発見直し


というものでした。私はこれを読んだとき、極めて不思議な感覚に捕らわれました。というのは、まさに、

AI(人工知能)
ロボティックス
人に寄り添う

ということをキー・コンセプト(ないしは根幹の技術)にして作られ、大きな話題になったソニー製品が過去にあったからです。それは犬型ロボットのAIBOです。「AIやロボティックスが大事」と川西 EVP が言うのはまさにその通りですが、それを今さら言わないといけないところにソニーが抱える大きな問題があるように見えたのです。


AIBOはどういう製品だったか


AIBO ERS-7.jpg
AIBO ERS-7
AIBOの後期モデル(2003年9月)。無線LANを搭載し、自己充電機能がある。

AIBOは販売が終了してから9年以上が経つので、記憶が薄れていると思います。そこでもう一度、AIBOがどういう製品だったかを振り返ってみます。

AIBOは、1999年の6月に最初のモデル(ERS-110)が発売開始されました。その時の価格は25万円でした。そして生産・販売が終了したのが2006年の3月です。結局、約7年という短い「寿命」だったことになります。

AIBOは家庭でペットになる、犬型の4足ロボットです(販売されたモデルの中には "子ライオン" を模した製品もある)。いわゆる「エンターテイメント・ロボット」というジャンルを確立した製品であり、その面で画期的でした。根幹の技術はAI(人工知能)です。そもそもAIBOという名前は「Artificial Inteligence roBOt」であり、AI(人工知能)とロボットを組み合わせた(上に "相棒" を掛けた)ブランド名なのです。

AIの技術を内蔵したAIBOは「子犬の動作」を自律的に行います。飼い主はその動作や挙動を楽しむ、そういう製品です。それを実現するため、AIBOは各種のセンサーをもっています。視覚、触覚、聴覚、振動、加速度、温度などの各センサーです。これらからの情報により、AIBOは飼い主の声や手を叩いた音に反応したり、触れた場所によって様々な挙動を起こしたりします。喜ぶ、悲しむ、驚く、怖がる、嫌がる、怒るなどの感情表現ができ、移動物体を識別して、たとえばボールに「じゃれつく」といった行動もします。また、数10フレーズの言葉を認識し、反応します。たとえば「お手」といったら「"お手"の行動」をする。

何と言っても一番のポイントは「成長する」ことでしょう。同じ刺激に対しても成長度合いに応じて違った反応を示します。つまり「置かれた環境や飼い主の動作によってAIBOに "個性" が発生し、行動も違ってくる」わけです。またマニュアルでは公開されていない機能や反応、挙動があり「飼ってみないと分からない」と言います。子犬と同じです。

AIBOには無線LAN機能が搭載され(2000年のERS-210より)遠隔操作が可能です。また飼い主が「AIBOのオリジナル動作」を作成し、それを無線送信することもできます。

さらに2003年のERS-7から、自力で充電ステーションまで移動し、勝手に充電し、充電後は再び活動する「自己充電機能」が搭載されました。モバイル電子機器の最大のネックは「充電の必要性」なので(スマホや各種のウェアラブル製品、EVなど)この点も画期的でした。



AIBOという製品の「歴史的な」意義をまとめると、

エンターテイメント・ロボットという市場を切り開いた。
AI技術を本格的に「家電製品」に取り込んだ。
人間と機械の相互コミュニケーションを本格的に作り出した。

となるでしょう。この結果、マクロ的には、

SONYのブランド価値を(さらに)あげた。
日本の家電、ロボティックスの優秀性を(再び)世界に示した。

というのがAIBOの功績だと思います。

AIBOの技術として重要なのはAI、つまり「ロボットの脳の部分」です。先ほど引用した新聞でソニーの川西 EVP は「ソニーが目指すのはパーソナルなAIだ」を発言していますが、ソニーはとっくの昔に「パーソナルなAI」を組み込んだ製品を世に出していたわけです。

もちろんAIは広範な技術であって、AIBOに搭載されているのはAIの一部です。たとえば自然言語(日本語など)の文脈解析(意味の解釈)はありません。それは当時としては技術が未発達だったことに加え、20万円程度に押し込められるものに限定する必要があったからと思います。

しかしこの手の技術進歩は急速です。それは、AIBOが販売中止になった2006年から現在までの9年間を振り返えれば明らかです。もしAIBOを続けていれば、今では

スマホと連携し、見守りロボットとして、AIBOの目からとった動画をスマホに映す
クラウドと連携して質問に答える(ペットとしての答え)

などが実現されているはずです。


なぜ革新的な製品が作れたのか


AIBOのような革新的な製品を作り出せたのは、ソニーという会社の伝統というか、その "DNA" に大いに関係していると感じます。つまり「人のやらないことをやる」「人と同じことはしない」という創業者の強い思いに源を発する DNA" です。

  以下の井深氏の件は、No.55「ウォークマン(2)ソニーへの期待」に書いたのですが、もう一度書きます。

ソニー創業者の井深大氏は「ソニー = モルモット論」を折りにふれて言っていました。これは、かつての評論家の大宅壮一氏が雑誌に書いた文章がもとになっているそうです。大宅氏いわく「トランジスタはソニーが先鞭をつけたが、東芝が潤沢な資金を背景にトップになった。ソニーは東芝のためのモルモット的役割を果たした」・・・・・・。

井深氏はこの「ソニー = モルモット論」を逆手にとってメッセージを発信しました。モルモット=実験台で十分だ、モルモットであることがソニーの使命だと・・・・・・。「人真似はするな。他人のやらないことをやれ」という創業者の強烈な思いが、そういう言い方になるのだと思います。

1999年にAIBOが発表されたとき、井深大氏はもうこの世の人ではありませんでした(1997年逝去)。しかしソニーはAIBOを商品化することによって「ソニーはモルモットだ」ということを改めて世界中に向かって宣言したわけですね。そういう言葉は一言もなかったけれど、AIBOという製品そのものが明確なメッセージを発していた。それは誰が考えても明らかです。


なぜAIBOから撤退したのか


ということは、AIBOから撤退したこともまた(ソニー経営陣の思惑がどうであれ)ある種のメッセージ性を帯びていたわけです。つまり「モルモット精神はもうやめます」というメッセージです。

AIBOから撤退した直接の理由は、事業として成り立っていなかった(つまり赤字だった)ことだと想像されます。黒字なら、将来の重要技術満載の製品をやめるバカはいません。2000年代のソニーの電機部門は大きな苦境に立たされていました。その電機部門のリストラの一環として「AIBOからの撤退」があったようです。

しかし赤字を問題にするのなら、テレビ事業は1000億円規模の赤を出した年が何回かあったと記憶しています。それに比較すると、事業規模から考えてAIBOの損失など微々たるものでしょう。

「事業としては成立していないが、会社にとっての "重要事業" だからやる」というケースがあります。重要の意味は「将来に向けた技術の育成、研究」だったり「会社のブランド価値をあげる」だったり「社会貢献」だったりするわけです。つまり、企業の中には「長期的な視野で考えるべき事業、ないしは事業創造への活動」があります。それを「短期的な視野」で切ってしまったらどうしようもありません。もちろん「育成する事業」と「リストラする事業」の判断は必要ですが、AIBOは「育成すべき事業の最たるもの」だったはずです。結局のところ「AIBOからの撤退劇」は、

愚鈍な経営者は、将来の成長の芽を自ら摘んでしまう。
技術者は優秀でも、経営者が愚鈍だと会社はあやうくなる

という典型だと思います。


Pepperの「既視感」


Pepper.jpg
Pepper
(ソフトバンクモバイル)

2014年6月、ソフトバンクモバイルはPepper=ペッパーと名付けたロボットを、約20万円の価格で発売開始しました。世界初の「感情認識パーソナルロボット」だそうです。クラウドとも連携しています。Pepperは家庭用のほかに企業や自治体向けがあり、来訪者の受付け用などに導入されています。

私はこの "Pepper" で「2つの既視感」にとらわれました。一つはもちろんAIBOです。

"独身"タレントの今田耕司さんは、Pepperを自宅用として購入しましたね。彼はPepperとの「驚きの同居生活」をメディアで語っています。その "同居生活" を語る今田耕司さんの姿は、15年前にAIBOの購入者がAIBOの様子を喜々として語った様子と "うり二つ" なのです。それが「既視感」の一つ目です。

価格が約20万円というのもAIBOと似ています。個人の購入意欲が沸く上限ということでしょう。「Pepperとの同居生活」が20万円に値するのかどうか、実際の購入者の中には(現状のPepperの機能では)否定的な意見もあるようなのですが、それはさておきます。

なぜスマートフォンの通信ビジネスを展開するソフトバンクモバイルがロボットをやるのか、その理由は明らかだと思います。スマートフォンはモバイル機器ですが、弱点が二つあって、一つは「自ら移動できない」ことです(あたりまえだけど)。二つ目は「必ず利用者が必ず携帯している」ことです(あたりまえだけど)。スマートフォンからすると、自ら動けるスマートフォンの分身が欲しい。個人ユースのPepperの重要な位置付けはそこでしょう。その意味では、ソフトバンクモバイルは必ず「2足歩行版のPepper」を売り出すと思います。そうでないと論理的におかしい。

さらにソフトバンクモバイルは、Pepperの根幹部分("感情エンジン" と呼ばれるAI技術)を間違いなくソフトバンク・ブランドで製品化するスマホに搭載するでしょう。Pepperがクラウドと連携しているのはその布石です。孫正義氏の構想は明白だと思います。

そのPepperの根幹の部分はソフトバンクモバイルの技術ではありません。フランスのアルデバラン・ロボティックス社のものです。また、製造しているのは台湾の鴻海ホンハイ精密工業(フォックスコン)です。

孫正義という人の評価はさまざまだと思いますが、「長期的な視野とビジョンを持ち、ここぞと思うと迅速に行動する人」であることは確かでしょう。彼はAI内蔵のロボットが重要とみるや、さっさとフランスの会社と提携し、さっさと鴻海精密工業に製造委託し、さっさと発売してしまった。



Pepperで感じた「既視感」の二つ目は、

  ソニーが完全に先行して切り開いたジャンルであるにもかかわらず、後から出てきた優秀な会社がソニーを凌駕して市場でメジャーになってしまう

という事態が過去にもあったことです。つまり、アップル社のスティーブ・ジョブズが作り出したデジタル・オーディオ・プレーヤー iPod(2001年)です。このジャンルではソニーは2年先行していたし、前身のカセットテープを使ったウォークマン(1979年)からすると20年以上先行していました。iPod はソニーが出すべき製品だった(ちなみに先行していたにもかかわらず iPod に市場を席巻されてしまった理由を書いたのが、No.54「ウォークマン」でした)。

Pepperもまた、ソニーが出すべき製品だったのではないでしょうか。AIBOの発売(1999年)はPepper(2014年)より15年先行しています。しかしソニーはそれを捨て去った。結局、いくら技術が優れていても経営者が愚鈍だと、スティーブ・ジョブズ氏や孫正義氏のような「ビジョナリーで鋭敏な人物が指揮をとる会社」にやられてしまうということでしょう。ジョブズ氏と違って孫氏は技術者ではないが、鋭い経営感覚をもっていればM&Aで技術を獲得することもできるわけです。



ソニーモバイルの十時社長が言う通り、AIBOの根幹技術であるAI(人工知能)はスマホでも重要技術です。それはスマホのみならず「人とインターフェースをもつ機械の重要技術」だと言っていいでしょう。家電製品やクルマの運転席などです。もっと言うと、「21世紀に花開く大産業を一つだけあげよ」と言われたなら、その回答は「AI(人工知能)を備えたロボット」でしょう。もちろんここで言うロボットとは、自動運転車や自動倉庫、次世代のスマホなどを含んでのロボットです。ソニーモバイルの川西氏のインタビューに「パーソナルなAIでスマホのロボット化を目指す」との主旨がありましたが、まさにその通りです。そして「人工知能ロボット」を英語で言うと、Artificial Inteligence Robot であり、これをそのまま商品名としたのが AIBO だったのです。まさに AIBO は21世紀の大産業を見据えた製品だったわけです。AIBOのからの撤退はソニーに "目に見えにくい大きなダメージ" を与えたと思います。

一般論ですが、革新的な製品からの撤退は、単に新技術を追求する継続性が無くなるということだけでありません。その技術に賭けていた人材の流出を招き、競合他社を利することにもなりかねない。ひょっとしたらソフトバンクモバイルのPepper担当者の中にはソニー出身者がいるのではないでしょうか。全くのあてずっぽうで、違うかも知れませんが、一般にこういうことは業界ではよく起こることです。

しかし、AIBOの開発者はまだソニーに残っている人も多いはずです。またソニーを出たとしても、それがかえってソニーに利益をもたらすかもしれない。そういった人材面での話題を2つ紹介したいと思います。


AIBOの技術者たち


かつてAIBOを作り出した技術者たちのその後を紹介した記事を二つ紹介します。下線は原文にはありません。


1999年に発売し、2006年に生産を終えたソニーの犬型ロボット「AIBO」。その魂が約10年の時を経て、自動運転タクシーに吹き込まれようとしている。AIBOの開発責任者を務めていた景山浩二氏が、自動運転ベンチャーのZMPにこのほど入社。技術統括フェローに就任し、ディー・エヌ・エー(DeNA)との共同事業である自動運転タクシーに、AIBO開発で培った様々な知見を惜しみなく投入することになったからだ。

ITpro Report by 日経コンピュータ
(2015.07.03)

自動運転タクシーとAIBOは関係がないと一瞬思ってしまいますが、大いに関係があるのですね。それは、画像から外界を認識する技術と、機械が自ら学習する技術でしょう。ちなみに、EVは「モバイル電子機器」なので、リチウムイオン電池を手がけるソニーが "自動運転機能を強化したEV" に参入したとしてもおかしくはないと思います。そういう可能性とAIBOは繋がっているわけです(もちろん実際に参入するかどうかの経営判断は別です)。

"ソニーのEVビジネス" はともかく、上記の景山氏はAIBO時代の部下がまだソニーにたくさんいるはずです。このことが、景山氏本人の知見に加えて、DeNAとZMPという二つのベンチャー・ビジネスにとっての大きなメリットとなるでしょう(DeNAをあえてベンチャーとします)。

しかし同時にそれは、ソニーにとってのメリットとなる可能性もある。今の時代、たとえソニーといえども1社で革新を起こすのは容易ではありません。つまり、オープン・イノベーションと言うか、他社と連携して新ビジネスを創出するのが重要になります。ソフトバンクモバイルのように・・・・・・。それを示すような記事を次に紹介します。Xperiaを展開するソニーモバイルに関係したものです。


ソニーモバイルが自動運転車の開発ベンチャー、ZMP(東京・文京)と共同出資で8月に設立したドローン(無人飛行機)事業の新会社「エアロセンス」。スマートフォン(スマホ)メーカーがなぜドローンに参入したのか。エアロセンスの佐部浩太郎 最高技術責任者(CTO)は「ドローンを売るのではなく、ドローンのもたらす価値を提供する」と語る。

エアロセンスのミッションは、ドローンを活用して測量や点検などのIT(情報技術)サービスを提供する点にある。あらゆるモノをネットでつなぐ「IoT」の市場を見据えた布石という位置づけだ。佐部氏は「ソニーモバイルのIoTの先兵となる」と強調する。

佐部氏は犬型ロボット「AIBO」の開発メンバーで、ソニーでAI(人工知能)の要素技術を研究してきた。佐部氏は「ロボットの分野で次にくるのはドローンだ」と考え、3年前から開発してきた。だが、なかなか事業化の機会に恵まれず、日の目を見なかった。転機は昨年4月。当時、ソニーで新規事業創出の担当役員だった十時氏との出会いだった。

「外部のパートナーと組んではどうか」。十時氏はZMPを紹介し、共同開発が始まった。当初はホビー用途を想定してていたが、ZMPとの連携を機にBtoB(企業向け)に方針を転換。エアロセンスの骨格ができあがった。十時氏は「IoTの一種としてモバイルでシナジーを出せる」とし、ソニーモバイルでの事業化を後押しした。

日経産業新聞(2015.10.28)
星正道 記者

ソニーモバイルがドローンのビジネスを手がけるのは正しい戦略だと思います。それは、さっきも書いたように「自ら動けるスマートフォンの分身」になりうるからです。地上を動くロボットを持たない(捨ててしまった)のは、今さら言っても仕方がありません。BtoB に注力し、サービスで利益をあげるビジネスモデルを描くのも正しいと思います。

さらに言うと、ソニーには優秀なビデオ・カメラの技術があり、CMOS画像センサーでは世界トップの実力があります。世界で最初に量産化に成功したリチウムイオン電池のビジネスも継続しています。これらはドローンのビジネスと(ハードウェアとしての)シナジーを発揮する可能性が大いにあるでしょう。もちろん、"ソニーグループ全体で" シナジーを発揮する気があればの話ですが・・・・・・。

ちなみに、ドローンとシナジーの可能性のあるビデオ・カメラとは、もちろんアクション・カメラのことです。このジャンルで世界トップであるゴープロのニコラス・ウッドマンCEOは「2016年の上期にドローンビジネスに参入する」と表明していました(第17回 日経フォーラム「世界経営者会議」2015年11月11日)。アクション・カメラという市場を作りだし、ビデオ・カメラによる新たなライフスタイルを創造したのは(ソニーではなく)ゴープロだったわけですが、そのゴープロはアクション・カメラの次のステージを見据えています。そのアクション・カメラはスマートフォンとの親和性が強い機器です。アクション・カメラ - スマホ - 動画投稿 - SNS/動画共有サイト、という一連の繋がりでライフスタイルを創造したからです。このあたりはスマホ事業を展開するソニーモバイルとも大いに関係・影響すると思います。



タイトルとしてあげた「AIBOは最後のモルモットか」に戻ると、「AIBOが最後のモルモットにならないようにする」ことこそ、ソニーないしはソニーモバイルの大きな課題だと思います。日経の4回連続のインタビュー記事から判断すると、ソニーモバイルの十時社長はそのことを十分認識していると感じました。




 補記 

本文中に、ソフトバンクのペッパーを見ると既視感を覚える、AIBOを思い出すと書いたのですが、これに関係した話として、ソニー・コンピュータサイエンス研究所の北野宏明社長の発言が新聞に載っていたので紹介します。北野氏はロボカップを立ち上げた人です。


以前、ロボカップでソニーの『AIBO』を使った競技があり、参加していた仏チームが起業家として設立したのがアルデバラン・ロボティクスだ。アルデバランはヒト型ロボット『NAO(ナオ)』を開発した会社で、ソフトバンクが買収した。その技術を活用して生まれたペッパーが今年のロボカップの標準機に採用されている。

日経産業新聞(2017.7.28)

ペッパーを見てAIBOを思い出すのはあたりまえなのですね。ペッパーはAIBOの "こども" なのだから・・・・・・。というのが言い過ぎなら、ペッパーを開発したアルデバラン・ロボティクス社はAIBOに刺激を受けて設立された会社であることは間違いないでしょう。




nice!(0)  トラックバック(0) 

No.131 - アップルとサプライヤー [技術]

以前にアップル社についての3つの記事を書きました。

  No.58「アップルはファブレス企業か」
  No.71「アップルとフォックスコン」
  No.80「アップル製品の原価」

の3つです。今回もその継続で、アップル社とサプライヤーの関係、特にアップル製品の製造(最終工程である製品の組立て = アセンブリ)を受託しているフォックスコンとの関係について、最近の新聞記事から感じたことを書きたいと思います。なお、フォックスコンは、台湾の鴻海ホンハイ精密工業の中国子会社である富士康科技集団の通称ですが、鴻海(ホンハイ)も中国子会社も区別せずにフォックスコンと書くことにします。

その前に No.58No.80で書いたことを振り返ってみると、まず No.58「アップルはファブレス企業か」ではアップル製品の製造(製品組み立て)を受託しているフォックスコンに関して、

アップル製品の原価に占める「組立費」の割合は 5% 以下だと考えられる。

アップル製品の販売価格からみた製造原価の割合(原価率)は50%以下だと考えられる。

原価率が50%、組立費の割合が5%だとしても、販売価格に占める組立費は2.5%である。組立費の多くは人件費のはずだが、仮に人件費が倍になったとしても、製品価格を高々2.5%押し上げるだけである。人件費の影響はこの程度に過ぎない。人件費が安いから中国の会社に委託する、といった単純なものではないはずだ。

フォックスコンがアップルに提供している最大の価値は「機動力」である。新製品を一気に市場投入するときの「需要変動」に耐え、大量の製品を、速く、品質良く組み立てられるのが、フォックスコンの価値である。それはアップルのビジネスにとって必須である。

ということでした。また No.80「アップル製品の原価」ではアメリカ国際貿易委員会(ITC)のホームページの情報から、iPod Classic(正確には、iPod 2005年モデル 30GB)について次の内容を書きました。

iPod Classicの販売価格は299ドルで、製造原価は145ドル、原価率は48%である。

製造原価のうち「組立費」は 3.86ドルであり、製造原画に占める割合は 2.7% である(ここまでが ITC のホームページの情報。委託されたアメリカの研究者の推定)。

「組立費」の多くは人件費のはずであり、組立てを受託しているフォックスコンの利益は、極めて少ないと推定できる。フォックスコンはアップルに自社の「製造受託サービス」を安く売りすぎているのではないか。

しかし「代替可能性」ということからすると、フォックスコンがやっている製品の組立ては他社でも代替できると考えられる。そこにフォックスコンの「厳しさ」がある。

という点です。iPod Classicの場合、製造原価の半分ほどは東芝の超小型ハードディスク・ユニット(HDD)であり(ITCによる)、これは他社がまず真似できない部品であって、東芝はこのビジネスでしかるべき利益を出していただろう、という推測も書きました。

iPod Classic(2005モデル)は9年ほど前の製品で、一時代前の感がありますが、最新製品の状況はどうなのでしょうか。最近、日経の山下記者が 2014年9月に発売された iPhone6 についての報告を書いていたので、それを紹介します。

iPhone6_2Models.jpg


iPhone6 の組立て費


2014年9月にアップル社は iPhone6(ディスプレイ:4.7インチ)と iPhone6 Plus(ディスプレイ:5.5インチ)を発売しました。このうち iPhone6 の組立て費について、日経産業新聞に記事が掲載されていました。


「 iPhone6 」はつらいよ
  加工費4ドル、本体の0.6%

9月の発売から出足好調な米アップルのスマートフォン(スマホ)「 iPhone(アイフォーン)6 」。店頭の勢いとは対照的に、製造の現場の実情は厳しいようだ。米調査会社のIHSによると、受託生産している台湾のEMS(電子機器の受託製造サービス)が手にする利益はごくわずかだ。

新型 iPhone は台湾の鴻海(ホンハイ)精密工業と和碩聯合科技(ペガトロン)の2社が受託生産している。IHSがスマホを分解して部品などのコストを試算したところ、鴻海やペガトロンが得る組立加工費は画面サイズが4.7インチの「6」で4ドル(約440円)だった。通信契約なしの容量16ギガ(ギガは10億)バイトの本体価格649ドルの 0.6%にすぎない。

加工費や部品価格を含めた総生産コストは200ドル。販売価格からこれを差し引いた残りの449ドルの多くはアップルの懐に入る計算だ。鴻海など台湾のEMSが存在しなければiPhoneの生産は難しいが、「下請け」のつらさが改めて浮き彫りになった形だ。

一方、鴻海やペガトロンの生産拠点がある中国では人件費がうなぎ登り。両社の2013年の売上高営業利益率はいずれも1~2%台に低迷した。iPhone6 は組み立ての難易度が高いうえ、米国の人権団体などが工場の労働環境に常に目を光らせている。「おいしい仕事」とは必ずしもいい切れない。

鴻海の連結売上高に占めるアップル向けの比率は4~5割と大きい。郭台銘董事長は通信や電気自動車事業への参入で「脱アップル依存」をめざしているが、収益への大きな貢献は数年先になる。当面はアップルからの受注に頼る「薄利多売」を余儀なくされそうだ。(台北=山下和成)

日経産業新聞(2014.10.06)

注意点は米国価格の649ドルというところですね。これはいわゆる "SIMフリー版" iPhone6(16GB)の価格です(記事には「通信契約なし」と書かれている)。原価を問題にするときには、通信契約とセットの価格ではない「製品のフルプライス」と比較する必要があります。なお2年間の通信契約と併せて購入すると、iPhone6 は200ドル程度(米国)です。

この記事でわかることは、まず、iPhone6 の製造原価は200ドルであり(IHS推定、以下同じ。IHSは米国に本社がある大手の情報サービス会社)、販売価格649ドルの31%だいうことです。つまり、

  iPhone6 の原価率は31%

ということになります。アップル社の膨大な利益をみてもこれは納得できます。iPod Classic の原価率が48%というのは高すぎると思いながら以前の記事(No.80「アップル製品の原価」)を書いたのですが、iPhone6 の方がアップルビジネスの典型だと考えられます。もちろん残りの69%は、販売店のマージンと、アップル社の粗利益であり、アップル社の粗利益は、研究開発費、営業・販売促進費、ソフト開発費(研究開発費の一部)、会社をオペレーションするための費用(総掛り費用)などに使われ、残りが営業利益になるわけです。

一方、フォックコスンがやっている製造受託関連では、

  組立費の製造原価に対する割合は2%

ということになります。製造原価が200ドル、組立費が4ドルだからです。新聞の見出しには販売価格に対する比率が0.6%とあって、フォックスコンの「取り分」が少ないことが強調されていますが、これはあまり意味のない数字でしょう。

さらにわかることは

  組立費が4ドルだということは、2005年当時に比べてほぼ同じ

ということです。iPod Classic(2005)年とiPhone6(2014)は両方とも約4ドル(推測)です。この2製品を比べると部品点数はおそらく数倍違うと思います。従って実装密度が全く違い、中の基板の形状も iPhone6 の方が複雑でしょう。厚みも薄くなっている。圧倒的に iPhone6 の方が組立ての難易度が高いはずです。しかも日経の山下記者が書いているように、中国の人件費は上昇傾向にあります。そういう変化にもかかわらず「組立費はほぼ同じ」なのです。機器の高度化に従って製造原価はどんどんあがり、また販売価格も上昇する。人件費もあがる。しかし組立費は変わらない。

製品の最終組立て・検査は人手に頼った人海戦術です。コストの多くは人件費のはずであり、人件費上昇のインパクトは大きい。もちろん旧機種の経験から「カイゼン」を繰り返して一人当たりの生産量を増やすことはできるでしょうが、限界がある。このあたりがフォックスコンの製造受託ビジネスの厳しさだと思います。

引用した記事にはもうひとつ注目すべきことが書かれています。

  アップルは iPhone6 の製造をフォックスコンとぺガトロン(和碩聯合科技)の2社に委託している

ということです。製造受託におけるフォックスコンの「独占」は崩れていたのです。ぺガトロンはフォックスコンと同じく台湾のEMS(電子機器の製造受託サービス)企業です。前の記事の No.80「アップル製品の原価」において、フォックスコンのビジネスは「代替可能」だと書きましたが、その通りになったわけです。この独占が崩れたことも、フォックスコンの利益を押し下げる要因として働いているでしょう。


iPhone6 / iPhone6 Plus の原価


では、組立費以外の製造原価はどれぐらいでしょうか。日経の記事のもとになったIHSの推定は、IHSのホームページに公開されています(2014.9.23付けのニュース・リリース)。それを以下に引用します。iPhone6 / iPhone6 Plus の16GBモデルです。

項目 iPhone6 6 Plus 備考
販売価格 $649.00 $749.00 通信契約なし
部品コスト $196.10 $211.10  
製造コスト $4.00 $4.50 部品組立て・検査
製品原価 $200.10 $215.60 部品+製造コスト
部品コストの内訳
ディスプレイ $45.00 $52.00 IPS液晶+タッチスクリーン
移動通信部 $33.00 $33.00 通信プロセッサと周辺部品
メカ部品 $30.00 $35.00 Mechanical/Electro-Mechanical
オーディオ、センサー $22.00 $22.00 NFCを含む。カメラは別項
メイン・
プロセッサー
$20.00 $20.00 Apple A8 Processor
メモリー $15.00 $15.00 16GB フラッシュ + 1GB DRAM
カメラ $11.00 $12.50 8M pixel + 1.2M pixel
電源管理 $7.00 $7.00  
Bluetooth
無線LAN
$4.50 $4.50  
リチウムイオン
電池
$3.60 $4.60 1810mAh(6)
2915mAh(6 plus)
付属品 $5.00 $5.00 ACアダプタ、ケーブル等
出典:http://press.ihs.com/
[News Releases] → [9/23/14 4:01 pm EDT]

IHSのホームページに記載されている表をもとに作成したものですが、部品コストは金額の大きい順に並べ換えました。もちろん各項目はIHSの分類であって、たとえばセンサーの中には電子コンパス(地磁気センサー)、6軸センサー(加速度+ジャイロ)、気圧センサー(iPhoneで初搭載)などの各種部品が含まれます。

IHSのホームページにも断ってありますが、これは発売直後に分解調査した第1次の概算です。また「部品コスト」は、英語では「BOM Cost」となっています。BOM は Bill of Material のことなので「物質として目に見える部品」のコストです。従って、「目に見えない」知的財産権にまつわるコスト(ソフト、ハードのロイヤリティ料)などは含まれていません。そういったいくつかの前提で表を見るべきです。

表に見られる iPhone6 と iPhone6 Plus の部品コストの差異は、大きさの違い(ディスプレイ、メカ部品)や、リチウムイオン電池の場合は容量の違いですが、カメラのコストが違うのは iPhone6 Plus にだけ「光学式手ぶれ防止」がついているからです。

しかしこれらの部品コストの違いは、製造コストと合計してもわずか15.5ドルです。このため、iPhone6 Plusの原価率は30%を切っていることになります。IHSのニュースリリースのタイトルも、iPhone6 と iPhone6 Plus について「販売価格は100ドル違うのに、製造原価は15.5ドルしか違わない」というものでした。iPhone6 Plus を売った方が、アップルにとっても販売会社にとっても「おいしい」ビジネスになることが推定できます。たぶん販売会社は「片手では操作できない」5.5インチのスマホの方を積極的にプッシュするでしょう。



IHSのホームページでの解説と、日経エレクトロニクス(2014.10.13号)、日経産業新聞(2014.10.9)の記事によって、主な部品のサプライヤー(推定)をまとめると、以下のようになります。

ディスプレイ
ジャパン・ディスプレイ、LG Display(韓国)
移動通信部
Qualcomm(米)
オーディオ/センサー
6軸センサー:Invensense(米)、加速度センサー:Bosch Sensortec(独)、電子コンパス:旭化成エレクトロニクス、NFC:NXP Semiconductor(オランダ、元フィリップスの半導体部門)、オーディオアンプ:Cirrus Logic(米)、など
メイン・プロセッサー
設計:アップル。製造:TSMC(台湾)、Samsung Electronics(韓国)
メモリー
Samsung Electronics(韓国)など
カメラ
カメラ本体:ソニー、光学式手振れ防止アクチュエーター:アルプス電気、ミツミ電機
電源管理
Qualcomm(米)、Dialog Semiconductor(米)
Bluetooth/無線LAN
村田製作所
リチウムイオン電池
ソニー、TDKなど

注目すべきは、アップル社はメイン・プロセッサー(A8)の製造を台湾のTSMCと韓国のSamsungの2社に委託している、とIHSが推定していることです(日経はTSMCのみと推定している)。iPhone5S の A7 プロセッサーの製造会社はSamsungだけでした。最初に引用した日経の記事に「iPhone6 の組立てをフォックスコンとぺガトロンの2社に委託している」ことが書かれていましたが、プロセッサーの製造においても「独占」は崩れたわけです。

なおIHSのホームページに明記してあるのですが、ディスプレイ表面のカバー・ガラスにはコーニング社のゴリラ・ガラス(=商品名)が使われています。iPhone6 にゴリラ・ガラスよりも更に硬いサファイヤ・ガラス(人造サファイヤ)を供給するはずだった米国のGTアドバンスト・テクノロジーズ社は、アップルにその採用を見送られ、2014年10月に連邦破産法11条(いわゆる Chapter Eleven。日本の民事再生法に相当)の適用を申請しました。「人ごとではない」と思った(そしてゾッとした)世界のサプライヤーは多いのではないでしょうか。



ちなみに、日経産業新聞(2014.10.9)に、スマートフォンなどの分解調査を手がける日本の会社「フォーマルハウト・テクノ・ソリューションズ」による iPhone6 Plus の部品価格の推定が掲載されていました。IHSの推定と比較すると、以下のようになります。

部品 部品価格 部品価格$ IHS推定
ディスプレイ ¥4,000 $40 $52.5
筐体カバー ¥5,040 $50 $35
メイン・プロセッサー ¥1,200 $12 $20
カメラ ¥1,200 $12 $12.5
無線LANモジュール ¥350 $4 $4.5
出典:日経産業新聞(2014.10.9)

「部品価格$」はフォーマルハウト・テクノ・ソリューションズの推定(日経産業新聞)を1ドル・100円で換算したものです。IHSの推定とは違っていますが、分解して外観からコストを推定しているのでやむをえないところでしょう。部品コストはこの程度の「誤差」を前提として考えるべきです。ただし全体的な傾向は、二つの推定で合っていると考えられます。

この表においては、日経産業新聞の記事の「筐体きょうたいカバー」と、IHSの「メカ部品」(原文では Mechanical/Electro-Mechanical)を対応させました。IHSの表現では、たとえば内部のコネクタやケーブルなども含まれていると考えられますが、「筐体カバー」も「メカ部品」も、コストのほとんどはアルミ製の「ユニボディ筐体」だと考えられます。以下、これについてです。

iPhone6_Design.jpg

iPhone6_Design_details.jpg


ユニボディ


部品コストの表を見て思うのは、筐体きょうたいの部品コストが大きいことです。iPhone6 Plus に関するIHSの推定では、ディスプレイに次いで2番目に高コストの部品だし、日経産業の推定に至ってはディスプレイよりも高くなっています。推定がばらつくのはやむを得ないとして、とにかく「筐体はトップクラスの高額部品」であるのは確かなようです。世界の著名なエレクトロニクス企業が最先端技術を駆使して作った部品がズラッと並ぶ中で、この筐体の「高額ぶり」は目を引きます。

iPhone6 / iPhone6 Plus の筐体はアップルが「ユニボディ」と呼んでいるものです(アップル・ジャパンの2014-9-9付けのプレス発表)。そしてこの「ユニボディ筐体」は、No.71「アップルとフォックスコン」で書いたように、一個一個、金属の塊から削り出して作られています。「削り出し」で何千万個という部品を作るのは製造業の常識を逸脱しているのですが、アップルは工業製品としての「美しさ」を追求するためにこういう作り方をしています。iPhone6 / iPhone6 Plus のホームページでも、まずデザインの美しさが強調されている。その「代償」が高価な部品コストであり、それは消費者が支払っているわけです。

そして No.71 でも紹介したのですが、この「ユニボディ筐体」の有力な部品メーカーがフォックスコンなのです。フォックスコンは iPhone6 の場合、4ドルの製造受託会社であると同時に、30ドル(いずれもIHS推定)の部品サプライヤーである可能性が高いと考えられます。もちろん、製造受託やメイン・プロセッサーの製造で「独占」が崩れていたように、ユニボディ筐体が複数の部品サプライヤーに発注されていることも大いに考えられます。しかしアップルとフォックスコンの関係を考えると(No.71)、フォックスコンがゼロということはないでしょう。切削加工でユニボディ筐体を迅速に作るためには大量の工作機械(小型のマシニング・センター。数万台規模)が必要であり、そういった「特殊な」「アップルのための」「リスクいっぱいの」設備投資をする企業は多くはないと考えられるからです。

フォックスコンは「4ドルの製造受託では利益が出ないが、30ドルの部品供給では利益を出している」という可能性があると思います。最初に引用した日経の記事で「iPhone6 はつらいよ」とありましたが、アップルとの取引き全体としては「iPhone6 はつらくない」かもしれない。日経の山下記者も、そのあたりを突っ込んで書いて欲しかったと思います。



しかし考えてみると「ユニボディ筐体を作る」というのは、「製造受託」がそうであったように「代替可能」です。金属加工のノウハウが必要なことは確かですが、基本的にはマシニング・センター(ほとんどがファナックなどの日本製だと言われています)を大量に導入すればよい。金属加工は長い歴史のある技術なので、優秀な技術者を高給でリクルートすることもできるでしょう。追従してくる会社はあるはずだし、既にそうなっている可能性が大です。

日経の山下記者は「鴻海の連結売上高に占めるアップル向けの比率は4~5割」と書いていますが、フォックスコンはアップルという「特別な会社」との依存関係にあり、アップルの「特別なビジネスモデル」に深く関与し、しかもその関係性(製造受託、ユニボディ筐体)は他社と代替可能です。マクロ的に見ると非常に厳しい状況だと考えられます。「脱アップル依存」が急務だということは、全くその通りでしょう。


技術革新とエレクトロニクス・ビジネスの命運


フォックスコンの「製造受託 = 電気製品の組立て受託」と「ユニボディ筐体」が他社でも代替可能な理由は、それが特許権で守られていない(守れない)こともありますが、本質的には大きな技術進歩が望めない領域であること、つまり技術という観点からすると「サチっている」領域であることです。成熟技術のビジネス領域には他社も新規参入しやすい。

これに反して、技術革新の真っ最中で今後もそれが続くと見込まれる分野には、新技術を先頭にたって追求していく限り、独占的な地位を維持しやすいはずです。たとえばクアルコムの通信プロセッサーで言うと、そもそもモバイルの通信方式は3GからLTE/4Gになっていき、さらに世界の通信会社は次の5Gの検討をしています。当面の間、通信技術が進歩していくのは確実です。

ソニー製のカメラ・モジュールもそうです。コンパクト型のデジカメの売れ行きが厳しいのは、スマートフォンに押されているからで、コンパクト・デジカメ各社はスマホではできない機能を必死に追求しています。逆に言うと「スマホのカメラ機能では出来ないことが、まだいっぱいある」わけです。スマホのカメラは、今後もデジカメを追いかける技術革新が続くと考えられます。その実現例の一つが iPhone6 Plus の「光学式手ぶれ防止」というわけです。ちなみに、ソニーがサプライヤーの一つであるリチウムイオン電池も、No.39「リチウムイオン電池とノーベル賞」に書いたように、まだまだ未完の技術です。

iPhone6 / iPhone6 Plus の「製造原価」から感じられるのは、技術革新の先頭を切って「代替困難」な製品を作ってアップルに「提案」できる企業と、アップルの「下請け」(日経の記事の表現)に留まらざるを得ない企業の差です。それは iPhone に限らずエレクトロニクス企業の命運を左右するものであり、iPhone にその縮図があると思いました。




nice!(0)  トラックバック(0) 

No.110 - リチウムイオン電池とモルモット精神 [技術]

No.39「リチウムイオン電池とノーベル賞」(2011.10.15)において、リチウムイオン電池の開発の主要な部分が日本人によってなされたことを書きました。歴史的経緯を追って記述すると以下のようになります。

水島 公一
  1980年(当時、東京大学助手で、オックスフォード大学のグッドイナフ教授のもとに留学中)。リチウムイオン電池の正極材としての「コバルト酸リチウム」を発見。

吉野 彰
  1985年(旭化成)。世界初のリチウムイオン電池を完成。正極材:コバルト酸リチウム、負極材:炭素系材料

西 美緒(よしお)
  1991年(当時、ソニー)。世界初の商用のリチウムイオン電池を完成。ソニーが生産・発売を開始し、携帯機器用電池として広まる。

の3人です。そして隠れた功績者の一人として、

白川 英樹
  1977年(当時、筑波大学)。導電性ポリアセチレン(導電性高分子)を発見。のちにノーベル化学賞を受賞。

をあげてもいいと思います。導電性ポリアセチレンは吉野彰氏が電池研究に入るきっかけをつくり、最初の試作電池に使われたからです(No.39「リチウムイオン電池とノーベル賞」参照)。


西美緒よしお氏が「工学分野のノーベル賞」を受賞


以上の中で、最初に商用のリチウムイオン電池を開発した元ソニーの西美緒よしお氏に関する記事が最近の新聞に掲載されました。少々長くなりますが、興味深い内容なので全文を引用したいと思います。


元ソニーの技術者に栄誉
 モルモット精神復活なるか

  全米技術アカデミーは18日、リチウムイオン2次電池の実用化に貢献があったとしてソニーの最高技術責任者(CTO)などを歴任した西美緒氏(72)らに対し、工学分野のノーベル賞とされる「チャールズ・スターク・ドレイパー賞」を授与した。

「入社早々に自動車向け電池の研究を命じられた」。こう振り返る西氏は1966年に慶応大工学部を卒業し、ソニーの中央研究所に入った。当時のソニーはラジオで成功したもののトリニトロン式テレビは開発中。規模も小さかったが、いち早く未来を見据えて自動車向け電池の研究に取り組んだ

その後、現在のソニー本社がある都内の技術研究所でオーディオ機器の材料開発を担当後、中央研究所に戻った。井深大氏の「世の中にないモノを作れ」、盛田昭夫氏の「ソニーが使うモノをやれ」という創業者の指導のもと、何回も充電できる次世代電池の開発に乗り出した。

これまでの電池研究の成果やオーディオ機器開発で様々な材料を扱った経験を活用。研究室のビーカーを使って様々な電池材料を試作する日々を過ごした。90年に完成させ、スマートフォン(スマホ)や電気自動車(EV)を支える必要不可欠な電子部品となった。

盛田氏を継いだ大賀典雄氏の後押しを受け、90年代には日産自動車とEV開発を推進。「乗り物好きの大賀さんがヘリコプターで日産のテストコースのあった工場やソニーの電池拠点の郡山工場に駆けつけた勇姿が目に浮かぶ」(西氏)。

ソニーは出井社長時代に自動車向け電池分野から撤退するが「当時の御前会議での採決時に大賀氏は会議室から出ていった」。その頃から短期的な収益管理を重視し、中長期的な研究開発が難しくなったという。西氏の名前を冠とした西研究所など多くの社内研究所は閉鎖となった。

ソニーの電池事業は複雑な経緯をたどってきた。自動車向けの再参入を検討したり、電池事業の売却方針を打ち出したりしたが、昨年12月に自社で伸ばす決断を下した。西さんは「井深氏が掲げたモルモット精神を取り戻し、他社がすぐにまねできない開発をじっくり手がけるべきだ」と提言する。 (多部田俊輔)
(日経産業新聞 2014.2.20)

記事のアンダーラインの部分の補足です。

(補足1)
チャールズ・スターク・ドレイパー賞

全米技術アカデミー(National Academy of Engineering)が、2014年の「チャールズ・スターク・ドレイパー賞(Charles Stark Draper Prize)」として選出したのは、次の4人です。

ジョン・グッドイナフ(米)
ラシド・ヤザミ(仏)
吉野彰
西美緒

ラシド・ヤザミ氏は、炭素(黒鉛)がリチウムイオン電池の負極材になりうることを示した人です。ジョン・グッドイナフ氏は正極材としてのコバルト酸リチウムの発見者で、最初に書いた水島公一氏の指導教授でした。残念ながら受賞者に水島氏の名前がないのですが、グッドイナフ氏の受賞ということでやむを得ないでしょう。

(補足2)
自動車用電池

西美緒氏は1966年にソニーに入社して中央研究所に配属され自動車用電池の研究を始めたとありますが、西氏が担当した自動車用電池は、もちろんリチウムイオン電池ではないし、その他の蓄電池でもありません。調べてみるとそれは「燃料電池」です。自動車用燃料電池はこの10数年ほどで急速に技術開発が進み、2015年の燃料電池車(FCV)の量産・発売開始が目の前に迫っています。ソニーはその50年前から「未来を見据えて」燃料電池の研究を開始していたことになります。

(補足3)
日産自動車のEV

モーターショー用のコンセプトカーや用途を限った限定車としてのEV(電気自動車)を出した自動車会社はいっぱいありますが、「1回の充電でそこそこの走行距離が出る、汎用の量産型EV」を発売したのは日産自動車が先駆的です。それはリチウムイオン電池の完成で初めて実用化できたのですが、その電池は日産とソニーの共同開発だったわけです。ちなみに日産のEVの発売年は以下の通りです。

  プレーリー・ジョイ EV1996
  ルネッサ EV1998
  ハイパーミニ(2人乗)2000
  リーフ2010~

ハイパーミニからリーフの間に10年のブランクがあります。そのブランクの裏には、日産自動車が経営危機に陥り、ルノーが資本参加し、カルロス・ゴーン氏が社長になり、リバイバル・プランを実行し、コストをカットして経営を立て直す・・・・・・ という一連のストーリーがあるわけですね。日産自動車のEVはその間「息を潜めて」いた、それが2010年のリーフで再浮上した、ということだと思います。しかしその間にソニーは自動車用リチウムイオン電池から撤退してしまった。リーフの時に日産自動車はNECと組んで電池の開発・製造をやったわけです。それは今も続いています。

(補足4)
モルモット精神

記事の見出しと本文に「モルモット精神」とありますが、それについては No.55「ウォークマン(2)ソニーへの期待」(2012.5.12)で触れました。引用すると以下です。


ソニー創業者の井深大氏は「ソニー = モルモット論」を折りにふれて言っていました。これは、かつての評論家の大宅壮一氏が雑誌に書いた文章がもとになっているそうです。曰く「トランジスタはソニーが先鞭をつけたが、東芝が潤沢な資金を背景にトップになった。ソニーは東芝のためのモルモット的役割を果たした」・・・・・・。

井深氏はこの「ソニー = モルモット論」を逆手にとってメッセージを発信したわけです。モルモット=実験台で十分だ、モルモットであることがソニーの使命だと・・・・・・。「人真似はするな。他人のやらないことをやれ」という創業者の強烈な思いが、そういう言い方になるのだと思います。


AIBO ERS-7.jpg
犬型ロボット、AIBO。1999年に発売開始、2006年に撤退。写真は後期モデルのERS-7。現時点(2014)でみる限り、AIBOがソニーの最後のモルモットだろう。No.55「ウォークマン(2)ソニーへの期待」参照。

No.55では「犬型ロボット:AIBO」をモルモット精神の代表例としてあげました。AIBOは明快だと思いますが、リチウムイオン電池の世界初の商品化がモルモット精神とどう関係するのか、リチウムイオン電池がメジャーになった今では分かりにくいと思います。それは単に「世界初」ということだけではありあせん。当時、2次電池の研究の主流はニッケル・カドミウム電池か、その後継のニッケル・水素電池でした(ソニーもやっていた)。しかしソニーは発明されたばかりのリチウムイオン電池に「賭けた」わけです。当時のソニーの盛田昭夫会長は「どうせやるなら、世の中にない電池を作れ」と大号令をかけた(No.39「リチウムイオン電池とノーベル賞」の補記4)。

発火しやすいリチウムイオン電池の安全性の確保と、大量生産技術の確立は大変だったと想像されます。そもそも西氏はリチウムイオン電池をやる時、安全性の面から「びびった」ようです。しかし盛田会長の「砂糖もとりすぎれば体に悪い。適切に扱えばいい」という言葉を聞いて開発を決断した(No.39)。リチウムと砂糖を比較するのは、全く科学的ではないしロジカルでもないのですが、えてして技術開発のリーダーはこのようなトップの「技術とは全くかけ離れた、責任は俺がとる的な発言」に鼓舞されるものです。

商品化した後も、初めは売れなかった。それが、デル・コンピュータがノートパソコンに採用したことで一気に広がる・・・・・・ 。このあたりの経緯が「モルモット精神」なのでしょう。2006年には発火事故による電池の大量回収という事態になりました。あくまで結果論ですが、そういったリスクもしょい込むことになった。そういうことを含めての「モルモット精神」です。


ソニーの電池ビジネス


日経の多部田記者が書いた記事を読むと、ソニーの電池ビジネスは、確かに「複雑な経緯」をたどったことが分かります。記事に多少の補足も加えてまとめると、以下のようになるでしょう(No.39「リチウムイオン電池とノーベル賞」の補記4も参照)。

ソニーの電池研究は、もともと自動車用電池に始まった(1960年代)

リチウムイオン電池が発明されると、世界に先駆けてそれを商品化した(1991年)。リチウムイオン電池は携帯用機器の電池として広まった。

1992年、ソニーは日産自動車と提携し、EV(電気自動車)用リチウムイオン電池の共同開発を始めた。1990年代後半に日産自動車はその電池を搭載したEVを発売した。

出井社長時代(1995-2003)に自動車用電池から撤退した(記事に撤退時期は書いていないが、1990年代末のはず)。携帯用電池のビジネスは継続。

自動車用電池への再参入を表明(2009年)

自動車用電池への再参入を発表(2011年)。この時は、2010年代半ばを目処に参入、とした。

電池ビジネスそのものの売却を検討開始(2012年末~2013年初)。

電池ビジネスの売却を撤回。自社で育成することを決断(2013年末)。

この経緯をみると、ソニーの電池ビジネスは長い目でみると「大きくぶれている」ことが分かります。トップが変わるたびに方針が変わる。

盛田社長・岩間社長・大賀社長時代(1971-1995)
  携帯機器用電池・自動車用電池を推進
出井社長時代(1995-2000)
  自動車用電池から撤退
安藤・中鉢・ストリンガー社長時代(2000-2012)
  自動車用電池に再参入を表明
平井社長時代(2012-)
  電池ビジネス全体の売却を検討し、それを撤回

というぶれようです。「電池」がソニーにとってどう位置づけられているのかが見えません。2013年の「電池ビジネスの売却検討と、その撤回」も、収益の悪い事業を売却しようとしたが、アベノミクスによる円安効果で採算が向上したから撤回したのでは、と疑ってしまします。

ソニーエナジーデバイス.jpg
ソニーエナジー・デバイス社製のリチウムイオン電池。ソニーのコーポレートサイトより。
もちろん、会社の事業展開はビジネス環境の変化にあわせて違ってくるし、赤字が続いたりすると「選択・集中」が必要になってくるでしょう。しかしリチウムイオン電池に代表される2次電池は長期にわたる研究が必須です。それが企業にとっての「コア・ビジネス」なのか「ノン・コア」なのか、その判断がトップが変わるたびに変わっていたのでは、現場の研究者・開発者は「やってられない」でしょう。ソニーの方針が「ぶれる」あいだに外国競合メーカーに転職した人も多いのではないでしょうか。



小型・大容量・低価格・安全な2次電池は、移動体(ウェアラブル機器、モバイル機器、電気自動車)に必須です。ソニーが今後ウェアラブル機器のビジネスを広げたいのなら、自社に電池ビジネスを残すというのは正しい決断だと思います。ウェアラブル機器・モバイル機器の最大の問題点は電池の持続時間だからです。また今後ソニーがEV(電気自動車)に参入するなら、電池技術はますます必須ということになります。EVのボディーは今や新興国の自動車会社にも作れるし、モーターやインバーターはかなり成熟した技術です。大きなブレークスルーがあるとしたら2次電池しかないはずです。


シンプルなメッセージ


最初に引用した新聞記事に戻ります。ここで西美緒氏と日経・多部田記者が言いたかったのは、大変にシンプルなメッセージです。それは

  長期的視野に立った研究・開発の重要性

です。西氏は「それがソニー再生に必要」と言いたいのでしょう。2013年の「電池ビジネス売却検討の報道」に、西氏は驚愕したと思います。

全く新しい「製品」や「サービス」の創出には、

  アイデア、企画力、発想力

が必要です。ソニーのビジネスで言うと、映画やゲーム機が典型でしょう。(テープ再生式の)初代ウォークマンも「アイデア、企画力、発想力」のたまものです。初代ウォークマンに新技術はほとんどありません(唯一の新技術はステレオ・ミニジャック)。類似製品が世界各国で製品化されたことでも分かるように、オーディオ機器を開発している電機会社なら作れる製品です。しかしソニー以前には録音ができないテープレコーダーなど誰も作ろうとはしなかった

一方、「アイデア、企画力、発想力」だけではどうにもならない分野があります。物理現象・化学現象・生物を相手にする場合です。これらを一括して「自然現象」と呼ぶとすると、

  思い通りにならない自然現象と付き合い、ノウハウを蓄積し、現象を手の内でコントロールするまでになる。そのためには長期的視野での研究・開発が必要

です。その典型が2次電池です。

あたりまえのことですが、このあたりまえのことを「筋を通して」貫くのが難しい。そのことを心底理解できる人も多くはない。それはソニーの電池ビジネスだけではなく、産業界で全体に言えることだと思います。



引用した新聞記事では「長期的視野の研究・開発」と同時に「モルモット精神」という言葉がメッセージになっています。そこにも、西美緒氏と日経・多部田記者の「思い」が詰まっている感じがします。


ソニーのDNAとブランド戦略


モルモット精神とは、平たく言うと「人がやらないことを、先頭を切ってやる」ということだと思います。この「人のやらないことをやる」というのは、現在のソニーの平井社長が(再び)ソニー全社に言っていることです。それが「ソニーのDNA」であると・・・・・・。

その「ソニーのDNA」の重要性は、ソニーのブランド戦略とその変遷にも現れていると、日経の多部田記者は別の記事に書いていました。最後にその記事を引用しておきます。


「SONY」に原点回帰
 グループ結束、成果いかに

  ソニーが1月にブランド戦略を刷新した。テレビCMなどの最後に流れる「make.believe(創る力を信じ、夢を実現する)」というスローガンをやめて、単純に「SONY」のロゴだけを流すようにした。ソニーのロゴは従来はエレクトロニクス事業だけでしか使っていなかったが、映画や金融など含めてグループ全体に拡大、原点からソニー再生を目指す狙いだ。

ソニーは創業期から「SONY」にこだわった。1950年代に米国企業からラジオのOEM(相手先ブランドによる生産)供給の打診もあったが、創業者の盛田昭夫氏は拒否。SONYブランドのラジオを輸出した売り込み、62年にはブランド力向上のためにニューヨークに出店した。

盛田昭夫氏の後継者の大賀典雄氏は何度も「SONY」のロゴの形などを微妙に変更するほどこだわった。その象徴が82年に導入した「It's a Sony」。CMの最後に流れたメッセージは世界に定着した。

大賀氏の後を継いだ出井伸之氏が家電からITにカジを切るとスローガンが複雑になる。

創業50周年を機に「Digital Dream Kids」というスローガンを掲げ、その後「like.no other(新しい何かがある)」に変更。ハワード・ストリンガー会長兼最高経営責任者(CEO)は2009年に「make.believe」を採用した。

12年に就任した平井一夫社長兼CEOは「One Sony」を掲げ、今年からは映画の冒頭の「コロンビアレディー」のロゴが出る前に「SONY」のロゴを表示するようにした。初めてグループロゴを設けたのはグループの結束を呼び掛けるだけでなく、創業精神への回帰を示す。

平井社長は2月のグループ向け社内報で、中期的な経営方針として、ソニーのDNAである「人のやらないことをやる会社」を掲げ、「成長に向けて大胆にシフトしよう」と鼓舞した。

4月で就任から3年目を迎える平井社長。原点回帰から具体的な成果が求められそうだ。 (多部田俊輔)
(日経産業新聞 2014.2.25)

(注) コロンビアレディーとは、ソニー・ピクチャーズ・エンタテイメント制作する映画(コロンビア映画)のオープニングに現れる、トーチをかざす女性。




 補記1:イメージセンサー 

スマートフォンやデジタルカメラ、ビデオカメラに搭載されている撮像素子「イメージセンサー」では、ソニーが世界トップです。この素子は、以前はCCD(電荷結合素子)方式でしたが、現在はCMOS(相補性金属酸化物半導体)方式になってます。ソニーのイメージセンサー開発の経緯も「モルモット精神」という感じがします。日経産業新聞の記事を引用します。


イメージセンサー
  ソニー、世界トップ快走

  「産業のコメ」と呼ばれた半導体で日本メーカーは勢いを失ったが、イメージセンサーの世界ではソニーが世界首位で快走する。調査会社テクノ・システム・リサーチ(東京・千代田区)によると、2012年の世界シェアで日本メーカーの比率は5割を超える。

  「CCD(電荷結合素子)をものにしろ」   。米AT&Tベル研究所がCCDの発明論文を発表した直後の1970年代初め、ソニー中央研究所所長を務めていた岩間和夫・元社長はそう号令をかけたという。ソニーは50年代にトランジスタで世界を席巻したが、当時は低迷していた。CCDも実用化までには10年近くの開発期間を必要とした。

世界初のCCDカラーカメラが実用化されたのは80年。全日本空輸のジャンボ旅客機向けで、離着陸の様子を機内に映し出した。「パスポートサイズ」で大ヒットしたビデオカメラ「ハンディカム」もCCDが小型化に貢献した。

岩間氏は82年に亡くなったが、CCD実用化への功績は大きい。同氏の墓石には後継社長の大賀典雄氏がCCDを張り付けたほどだ。

一方、CMOS(相補性金属酸化物半導体)は2000年代初めに技術開発が進み、CCDを追い抜いた。米マイクロン・テクノロジーや米オムニビジョン・テクノロジーズが先行し、日本勢ではキヤノンが世界に先駆けて35ミリサイズの高画質タイプを商品化した。ソニーも09年にセンサー構造の上下を逆転させることで感度を引き上げた裏面照射型を投入し、CMOSで世界トップを奪った。

イメージセンサーの用途は広がる。デジタルカメラやビデオカメラに加え、最近はスマートフォン(スマホ)向けが伸びている。カメラ性能を大きく左右するキーデバイスだけに、日本メーカーを中心に開発競争が激化するのは間違いない。

CMOSイメージセンサーの世界シェア.jpg
日経産業新聞(2014.3.26)

注目すべきはイメージセンサーというビジネスにおいて、

  ソニーはCCDで成功し、かつ、それとは全く異質な後継技術であるCMOSでも成功している

ということです。これは非常に難しいことだと思います。トリニトロン・ブラウン管テレビ(しかも平面)で成功したから、液晶に出遅れた。リチウムイオン電池においても丸型で成功したから、角型(携帯、スマホで主流)に出遅れた・・・・・・。

ビジネスにおいては「成功は失敗の母」です。なぜそうなるかというと、「成功しているから、次世代のビジネスチャンスを漫然と見送った」というのではないと思います。それもあるかもしれないが、もっと根幹の理由は、

  成功しているからこそ、その成功を自己否定するような、しかもリスクだらけの次世代ビジネスを進めようとするのは事業責任者やトップが反対するから

です。西美緒氏は、ソニーが角型リチウムイオン電池に出遅れたのは「丸型で儲かっているのだから、あえてリスクをとる必要はないという、当時の事業部長の反対」だと、ある講演で語っています

ソニーのイメージセンサーは「成功は失敗の母」という、ビジネスにありがちなパターンからまぬがれていることに着目すべきだと思います。



 補記2:ソニーが電池ビジネスから撤退 

ソニーは2016年7月28日、リチウムイオン電池から撤退を発表しました。これについては、No.188「リチウムイオン電池からの撤退」を参照ください。

(2016.9.30)



nice!(0)  トラックバック(0) 

No.88 - IGZOのブレークスルー [技術]


IGZO液晶パネル


No.39「リチウムイオン電池とノーベル賞」で「好奇心」と「偶然」がリチウムイオン電池の発明に重要な役割を果たした経緯を書きました。この「好奇心と偶然」の別の例として、IGZO(イグゾー)の技術を使った液晶パネルを紹介したいと思います。

2012年11月にNTTドコモは、初めて「IGZO液晶パネル」を採用したシャープ製のスマホを発売しました。メーカーであるシャープは「2014年にはすべてのスマホをIGZOにする」と発表していて(朝日新聞。2013.5.24)、IGZOをブランド化してシェアの拡大を計る戦略のようです。このIGZO液晶パネルを使ったスマホの大きな特徴が省電力です。

ドコモの2013年夏モデルで、液晶パネルの仕様が近い2機種の「実使用時間」を比較してみると次の通りです。

シャープ製 AQUOS PHONE ZETA SH-06E(IGZO)
実使用時間約 62.5時間
バッテリー容量2600mAh
表示パネル4.8インチ(1080×1920)
サムスン製 GALAXY S4 SC-04E
実使用時間約 45.1時間
バッテリー容量2600mAh
表示パネル5.1インチ(1080×1920)

上記の「実使用時間」とは、ドコモのホームページで次のように説明されています。

一般に想定されるスマートフォンの利用(Web閲覧などを約40分、メールや電話を約20分、ゲームや動画、音楽を約15分、その他アラームなどを約5分の、1日あたり計約80分間の利用)があった場合の電池の持ち時間です(NTTドコモ調べ)。実際の利用状況(連続通話や動画を大量にダウンロードした場合など)によってはそれを下回る場合があります。

AQUOS PHONE ZETA SH-06E.jpg
AQUOS PHONE ZETA
SH-06E(IGZO)
ドコモが定義するスマホの利用パターン(1日に合計で80分間使用)で実測すると、シャープ製は2日半以上バッテリーがもつが(約62.5時間)、サムスン製は2日もたない(約45.1時間)ということになります。スマホの最大の課題はバッテリーの持続時間なので、シャープの1.4倍の時間差(62.5/45.1)は大きな違いです。電池が1日もたないと不便を感じている人は多いと思いますが、シャープ製なら1日もつとなると、その価値は1.4倍どころではないでしょう。

IGZOパネルの消費電力は一般的な使い方では普通の液晶パネルの数分の1と言われています。スマホの「実利用時間」の差は各種の技術要因があるでしょうが、IGZOパネルが要因の最大のものであることは間違いなく、シャープも広告でそう言っています。この省電力という特長はスマホだけでなく、タブレットPCやゲーム機などの「液晶パネルを使うモバイル機器」では極めて重要です。


新材料半導体:IGZO


正確に言うとIGZOは液晶パネルの名前ではなく、新しい半導体の名前です。朝日新聞の解説記事から引用します。


IGZOは半導体の材料に従来のシリコンではなく、インジウム(In)、ガリウム(Ga)、亜鉛(Zn)の酸化物(O)を使う。東京工業大の細野英雄教授(材料科学)が、2004年にこの材料で薄膜トランジスタ(TFT)を初めて試作し、英科学雑誌ネイチャーに発表したのが先駆けだ。各元素の頭文字をとって名付けられた。

細野さんへの研究資金は、文部科学省系の独立行政法人、科学技術振興機構(JST)から支出された。1999年から5年間で計18億円。このうちIGZOの基礎研究に使われたのは1億円程度と言う。

IGZOは電気の通りやすさがシリコンより数十倍高い。TFTを小さくし、液晶を高精細にできる。

朝日新聞(2013.5.23)

液晶パネルには多数の薄膜トランジスタ(TFT)の回路が形成されていて、これがバックライトからの光をオン・オフする微少な「液晶のシャッター」を制御しています。電気が通りやすい → TFTを小さくできる → 高精細液晶が可能、というわけです。

それと同時に、同じ精度のパネルで比較するとIGZOの方がTFT部分の面積を小さくできることになります。つまりディスプレイの輝度を確保するためのバックライトの光量を下げられることになり、これが省電力になることが想像できます。しかしシャープの開発したIGZOパネルは、こういうレベルの省電力ではないのです。


シャープはさらに、回路から電気が漏れにくい性質に着目、静止画のときに従来は1秒間に60回電流を流していたのを1回にして、消費電力を従来の1~2割まで減らした。スマートフォンやタブレット端末向けに、液晶事業建て直しの中核技術に位置づける。

細野さんは「日本メーカが初めて実用化したことに敬意を表したい。日本が元気になるし、基礎研究の重要さも理解してもらえる」と話す。

朝日新聞(2013.5.23)

この記事における「静止画のときに従来は1秒間に60回電流を流していたのを1回にする」のを「休止駆動」と呼んでいます。そしてこの休止駆動こそが省電力の鍵なのです。


休止駆動


しかし休止駆動は初めからそれを狙って開発されたものではありません。その事情をIGZO表示パネルを開発したシャープの松尾拓哉氏(第2プロセス開発室長)に取材した記事が、日経産業新聞に掲載されていました。


「IGZO(イグゾー)」の特徴は消費電力の少なさ。だが開発当初のコンセプトに省電力はなかった。省電力への道を開いたのは偶然の発見だった。

2008年ごろ、中央研究所(奈良県天理市)の一室で開発チームの一人が不思議な現象に気がついた。電源を切ってもパネルの表示映像が消えない。「そんなバカな」とコンセントを抜いてみたが、やはり消えない。

調べてみると、IGZOは回路からの電流漏れが極めて少なかった。電源を切っても回路に電流が残るため、静止画だけなら長時間表示できる。

日経産業新聞(2013.2.14)

IGZOのTFTを使った液晶パネルの研究は、当初は省電力は視野になかったのです。偶然に「IGZOは回路からの電流漏れが極めて少ない」という現象が発見された。問題はこの発見をどう生かすかです。そこにブレークスルーがあります。


液晶パネルは周波数が60ヘルツの電流で映像を保持する。1秒間に60回の電気を流して映像を書き換える仕組みだ。この周波数を少なくすれば消費電力が少なくなるのはわかっていたが、これまでは40ヘルツにもできなかった。映像が高速でついたり消えたりする「フリッカー現象」が起こるためだ。

「IGZOならもっと減らせるはず。1ヘルツに挑戦してみないか」。

常識はずれの提案を面白半分に持ちかけた。静止画だけなら消費電力は従来の60分の1になる計算だ。

実現できたのは1年半後。画面操作がないときは1ヘルツの電流で映像を表示する「休止駆動」につながった。冗談交じりで始めた研究を根気よく続けられたのは、「本当にできるかもしれない」という技術者の直感があったからだ。

日経産業新聞(2013.2.14)

要するに休止駆動とは、動画やスクロールなどで液晶画面が「動いている」時には60ヘルツであり、静止画になったとたんに1ヘルツになるということを言っています。これがダイナミックに切り替わることで省電力を実現している。「面白半分の」提案から始まった技術開発を1年半続けることで休止駆動が実現できたわけです。

記事は次のように結ばれています。


当初、IGZOは有機ELなどを動かす回路に利用しようと考えていた。だがその用途では従来のシリコン技術との違いがはっきりせず、製品化は難しかっただろう。偶然の発見が技術の行く末を決めることは多い。偶然を生かすには常識外れの発想と未知の現象を面白がる技術者の好奇心が不可欠だ。

日経産業新聞(2013.2.14)


偶然の発見と好奇心


IGZO液晶パネルの開発過程もう一度整理すると、2つの大きなブレークスルーがあり、それが新製品を生み出したことがわかります。

東京工業大学・細野英雄教授のIGZO薄膜トランジスタ(TFT)の開発・試作
松尾拓哉氏をはじめとするシャープ開発陣の「休止駆動」の実用化

の二つです。重要なことは、細野教授も松尾氏も「IGZOで液晶パネルを作れば圧倒的に省電力になる」とは(当初は)思ってもみなかったことです。

IGZO-TFT.jpg
PET(ポリエチレンテレフタラート)のフィルムに、IGZOで形成したTFT(薄膜トランジスタ)。科学技術振興機構(JST)のホームぺージより。

細野教授は「インジウム・ガリウム・亜鉛の酸化物」という新素材(IGZO)でトランジスタが構成できることを実証したことが大きな功績です。電子の流れが早いということは分かっていた。それは明らかな特長です。しかしIGZOのすべての価値は分からない。おそらく細野教授にとってみれば、新素材でトランジスタを作ることこそに興味(好奇心)があり、それが予想もつかない価値を生み出すのではという「ぼんやりとした予感」があったのではないでしょうか。

シャープの開発陣が「IGZOは回路からの電流漏れが極めて少ない」という現象を発見したのは偶然です。ということは、その現象はシャープが発見しなくてもいずれ誰かが発見したと考えられます。ポイントはその偶然を「休止駆動」という新技術につなげたことです。まさに日経産業新聞の記事にあるように「偶然を生かすには常識外れの発想と未知の現象を面白がる技術者の好奇心」が不可欠なのです。

IGZOの最初の製品化につながった価値は、細野教授も松尾氏も思ってもみなかったところにあった。このことは非常に重要でしょう。新しい技術の研究・開発は、初めからストーリーや結末の予想があってやるわけではありません。当初は真の価値は分からない。大学の基礎研究は特にそうだし、企業における応用研究もそうです。その中からブレークスルーが生まれる。裏を返すと、モノにならなかった研究や、真の価値がまだ不明な技術がヤマほどあるということです。それを「無駄だ」と考えてしまっては新しい技術は生み出せない。その意味で朝日新聞の記事に「科学技術振興機構(JST)が細野教授に支出した研究資金は18億円。このうちIGZOの基礎研究に使われたのは1億円程度」とあったのは非常に示唆的だと思いました。

新聞各紙が報道しているように、シャープの液晶パネル事業は現在非常に厳しい局面にあります。この中でIGZOパネルは「液晶事業建て直しの中核技術」と位置づけられているようです(前述の朝日新聞)。なぜIGZOが中核技術になりえるのでしょうか。というのも、IGZOの基本特許は科学技術振興機構(JST)が管理していて、外国企業にもライセンス契約をする方針だからです。IGZOの基本特許をもとに製品開発をすることはどの企業でも可能であり、事実、IGZO特許のライセンスを最初に契約したのはサムスン電子です(朝日新聞 2013.5.23)。

製品化で先行したシャープは、自社の優位性を確保するために「休止駆動」関連の特許を多数押さえていると考えられます(おそらく)。また記事から読み解くと、研究所で休止駆動を完成させてから製品の発売までに約3年かかっています。この間、IGZO液晶パネル大量生産のためのさまざまな製造ノウハウが社内に蓄積されたと考えられます。スマートフォンのように短期間に数十万台というオーダーで生産する機器に使う部品は、歩留まり良く大量生産する技術がないとビジネスになりません。こういった特許やノウハウがあるから「事業建て直しの中核技術」と言えるのでしょう。

その中核技術の原点にあるのは「偶然の発見と好奇心」だということを忘れてはならないと思います。




nice!(0)  トラックバック(0) 

No.80 - アップル製品の原価 [技術]

No.58「アップルはファブレス企業か」において、アップル社が iPod / iPhone / iPad の組み立てを、巨大EMS(Electoric Manufacturing Service)企業であるフォックスコンの中国工場に委託しているこを書きました。フォックスコンに委託するメリットは人件費が安いということだけではなく、もっと大きなことがあります。つまりNo.58から要約すると、

アップル製品の原価に占める「組立費」の割合は 5% 以下だと考えられる。

アップル製品の販売価格からみた原価の割合(原価率)は50%以下だと考えられる。

原価率が50%、組立費の割合が5%だとしても、販売価格に占める組立費は2.5%である。組立費のほとんどは人件費のだと考えられる。つまり、仮に人件費が倍になったとしても、製品価格を2.5%押し上げるだけである。人件費の影響はこの程度である。

フォックスコンがアップルに提供している最大の価値は「機動力」である。製品組立ては機械化できず、人手に頼らざるを得ない。大量の新製品を一気に市場投入するといった「急激な需要変動」に耐えられるだけの機動力こそ、フォックスコンがアップルに提供しているものである。

ということでした。

このアップル製品の原価についての研究がアメリカ政府のホームページに公開されているのを最近知ったので、それを紹介します。


iPod の原価構造


アメリカ国際貿易委員会( ITC : United States International Trade Commission )のホームページにアップル製品の原価を推定した学者の研究が公開されていました。これは、米国のシラキューズ大学とカリフォルニア大学の3人の教授がスローン財団の支援を受け、アップル製品の部品の原価や付加価値、誰が利益を得ているかを調査・推定したものです。

以下に紹介するのは、2005年に発売された iPod Classic のケースです。この機種は30GBのストレージ(ハードディスク)を持ち、iPod では初めてビデオ再生に対応したものでした。米国販売価格は299ドルです。当時は単に「iPod」という名称でしたが、紛らわしいので後継機種の現在の呼称である「iPod Classic」と書くことにします。

iPod Classic(2005。販売価格:299ドル)の製造原価

部品種 部品 部品メーカ 本社国 推定価格
ストレージ ハードディスク・
ドライブ(HDD)
東芝 日本 $73.39
ディスプレイ ディスプレイ・
アセンブリ
東芝・松下 日本 $23.27
プロセッサ ビデオ/マルチメディア
プロセッサ
Broadcom 米国 $8.36
コントローラ・チップ PortalPlayer 米国 $4.94
バッテリ バッテリ・パック (不明) 日本 $2.89
メモリ SDRAM(32MB) Samsung 韓国 $2.37
RAM(8MB) エルピーダ 日本 $1.85
NOR型フラッシュ
メモリ(1MB)
Spansion 米国 $0.84
基幹8部品の合計 $117.91
その他、433部品の合計 $22.79
部品の原価 $140.70
組立・テスト費用 $3.86
製造原価 $144.56

Who Profits from Innovation in Global Value Chains ? iPhones and Windmills
Jason Dedrick - Syracuse University
Greg Linden - UC Berkeley
Kenneth L. Kraemer - UC Irvine


この分析を要約すると次のようになるでしょう。

iPod Classic は、アップル社が製品の企画・設計をし、日本・アメリカ・韓国のサプライヤが主要部品を供給し、中国で組立て・テストを行って製品が完成する(上の表には中国とは書いてありませんが、ITCのホームページのデータには明確に中国と書いてあります)。

iPod Classic の販売価格(定価)に占める製造原価は48%である。

製造原価のうち、組立・テスト費は2.7%である。

iPod Classic は441部品からなり、部品の原価は製造原価の97.3%である。部品原価を分析すると、主要8部品だけで84%にも達する。また東芝製のHDDだけで52%を占める。

組立て・テスト費のほとんどはフォックスコンの中国工場で発生する費用だと推測できます。No.58「アップルはファブレス企業か」で、フォックスコンの組立費を製造原価の5%以下だろうと書いたのですが、それは正しかったことになります。

また製造原価を50%以下としたのも当たっていることになります(48%。もっと小さいと思っていましたが)。残りの52%は、アップル社の研究・開発費、販売促進のための各種費用、流通経費、小売店のマージン、そして最も大事な「アップル社の利益」となるでしょう。

もちろんアップル製品でも iPhone / iPadは部品構成や部品点数が違うので、上の表の通りではありません。しかし全体の傾向は変わらないはずです。

iPod Classic 第5世代.jpg
iPod Classic
(第5世代。2005。30GB)


誰が価値を生み出し、利益を得ているか


 部品原価の過半数は東芝のHDD 

表を見てまず思うのは、東芝製のハードディスクドライブ(Hard Disk Drive : HDD)が部品原価の過半数を占めていることです。

HDDのメーカは昔はたくさんあったのですが、現在では世界でたったの3社に集約されてしまいました。シーゲート、ウェスタン・デジタル(この2社は米国)、東芝の3社です。IBMもHDDを作っていましたが、その事業は日立が買収し、その日立グループのHDD会社はウェスタン・デジタルが買収しました。また富士通のHDD部門は東芝が買収しました。要するに技術進歩が急速かつ継続的に進むため、膨大な研究開発費を捻出するためには販売規模の確保が必須だということでしょう。東芝は生き残った3社のうちの1社です。

デスクトップ・パソコンに使われているHDDは、ディスクの直径が3.5インチのものです。ノートパソコンには2.5インチのHDDが使われます。iPod Classic のHDDはそれよりも小さく、モバイル機器用に開発された1.8インチのものです。そして現在、1.8インチのHDDを作っている(作れる)のは東芝だけです。

表を見てすぐ分かるのは、iPod Classic から最も利益を得ているのは言うまでもなくアップル社ですが、その次は(おそらく)HDDを製造している東芝だろうということです。HDDのビジネスは東芝の中では一部分でしょう。また1.8インチのHDDという、どちらかというと特殊なHDDは東芝のHDDビジネスの中でも一部のはずです。しかしこのようなニッチ製品であっても独占的に供給できる技術力があれば利益が得られる。

デジタル・オーディオ・プレーヤのストレージの主力は、現在ではフラッシュメモリです。HDDを使っているのは iPod Classic だけだと思います。しかしHDDのメリットは大容量の割に(現在の iPod Classic は160GB)コストが安いことです。フラッシュメモリに対して記憶容量あたりのコスト優位性を保つ技術開発が可能な限り、またアップル社がHDDの採用を続ける限り、東芝の「独占的」利益の確保は可能なことになります。逆にその2点が崩れると東芝の利益はなくなり、これがリスクです。

もちろん以上の事情はHDDを搭載しているiPod Classic ならではの話であって、iPhone / iPad では様相が違います。しかし「基幹部品を提供する部品メーカが利益を享受する」という構造は変わらないはずです。

 フォックスコンの厳しさ 

No.58「アップルはファブレス企業か」で書いたように、アップル社の iPod / iPhone / iPad はフックスコンの中国工場で組み立てられています。このフォックスコンの組立てに関してですが

  製造原価のうち、組立・テスト費は2.7%である。

という推定は示唆的です。フォックスコンの費用はほとんどが人件費のはずです。従って、東芝やその他の主要部品メーカに比較してフォックスコンの「利益」は非常に小さいと考えられるからです。

iPodは、現在では大量に売れる製品ではなくなっています。しかしiPhone / iPad は新機種が毎年のように出ていて大量に売れています。このアップル社のビジネスにフォックスコンの最終組立て工程が必須であることは、No.58「アップルはファブレス企業か」に書いた通りです。しかし、アップルのビジネスモデルに必須であるにもかかわらず利益は非常に小さい(と推定できる)。フォックスコンはアップルに安く売りすぎているのかもしれません。

 代替可能性という「ものさし」 

表をみて思うのは「利益を得ている会社」と「代替可能性」との相関関係です。東芝のHDDは代替可能性が(HDDという前提である限りは)ゼロであるのに比較して、フォックスコンの製品組立て・検査という仕事は代替可能です。アップル製品を大量に短期間に品質良く組み立てるのは、それはそれでノウハウもいるし、たやすいオペレーションではないと思うのですが、それでも代替可能性を議論する限り、その可能性は高い。

代替可能性という「ものさし」がビジネスから得られる利益を左右する。このことを改めて認識します。上の表における主要8部品が、

ストレージ(HDD)
ディスプレイ・アセンブリ
ビデオ/マルチメディア・プロセッサ
コントローラ・チップ
バッテリ
メモリ

の順に並んでいるのも示唆的です。


ソフトウェアという「最重要部品」


表を見てアップル社のビジネスモデルがよく理解できると同時に、表からは全く見えないものもあります。それは iPod のソフトウェアです。ソフトウェアはアップル社が外部に委託することなく、自社で企画・設計・製造の全てを行っている重要部品です。

確かに東芝製のHDDは高価な部品ですが、それは(コストが高くなることを覚悟しさえすれば)フラッシュメモリで代替可能です。現在では64GBのフラッシュメモリを使ったデジタル・オーディオ・プレーヤも(アップル社、他で)発売されています。HDDは小型のものから順次フラッシュメモリに置き換えられていっており、1.8インチHDDもいずれそうなる可能性が高い。代替不可能性というものさしで考えると、明らかに「ソフトウェア」が最重要部品なのです。

ソフトウェアは一品生産なので「原価」という考えになじみません。また iPod のソフトウェアは iTunes と表裏一体のものであり、何回でもダウンロードやアップデートが可能なので、ハードウェアに「くくりつけ」ではありません。しかし、ソフトウェアがなければ全く用をなさないことも事実であって、最重要であることは間違いないのです。

ソフトウェアの企画・設計・製造にかかる費用は上の表の外数であり、アップル社の研究・開発費の中に含まれています。それはITCのホームページでは分析されていません。しかし仮に「iPod 関連のソフトウェア開発費」を全て合算し、それを「iPod の販売数」で割り算して「原価」を計算したとしたら、そのソフトウェアの原価は、製造原価 $144.56 からみて 1% 以下だと推測します。東芝のHDDとは比べものにならないぐらい小さいはずです。

原価という視点からすると「ゴミ」のような部品が「最重要部品」であり、利用者からみた製品の品質を決定的に左右する。これがITビジネスの一つの本質であり、iPod というデジタル・オーディオ・プレーヤのビジネスです。それはまたスマートフォンやタブレットPCというITビジネスの本質でもある。今後はテレビもITビジネスになっていくでしょう。このことを真に理解している者だけが勝ち残ると思います。



 補記 : アップルに関する記事の一覧 

No. 58 - アップルはファブレス企業か
No. 71 - アップルとフォックスコン
No. 80 - アップル製品の原価(本記事)
No.131 - アップルとサプライヤー




nice!(0)  トラックバック(0) 

No.71 - アップルとフォックスコン [技術]

No.58「アップルはファブレス企業か」で、アップル製品の製造を支える巨大企業・フォックスコン(Foxconn)にふれました。このフォックスコンの記事が最近の雑誌に掲載されたので紹介したいと思います。フォックスコンは鴻海精密工業(Hon Hai Precision Industry)の通称ですが(正確には中国子会社の富士康科技集団の通称)、以下「フォックスコン」で統一します。

雑誌「日経ものづくり 2012年 11月号」に「世界最大のEMS企業 Foxconn のものづくりがベールをぬぐ」という寄稿記事が掲載されました。著者は東京大学名誉教授・中川威雄たけお氏です。中川氏は東京大学工学部精密工学科の出身で、東京大学生産技術研究所・教授でした。専門はプレス加工、工作機械、金型などの機械加工技術です。その後、2000年にファインテック社を創業し、現在はその社長です。中川氏はフォックスコンの技術顧問でもあり、記事を書くには最適な人物といえます。中川氏の記述内容から、フォックスコンの設立の経緯、事業内容を要約すると以下の通りです。


フォックスコンの歴史と事業内容


フォックスコンはもともと、現会長の郭台銘氏が1974年に台湾で数人で創業した。最初は電子機器向けの樹脂成形部品の製造からはじめた。

その後、台湾企業がパソコン部品の製造で成功し始めたころ、フォックスコンもパソコン用コネクタの製造に乗り出した。フォックスコン(Foxconn)の名前の由来は(台湾で)縁起の良い狐(Fox)とコネクタ(Connector)を組み合わせたものである。

フォックスコンは中国の「改革開放政策」に合わせて、いち早く中国進出を果たした(1988)。

パソコン用コネクタの製造を通して、Compaqなどの米国パソコンメーカとのつき合いが始まり、デスクトップ・パソコンの製造に乗り出した。これにより中国工場の規模が拡大し、全世界のデスクトップ・パソコンの1/4を製造するに至った。

フォックスコンの事業は「部品製造」と「製品組み立て」の2つがある。部品製造では、コネクタ、精密機械部品、プリント基板(基板製造と部品搭載)、電子機器の筐体きょうたい(= 外装)、液晶パネルなどを製造している。製品組み立て事業では、パソコン、携帯電話、デジタルカメラ、ゲーム機、ネットワーク機器、テレビなどを製造している。

なお記事には書いてありませんが、自社製品の開発・製造もやっていますね。たとえばソフトバンクモバイルのデータ通信端末・101SB(ウルトラWiFi BB)がそうです。

フォックスコンは自らのアピールポイントとして、「顧客は欧米先進国の一流企業、生産基地は中国、マネジメントは台湾、生産設備は日本製」とうたっている。

フォックスコンの現在の事業規模は以下の通りである。
・工場数:30
・敷地面積:1000万坪
・従業員数:100万超
・売上げ高:10兆円

ちなみに、フォックスコンの全工場の敷地面積の合計である1000万坪というのは、東京ドーム700個分に相当します。

No.58「アップルはファブレス企業か」で書いたように、フォックスコンはアップル製品を含むデジタル家電の製品組み立て(受託製造)を事業の大きな柱にしています。製品組み立ては機械で自動化するのが困難であり、フォックスコンでも「人海戦術」です。その様子を「日経ものづくり 2012年 11月号」から引用しておきます。

Foxconn1.jpg
フォックスコンの組み立て工場(日経ものづくり 2012年 11月号より引用。出典はフォックスコンの社内報「画説富士康」2010.7)

著者の中川氏は機械加工の専門家だからでしょうか、「製品み組立て」に関するフォックスコンの強みは記事にはありません。しかしアップル製品だけでも、多い時は1日数十万個の製品を効率・品質の両面を維持しながら組み立てるのがフォックスコンであり、No.58「アップルはファブレス企業か」で書いた通り、それは決して簡単なことではありません。そのオペレーションを可能にするノウハウが彼らの強みでしょう。

しかし「日経ものづくり 2012年 11月号」を読んで分かるもう一つの彼らの強みは「部品製造」であり、それを支えている金型技術です。


フォックスコンの金型製造技術


コネクタや電子機器の筐体(外装)、機械部品などを製造するためには「金型」が必須です。プラスチックの部品(コネクタなど)であれば、金型の中に溶解した樹脂を流し込んで成形します(射出成形)。ステンレス、スチールなどの金属部品であれば、凹と凸の金型の間に金属板を挟んでガチャンとやるプレス成形が一般的です。また金属製品でもアルミやマグネシウムなどの合金では、溶解した合金を金型に圧入して成形する手法(ダイカスト)が一般的です。

とにかく、部品を大量生産するためには何らかの金型が必要です。日本ではその金型を作る専門メーカーが非常に発達していて、日本の電機メーカの製造部門では金型を専門メーカーに発注することがほとんどです。しかしフォックスコンは金型を自社で製造しています。

Foxconnは部品成形のツールである金型造りには並々ならぬこだわりをもっている。同社は金型を部品生産の要の技術が集約されたものと考えており、基本的には外販を禁止している。それ故、一般の金型業界に大きな影響を与えてこなかったようにも見える。

しかし、その規模は巨大で、金型製造に関係する従業員数は3万人に達すると言われている。今や日本全体の金型関係の技術者数の1/3以上をFoxconnだけで占める。加えて、毎年2000~3000人ずつ、社内の金型学校で半年程度研修した新卒の従業員を補充している。ここで育った作業者は有能な一般機械工としても活躍している。

Foxconnの金型工場は各工場に分散しているが、その設備として最新鋭の日本製の高級精密工作機械が多数使われている。大工場でそれらの工作機械が数十m以上もずらりと並べられている光景は壮観ですらある。

中川威雄「世界最大のEMS企業 Foxconnのものづくりがベールをぬぐ」
(日経ものづくり 2012.11)

Foxconn2.jpg
日本製の高精度工作機械がずらりと並ぶフォックスコンの金型製造工場(日経ものづくり 2012年 11月号より引用。出典はフォックスコンの社内報「画説富士康」2010.7)

EMS(Electric Manufacturing Service)は電機製品の受託製造に特化した業態であり、だからこそ金型は自社生産してもペイするし、逆にそれが企業としての競争力の源泉なのでしょう。製品の企画から製造までを行う日本の電機メーカとの単純な比較はできません。

このフォックスコンの金型製造で培った技術が、アップル社との関係に生かされています。


アップルのスマートフォンの "Unibody"


ここからアップル社とフォックスコンの関係です。フォックスコンは金型製造で培った技術をもとに、アップル社のスマートフォンの筐体を製造しています。No.58「アップルはファブレス企業か」では「スマートフォンなどを組み立てる企業としてのフォックスコン」に注目しましたが、実は「スマートフォンの筐体」という部品はフォックスコンが製造しているのです。

そしてこのスマートフォンの筐体は、切削(削り出し)で作られています

前述したように、金属加工部品を大量生産する方法は、一般には金型を使ったプレス成形かダイカストです。金型を一つ作れば、その金型を使って何万、何十万という同一部品が大量生産される。金属塊を削って部品を作るいう方法は、一品生産か少量生産にしか向かないというのが常識です。

ところがアップルのスマートフォンの筐体は、それが何百万、何千万と作られるにもかかわらず、一個一個、金属を削って作るという方法(切削。削り出し)で作られているのです。これは完全に、ものづくりの常識を超越しています。

よく知られているように現在のFoxconnの最大の顧客はApple社である。Apple社が苦しい時代から支えてきたことと関係するといわれるが、最近Apple社自身も公表し自慢しているUnibodyと称する金属筐体の製造の大部分はFoxconnが担当している。デザインや外観を極めて重視し、ユニークさを追求するApple社が到達したのは、ステンレス鋼やアルミニウム(Al)合金の筐体部品を小型マシニングセンタ(MC)を使って、エンドミルで削り出す方法である(下図)。

最近発売された軽量のスマートフォン「iPhone5」のアルミ合金筐体も基本的には同じ造り方だが、エッジ部は高価なダイヤモンド工具で精密切削し鏡面を出すという凝った造り方を採用していることが公表されている。

1日に数十万個の大量生産品について、筐体全部を削り出すというのは、従来の常識では考えられない。このデザインを押し通したApple社の執念には驚きを禁じ得ないが、私は同時にそれを実現したFoxconnの生産技術と技術陣を高く評価したい。当然何万台もの工作機が導入されたが、そのほとんどは日本製である。Foxconnが成形品の製造において、主要手段である金型製造にこだわったと同じように、工作機械に使われる超硬エンドミル工具も内製に踏み切り、今や巨大な生産規模を実現している。

自由曲面を削りだし、最後は研磨して美しい面と精度を出すという作業は、まさに金型造りそのものである。加えて、これだけ多量の生産を行うというのは、世界中でFoxconn以外の企業が実現できたかどうか疑わしい。Foxconnが実際にこれをなし得たのは、金型やものづくりに生涯をかけている同社総経理の徐牧基氏の功績が大きい。彼の存在なくして切削筐体は実現しなかったように思われる。

中川威雄「世界最大のEMS企業 Foxconnのものづくりがベールをぬぐ」
(日経ものづくり 2012.11)

ちなみに文中の「エンドミル」とは、回転する工具の軸方向に穴を空けたり切削する(例:ドリル)のではなく、工具の側面で工具の回転軸とは垂直の方向に切削する加工方法を言います。穴を広げたり、また表面の研磨加工に多用されます。

文章の中に「研磨して美しい面と精度を出すという作業」とあります。この作業は当然機械で行われているのですね。No.58「アップルはファブレス企業か」で、iPod Classic のステンレス筐体の鏡面仕上げに日本の職人の「磨き」の技術が生かされていると書きましたが、それは少し昔の話であり、フォックスコンが作るスマホ筐体の表面仕上げは機械なのです。

以上の「切削スマホ筐体」はフォックスコンの機械加工技術の高さを象徴しています。中川氏の寄稿文には、切削のための超硬工具も自社生産しているとあります。大量の切削スマホ筐体を作るためには、消耗品である工具も大量に必要です。その自社生産もフォックスコンの強みでしょう。なおフォックスコンの機械加工技術を支えているのは日本製の工作機械だということにも注目したいと思います。

Foxconn3.jpg
アップル製品の筐体と、製造のための工具、工場。工作機は数万台ある。必要な工具も内製している(日経ものづくり 2012年 11月号より引用。出典はフォックスコンの社内報「画説富士康」2010.7)

中川氏は上記の雑誌とは別に、日経記者とのインタビューに答えて以下の様に語っています。ここでは iPhone の独自性が詳しく述べられています。

(中川威雄氏)

デザインを優先するアップルが行き着いたのが削りだった。プレス加工は大量生産に向いているが、形状や精度の面で限界がある。金属加工にも使う工作機械で削った方が細部まで自分たちが求める形に仕上がる。工作機械で削ったり磨いたりしなければ「iPhone5」の背面や側面のような独特の質感は出せない。他社がまねできないような手法もあえて取り入れたのかもしれない。分解すると分かるが、多くの部品を詰め込むために内部構造も凝っている。部品の組み付けにネジ留めを多用し、ネジ穴には角度をつけている。こうした複雑な形状は削りでなければ実現できない設計だ。

削りには非常に多くの工作機械が必要なためコスト高になり、加工時間もかかる。毎日50万台以上を生産する方法としてはふつうでない。アップルは電子機器の受託製造サービス(EMS)の活用と日本の生産技術を取り入れることで解決したのだろう。

日経産業新聞 2012.11.29


切削スマホ筐体の意味するもの


以下は記事を読んだ感想です。

「切削スマホ筐体(アップル社の言い方では Unibody)」で感じることは、まず第1に、デザインとユニークさを追求するアップル社の執念です。利用者に好感を与えるデザインでは妥協を許さず、また他社にない独自性を徹底的に追求する・・・・・・。アップル社の企業姿勢が見て取れます。と同時に、アップル社が「ものづくり」にかける執念を感じます。アップルの独自性というと、デザインとか製品の企画とか独特のユーザインターフェースばかりが強調されますが、ものづくりについての独自性・斬新さでも抜きん出ているのです。自社で製造するわけでないが、ものづくりの突き詰めた姿を追求する点では同じです。

第2に思うのは、フォックスコンのものづくり技術の高さと、数万台の日本製工作機を導入して「切削スマホ筐体」を作るというビジネスモデルの大胆さです。多いときには日に数十万の切削スマホ筐体を作るとありますが、品質を維持する技術力は大したものだと思います。

しかしその一方で本当にこれが正しい道なのかという疑問も出てくるわけです。

つまり第3に思うのは、あたりまえだけど切削スマホ筐体は高コストの部品だということです。デザイン性と精度は劣るかもしれないが、プレス加工で作る、ないしはアルミ合金ならダイカストで作るという手も当然あるはずで、それが普通です。しかしアップル社はそうではない。この「こだわり」は部品の製造コストに跳ね返り、それは製品価格を押し上げます。つまりiPhoneの価格が高くなる。最終製品に占める筐体の原価の割合は分かりませんが、コストダウンとは逆の方向であることは確かです。

第4は、フォックスコンにとって、もっと一般的にはアップル社に部品を供給するメーカにとって大きなリスクがあるということです。フォックスコンの「切削スマホ筐体製造ライン」は「アップル社専用ライン」でしょう。もしアップル社が他社に乗り換えたとしたら、製造ラインに投入した数万台の加工機は、無駄になるとは言わないが「切削スマホ筐体製造」ほどの付加価値を生み出さないものになってしまう。もちろんフォックスコンはアップル社との長期の契約を結んでいるのだと思います。アップル社との長い取引関係もあり「安泰」なのでしょう。しかし一般的に言うと、アップル社からの品質・仕様・供給量の要求に応えようとして設備投資をする部品メーカは、大きなリスクを抱え込むことは確かだと思います。



しかし改めて思うのは、以上のような「疑問」はあるものの「切削スマホ筐体」は、ある種の好循環を作り出しているということです。

アップル社が独自性の高い製品デザインを創案し、フォックスコンが製造技術と巨額の設備投資でそれに応える。利用者はアップル製品のデザインを愛し、喜んでお金を払う。アップルには利益が残り、フォックスコンと日本の工作機メーカは大量の受注を得る。そしてアップル製品の利用者には満足が残る。切削スマホ筐体は高コストかもしれないが、誰かが損をしているわけではない。むしろ関係者全員に好ましいことである・・・・・・。

コスト・パフォーマンスという言い方があります。いかにコストを押さえてパフォーマンス(性能や機能、満足度など)の良い製品を作るか・・・・・・。商品開発の基本であることは確かです。しかし基本ではあるものの、右肩あがりの経済成長の時代やコモディティー(汎用品)ならともかく今の時代はそれだけではやっていけない。

「切削スマホ筐体」は、スマートフォンという製品全体からみると一部品に過ぎないけれど、人間社会の経済活動の一つのあり方を象徴していると思いました。



参考までに、iPad mini のデザインを紹介するApple社のホームページを引用しておきます。このコピーの中に「息をのむほど美しい」とありますが、これこそがアップル社のデザイナーと設計技術者、フォックスコンの製造技術者たちが、一切の妥協を排して追及したものなのですね。

iPad mini - 1.jpg
iPad mini - 2.jpg

すべてを美しく、ひとつに

iPad miniを作るにあたり、私たちはあらゆる細部に至るまで、この上ないほどの緻密さで取り組みました。iPad miniの組み立てと仕上がりが息をのむほど美しいのはそのためです。Apple史上最も先進的な、アルミニウムのUnibodyもそのひとつ。Unibodyの筐体の製造においてこれまでに学んできたことすべてを反映させ、製造工程から改善することで材料効率と正確性を一段と向上させました。許容誤差はミクロン単位で計測。単結晶ダイヤモンドでエッジをカットし、なめらかなメタリックの仕上げをほどこしたiPad miniは、驚くほど高い基準のもとに設計、製造されています。手にするたびに実感するはずです。美しさへのこだわりと、その精緻さを。

(Apple社のホームページより)

印象的なのは「許容誤差はミクロン単位で計測。単結晶ダイヤモンドでエッジをカットし、なめらかなメタリックの仕上げをほどこした」という表現です。前に引用した中川名誉教授の解説にあった「ダイヤモンド工具によるエンドミル加工」というやつですね。世の中にエレクトロニクス製品を紹介するホームページは無数にあるけれど、このように「ものづくり」の具体的な方法を書いてその優秀性を高らかにうたうというのは、あまりないのではないでしょうか。自社の「ものづくり技術」を誇る企業は多いけれど、具体的な製品の「ものづくり技術」をアッピールしているのは(大企業では)アップルぐらいではないでしょうか。

このWEBページを見ていて、ふと日本刀を思い出しました。iPad mini(の外装)と日本刀は全く違う製品です。その目的、歴史、使われる技術、人と道具の関わり方、生産数など、どれをとっても共通点はないように見えます。しかし iPad mini と日本刀で不思議に一致しているのは、両方とも高度な金属加工技術を使った「ものづくり」であり、かつ完成品が「息をのむほど美しい」ことなのです。



 補記1 : ファナックの小型マシニングセンター 

2012年12月21日の日経産業新聞に、ファナックが茨城県筑西市の筑波工場内に小型マシニングセンターを作る新工場棟を完成させた、との記事が載っていました。

ファナックが20日、茨城県内で小型マシニングセンター(工作機械)の新工場棟を開設した。スマートフォン(スマホ)の外枠や自動車部品などの金属を削る機械を作る工場で、既存工場と合わせた月産能力は従来比2倍の5000台、円高や需要地の海外移転で国内生産の空洞化が進む中、ファナックは日本生産に徹底的にこだわる。
(日経産業新聞 2012.12.21)

記事によると「小型マシニングセンターの供給先の約8割は中国などのスマホ工場とみられる」とあります。

ファナックは100%国産にこだわっている会社です。需要先は中国なのに日本で作る・・・・・・。最低限、輸送コスト分だけ不利になるのは目に見えています。しかしこのビジネスモデルが成立する秘密は、小型マシニングセンターの製造工程を徹底的に自動化・機械化・無人化していることなのですね。

そして極めて強く推定できることは、小型マシニングセンター(ファナックの商品名:ロボドリル)の有力な供給先がフォックスコンだということです。これが正しいとすると(たぶん正しい)、アップルの切削スマホ筐体は日本にものづくり工場を残すことに役立っていることにななります。



 補記2 : アップルに関する記事の一覧 

No. 58 - アップルはファブレス企業か
No. 71 - アップルとフォックスコン(本記事)
No. 80 - アップル製品の原価
No.131 - アップルとサプライヤー




nice!(0)  トラックバック(0) 

No.61 - 電子書籍と本の進化 [技術]

No.59「電子書籍と再販制度の精神」No.60「電子書籍と本の情報化」に続いて電子書籍に関する話です。今回は「本そのもの」が電子書籍化によって読みやすくなり価値も高まるだろうという「本の進化」です。

本の進化というと No.60「電子書籍と本の情報化」で書いたマルチメディア化によって、従来にない本のスタイル(文字+写真+動画+音声など)が可能になることもあるのですが、以下に書くのは「文字中心の本」の話です。私は文字中心の本、ないしは文字だけの本が電子書籍化によって大きく進化すると思っていて、これが最も電子書籍に期待することなのです。

以下にその「進化」の一部の例を書きますが、「既に出来ていること」と「今後出来てほしいことで、技術的には今でも可能なこと」が混在しています。技術的に可能でも、コストや標準化などから実現のための障壁がある場合もあります。


電子栞と電子書き込み


まず「電子栞(ブックマーク)」です。紙の栞と違って枚数が増えても扱いやすく、また色分けや見出しを付けるのが容易です。どこまで読んだかの判別だけでなく、分量の多い書籍を読む場合には重要でしょう。

電子的に「書き込み」や「メモの張り付け」ができ、修正・削除・追加が容易なことも電子書籍ならではです。評論的な文章を読むときには、自分の考えをその場にメモしておきたいことがよくあります。

電子栞と電子書き込み(メモ)は電子書籍リーダーや電子書籍アプリの基本機能でしょう。現在のリーダやアプリでも実現されています。


電子マークアップ


「下線を引く」「傍線を引く」「カッコでくくる」「ハイライトする」といった、本文の一定部分に印をつけることを総称して「電子マークアップ」と呼ぶことにします。本を読んでいて重要だと思ったところや心に残る表現に印をつけるわけです。この電子マークアップは電子書籍に最も期待したい機能です。

Rakuten Kobo Touch.jpg
楽天 Kobo Touch
電子マークアップは「消すことができる」のが特徴です。紙書籍で次のような経験がよくあります。重要だと思うところに傍線を引きながら一冊を読み終え、傍線の所だけを再度読む場合です。このときなぜこんなところに傍線を引いたのか自分でも理解できないことがあります。あたりまえのことを言っている部分に傍線がある。最初に読んだときになぜ重要だと思ったのか自分でも分からないのです。おそらく本を読んでいるうちに自分自身の知識や考えがまとまり、あたりまえだと思うようになったのでしょう。大袈裟に言うと、本を読むことは「自分を変える」行為です。電子マークアップなら「2回目に読んだときに重要でないと考えたマークアップを消すか、色を変える」ことが簡単にできるようになります。

また電子書籍では「マークアップのところだけを順に読む」ことができます。さらに「マークアップのところだけを集めた、一つの仮想的な電子書籍を表示する」ことも可能になります。その表示から本文にアクセスもできる。このような電子書籍の機能は、本の理解(重要ポイントやストーリー展開など)を格段に進めると思います。

なお電子マークアップでは「特定部分だけを一時的に黒塗りする」ことも簡単で、その追加・削除もできます。これは学習書の勉強の仕方を大きく変えると思います。


電子注釈


電子書籍による本の進化の一つは、注釈が有効に活用できるようになることです。紙の書籍でも、学術的な雰囲気の本や翻訳書では注釈がつけてある本があります。以前にとりあげた本では、No.20「鯨と人間(1)ヨーロッパ・アメリカ・白鯨」で引用したメルヴィルの『白鯨』(阿部知二訳)がその例です。この本の注釈には重要なことがいろいろと書いてありました。

しかし注釈は巻末か章末にまとめてあるのが普通です。本文を読みながら注釈を読むのは大変に煩わしい。注釈に「本文・・・ページ参照」などとあったらお手上げです。従ってとりあえず注釈を無視して読み進むことが多くなります。ところが注釈だけを後でまとめて読んでも、なんだかよく分からない。電子書籍では本文中に「ポップアップ型の注釈」をつけることが可能になります。これは読書を大いに助けることになると思います。

赤毛のアン.jpg
L.モンゴメリ作。松本侑子訳
「赤毛のアン」(集英社。1993)
注釈が非常に大切な本の例をあげると、たとえば『赤毛のアン』です。この本は、英米文学や聖書、歴史からの引用に満ちています。文学を踏まえた記述やパロディも多い。松本侑子氏が訳した本では、巻末に187個もの注釈がついています(改訳された文庫版では注釈はさらに増えて、約300個となっている)。

もちろん注釈を無視して読むのは全くかまわないわけです。それで十分に価値がある。しかし大人になってこの本を読み返す時、注釈を参照しながら読み進み、作者のモンゴメリがこの本に込めた学識と隠されたメッセージを読み解くのも、それはそれで文学の楽しみ方の一つでしょう。

しかし巻末の注釈というのはいかにも「読みにくい」わけです。注釈を、電子書籍で、その場で、必要に応じて、即時参照できるとしたら『赤毛のアン』の価値は非常に高まると思います。



注釈の拡張としてたとえば「登場人物の解説」を表示することも可能でしょう。以前とりあげた『ローマ人の物語』(No.24 - 27)では「ユリウスなんとか」というようなラテン語の紛らわしい名前が出てきて混乱します。最近の小説の『ミレニアム』もそうです。スエーデン人のスティーヴ・ラーソンが書いたこの小説は、当然スエーデン人の名前がいっぱい出てくるのですが、混乱しそうです。日本語話者にとってなじみの薄い外国語の名前は覚えにくい。ロシアの小説の登場人物の名前も混乱しますね。姓・名のほかに父称・愛称があり、つまりロシア語の名前が何種類かある。

注釈による「読書を助けるしくみ」は、電子書籍の大きなメリットだと思います。


電子索引


索引をもつ本があります。巻末に重要な用語の一覧があって、それが出てくるページが記載されている。その用語の中心的な説明のあるページは太字で印刷されていたりします。しかし紙書籍では巻末の索引というのはあまり実用的ではありません。使いにくいからです。

電子索引では、本文中で索引用語が分かるようになります。かつ用語を順に検索したり、用語の意味を説明した箇所を一時的に表示したりできる。その用語が現れるページを順に読むことも可能になります。


訳語・訳文表示


英語の電子書籍(ないしは外国語の電子書籍)を読むときの話です。電子書籍リーダーには英和辞典が内蔵されているものがあります(ソニー・リーダーなど)。これは非常に便利なものだと思います。

しかし電子書籍ではもっと進んで「コンテンツ側に訳語を埋め込む」ことが可能になります。たとえば基本英単語・2000語以外の単語について、ないしは基本英単語であっても珍しい意味で使われている単語について、文章の流れに即した訳語をその場所に表示できるようになるでしょう。これは英文で本を読みたい人(ないしは英語の学習をしたい人)にとっては非常に助かると思います。

電子書籍リーダーに内蔵の辞書を活用し、英語の電子書籍を読みつつ英和辞書を参照できるというのは大きな進歩です。しかし問題があります。辞書は言葉の「意味」を説明するもので、文章に即した「訳語」にはならないことです。また固有名詞の解説は英和辞書では無理です。

さらに問題は「文化的な文脈」で使われる単語は(小さな)辞書を見てもよく分からないことです。No.17「ニーベルングの指環(見る音楽)」No.49「蝶と蛾は別の昆虫か」でふれた本ですが、鈴木孝夫著『日本語と外国語』の中に次のような意味のことが書いてありました。

アガサ・クリスティーのミステリーや、モンゴメリの『アンの夢の家』に出てくる orange cat という表現は、茶色の猫、ないしは赤茶色の猫という意味であり、ミカン色とかオレンジ色の猫ではない。

日本語にもなっている基本的な単語(orange)でも(というより、日本語になっている基本的な単語だからこそ)、文脈に沿った訳語がないと意味の取り違えが起こることがあるのです。上記の例では何らかの注意がないと「取り違えていることさえ気づかない」でしょう。ちなみに『アンの夢の家』にある表現は、第9章の「orange-colored cat」ですが、日本語訳では「みかん色の猫」(新潮文庫版)となっています。プロの翻訳家でも取り違えてしまうわけです。

コンテンツ側に訳語を埋め込むという発想は、さらに訳文に拡張することができます。日本語・英語が併記された本がありますね。たとえば No.6「メアリー・ダイアー」のところでふれた新渡戸稲造の『武士道』は、もともと英文で発表されため、英文と和訳を併記した本が発売されています。この発想を拡大し、英文と和訳の両方を含めた電子書籍が考えられると思うのです。この電子書籍では

英文を読む
和訳を読む
英文を読んでいるときに必要に応じて、その文の和訳を表示して読む

というようなことが出来るでしょう。村上春樹さんは英語の小説をかなり訳しています。F・スコット・フィッツジェラルドの名作「グレート・ギャッツビー」を英文で読みつつ、必要に応じて村上さんの訳を参照するようなことを是非やってみたいと思います。

英語の本の話を書きましたが、これは日本の古典でも全く同じです。井原西鶴や源氏物語の有名場面を原文で読むことが、電子書籍の技術進歩で比較的容易にできるようになると思います。多くの人は江戸期以前の文を高校時代の授業でしか読んだことがないと思いますが、それが変化する可能性があります。日本の文化遺産を継承するにも電子書籍は役立ちます。

考えてみると訳文表示は、映画では字幕スーパーという形で80年も前から行われていることです。それが書籍で可能な技術がやっと出てきたということだと思います。


電子書籍で失われるもの


何かを得ると何かが失われます。電子書籍もその例外ではありません。電子書籍で失われるのは、もちろんハードウェア(紙の冊子)としての本です。今まで電子書籍のメリットだけを書いてきたのですが、以降は「失われるもの」です。それは大きく2つだと考えられます。

◆個別一覧性: いわゆる「パラパラめくり」です。書店で本を手にとってみる時によくやるものです。

◆複数一覧性: 机の上に複数の本を広げて何らかの作業をするような場合です。

◆集合一覧性: 書店や図書館の開架式書庫を見て歩いて、本を一覧する場合です。

電子書籍でこういった一覧性を確保するのは非常に難しいでしょう。かろうじて個別一覧性(パラパラめくり)は、電子書籍でも紙の本に近いものができるかもしれませんが、集合一覧性(図書館)となると非常に困難と考えられます。

我々が公立図書館の開架式書庫に行くのは「何を読みたいか分からないから」です。書店に行く目的もそうです(プラス、目当ての本を立ち読みしたいから)。何を読みたいのか分かっているのであれば、オンライン・ブックスストアで注文すればよいし、図書館でもコンピュータ端末で検索をして借り出せばよい。

公立図書館の開架式書庫は、あくまで「おしきせ」だけれど、本とはこういうものですというワンセットが、まんべんなくジャンルをまたがって用意されています。書店も、新刊書にかたよっているけれど用意されている。それをざっと一覧できるとことに価値があるわけですね。これと同等の一覧性を電子書籍で実現するのは非常に難しいと思います。

 所有物としての書籍 

No.60「電子書籍と本の情報化」で、情報は所有できないと書きました。従って電子書籍では「ハードウェア所有物としての書籍」はなくなります。

紙の書籍は個人の所有物なので「書籍を愛玩する」「装丁を楽しむ」「個人書棚を作り、自己の歴史(自分史)を振り返る」などのことができました。書棚に本を飾って他人に見せびらかすこともできるでしょう。学者や作家が亡くなると遺族が所蔵書籍を公立図書館に寄贈することがあります。「XX文庫」という名前がついていたりする。これも本が所有物だからこそ意味のあることなのです。



電子書籍は紙の書籍のすべては代替できません。紙書籍と電子書籍は併用されるのが今後の姿でしょう。日本では1990年代後半をピークに本・雑誌の売り上げが減っていますが(出版点数は増えている)、電子書籍が盛んなアメリカでは逆に売り上げが増えていると言います。紙・電子が共存し、トータルとしてより出版文化が活性化することを期待したいものです。


『華氏451度』の警告


電子書籍について書いてきましたが、そもそも発端は No.59「電子書籍と再販制度の精神」の冒頭に書いたようにレイ・ブラッドベリの『華氏451度』(No.51, 52)でした。この小説をもう一度振り返ってみたいと思います。この小説が暗黙に主張していることを私なりにまとめると、

文字だけのメディアを時間をかけて読むという行為が人の「考える力」を醸成し、それが社会の発展や円滑な運営を担っているし、民主主義の基礎ともなっている。

ということだと思います。『華氏451度』はこの主張を言いたいがために、対極にある世界を戯画的に描いた小説だと考えられます。考えるべき点は二つです。

この主張は正しいのかどうか
正しいとしたとき、電子書籍は「考える力」を増進するようにはたらくのか、それともマイナスにはたらくのか

華氏451度-1.jpg
レイ・ブラッドベリ
華氏451度
(ハヤカワ文庫SF, 2008)

という二つの課題です。すぐに答えが出るとは思えませんが、②について言うと電子書籍はプラスもマイナスもあると考えられます。今回の「No.61 - 電子書籍と本の進化」には、電子書籍のポジティブな面をいろいろと書きましたが、前回の「No.60 - 電子書籍と本の情報化」に書いた数々の側面の中には、電子書籍を「考えるメディア」というより「単に受け取るためのメディア」に誘導するに違いないことも多いわけです。

電子書籍は本という人間社会の基礎となってきたものに大変革をもたらす可能性があります。だからこそ、本の著者や出版社は電子書籍に積極的に取り組み、そのプラス面・マイナス面の認識を読者とともに共有し、出版・書籍という「教育や文化の基礎であり、日本をささえる情報インフラ」を支えていって欲しいと思います。




nice!(0)  トラックバック(0)