SSブログ

No.165 - データの見えざる手(1) [技術]

No.148「最適者の到来」で書いた内容から始めます。No.148 中で、チューリヒ大学のワグナー教授が、

  コンピュータは21世紀の顕微鏡

と語っているのを紹介しました。進化生物学者のワグナー教授は、進化の過程を分子レベルでコンピュータ・シミュレーションし、なぜランダムな遺伝子変化の中から環境に合った最適なものが生まれたきたのか、一見すると確率的に起こり得ないように思える変化がなぜ起こったのかを解き明かしていました。

進化は極めて長い時間をかけて起こるものであり、かつ分子レベルの変化なので、実験室で "見る" ことはできません。その "見えない" ものをコンピュータは "見える" ようにできる、だから "21世紀の顕微鏡" だという主旨です。

「21世紀の顕微鏡」を「見えないものを見えるようにする」という意味にとると、他の分野の例として医療現場で使われている「CT装置」「MRI装置」が思い当たります。この2つの装置の原理は違いますが、いずれも電磁場を照射し、人体を透過した電磁場の変化を測定し、それをコンピュータで解析して人体内部を画像化する(輪切りの画像や3次元画像)ということでは共通しています。まさに「見えないものを見えるようにする顕微鏡」です。

クルマの開発にもコンピュータが駆使されています。クルマは、衝突したときに前方のエンジン・ルームはグチャグチャに壊れ(=衝撃を吸収し)、運転席はできるだけ無傷なように設計してあります。これもコンピュータを使って、衝突時にクルマを構成する各種部品にどういう力が加わり、どういう風に壊れていくのか(壊れないのか)、その一瞬の出来事を時間を引き伸ばして可視化する、そのことでより安全なクルマが開発されています。試作車を作って衝突実験をするのはあくまで最終段階であって、そんなことを始めからやっていたのでは時間もコストもかかり過ぎてダメなのです。

そして今回の本題なのですが、自然科学や工学の分野だけでなく、社会科学の分野でもコンピュータを使って「見えなかったものを見えるようにする」動きが広まってきました。その例として『データのみえざる手』(矢野和男・著。草思社。2014)という本を紹介したいと思います。この本は、

  人間の体の動きや行動を "時々刻々" 詳細に記録し、そうして集められた大量データ(ビッグデータ)をコンピュータで分析することで得られた知見

をまとめたものです。まず、この本の第1章の内容です。


腕の動きを分析する


データの見えざる手.jpg
『データのみえざる手』の第1章に、リスト・バンド型のウェアラブル・センサーを用いた人間の行動分析の結果が述べられています。

このウェアラブル・センサーは腕時計のような格好をしていて、腕(実験では左手首)に常時装着します。この中には高精度の加速度センサーが組み込まれていて、人の腕の動きを常時記録します。

加速度は、空間の3つの軸について1秒間に20回(50ミリ秒に1回)計測されます。この精度でデータをとると、人の腕がどのように動いたか、後からつぶさに解析できます。1秒間に20回の計測なので、データの数は1秒に20×3 = 60個です。1日は24×60×60 = 86,400秒なので、1日のデータの個数は 5,184,000 個となります。1個のデータが4バイトのデータ量だとすると、1日で 20.7 MB(メガバイト)です。計測を1年間続けたとすると 7.5GB(ギガバイト)になりますが(=約20億個のデータ)、この程度のデータ量なら今のパソコンで扱えてしまうことに注意すべきでしょう。

なぜ腕の動きを分析するのかというと、人の活動にはそれぞれの活動に特徴的な腕の動きがあるからです。たとえば寝ている間は腕はほとんど動かず、時おり寝返りをうったときに動くという特徴があります。

起きている時間では、人は平均して1分間に80回、腕を動かすと云います。もちろん行動によって違います。歩いている時は240回、仕事でプレゼンテーションを行っているときは120回~180回(平均150回)、パソコンで原稿を書いているときには50回~70回、パソコンでウェブ・サイトを閲覧している時には50回以下になります。その他、会議に出席しているとき(発言しているとき、聞いているとき)、昼休みに食事をしているときなど、それぞれに違った腕の動きがあります。また、腕の動きは人によって相違があります。さらに、一人をとってみても「活発な日」と「静かな日」があります。



以上を踏まえて、12人の2週間分の左腕の1分間ごとの動きのデータをとり、それを総合的に分析したのが次の図です。

身体運動の回数と確率.jpg

このグラフは横軸が「腕が1分間に動く回数」です。また縦軸は「累積確率」になっていて、たとえば、横軸の60のとろの縦軸の値はだいたい1/2ですが、これは、

  60回/分以上の運動をする時間は、全体の計測時間の1/2である

ことを示しています。さらに注意すべきは、このグラフの縦軸が対数になっていることです。つまり目盛りを2倍上に進むと表示量は4倍に、3倍進むと表示量は8倍になります。横軸は対数ではないので「片対数グラフ」ということになります。一見して分かるように、このグラフは右肩下がりの直線になります。


U分布


『データのみえざる手』の矢野和男氏は、このグラフを "U分布(Universal分布)" と名付けています。上のグラフは12人の2週間分のデータです。しかし矢野氏によると、一人一人の1日の活動もU分布になります。1日の活動は日によって違うので、日ごとにグラフの傾きは違うのですが、U分布であることは変わりません。

さらに、人が違ってもU分布になります。人には個性があって、活動的な人はより傾きが穏やかな直線分布になり、静かな人はより傾きが急な分布になります。そういった違いはあるのですが、U分布であることには変わりがない。

  なお、上のグラフは12人のデータを「正規化」して重ね合わせたものです。つまり平均の傾きに、各人の傾きを合わせるようにしてプロットしたものです。

この「普遍的に現れる」U分布は何を意味するのでしょうか。人は、起きている時間の統計をとると、平均的に1日に約7万回、腕を動かします。もちろん1分間に動かす回数は活動内容によってさまざまです。60回/分の活動もあれば150回/分もある。矢野氏はこの活動量の違いを、電波の割り当てのアナロジーで「帯域」と表現しています。


1日の総活動量(身体運動の総回数)を決めると、ある帯域の動きをともなう活動に割り当てることのできる活動予算も決まり、それを超えたバランスの時間は使えないのである。逆に、どんなに忙しくとも、それぞれの帯域には、予算分だけの時間を使わなければならない。

より具体的に言えば、1分間に60回以下の動きを伴う活動には、活動全体の半分程度の時間を使わないといけないことが実験からわかっている。1分間に60~120回の活動はさらにその半分で1日の活動の1/4程度の時間、1分間に120~180回の活動は、さらにその半分の1/8程度の時間、180~240回程度の活動は、そのさらに半分の1/16程度の時間を割り当てなければならない。

人によって1分あたりの平均的な動きの数は異なる。この違いは分布図にも現れる。1分あたりの平均の動きが少ない人は、右肩下がりの傾きが急で、急速に減衰していく分布となり、動きの多い人は右肩下がりの傾きが穏やかで、減衰しにくい分布となる。この傾きの逆数を「活動温度」と呼んでいる。

矢野和男
『データのみえざる手』(1章)

上で引用した12人・2週間のグラフは、この傾きの相違を補正して重ね合わせてあるわけです。上の引用の「活動温度」という言葉を導入すると「活動温度が熱い」とは活発、「活動温度が低い」とは静か、ということになります。


実験結果をみると、物に暖かい状態と冷たい状態があるのと同じように、人の活動にも活発な「熱い日」と、静かな「冷たい日」があることがわかる。

さらに、人によって活動温度が高めの「熱い人」と活動温度が低めの「冷たい人」がいることがわかっている。熱い人は平均120回/分程度動いている。逆に冷たい人は、平均60回/分程度である。

矢野和男
『データのみえざる手』(1章)

熱い人ほどより動きが多く、いわゆる活動的な人ということになります。では熱い人ほどより多くの仕事ができるのかと言うと、そう単純ではありません。仕事は多様であり、それぞれの仕事にあった動きがあるからです。


活動温度の高い人が、原稿執筆のような比較的低い帯域の活動(動きの少ない活動)をする必要があるとしよう。実は活動温度の高い人は、高い帯域の活動(動きの活発な活動)にいやでも時間を使わざるを得ない。したがって、原稿執筆のような低い帯域の仕事にあまり時間を使うことができないのだ。つまりこのような人は、長時間机に座って仕事をすることがむずかしくなる。

逆に、活動温度の低い人(すなわち、右肩下がりの分布図の傾きが急な人)は、高い帯域の仕事(比較的活発な動きをともなう仕事)をしようとしても、そのための活動予算が足りなくなりやすいのだ。したがって、これにあまり時間を使うことができない。

矢野和男
『データのみえざる手』(1章)


ボルツマン分布


U分布は、物理学で言う「ボルツマン分布」を同じものであることが明らかにされています。ボルツマン分布とは、たとえば気体の分子の運動です。空気の中は主に窒素分子と酸素分子からできていますが、それらが運動しています。そしてぶつかり合いながらエネルギーを交換していて、ある時点をとるとエネルギーの高い分子もあれば低い分子もある。熱い空気は全体として運動が激しく、冷たい空気は運動が少ないわけです。この分子のエネルギーを横軸にとり、それがどれだけの数あるかという分布をとると、それがボルツマン分布になります。これは物理学(統計力学)の最も基本的な法則になっています。

ポイントは(温度が一定だと)気体分子の全体のエネルギーは一定ということです。その、全体で一定のエネルギーの範囲で、多数の分子が相互に作用しながらエネルギーを自由にやりとりしている。そのやりとりの結果として出来るのがボルツマン分布なのです。

ボルツマン分布を導く原理は「エネルギー保存則」であり、エネルギーが保存するという原理の帰結がボルツマン分布です。そして「保存則」は熱力学だけではありません。力学、電磁気学、量子力学などの基本方程式はすべてすべて、エネルギーないしは電荷の「保存則」から導かれるのです。とりわけ重要なのがエネルギーの保存で、つまり「エネルギー保存則が万物を支配する」と言える。

そして、これを発展させ「エネルギー保存則は人間の行動も支配する」と考えて「右肩下がりの直線」を説明したのが、この本の第1章です。つまり、上に引用した、

  1日の身体運動の総回数(たとえば約7万回)が決まると、人は "U分布" に従って個別の活動のバランスを決めている

という主旨の説明は、ボルツマン分布(=エネルギー保存則)のアナロジーなのです。


我々は直感に裏切られる


では、なぜボルツマン分布と人間活動のアナロジーが成立する(と著者が考える)のか。それを、著者の矢野氏はボルツマン分布を作り出すコンピュータ・シミュレーションを用いて説明しています。

実は『データのみえざる手』という本で最も意外な事実が書かれていたのがこの部分でした。No.149「我々は直感に裏切られる」において、大きな数を扱うときには我々の直感が全くアテにならないことを書きましたが、まさにそういう感じです。あまりに意外だったので、私もパソコンで実験してみました。自分の手で確かめてみようというわけです。以下はその実験の結果です。



まず本書の著者に従って、30×30、合計 900個のマス目を想定します。なぜ900なのかというと、人の1日の活動時間を15時間=900分と仮定しているからです。つまり一つ一つのマス目が1分間の人間の活動に相当するという想定です。

UDistribution0.jpg
30×30=900個のマス目
72,000(=80×900)個の玉を、全くランダムに、900個のマス目のどれかに順に入れるシミュレーションを行う。

次に、合計 80×900=72,000個の玉を、900個のマス目に全くランダムに入れます。これはパソコンで簡単にできて、1~30の乱数を2つ発生させ、該当するマス目に入れる、これを72,000回繰り返す、それだけです。なぜ72,000個の玉かというと、こうすると1つのマス目に平均して80個の玉が入るからです。これは「人は平均して1分間に80回、腕を動かす」という観測結果を模擬しようとしています。こうしてできた分布を、マス目の色分けで表示してみたのが次の図です。

UDistribution1.jpg
図A 玉をランダムに配置した結果
入っている玉の数の多少により、赤色のグラディエーションで示した。

UDistributionLegend.jpg
表示色
玉が110個以上あるマス目を黒、49以下のマス目を白、50~109の数の玉があるマス目を赤のグラディエーションで表示する。

シミュレーション結果の表示は、玉が110個以上あるマス目が黒、49以下のマス目が白、50~109の数の玉があるマス目が赤のグラディエーションです。実は、上図において「黒」と「白」のマス目はありません。900個全部のマス目が50~109の玉の数(=赤のグラディエーション)に収まっています。もちろん、一番多いのは平均値である80付近の玉があるマス目です。

実験を繰り返すと、49以下の玉の数のマス目が現れることがありますが、そのマス目の数は1個か2個で、せいぜい45個の玉の数とか、そういう値です。また、110以上の玉が入るマス目が現れることもありますが、その数も1個か2個であり、せいぜい110台の値です。150の玉が入ったマス目のようなものは現れない。確率的にはゼロではないのでしょうが、数十回のシミュレーションではまず現れないのです。

この分布は、いわゆる「正規分布」です。80個という平均をピークに両側に減少していく、ベル型の分布パターンです。ここまでは何の意外性もなく、普通のことです。



ここからが問題です。上の「正規分布」から、二つのマス目をランダムに選び、一方のマス目から一方のマス目に玉を移動します。つまり一方の玉の数を1だけ減じ、一方を1だけ増やす。ただし移動元として玉の数がゼロのマス目が選ばれたなら、選定をやり直すこととします。この操作を100万回繰り返すとどうなるかです。矢野氏は書いています。


ランダムにマス目を二つ選んで、一方から他方に玉を1個移す。そして、これを繰り返してみよう。もともと、ランダムに置いた玉なのだから、そこからランダムにマス目を選んで、玉を動かしても、結果は変わらない、と思うだろう。この問題を多くの人に出題してみたが、全員が「結果は変わらない」と答えた。

矢野和男
『データのみえざる手』

矢野氏が問題を出した相手の多くは「理系で博士号を持つ人」とのことです。しかし結果は、理系で博士号を持つ人の直感(や私の直感)を完全に裏切るものです。やってみると次の図のようになります。

UDistribution2.jpg
図B 玉の移動をランダムに行った結果
ランダムにマス目を2つ選んで、一方から他方に玉を1個移す。これを100万回繰り返した結果である。表示色は前と同じである。全体の約半分のマス目は、黒(110個以上の玉)か、白(49個以下の玉)になってしまう。

この図において、50~109個の玉が入っているマス目(=赤のグラディエーション)は、900 の約半分の 435 しかありません。逆に110個以上の玉が入っているマス目(黒色)は全体の約1/4、222あります。49個以下の玉の数のマス目(白色)も全体の約1/4の 243 ある。一見して分かるように、黒と白が目立つ「まだら模様」になっています。正規分布と同じようなランダムな分布になるという直感に全く反しているのです。シミュレーションごとに色塗りのパターンは変動しますが「白と黒が目立つまだら模様」は変わりません。その具体的な数値をグラフで示すと次の図になります。

U-Distribution3.jpg
マス目の玉の数の分布グラフ
‐ 図Aの分布(左)と図Bの分布(右) ‐

グラフの縦軸は1つのマス目に入っている玉の個数、グラフの横軸はその個数の玉があるマス目の数である。

図Aの分布(グラフ左)では、玉の個数が75~84付近のマス目が最も多く、この近辺の +- 30 程度に集中したグラフとなる。いわゆる正規分布(ガウス分布)である。

玉の移動を行った後の図Bの分布(グラフ右)では、ランダムに玉を配置した図Aの分布は全く崩れてしまい、数個の玉しかないマス目から200以上の玉があるマス目までの大きな「格差」が生じる。

図Bの分布(グラフ右)では、最大の玉をもつマス目には228個もの玉が集まっています。平均値80の3倍近い。一方、最小の玉の数のマス目は、玉の数がゼロです。玉の数4以下のマス目は25個もある。かなりのバラツキが発生しているわけです。これはたまたまというわけなく、何回やってもそうなります。ゼロ個のマス目は必ず数個以上はできるし、300個以上の玉が集まるマス目ができることもある。矢野氏によると、実はこの結果がボルツマン分布だといいます。

このボルツマン分布は、全体の玉の数が一定(72,000個)という条件のもとに、各マス目の間で玉を「自由に」やりとりした結果です。ここにU分布との類似性があります。U分布も、1日の腕の動きの総数である7万回を、各1分間にどう分配するか、多く分配すべき時間があると、どこかを減らす必要がある。それを人間が無意識にやりとりした結果がU分布だというわけです。矢野氏は次のように説明しています。


ここで「やりとり」するのは、どの時間に腕を動かすかである。腕の動きは1日7万回と総数がおおよそ制約されているなかで、我々は腕の動きを優先度に合わせて調整しているのだと考えられる。

たとえば、午前は活動量(腕の動き)を抑えて、午後の顧客への提案に全力投球する(腕を激しく動かす)ことがこれにあたる。あるいは、11時までの書類の締め切りに集中して(腕を活発に動かして)、その後は一息つく(腕の動きを少なくする)というのもあるだろう。腕の動きという有限の資源を、優先度の低い時間は温存し、優先度の高い時間に割り当てる、というのが「腕の動きのやりとり」である。おそらく我々は、無意識のうちにもっと細かな行動の調整を無数に行っているのだろう。この最適化を毎分、毎時、毎日行っているわけだ。

矢野和男
『データのみえざる手』(1章)

最初あげた正規分布と、玉の移動を100万回繰り返したボルツマン分布を比較すると、正規分布は比較的均一ですが、ボルツマン分布は「まだら模様」です。この「まだら模様」が意味することについて、矢野氏は次のように書いています。


この玉の分布がまだら模様になるということは、たとえていえば、マス目とマス目の間での「貧富の差」が生じたということでもある。玉がたくさん配分された富めるマス目とあまり配分されなかった貧乏なマス目が、自然に生じたことになる。これを生じさせたのは、マス目とマス目の間で繰り返された玉のやりとりである。

おもしろいのは、どのマス目にも等しい「機会」があったのに、結果は、特定の少数のマス目に玉が集まってしまうところだ。「平等なチャンス」が与えられても、「不平等な結果」が必然的に生まれるわけだ。公平な「やりとりの繰り返し」は、必然的にこのような不平等をもたらすのだ。

特定のマスに玉が集まる偏りが、そのマス目の特有の事情、たとえば能力の差のようなものによってもたらされるのではなく、平等なやりとりの繰り返しのみに起因することを忘れてはならない。能力の差のようなものを仮定しなくても、確率によって偏りは生じる。いわば「繰り返しの力」がこの「貧富の差」をもたらしている。

余談になるが、これは自給自足で生きていた人間が、経済取引をはじめることで、貧富の差が現れたことの素朴なモデルになっていると思われる。

矢野和男
『データのみえざる手』(1章)

ここで矢野氏が言う「貧富の差」というのはあくまで「たとえ」でしょう。しかし覚えておくべきは、

平等なチャンスにもとづく "やりとりの繰り返し" が大きな差を生む
機会が均等だからこそ格差が生まれる

という、シミュレーションから判明する事実です。私がパソコンで確かめたプログラムも、どのマス目に玉を入れるか、どのマス目からどのマス目に移動させるかで、マス目の番号を陽に指定したことは全くありあせん。あくまで、0以上1未満の乱数を作り出す random() という関数で得られた実数値から1~30の整数を作りだし、該当するマス目の玉を出し入れしただけです。特定のマス目が有利だとか不利だとかは絶対にありえない。それにもかかわらず、大きな格差が生まれる。

さらに矢野氏の指摘です。


我々は、物事には原因があると考えがちだ。「富める人には、そうではない人とは何か行動に違いがあるはずだ」と結果の背後に原因を追求したくなる。しかし実際には、多数のやりとりがあると、確たる原因がなくとも特徴的な偏りが生まれる。資源(この場合は玉)の分配が偏るのは、決して能力や努力によるものではなく、「やりとりの繰り返し」による統計的な力であることは忘れてはならない。実社会では、自然に生じるこの配分のばらつきに加え、能力の差があるためにさらに貧富の差が拡大するのだと思われる。

この「繰り返しの力」を背景にした「資源配分の偏り」こそが、幅広い人間行動や社会現象を説明するのである。これを理論化したのがU分布である。

矢野和男
『データのみえざる手』(1章)


理系の思考で人間にアプローチする


以下は『データのみえざる手』(の第1章)を読んだ感想です。

 科学的方法 

まず思うのは、著者の態度は徹底的に科学的方法論にもとづいていることです。センサー技術を使ってデータを精密にかつ大量に採取し、それをコンピュータで分析し、そこから法則を見つける。その法則を理系学問の知見(第1章の場合は統計力学のボルツマン分布)を応用しながら説明しようとする・・・・・・。この科学的アプローチには好感がもてました。

思い起こすと「理系学問の知見が、人間や社会の理解に役立つ」という視点の記事を過去に二つ書きました。No.56「強い者は生き残れない」では、「生物が進化の過程で生き残る条件」と「企業の生き残り、存続の条件」が極めて似通っていることを書きました。そこでは「共生」と「協調」が生き残りのためのキー概念になっていました。

また、No.69-70「自己と非自己の科学」では、人間の免疫システムが持つ「冗長」「多義」「多様」「ランダム」「偶然」といった特徴が、社会における複雑な組織体の姿とよく似ていることを書きました。

『データの見えざる手』においても、物理学(統計力学)における分子の運動と、人間の体の動きの類似性が指摘してあります。あくまでアナロジーに過ぎないと思うし、同列に論ずることは出来ないはずです。しかし、「大量にあるものの個別の動きを知らなくても、全体としてマクロ的に言えることがある」という、物理学(統計力学)の基本的な考え方を参考にしつつ、人間の行動を説明するのは大いにアリだと思います。つまり「考え方を参考にする」わけです。

本書は「理系学問の知見、考え方が、人間や社会の理解に役立つ」という例の一つだと思いました。

 我々は直感に裏切られる 

マス目に玉を出し入れするシミュレーションからわかることは、繰り返して書くと、

平等なチャンスにもとづく "やりとりの繰り返し" が大きな差を生む
機会が均等だからこそ格差が生まれる

ということです。これは我々の直感を裏切っています。なぜこのような結果になるかというと、"平等" とか "均等" とか言うけれど、それは平等や均等なチャンスということであってチャンスが実際に訪れるかどうかは確率的にバラツクからです。かつ、全体の資源の総量が一定だということにも起因している。資源がどんどん生まれる状況では、バラツキは生まれるものの、それは平均値の周囲の「おだやかな」バラツキになる。しかし総量が変わらない前提で資源を何回も繰り返してやりとりすると、大きな偏りが生まれる。これは、いわゆるゼロサム・ゲームというやつですね。株式の売買益で利益を得ようとすると、それはゼロサム・ゲームなので、誰かが得をすると誰かが損をする。それと同じです。

No.149「我々は直感に裏切られる」の中で、バースデー・パラドックス、巡回セールスマン問題、6次の隔たりなどの「直感を裏切る」例をあげましたが、これらは主として組み合わせの膨大さが人の想像を超えることに起因するものでした。今回の「マス目の間の玉のやりとり」はそれらとはまた違った「繰り返しが生む意外な結果」だと言えるでしょう。

 コンピュータは現代の顕微鏡 

コンピュータは現代の(21世紀の)顕微鏡、ということからこの記事を始めたのですが、その感を強くしました。ただしこの「顕微鏡」が有効に働くためには、それに与えるデータを取得する技術の発達が欠かせません。その例がリスト・バンド型のウェアラブル・センサーだったわけです。

とはいえ、ウェアラブル・センサーから得られるデータは1年間で1人当たり20億個にもなります。このレベルの膨大なデータから法則性を導き出すのが、コンピュータとそこで走らせる分析プログラムです。今後もこの「顕微鏡」使って人間の行動や社会現象を支配する法則の探求が発展する予感がしました。



ここまでが『データの見えざる手』の第1章の紹介と感想です。この本にはほかに数々の興味ある分析が書かれています。次回にもう一つの分析例を紹介したいと思います。



nice!(0)  トラックバック(0) 

nice! 0

トラックバック 0