SSブログ

No.173 - インフルエンザの流行はGoogleが予測する [技術]

No.166「データの見えざる手(2)」において、『データの見えざる手』という本の著者である矢野和男氏が行った「ホームセンターの業績向上策」の実験を紹介しました。今回はこれと関係のある話を書きます。ホームセンターの業績向上策がどういうものだったか、復習すると以下のようになります。

実験の目的は、あるホームセンター顧客単価(顧客一人当たりの購買金額)を向上させることである。

まず、従業員と客にセンサー内蔵のカードを身につけてもらい、店内における行動と体の動きの全データ(以下、ビッグデータ)を詳細に記録した(2週間分)。

次に、人工知能(AI)の技術を利用し、顧客単価に影響がありうるデータの組み合わせ、約6000項目を自動抽出した。

それらの項目の実測データとレジでの購買データを付き合わせ、相関関係をチェックした。

その結果、「従業員の滞在時間が長いと顧客単価があがる特定の場所=ホットスポット」の存在が明らかになった。

従業員がホットスポットに意図的に長く滞在するようにして実測したところ、実際に顧客単価が上昇した。

という経緯でした。この話のポイントは2つあります。

ビッグデータを網羅的に全部収集した。

目的(顧客単価の向上)と相関関係にありそうな項目を、AI技術を使って自動抽出した。

の2点です。①についていうと、従来行われていたサンプリング(サンプル従業員、サンプル顧客、サンプル時間帯)ではないところに意義があります。とにかく「人の行動と体の動き」に関するデータを網羅的に全部集めた。ここがポイントです。これを可能にしたのがセンサー技術とIT技術の発達です。また②に関しては、人間が経験に基づいて仮説(=顧客単価の向上と相関関係にありそうな項目)を設定するのではなく、AI技術を使ってコンピュータが網羅的に設定したのがポイントです(約6000項目のデータの組み合わせ)。



ところで、以上の「ホームセンターの業績向上策」と類似の話が『ビッグデータの正体』(講談社 2013)という本に載っていました。アメリカの事例ですが、それを紹介したいと思います。本の著者は、ビクター・マイヤー=ショーンベルガー(オックスフォード大学教授)とケネス・クキエ(英・エコノミスト誌)の二人です。


インフルエンザの流行予測


ビッグデータの正体.jpg
ビクター・マイヤー=
ショーンベルガー
ケネス・クキエ
「ビッグデータの正体」
(講談社 2013)
2009年、新型インフルエンザである「H1N1ウイルス」が発見されました。鳥インフルエンザ・ウイルスと豚インフルエンザ・ウイルスが部分的に組み合わさり、人間に感染する新型ウイルスが出現したのです。

米国の場合、インフルエンザのような感染症の実態を把握し、対策を指示するのは疾病予防管理センター(CDC)と呼ばれる政府機関です。2009年のインフルエンザの場合もCDCは全米の医療機関に報告を求め、それを集計してインフルエンザの流行状況を公表しました。

しかし、CDCのデータ集計には問題点がありました。一つは医療機関からCDCへの報告のズレであり、情報としては1~2週間前のものが集まることです。そもそも感染患者は具合が悪いと感じてから病院に行くまでに数日かかるのが普通です。またCDCの集計と公表は1週間ごとでした。あれこれの要因で、CDCの公表データはインフルエンザ流行の実態から2週間程度遅れていたのです。新型インフルエンザのように人々に免疫がなく感染力の強い病気の場合、2週間の遅れは、的確な対策を講じる上で "致命的遅れ" になりかねません。

ところが、2009年のH1N1ウイルスがマスコミをにぎわす数週間前、グーグルのチームが有力科学論文誌「ネイチャー」で注目すべき発表をしていました。米国の冬のインフルエンザの流行を州単位まで予測できたという論文です。グーグルが予測のもとにしたのは人々の「検索行動」です。グーグルでは、2009年当時でも1日 30億件の検索が全世界で実行されていて、グーグルは長年にわたってそれを蓄積していたのです。


グーグルは、まず米国人が検索時に入力した言葉のうち、上位5000万件を抽出した。そして2003年から2008年までの季節性インフルエンザの流行に関するCDCのデータとの相関関係を調べた。つまり、インターネットでの検索内容から、インフルエンザ・ウイルスの感染状況が明らかになると考えたわけだ。実はグーグル以外にも、インターネットの検索データを使って感染状況を把握しようとする動きは過去にもあった。しかし、データ量、処理能力、統計処理のノウハウでグーグルが群を抜いていた

マイヤー=ショーンベルガー、クキエ
『ビッグデータの正体』(講談社 2013)

インターネットでどのようなキーワードを検索をするかは、人々のその時点での関心事そのものと言えるでしょう。従って、感染症の流行と検索語に相関関係があるはずと考えるのは自然な発想です。しかしその発想を実行に移すには、ビッグデータを利用可能な形で蓄積していることと、コンピュータのパワー、そして分析技術が必要なのです。上の引用はそのことを言っています。


人々がネットでインフルエンザ情報を探すときは、「せきの薬」や「解熱剤」といったキーワードで検索するはず、とグーグルのチームは推測した。しかし、それが何かはわからないし、そんなことにいちいち注意を払うようなシステムに設計されているわけでもなかった。グーグルのシステムは、各検索語の使用頻度と、インフルエンザ感染の時間的・空間的な広がりとの間の相関関係の有無を見ていただけだ。グーグルは、合計4億5000万にも上る膨大な数式モデルを使って検索語を分析し、CDCが提供している2007年、2008年の実際のインフルエンザ症例とグーグルの予測を比較検討した。そこで彼らは大変なことに気付く。特定の検索語45個と、ある数式モデルを組み合わせたとき、グーグルの予測と公式データの間に高い相関関係が見られたのだ。

『ビッグデータの正体』

「合計4億5000万にも上る膨大な数式モデル」と書かれているところは、冒頭に引用した「ホームセンターの業績向上策」における「6000項目のデータの組み合わせ」と、本質的には同じことでしょう。その中に「宝物」が潜んでいた。

インターネットにおける人々の検索というのは、玉石混交です。自分がインフルエンザにかかったのではと思う人は検索するでしょうが、単なる興味もあるだろうし、ワクチンを製造する製薬会社の株購入を検討している人もいるはずです。とにかく種々雑多であることはだけは確かです。そもそもインフルエンザが流行している時にも "普通の風邪" をひく人だっていっぱいるわけです。従って「咳の薬」や「解熱剤」という検索ワードが増えたからインフルエンザが流行しているとか、そういった単純なことには絶対にならないのです。

「意味」を考えていてはダメなのですね。あくまで膨大なビッグデータをもとに、統計処理で(AI技術でと言ってもよい)インフルエンザの流行と関係のありそうな4億5000万種のデータの組み合わせを自動抽出し、それとCDCの流行データとの相関関係を網羅的に全部チェックする。その結果判明したのが「検索語45個を使ったある数式」だった。

おそらくグーグルの技術者にも、この検索語45語からなぜ流行が推定できるのか、分からないのではないでしょうか。45語の中に「咳の薬」や「解熱剤」が入っていることは間違いないと思いますが、残りは43語もあります。医療関係者や社会衛生の専門家、心理学者を集めて検討したとしても、その43語は分からなかったに違いありません。インフルエンザの流行予測という視点からすると「玉石混交」である検索データは、そのほとんどが「石」だったはずです。しかし検索語45個を使うことで中から「玉」が現れた・・・・・・。


つまり、CDCと同じようにグーグルもインフルエンザがどこで流行しているのか特定できることになる。両者に決定的な違いがあったとすれば、グーグルは1~2週間遅れではなく、ほぼリアルタイムに特定できた点だ。

その結果、2009年にH1N1ウイルスによる新型インフルエンザ危機に見舞われた際、どうしても報告手順に遅れが生じる政府の公式データよりも、グーグルの方がはるかにタイムリーで有効な指標になることが判明した。公衆衛生当局に貴重な情報が蓄積されていたことは間違いない。一方、グーグル方式は、口の粘膜を綿棒で採取する検査もなければ、医療機関との接触もない。

『ビッグデータの正体』

このグーグルの事例は、冒頭の「ホームセンターの業績向上策」と本質的に同じです。つまり、「網羅的に集められたビッグデータの中から、目的とする情報と強い相関関係をもつ "データの組み合わせ" をAI技術で見いだした」という点で "全く同じ" です。社会衛生と店舗の営業業績は性質の異なる問題ですが、ビッグデータとAIに問題を還元できれば同様の手法で解決できることを、この二つの例は示しています。


ビッグデータの分析から分かること。


『ビッグデータの正体』という本には、グーグルが行ったインフルエンザの流行予測以外にも、いろいろと興味ある事例が紹介されています。AI技術を使ったもの、使わないもの、さまざまですが、いずれもビッグデータの解析をビジネスや研究に生かしたものです。そのうちの3点を紹介します。



No.149「我々は直感に裏切られる」で、アルバート = ラズロ・バラバシ教授の『新ネットワーク思考』という本から「6次の隔たり」という仮説を紹介しました。この本を書いたバラバシ教授の研究が『ビッグデータの正体』に出てきます。


アルバート = ラズロ・バラバシと言えば、さまざまなネットワークの研究を手がける世界的権威である。そのバラバシ率いる研究チームが、全国的な規模で「人々の交流のあり方」の研究に乗り出した。国民の約5分の1に相当するユーザ数を抱える携帯電話会社に協力を依頼、匿名処理された4ヶ月分の通話データを分析した。「N=全部」のデータを基に、社会レベルでネットワークを分析した研究としては初の試みだ。一定期間に何百万人もの人々の間でやりとりされたすべての通話を分析した結果、従来のやり方では到底見つけられそうにない新たな事実が浮かび上がってきた。

『ビッグデータの正体』

「人々の交流のあり方」というような社会科学の分野において、従来の研究手法は「サンプリング(標本)調査」しかなかったわけです。あるコミュニティー(町、組織など)を選び、アンケート用紙を配り、あるいは面接調査をする。もちろん全員の調査はできないことが多いので、標本の抽出が必要であり、どのように抽出するかが非常に重要です。「全体の傾向を表す、少ない標本」の選び方が研究の最重要事項と言ってもいいでしょう。

しかし携帯電話の通話記録をもとにするという方法では、サンプル抽出の必要はありません。国民の約5分の1と書いてあるので、アメリカ人の4000万人とか5000万人とか、そういった数です。全国民というわけではありませんが、このレベルの数となると実質的にアメリカ人全員と言っていい数字です。サンプルの数(N)は "全部" である。「N=全部」とはそのことを言っています。その全員の4ヶ月間の通話記録を網羅的に調査したわけです。その結果、新たな発見があったと言います。


おもしろいことに、小規模の調査とは違う結果だった。あるコミュニティ内で多くの接点をもつ人がいなくなると、残った人々の交流は低下するものの、交流自体が止まることはない。一方、あるコミュニティの外部に接点を持つ人がいなくなると、残った人々はまるでコミュニティが崩壊してしまったかのように、突如として求心力を失う。

注目に値する話で、まったく予期していなかった結果だ。ある集団内の交友関係を盛り上げているのは、その集団内に親友の多い人だろうと思われがちだが、実は、集団外部の人々とつながりを持つ人間のほうが盛り上げ役になっていたのだ。つまり、集団や社会の中では、多様性がいかに大切であるかを物語っている。

『ビッグデータの正体』

分析の具体的な手順は書いていないのですが、容易に想像できるは次のような手順です。

通話頻度が高い人の間で構成されるネットワークを分析し、そのネットワークを人間集団の「かたまり=クラスター」に分解する。つまり、クラスターの内部では頻繁に会話が行われ、クラスター内とクラスター外の会話は少ないようにクラスターを選び出す。

クラスターの4ヶ月間の時間的な通話量を追いかける。この中から、ある時点を境に全体の通話量が激減したクラスターを見つけだす(全体通話量が激減したものは、交友関係が減少したものとみなす)。

一方、クラスターからいなくなった人(退出者)がいるかどうか調べる。ある時点からクラスターでの通話がなくなった人(激減した人)は退出者と見なせる。

退出者の存在と、クラスターの全体通話量の激減の相関関係を調べる。相関関係があるのなら、退出者のクラスターでの位置づけを調べる。

この結果、クラスター外部との通話が多い人が退出者となった場合に、クラスターの全体通話量が激減することが分かった。

詳細手順は分かりませんが、ほぼこのような手順だと想像できます。この手順において「通話量が多い・少ない」「通話量が激減」「退出者」などを判定するには、それなりの "しきい値" やロジックが必要です。このあたりをどう決めればよいのか、その決め方には試行錯誤があったと考えられます。

この分析は「匿名化(暗号化)された携帯電話番号と、その携帯電話の時系列の全通話記録」というデータさえあればできます。逆に言うと、かたまり(クラスター)が何なのかは不明なはずです(暗号化されているのだから)。それは地域のサークルかもしれないし、企業のある部門かもしれない。また「退出者」がクラスターからいなくなった理由も不明です。引っ越しかもしれないし、死亡かもしれない。入院かもしれないし、転勤かもしれません。

とにかくこの調査手法では分からないことがいっぱいあるのですが、逆に言うと、それだけ「汎用的」「一般的」な「交友関係を盛り上げる原理」が見つかったことになります。さらに従来のサンプリングとアンケート(面接)調査では「キーマンがいなくなったら、交友関係はどう変化するのか」といった調査は非常に難しいわけです。運がよければそういったサンプルにぶつかるでしょうが・・・・・・。しかし4000~5000万人の通話記録の全数分析をすれば、中にはそういう事例があり、その原因が推定できるわけです。まさに「N=全部」の威力と言えるでしょう。

引用の最後にある「集団や社会の中では、多様性がいかに大切であるかを物語っている」というのは、この結果だけからは言い過ぎだと思いますが、新たな知見が得られたことは確かだと思います。



個人のライフスタイルのデータを抽出し、そこから健康リスクを算出するという、保険会社の例も紹介されていました。


英国の大手保健会社アビバは、特定の保健加入申込者について、採血・採尿による診断の代わりに、与信情報や消費者マーケティングデータを活用できないか検証中だ。高血圧や糖尿病、鬱病の発症リスクが高いかどうかの判断に使うという。趣味、閲覧するウェブサイト、テレビ視聴時間、推定所得などといった数百種類ものライフスタイルのデータが使われている。

アビバの予測モデルは、デトロイトコンサルティングが開発したものだが、健康リスクの特定に使えると評価する企業は多い。プルデンシャルやAIGといった保険会社も同様の方式の導入を検討しているという。保健加入申込者にとっては、面倒な採血や採尿が不要になるメリットがあるし、保険会社側も1人当たり125ドルのコスト削減になる(純粋なデータ主導型なら5ドルで済むのだ)。

『ビッグデータの正体』

善悪判断は別にして、このようなことも現実味を帯びてきた時代だという認識は必要でしょう。また、個人のライフスタイルまで "筒抜け" になりかねない時代という認識も必要です。



ビッグデータの活用例として有名なアマゾンの「おすすめ」機能(リコメンデーション)も本書に紹介されています。アマゾンはユーザの閲覧履歴・購入履歴を蓄積し、そこからリコメンデーションを行っています。しかし初期のシステムは、

  ポーランドの書籍を1冊買っただけで、東欧関係の書籍案内が怒濤のごとく送られてきたり、赤ちゃん関係の書籍を買えば、似たような本の紹介であふれかえる(本書)

ようなリコメンデーションだった。つまり、

  前回の購入書と大差ない書籍を延々と紹介し続けていた。客にしてみれば、はた迷惑な店員につきまとわれながら買い物をしているようなものだった(本書)

わけです。この状況を大きく変えたのが、ワシントン大学の博士課程で人工知能を研究していたグレッグ・リンデンという人です。彼は地元のアマゾンで働きだしました。彼はリコメンデーションの問題点を解決する方法が分かったのです。


グレッグ・リンデンの頭の中には解決策が浮かんでいた。顧客全体の買い物内容から共通項を探るような機能は商品推薦システムには不要だと気づいたのだ(技術的にも面倒な機能だ)。重要なのは、一見関係のなさそうな商品同士の相関関係を見つけることだった。(中略)この手法に切り替えたことが大きな転換点になった。

相関関係の計算はあらかじめ済ませておけるので、おすすめ商品は即座に表示できる。また、汎用性も高く、商品カテゴリーにまたがるおすすめも可能だった。アマゾンが書籍以外の商品の販売にも手を広げると、ビデオやトースターなども推薦できるようになった。しかも、あらゆるデータを利用するため、おすすめの精度がはるかに高まった。
『ビッグデータの正体』

村上春樹の本を購入した人に、村上春樹の新刊の「おすすめ」を表示する。これはよく分かります。そういう購買行動をする人(村上ファン)が多いからです。しかしアマゾンの「おすすめ」では、村上春樹の本を購入した人に、ある特定メーカーのトースターの「おすすめ」がされることがありうるわけです(これは、上の引用にトースターとあったための架空の例です)。「村上春樹の本」と「特定メーカーのトースター」に購買行為の相関関係が強ければ、そういう「おすすめ」になる。アマゾンはなぜそういう相関関係があるのか知らないわけです。いや、知る必要はないのです。もし理由を考えるとしたら「村上春樹の(ある)小説の主人公が、そのトースターを愛用していたのか?」となるでしょう。確かにそうかも知れない。しかしそれも仮説に過ぎません。

理由や因果関係を推定したり顧客をカテゴリーに分類することは必要ないし、むしろ有害なのです。有害というのが言い過ぎなら、労多くして実りが少ないということでしょう。大量のデータに語らせる、つまり大量データに含まれる相関関係に注目すればよいのです。


ビッグデータの本質


以上、紹介したのは5つの事例でした。

ホームセンターの業績向上策
インフルエンザの流行予測
人々の交流関係を盛り上げるのは誰か
ライフスタイルのデータから健康リスクを推定する
アマゾンのリコメンデーション(おすすめ)

の5つですが、これらに共通している事項があります。

 質より量 

まず言えることは、分析のもとになったデータには「無関係データ」がいっぱいあるだろう、ということです。つまり、分析の目的には全く関係のないデータです。それどころか、中には意図的に歪曲されたデータさえあるでしょう。

しかしそうであっても、大量に集めれば分析技術によって本質(目的)に到達できる。質の良い少量のデータではなく、大量のデータ(ないしは全部のデータ)を集め、それを質に転化させる。各事例に共通している点です。

 因果関係より相関関係 

共通している2番目は「因果関係」や「理由」を問題にせず、相関関係だけに着目していることです。私たちはどうしても理由を求めます。事象の裏にある「因果関係」を知りたがります。それは人間のさがともいえる。科学の発達は、因果関係を知りたい、原因を知りたいという欲求が大きな動機でしょう。

しかしその一方で、理由は分からないが「Aという入力をするとBという結果が出た」「Aが多いとBも多い」という相関も大切なのですね。数百年続く職人技術はすべてそうです。先人たちの膨大な試行錯誤の積み重ねから、結果がよいものが選択され、絞り込まれて「技術体系」になっている。今から考えるとそれは「科学的に見ても正しい」となるのですが、それは結果論です。正しい理由があって体系ができたのではありません。これは伝統技術だけでなく、現代のものづくりの現場での品質向上活動や改善活動も同じだと思います。



こういった「質より量」「因果より相関」という流れの中では、専門家のありかたも変化してきます。『ビッグデータの正体』には次のように書かれていました。


ビッグデータ活用コンテスト「カグル」の入賞者を見ると、門外漢の分野でめざましい成果を上げている。保険金支払い請求を予測し、欠陥の多い中古車を特定するアルゴリズムを開発したのは、英国の物理学者だし、化学物質に対する生物学的反応を予測するコンテストで優勝したのは、シンガポールのアクチュアリー(保険数理専門家)である。グーグルの機械翻訳グループでは、メンバーの誰1人として話せない言語の翻訳に取り組んでいる。マイクロソフトの機械翻訳部門の統計専門家らは、「言語学の専門家がチームから去るたびに翻訳の質が上がる」と皮肉る始末だ。

『ビッグデータの正体』

「因果」の専門家と「相関」の専門家は違うということでしょう。もうすこし広く考えると、さきほど書いた「ものづくりの現場での品質向上活動や改善活動」も同じと思います。現場で品質向上の中心になっているのは、現場で働いている人たちです。学歴もさまざまで決して専門家ではない人たちの改善提案、アイデアです。一方で生産技術の専門家が必要であり、その一方で現場の知恵の集積がある。それが "ものづくり企業" の強さです。この両方が必要ということかと思いました。

こういった「質より量」「因果関係より相関関係」をさして『ビッグデータの正体』の著者は「価値感の転換」と言っていますが、それはちょっと大袈裟だと思います。人間社会に昔からある "2つのものの見方" であり「帰納か演繹か」「論理か統計か」といったことともつながる事項です。

ただ、現代のデジタル技術、情報技術は、扱えるデータの規模と網羅性が格段にアップしました。これにはデータを集めるセンサーの発達も大きく寄与しています。またそれを分析する統計処理や人工知能関連の技術も進化した。さらにコンピュータのパワーが急激にアップしました。今、日本を含む世界で、ビッグデータを分析して得られた知見をビジネスから農業・漁業にまで生かそうという動きが急速に進んでいます。

「データそのものに語らせる」のは昔も今も重要ですが、昔は「一部のデータ」「選んだデータ」「特徴的なデータ」だった。そこに既に人間の判断が入っていた。そうではなく「すべてのデータに語らせる」ことができるようになった。そこが重要だと思いました。





nice!(0)  トラックバック(0)