« プロの編集者の知恵を情報発信に生かす(2012年/12) | メイン | 「民主主義と文化を支える」メディアと軽減税率(2013年/2) »

2013年03月03日

ミクロなデータからマクロな傾向を探る(2013年/1)

 新年は「ビッグデータ」という言葉が流行語になるかもしれない。ビッグデータとはデータの巨大な塊だが、塊を形成しているデータそのものはきわめて小さい。個人一人ひとりがもっているさまざまなデータを個別に引き出し、集中的に分析して、一定の傾向を探ろうという技術だが、これを研究やビジネスに役立てようという動きが加速しそうである。

 「東日本大震災ビッグデータ・ワークショップ」が昨秋、東京大学本郷キャンパス工学部2号館で開催された。音頭をとったのはツイッター、グーグルといったIT企業の日本法人である。東日本大震災発生直後からテレビや新聞、インターネットを通じて流れた大量の情報がどのように発信され、流通したのかを具体的なデータを元に検証しようとする試みだった。

ビッグデータ・ワークショップ
 
 パートナー企業から提供されたデータは、3月11日から1週間の新聞記事(朝日新聞)、検索キーワードの時間遷移や地域比較(グーグル)、震災直後のテレビ放送テキスト要約データ(JCC)、8日から17日までの混雑統計データ(ゼンリンデータコム)、11日から1週間のツイート(ツイッター)、NHK総合テレビの大震災発生直後から24時間の放送音声書き起こしと頻出ワードランキング(NHK)、11日から17日までのHonda車の走行実績データ(ホンダ技研)、鉄道情報、原発事故、停電などのライフライン情報(レスキューナウ)などである。研究発表の様子などはいまでもウエブで確認できる。

 まず注目すべきは、これだけの情報が常に集められ、蓄積されているという事実である。第二に、それらのデータが強力なコンピュータの力で処理されることで、震災時の私たちの行動をマクロに俯瞰できる、ということである。スマートフォン、カーナビなどの情報機器やそれを使っての私たちの情報活動が、データとなって集められ、分析されている。

非構造化データも処理

 ビッグデータはミクロな個人データの集まりからマクロなトレンドを引き出す技術と言ってもいい。
 
 卑近な例で説明しよう。
 
 たとえば駅前商店街の魚屋は、顧客Aさんがキハダマグロのトロに目がないことを知っている。だからその上物が手に入ったら、店の前を通りがかったAさんを呼び止める。あるいは地方のコンビニの機転のきく主人は、Bさんが店に入ってから出ていくまでにどういうルートで店内を歩き、何を買い、どの商品の前で立ち止まったか、手にとったにもかかわらず買わなかった商品は何か、ということを観察して、Bさんの趣向を推定する。顧客の大方の傾向がわかれば、それらの情報は仕入れに生かせる。バーコードを使ったPOS(販売時点情報管理)システムで商品の売上、在庫、顧客ごとのデータなどは把握できるけれど、こまかい顧客の店内での行動がわかれば、さらに細かな販売戦略が立てられる。
 
 POSデータはデータベース化できるが、顧客の店内移動ルートなどはデータベース化しにくい(これを「非構造化データ」と呼ぶ)。Aさんが店先で「キハダマグロのトロは短冊状にきれいに分離しながらつながって、きれいで、おいしいんですよねえ」と言った言葉は、店主の頭に記録されるだけである。だからこれらの情報を生かすのは店主の才覚だった。
 
 ところが、である。
 
 オンラインショッピングにおいては、何が売れたかということはもちろん、ウエブを訪れたCさんがどのページをどれだけの時間をかけて見たか、どの商品をクリックして、しかも買わなかったか、といったすべての行動履歴が補足できる。
 
 当初は講読商品、価格、個数などのデータだけが処理され、アクセス履歴などは無視されるか、現実の商店と同じように捨てられていた。しかし、グーグル、アマゾン、フェイスブックといった巨大IT企業は、顧客の全履歴ばかりでなく、その人が検索エンジンで何のキーワードを使って検索したか、Gメールなどのウエブメールで何をしゃべっているか、フェイスブックのメッセージに何を書いているか、他人の意見に「いいね!」ボタンを押した履歴など、データベース化しにくい非構造化データまでも収集処理する技術を開発、それを結合して、いろんなかたちで役立てるようになった。
 
 JR東日本の非接触型カードのスイカや首都圏の私鉄や地下鉄のパスモの乗車履歴や、監視カメラによる店内ルートなど現実世界における私たちの行動履歴も、オンライン情報と組み合わせて利用される。まさに個人にまつわるすべての情報がデジタル化して収集され、統一的に補足される。

データは新しい石油

 この手法は、本コラムですでに紹介したように、利用者の興味・嗜好を分析して、よく似た傾向の小グループごとに広告を出し分ける「行動ターゲティング」広告にも使われている。
 
 アメリカでは「データは新しい石油だ(Data is the new oil)」とも言われるらしい。精製された原油が莫大な経済的価値をもたらしたように、データも適切に分析されば、大きな価値を生み出すという意味である。
 
 冒頭のワークショップの例は、ビッグデータの手法を研究に役立てようとするものと言える。他にも、製薬会社がツイッター上の風邪に関するツイートのみを自動抽出し、言語解析によって風邪を引いている可能性が高いユーザーを検出、都道府県ごとに集計したりもしているようだ。

 私たちの行動は用途によって切り分けられ、集められ、分析されて、マクロな傾向を読み取るために使われる。それはそれでいいのだが、データ化されない(データ化以前の)個人一人ひとりのアイデンティティは、膨大なデータの間に埋もれて、結局、消えてしまうのかどうか、これはこれで大いに気になる話である。

投稿者: Naoaki Yano | 2013年03月03日 17:03

トラックバック

このエントリーのトラックバックURL:
http://www.cyber-literacy.com/scripts/mt/mt-tb.cgi/191

Copyright © Cyber Literacy Lab.