2012年3月末、オバマ政権がビッグデータプロジェクトに2億ドル規模の資金を投じると発表して以来、「ビッグデータ」という言葉が一気に脚光を浴びるようになった。はたして、ビッグデータは本当に「宝の山」なのだろうか。それとも、実質以上に過度の期待が寄せられているだけなのか―。

ビッグデータビジネス・コンソーシアムの委員長を務め、ビジネスにおけるビッグデータ利活用の現状をよく知る立場から八面六臂の活躍をされている、国立情報学研究所の佐藤一郎教授に、ビッグデータの本質と活用法、リスク等について話を伺った。

画像: 佐藤 一郎(さとう いちろう)氏 国立情報学研究所 アーキテクチャ科学研究系 教授 1991年、慶應義塾大学理工学部 電気工学科卒業。1996年、慶應義塾大学 理工学研究科大学院 計算機科学専攻 後期博士課程修了。博士(工学)。同年よりお茶の水女子大学 理学部 情報科学科 助教授、2001年、国立情報学研究所 ソフトウェア研究系 助教授を経て、2006年から現職。また、総合研究大学院大学 複合科学研究科 情報学専攻 教授を兼任。このほか、1994~1996 年Rank Xerox Grenoble 研究所客員研究員、1999~2002年科学技術振興事業団「さきがけ21(「情報と知」領域)研究員(兼業)」など。専門は分散シ

佐藤 一郎(さとう いちろう)氏
国立情報学研究所
アーキテクチャ科学研究系 教授
1991年、慶應義塾大学理工学部 電気工学科卒業。1996年、慶應義塾大学 理工学研究科大学院 計算機科学専攻 後期博士課程修了。博士(工学)。同年よりお茶の水女子大学 理学部 情報科学科 助教授、2001年、国立情報学研究所 ソフトウェア研究系 助教授を経て、2006年から現職。また、総合研究大学院大学 複合科学研究科 情報学専攻 教授を兼任。このほか、1994~1996 年Rank Xerox Grenoble 研究所客員研究員、1999~2002年科学技術振興事業団「さきがけ21(「情報と知」領域)研究員(兼業)」など。専門は分散シ


「ビッグデータ」とは、現状のシステムで扱いきれないデータのこと

――現在、ビッグデータに大きな期待が寄せられる一方で、どのような成果が得られるのか、よく見えないところがあります。そこで改めてビッグデータとは何なのか、そこから何がもたらされるのか、考えてみたいと思います。

画像: 「ビッグデータ」とは、現状のシステムで扱いきれないデータのこと

現在、世間で言うビッグデータとは、データ量が多いとか、データの種類が多いということを指しているかと思います。ただし、その量や種類がどの程度であればビッグデータと呼べるのか、という具体的な定義はありません。私自身は、自分の持っている情報システムで扱いきれないようなデータ量やデータの種類であれば、ビッグデータと呼んでいいのではないかと思っています。ユーザにとってみれば、データの絶対量が問題なのではなく、自分たちで扱いきれないことが問題なわけですから、それはもはやビッグデータと見なしていいのではないでしょうか。

また、ビッグデータと呼ばれるデータの多くは、「定型化」もしくは「構造化」されていないデータを指します。本来、データというのは定型化もしくは構造化しなければ処理できませんから、ビッグデータの処理とは、定型化および構造化することを意味します。逆に言えば、非定型化データ、非構造化データをコンピュータが扱えるように処理するとデータ量はかなり減りますから、後は通常のシステムで処理できることも多いのです。なかには、Excelのような一般的な表計算ソフトで処理できる事例さえあります。しかし、データの定型化・構造化には相応のコストがかかります。従って、その処理にそこまでのコストをかける価値があるかどうかを見極める必要があるでしょう。
現状、国内において、大量という意味でのビーグデータを持っているのは、ネット系企業など、ごく一部に限られているようにも思います。ただ、ビッグデータ技術は大量データ以外、つまり少量データにも役立つのです。

ところで、ビッグデータというと、ここへきて急に浮上した最先端の概念のように思われるかもしれませんが、従来のシステムで扱いきれないデータ量、データの種類と定義すれば、けっして新しいものではありません。
おそらく最古のビッグデータと言えるのは、1880年ないし1890年のアメリカの国勢調査でしょう。米国では憲法で10年に1回、国勢調査をすることが決められていますが、1880年の国勢調査の集計作業は手作業で行われたため、一説によれば7年かかったと言われています。また、当時は移民が急増していたことから、次の1890年の集計には13年かかると予想されていました。そうなると、集計がどんどん積み残されていくことになる。そこで考案されたのが、紙に穴を開けて、それを読み取って集計するパンチカードマシンです。これにより、1890年の調査は1年かからずに終えることができました。

なお、パンチカードマシンを発明したホレリス(Herman Hollerith)という人はTabulating Machine Companyを設立しますが、これが後のIBMの母体になりました。

つまり、コンピュータがビッグデータを生み出したのではなく、ビッグデータがコンピュータをはじめとする技術を生み出したということなんですね。こうした歴史は、きちんと押さえておく必要があると思います。

データ量が増えているのは、個々の人やモノの情報に価値があるから

――データが技術を進展させた一方で、コンピュータで計算できる量が増えたために、さらにデータが増えているという側面もあるわけですよね?

画像: データ量が増えているのは、個々の人やモノの情報に価値があるから

結果としてはそうかもしれません。でも、コンピュータがデータを増やしているわけではなくて、人間の側にデータを使いたいという需要があるから増えているのでしょう。そこには必ず理由があります。

現在、データが急激に増えている理由の一つは、マーケティングの変化です。1970~80年代では、大量生産・大量消費を背景に、フィリップ・コトラー(Philip Kotler:米の経営学者)が提唱したマーケティング理論に基づいて市場のセグメントを行い、マス市場に対するターゲティング広告を打っていました。ところが現在では、インターネットを通じて消費者の誰もが情報発信できるようになり、市場の主導権を消費者自身が握るようになってきました。その結果、消費者が企業の言うことを信じなくなって、他のユーザの行動を見て動くようになった。例えば、ショッピングサイトで買い物をすると、「よくいっしょに購入されている商品」とか「この商品を買った人はこんな商品も買っています」というレコメンドが表示されますが、まさにこれは、こうした他のユーザの行動情報を活用した取り組みです。

そこで、マーケティングの際に、各ユーザの行動をすべて調べ上げなければならなくなったのです。いままではアイテムごとに日販数や週販数を集計していればよかったですが、ユーザの行動を調べるには、ユーザがこれまで買った商品や、見たWebページなどの情報をユーザごとに調べなければならず、どうしてもデータ量が増えてしまいまいます。
また、データがデータを生み出すという側面もある。ソーシャルネットワークでは、ユーザの書き込みやアップされる写真のデータ量よりも、ユーザをプロファイリングするデータ、すなわち友人と友人の関係や、どんな情報を書き込む傾向があるのか、どういうページに関心があるのかといったプロファイリングデータ量の方が多くなってきている。これが、データがデータを生む構図です。

もう一つは、現実世界にまつわるデータが急激に増えているということ。スマートフォンや車、工場に設置された各種センサなど、現実世界の物理情報がどんどんコンピュータに取り込まれるようになった結果として、爆発的にデータ量が増えている。こうして得られた実データは現実世界の解析はもちろんのこと、さまざまなシミュレーションにも活用されるようになっています。

また、ビッグデータの分析では、単体のデータを深く分析するよりも、違う種類のデータを組み合わせることによって知見が生まれることが多い。これがビッグデータの面白さであり、その分、扱うデータ量が増えることにつながっているのです。

ビッグデータの活用は、収益拡大よりも損失縮小に貢献する

――データを集めて活用したいというニーズがそれだけ大きくなってきているということだと思いますが、うまく活用されているのでしょうか?

画像: ビッグデータの活用は、収益拡大よりも損失縮小に貢献する

少し冷たい言い方になりますが、スモールデータすらうまく扱えない企業に、ビッグデータを扱えるはずはありません。ビッグデータであれば何でも知見が得られると思うのは幻想であって、まずは手近にある小さいデータを有効活用することから始めたほうが賢明です。実際に、「当社ではこれまでデータ分析をちゃんとやってこなかったのだけれど、ビッグデータの解析技術を使えばうまくいくのではないでしょうか」、という相談を受けることがあります。その場合は、「まずは手元にあるデータを見直し、解析をしてください」と伝えるようにしています。ビッグデータ技術は、けっして万能ではありません。

もっとも、ビッグデータが注目されたことで、経営者がデータに関心をもつようになったこと自体は喜ばしいことだとは思っています。

もう一つ、ビッグデータに対して大きな誤解があるのは、多くの人がビッグデータを活用すれば利益があがると思っている点です。確かにそうかもしれませんが、私の知る限りでは、収益を拡大する事例よりも、損失を縮小する事例のほうが圧倒的に多い。損失を予測するというのは、過去に損失を出した事例を蓄積しておき、今動いているビジネスがその事例とマッチしていないかを見ていればいい。収益を拡大につながるデータ上の知見の発見より遥かに簡単なのです。

代表的な事例としては、クレジットカードの不正利用の検知があります。各ユーザの購買データからパターンを見出し、その買い物のパターンにマッチしていなければ、不正利用を疑うという仕組みです。私自身、人に頼まれて、普段買わないモノを、普段買わない場所で買ったら、すぐにカード会社から電話がかかってきました。

実は、ネットゲーム会社やインターネットのサービスプロバイダーなどの多くは、ユーザの退会を防ぐ目的でビッグデータを活用していることが多いのです。退会してしまったユーザの行動パターンを解析し、当てはまる人をチェックして、ポイントを付与したり、キャンペーンを打ったりしている。このような損失縮小のためのビッグデータ活用法というのは、メディア等で紹介されることはほとんどありません。

しかしながら、ビッグデータで先進的な取り組みをしている企業といっても、多くはまだこの段階。今後、重要になるのは、こうした取り組みをさらに一歩進めて、自社の損失だけでなく、顧客の損失縮小にもつなげることができるかどうかにあります。

例えば、リース会社が顧客のリース状況をモニタリングしていて、顧客が使っていないリース品があれば、リース契約の解約を勧める企業があったとしたら、皆さん、喜んで契約しませんか? 当然、解約を勧めれば売上は減るけれど、長い目で見れば長期契約につながり、利益を上げられるようなビジネスモデルになるでしょう。

これに近い段階にある事例を一つ紹介しましょう。あるコピー機の会社では、インターネットを通じてプリンターの利用状況をモニタリングしていて、トナーが減ってきたら、そのコピー機用のトナーを事前に近くの営業所に送るという取り組みをしています。これには、迅速にトナーを顧客に届けるということと、自社の在庫を減らすという二つのメリットがある。このように、顧客の損にならない形でビッグデータを使い、さらに踏み込んで事業に結びつけられるかどうかが、勝負の鍵を握っているように思います。

いずれにしても、ビッグデータ活用で成功した事例というのは、なかなか世の中に出てこないといことを念頭に入れておく必要があります。

現場に裁量権を持たせなければ、「仮説検証」ができない

――ビッグデータが損失縮小に貢献するというのは意外でした。データ活用の前に、データをどう、何に活用したいのか、その方向性を見極めることが重要ですね。

画像: 現場に裁量権を持たせなければ、「仮説検証」ができない

ビッグデータの解析のなかでも特に肝となるのが、「仮説検証」です。ビッグデータを入力すれば自動的にデータの特性がわかるようなシステムは存在しません。このデータにはこういう特性があるだろうという仮説に基づいて、それに応じた分析方法を使って初めて成果が出るのです。つまり、ビッグデータ解析では、仮説を立てることがもっとも重要になります。

そのためには現場の知見が必要です。さらに、ビジネスにおいて、仮説通りうまくいくかどうかは、実際のビジネスの現場で検証するしかない。小売であれば、商品の配列や配置を変えるということを実際にやってみなければ、仮説が正しいかどうかがわからないのです。この場合、重要なことは商品の配置を変えるという現場の判断を許すような企業体質を持てるかどうかにあります。コンビニなどでは、商品の配置はすべて本部で決めて、現場には裁量権が一切ない場合もある。そういう状況下では、ビッグデータの活用は機能しません。ビッグデータから生み出される知見というのは、経営者よりもむしろ現場で活用できるものが多い。そうだとすると、現場に裁量権があるか、さまざまな実験ができるか、失敗が許されるような企業体質かどうか、ということが重要になってくるのです。そうでなければ、仮説検証はできないでしょう。

また、データ特性を見て仮説を立てるのは、一般に「データサイエンティスト」と呼ばれる人たちの仕事だと言われています。しかし実際には、顧客を一番知っているのは現場なんですね。仮にデータサイエンティストに依頼するにしても、現場の知見をつぶさに聞き出すようなコミュニケーション能力がなければ、適切な仮説を立てることは難しいでしょう。仮説検証というのは、統計の知識さえあればできるというものではありません。

アカデミアに身を置く私ですが、一昨年は3週間ほどスーパーの店頭で売り子と品出しを経験しましたし、昨年もデパートで売り子を体験しました。実際にお客さんと話をしなければ、顧客の行動は見えてこないからです。

例えば、POSデータを見て、週に7個、あるヨーグルトが売れるということがわかったとしましょう。データサイエンティストなら、おそらく1日1個か2個売れているのだろうと考えるでしょう。ところが、実際には、ある特定の人が特定の曜日に来て7個まとめて買っていたりする。現場はちゃんとわかっていて、その人が来る曜日に合わせて仕入れているのです。そういう顧客は、もし、次に来たときに欲しい商品がなければ、二度と来ないでしょう。

そう考えると、現場に出入りしている保守の担当者、現場を歩き回っている営業員などの、日々の業務報告の備考欄を大きくして書き込んでもらったほうが、よほど役に立つ知見を得られる可能性が高い。一番重要なのは、現場で何が起きているかを知ることでしょう。そこを見誤ると、役に立つ分析など到底できないのです。

メモリの進化でデータベースが劇的に変わる

ところで、ビッグデータを取り巻く最新技術のトレンドについても、お聞かせいただけますでしょうか。

画像: メモリの進化でデータベースが劇的に変わる

専門的な話なりますが、最近はインメモリ処理といって、ハードディスクの中にデータを置かず、メモリ上で処理をするという動きが出てきています。メモリとハードディスクを比べると、アクセス速度は1,000倍以上違うため、データをすべてメモリ上に置くことができれば、処理速度が格段に上がります。そうすると、リアルタイムで売上の集計ができるうえ、各店舗の端末から全店舗の在庫をリアルタイムで検索するといったことも可能になります。

また、それだけ処理速度が上がるのであれば、データサイエンティストが緻密な仮説を立てて、それを検証しなくても、片っ端から分析して試すことだってできるでしょう。もちろん、メモリですから電源が落ちればデータは消えてしまいますが、現在はバックアップ技術が進んでいるので大きな問題にはなりません。

一方で、電源が落ちてもデータが消えない不揮発性メモリの開発も進んでいます。これは、現在、主記憶に使われているDRAM(Dynamic Random Access Memory)のメモリの微細化技術に限界がきていることから、次世代技術として注目を浴びているものの一つです。その利点として、電源を消しても情報が消えないため、データベースを使っていないときに電源を落とすことができる、いわゆる「ノーマリーオフ」*が実現できるようになることです。これにより、消費電力を大幅に減らすことが可能になります。

また、これまでデータベースではトランザクションといって、ハードディスクにデータを書き出す処理が必要でした。その処理速度を上げるためにさまざまな工夫がなされてきたのですが、その処理が不要となるためデータベースの構造が簡単になります。データベースのアーキテクチャが単純化されることで、新規に参入してくるベンダーも出てくるかもしれません。

さらなる利点として、プログラムを不揮発性メモリに読み込んだ状態で工場からそのまま出荷ができるようになるため、いわゆるウイルスに感染するということがなくなる。外から動くプログラムが混入する余地がなくなるというのは、大きな進化ですね。

* ノーマリーオフ:システムとして稼働していても、必要な主要構成要素以外の電源を落とし、大幅な省電力を実現する技術。

精度の悪いデータでも、大量に集まれば使えるようになる

――技術の進化により、ますます大量のデータが処理できるようになるわけですね。データを大量に扱うことによる利点には、どのようなことがあるのでしょうか?

画像: 精度の悪いデータでも、大量に集まれば使えるようになる

精度の悪い情報であっても、大量にあれば有用な情報になることがあります。ITS Japanが東日本大震災に際して公開した「東日本大震災『自動車・交通実績情報』は、ホンダ、パイオニア、トヨタ、日産自動車が提供したカーナビゲーションシステムの履歴データを基に、被災地で通行可能な道路がどこかを示した事例です。誤差をもつような精度の低い情報であっても、大量にあれば使えるデータになるという好例でしょう。

さらに欲を出して、我々はカーナビ情報から道路の混雑状態を予測できないか取り組んでみました。通常、道路交通センターの情報は1時間単位程度ですが、それを1分程度の精度で割り出せないか試みたのです。ところが、1分単位となると、車が信号機で止まっている情報や、地域のイベントやスーパーの安売りなどで、たまたま道が混雑している情報も拾ってしまう。そうした細かな地域情報まで集めて補正をかけるとなると、大変な手間がかかります。大量にデータを集めれば精度がよくなる反面、欲をかいて精度を上げようとすればするほど、ノイズやある時点のテンポラリーに起きている事象まで拾うことになって、結果的に精度が落ちてしまうのです。分析の前に、どれくらいの精度の結果を求めるのか、匙加減を決めておくことが肝要になります。

もう一つの利点として、データが増えると売上予測の精度を一気に上げることができます。例えば、小売店などでは、これまで、過去13カ月分くらいのデータしか持てなかったんですね。なぜなら、それ以上のデータを持つと集計処理が終わらなくなって、いわゆる「バッチ処理の突き抜け」が起きてしまうからです。つまり、データが多くなると、決められた時間内に処理ができなくなるので、過去のデータを棄てるほかなかった。そうなると、明日の売上を予測しようにも、参照できるのは1年前の売上しかない、ということになります。ところが、天気が違えば、そのデータはほとんど役に立ちません。「雨が降ると肉が売れる」と言われるように、小売業界では、天気は売上を左右する重要なファクターです。もし、何年分かの過去のデータが残っていれば、天気や気温が似通った日の売上データを参照でき、予測精度を一気に上げることができる、というわけです。

もっともこれは、食品系の小売に限った話で、流行がどんどん変化していくアパレル系では通用しません。しかしそうした業界であっても、現在、データを複数のサーバに分割して処理を行うHadoopというビッグデータ処理技術を使うと、これまで売上の集計に4~5時間かかっていた処理を十数分程度でできるようになる。先述したように、売上の集計をリアルタイムで見られるようになるのです。そうなると、売上を睨みつつタイムセールスをかけたり、商品の陳列を変えたりできる。もちろん、こうしたことができるのは、現場に裁量権があり、かつその場で状況を判断して適切に動けるようなインテリジェンスがあるということが前提になります。

このように、今後はスモールデータに対して、ビッグデータ技術を使うという事例がますます増えていくのではないでしょうか。

ビッグデータを抱えることによるいくつかのリスク

――一方で、ビッグデータを扱ううえでのリスクやネガティブな側面にはどのような点があるのでしょうか?

画像: ビッグデータを抱えることによるいくつかのリスク

ビッグデータと呼ばれるデータの多くは、パーソナルデータなので、その取り扱いに関してはいくつか注意しなければならないことがあります。

例えば、水道の使用量とガスの使用量を単体で見ていたのでは気づかなかったことでも、それぞれのデータを組み合わせると、ユーザの行動が見えてくることがある。ガスと水道の使用時間が重なって、何十分か継続していれば、その人がお風呂を沸かしているのだろうと予測がつきます。つまり、データを組み合わせることによって今まで見えなかったことが見えてくるという、ビッグデータ固有のプライバシーの問題が出てくるのです。ところが、データの組み合わせの仕方というのは事前に予測できないため、その問題を前もって把握することが難しい。

もう一つは、集めた個人情報が漏洩した場合、企業は損害補償をしなければならないため、個人情報を持つということはリスクにつながります。ビッグデータがもてはやされて、なんでもかんでもデータを保存すればいいと思われているかもしれませんが、簡単にデータにアクセスできるところからは、適切なタイミングでデータを消しておかなければ、後で大きな損失を被ることがあります。データの取り扱いについては、各社でルールを決めておく必要があるでしょう。

また、ビッグデータで分析した結果を、広告でも何でも活用すればいい、というのも大きな間違いです。例えば、インターネット通販である商品を買ったとしましょう。その商品と同じものを買った別の顧客のデータを活用して、レコメンド情報を表示したとしても、まったく関連のない商品や趣味に合わない商品であれば、かえって逆効果です。このようなネガティブな情報をいかに排除するかがECサイトの課題の一つであり、ビッグデータ活用において気をつけなければならい重要な点だと思います。

今後、ビッグデータを取り巻く技術環境はさらに進化し、その活用が進んでことになるでしょう。ただ、技術がどんどん進化しても、やはりそれを使うのは人間ですから、リスクを踏まえたうえで、インテリジェンスを持って活用していくということが不可欠だと思います。


ビッグデータの活用のされ方から現場の裁量権の重要性、メモリ技術の進化など最新の技術トレンド、さらにはビッグデータを扱うことによるリスクに至るまで、現実に即した話を伺うことができ、大変有用なインタビューとなりました。

折しも、佐藤先生は現在、内閣府の「パーソナルデータに関する検討会」の技術検討ワーキンググループ主査も務められています。

個人情報保護とビッグデータ利活用を両立させるため、個人情報保護法改正など、国としての重要な方針を検討されている最中にお時間を割いていただきましたことに、心より感謝いたします。

(取材・文=田井中麻都佳/写真=秋山由樹)


関連リンク

このシリーズの連載企画一覧

「オープン・イノベーション」協創の手法
IoT×経営 日本版インダストリー4.0が「ものづくり」を変える >
「オープン・イノベーション」成功の条件 >
リーン・スタートアップ×経営 >
社会を変えるM2Mビジネス >
ITリスクの本質と対応策 >
ビッグデータ活用の鍵 >

This article is a sponsored article by
''.