ビッグデータとは何か
実は、ビッグデータは、すでに大概の人が、それと気付かぬうちに恩恵にあずかっている。例えば、インターネットで調べものをしていたとき、検索語を誤入力したにもかかわらず、検索結果が正確に表示された経験はないだろうか。あるいは、イーコマースサイトで買い物をしているとき、自分の気になっている商品やその関連商品が、お薦め商品として表示されたことはないだろうか。よく考えれば、こんな風に行動を先読みして案内されるというのは不思議なことだ。実はこの時、私たちが入力した検索語や購買行動のデータが集計・分析されて、全体の傾向を明らかにしているのだ。このように、私たちの行動がスムーズになるように活用されているのが、ビッグデータなのだ。
ビッグデータは、これまで活用されてきたデータと比べて、量(Volume)、多様性(Variety)、速度(Velocity)が一回りも二回りも、いやもっと大きくスケールアップしたものと言える。
まずは量について。一昔前は消費者の購買行動を調べるには、店頭や郵送あるいはネットでアンケート調査を行った。つまり一部の消費者を調査して全体を知ろうとした。今、ビッグデータで典型的なのは、コンビニエンスストアのPOSシステムで、利用者全員の購買記録が取れる。部分的なサンプルから全数調査が可能になっている。
多様性は、検索エンジンの利用を想像すればよい。世界中でいろいろな目的を持った人が検索語を打ち込み、検索エンジンのデータベース上にはありとあらゆる検索語が蓄積される。
そして速度。ツイッターのつぶやきは、ネット上を一瞬にして駆け巡り、収集・分析される。今がリアルタイムで分かり、それであるがゆえに陳腐化も速い。
構造化、非構造化の2種類
ビッグデータには、構造化データと非構造化データがある。構造化データとは、例えばコンビニのPOSデータのように、データが規則的に整理されており、コンピューターでの処理が容易なものだ。
一方、非構造化データは、一見何の脈絡もない種々雑多な情報のことで、日々検索エンジンで検索される単語の全てが集められたデータが、その典型といえるだろう。この非構造化データは、これまでは文字通り構造化されていないために分析ができず、分析ができなかったことから注目されることもなかった。しかし、大規模で多種類のデータを高速に伝達し、蓄積するためのブロードバンドネットワークやデータセンターの整備が進み、コンピューターの処理能力が向上したことで、データの処理と分析が可能となった。
冒頭にあげた検索結果の表示や買い物でのお薦め商品も、こうしたビッグデータを解析した結果が反映されたものなのである。
また、解析結果の利用法以外にも、非構造化データには未知の可能性が潜んでいる。
グーグル自身が検索語を分析した例として、アメリカで、ある言葉が多く検索されだすとインフルエンザの流行が始まる、という関係が見いだされている。膨大なデータから個人個人を分析するのではなく、蓄積されたデータを総体として分析することによって、人々の行動をある程度予測することができるようになる。行動が予測できれば、先を読んだビジネスの展開や、商品仕入れなどの効率化にもつながる。つまり、「ある程度将来を見通せるようになる」ことにこそ、ビックデータの価値がある。
経済効果7.7兆円の試算も
ビッグデータは、価値のあるなしにかかわらず、ありとあらゆる情報の塊である。日本では、コンビニのPOSデータのように、自分たちの目的に合った情報に的を絞った構造化データの利用を積極的に進める企業がある一方で、利用が従来の書類の電子化にとどまり、新規ビジネスの開拓や効率的な経営を実現するようには使いこなせていない企業が多いのが現状だ。すぐにでも利用可能な構造化データは、今の日本経済にとっては、その活用をもっと推進すべきものだろう。また、ビッグデータが大きく注目されるのは、構造化データ、非構造化データを包括して、それ自身が今後さらに発展していくことが確実だからだ。
ほんの一例だが、今、注目されているビッグデータとして、M2M通信によるデータがある。M2MはMachine to Machineの略で、多くの機器がネットワークに接続され、それらの機器からの情報がネット上でやり取りされることを示す。例えば、このM2M通信で全ての自動車がつながればどうなるだろう。個々の自動車からの情報で、交通状況の把握はより詳細にできるようになる。ワイパーの動きを分析できれば、降雨状況の把握にも使える。
同様に、電子マネーやクレジットカードの購買記録をデータとして利用できれば、今まで気付かなかった商品と商品、あるいはサービスとの関係が明らかになり、販売戦略を変えるような解析結果が期待される。
ビッグデータ活用による経済効果について、2013年版情報通信白書では日本の現状が分析されている。具体的な活用事例を流通、製造業、農業、インフラの4分野にわたり分析し、その利活用による経済効果を7.7兆円と試算している。この数字は上記の4分野に関するものだけであり、他の分野を加えて考えると、実際にはさらに大きな経済効果をもたらしていると考えられる。
活用できる人材育成が急務
今後の活用次第で大きなビジネスチャンスをもたらすと考えられるビッグデータではあるが、課題もある。まず、データが個人の行動履歴と密接に結び付いていることから、個人情報保護の問題を避けて通れない点である。利用のための制度、ルールを法的に確立していくことも必要であるが、その利用に関する社会的な合意形成が重要になる。
もう一つは、データを活用する際の人材面での話だ。ビッグデータを専門に扱う人材をデータサイエンティストと呼ぶ。ビッグデータを読み取り、解析するには、統計学や数学などの専門知識、あるいはそのデータから何を読み取りたいのかというニーズを的確にくみ取る能力など、幅広い能力が欠かせない。それだけに、ビッグデータの利用が進めば、そのニーズに比べてデータサイエンティストが大幅に不足するといわれている。
現在、アメリカでは毎年数千人単位でデータサイエンティストが生み出されているといわれているのに対し、日本では全体でも1000人程度という状況だ。日米の経済規模の相違を考えても、日本のデータサイエンティストが少な過ぎることは明らかであろう。データサイエンティストの育成・確保が今後のビッグデータ活用の鍵を握ることになるかもしれない。
POSシステム
日本語では販売時点情報管理システムと呼ばれる。POSはpoint of saleの略称。店頭での商品別の売り上げ情報を、単品ごとに収集、分析するシステム。情報を正確かつ迅速に把握できるため、品揃えの強化に役立つ。
M2M
コンピューターに接続された機械同士が人間を介在せずに相互に情報を通信・交換し、さまざまな制御を自動的に行うシステムのこと。