そもそもビッグデータとは何か?
最近のビジネス関連のニュースで「ビッグデータ」という言葉を見ない日はほとんどありません。しかし、そもそもビッグデータとは何でしょう? ビッグデータに関する多くの記事が、その定義が曖昧であることを認めています(2014年6月9日付 ITmediaビジネス記事『そもそも、ビッグデータって何なの?』)。
以前、コンピュータ科学の研究者にビッグデータの定義について質問したところ、「それはExcelで全部を開けないデータのことです」と冗談めかした答えをいただきました。もちろん、パソコンのExcelで開けるデータの規模は、昔に比べて格段に大きくなっています。つまり、データの規模だけからビッグデータを定義することには限界があるといえそうです。
マーケティングの観点からは、特定の企業や事業分野を超えて収集され、販売(購買)だけでなく流通、広告など関連する諸情報をカバーしたデータ、といった定義が考えられます。たとえば、TポイントやPontaカードから収集されるデータでは、コンビニエンスストアでの購買、レストランでの飲食、ビデオのレンタルなどさまざまな分野の購買履歴がリンク可能です。それにウェブの閲覧履歴や位置情報が加わると、購買の原因となる情報も入手できます。
こうした事実は広く知られていますが、今回考えてみたいのは、そうしたビッグデータの解析についてです。ビッグデータで重要なのは、単にデータの規模が大きいだけでなく、さまざまな質のデータがリンクされていることです。したがって、データの前処理が非常に大変になるわけです。さらに、その解析が従来のマーケティングデータ解析の延長でとらえられないことに注目したいと思います。
結論を先にいえば、筆者はビッグデータが普及するほど、データ解析におけるボトムアップ型のアプローチが重要になると考えています。マーケティングにおけるボトムアップ型発想とトップダウン型発想については、前回の本連載記事で説明しています。この枠組みからビッグデータの利用について眺めると、どんな風景が見えてくるでしょうか。
トップダウン型発想に立つ統計学
筆者はこの4月から米国で研究生活を送っています。するといつの間にか、筆者のPCでインターネットにアクセスすると「アナリティクス」に関する広告がよく現れるようになりました。いま、米国の多くのビジネススクールが「ビジネス・アナリティクス」とか「マーケティング・アナリティクス」といった名前のコースを開設しています。筆者がそうしたサイトを何度か見るうちに、関連する広告が頻繁に配信されるようになったのでしょう。