数字「を」語るのではなく、数字「で」語ること

図を拡大
Google Public Data Explorer グーグル提供のデータ分析ツール。大量の公開データから必要なデータを抽出しグラフ化。「時系列に沿ったアニメーションを表示できるので、世の中の変化を直感的に把握できます」(HPより)。画像=Google

データサイエンティストが主に取り扱うのは社内のデータです。売り上げなどの基幹データや顧客データ、アンケート結果などは、まさにお宝の山です。また、ローカルPCに残っているデータも見逃せません。たとえば事故やクレームを報告書にまとめて上司に提出する会社が多いと思いますが、報告書には記載されなかった機微に触れる情報が各社員のPCに保存されていたりします。それらを情報システム部門と連携して企業でピックアップできれば、クレーム対処や業務改善にも活用できます。

一方、社外のデータはどうでしょうか。他社が収集しているデータを分析に用いることもありますが、他社データは個人情報保護やプライバシー保護の観点から使いづらい。最近もJR東日本がSuicaデータを日立に提供したことが問題視されたように、日本では法的な問題も含めてデータ活用の環境が整っていません。現状では他社データの活用に大きな期待はかけられないでしょう。

その点で注目すべきが、各種の公開データです。たとえば統計局では人口や家計、物価などに関するさまざまなデータを公開しており、どれも気兼ねなく使えます。

公開データといえば、グーグルが提供している「Google Public Data Explorer」もユニークです。

これは公共データをグラフ化するツールなのですが、扱えるデータとして、パブリックデータ検索機能で検索された上位80トピックに関するデータが優先的に用意されています。世界各国の学校のデータや犯罪統計、保健統計なども、参考資料として活用できるかもしれません。

BtoCのビジネスをやっているなら、SNSも有用な公開データの一つです。SNSを分析すると、広告の訴求範囲や商品に関する評価がわかります。商品の苦情や評判などの定性的な情報については、テキストマイニングという技術を使います。たとえば「高い」というつぶやきが、品質が高いというポジティブな評価なのか、価格が高いというネガティブな評価なのか、テキストマイニングで分析が可能です。こういった専門的な分析は外部に委託されることが多くなります。