数字「を」語るのではなく、数字「で」語ること

図を拡大
Google Public Data Explorer グーグル提供のデータ分析ツール。大量の公開データから必要なデータを抽出しグラフ化。「時系列に沿ったアニメーションを表示できるので、世の中の変化を直感的に把握できます」(HPより)。画像=Google

データサイエンティストが主に取り扱うのは社内のデータです。売り上げなどの基幹データや顧客データ、アンケート結果などは、まさにお宝の山です。また、ローカルPCに残っているデータも見逃せません。たとえば事故やクレームを報告書にまとめて上司に提出する会社が多いと思いますが、報告書には記載されなかった機微に触れる情報が各社員のPCに保存されていたりします。それらを情報システム部門と連携して企業でピックアップできれば、クレーム対処や業務改善にも活用できます。

一方、社外のデータはどうでしょうか。他社が収集しているデータを分析に用いることもありますが、他社データは個人情報保護やプライバシー保護の観点から使いづらい。最近もJR東日本がSuicaデータを日立に提供したことが問題視されたように、日本では法的な問題も含めてデータ活用の環境が整っていません。現状では他社データの活用に大きな期待はかけられないでしょう。

その点で注目すべきが、各種の公開データです。たとえば統計局では人口や家計、物価などに関するさまざまなデータを公開しており、どれも気兼ねなく使えます。