今、多くの企業がデータサイエンティストの育成を進めている。彼らは企業活動から生まれる“ビッグデータ”を分析することで、ビジネス上の課題を解決したり、新商品開発などの新しい知見を企業にもたらす。ただし単なるデータ分析専門職ではない。業務の知識や経験なしでは、意義ある分析を企画し、その結果を得ることは難しい。ITと統計・数学、そして事業のそれぞれに精通することが求められる高度な職といえる。
データサイエンティストは、主に社内に蓄積されたデータを使う。しかし、官公庁が公表するデータや他社から提供されるデータを用いて課題解決に導くことも多いという。とりわけ注目したいのは、無償で一般に提供されているオープンデータだ。自社だけではデータを取っていないか、取っていてもセキュリティの関係上使えないことが多いが、オープンデータなら存分に利用することができる。
彼らのような分析のプロは、実際にどのようなオープンデータを活用しているのだろうか。IT企業、非ITの一般企業、そしてデータ解析の専門会社という立場の違う3社のデータサイエンティストに、使えるオープンデータの見つけ方や、資料にデータを活用するコツを教えてもらった。
データの出す答えに、素直に耳を傾けよ
2008年に米オハイオ州で、黒人居留区に故意に上下水道を整備しなかったとして、行政が裁判所から1090万ドルの損害賠償を命じられました。この事実を告発した人が利用したのは、白人と黒人の家、上下水道整備計画、そして地図という行政が提供する3つのオープンデータのみ。これらを重ねたところ、黒人の住宅が並ぶ道の手前で上下水道の整備計画が止まっていることが明らかになりました。
このようにデータを使って社会の課題を明らかにする手法をデータジャーナリズムといい、米国では政府もこの流れを支援しています。オバマ大統領は政府の持つデータを原則公開にして、オープンにできないデータは法律をつくってクローズドにする“Open is default”を打ち出しました。日本にも情報公開の波は押し寄せていて、最近では横浜や埼玉、鯖江、函館などの自治体が積極的に諸々のデータを公開しています。