「ためる」と「たまる」では大違い

なぜ、「これまでにたまったデータ」は、あまり役に立たないのでしょうか。

それは、「ためる意識」ではなく「たまる感覚」でたまったデータは、目的を持たないからです。分析にうまく使えるデータというのは、自然発生的に無造作にたまったデータではなく、ある特定の分析に必要な情報を、意図的にためたデータなのです。

データの「ためる」と「たまる」。たった1文字の違いでも、データは大きく異なります。

たとえば、商品のオンライン購入ページで顧客が入力するフォーマットを考えてみましょう。入力項目は氏名、住所、性別、職業、年齢などが考えられますが、そのデータを「購入層を年齢別に把握する」ために使おうとするならば、その人の年齢なり、生年月日なりを尋ねる必要があります。

後々の活用のしやすさを考えれば、年齢等については、極力空白にならないように原則入力してもらう。入力したデータを分析することを考えれば、入力ルールをある程度詳細に作成することが重要です。

年齢であれば、アラビア数字で半角にするとか、住居表示もどこを区切りにするかなども統一しておかないと、分析の際データ整理に時間ばかりかかってしまいます。

とくに「ためる」意識なく、何となく「20代」「30代」などと10歳刻みで回答をためた。しかし、いざ分析をしようとすると5歳刻みの分析が必要だとなると、詳細なデータ分析が十分にできるはずがありません。たまっただけのデータでは不十分、というのは、こういうことなのです。

あるいは、「購入者を居住都道府県別に把握する」場合、購入者自身が記入するフリーの住所欄では、想定しているデータ収集のためには不十分です。

なぜなら、人によって市区町村から記載したり、数字や文字が半角・全角とバラバラだったりと不統一になる可能性が高まるためです。分析するにあたり、全角・半角は同じ情報と認識できなかったり、住所を確認するという当初のデータ分析とは違う工程を行う必要もあります。本来の目的であるデータ分析までに、かなり労力がかかってしまうのです。

これはほんの一例であり、本質的に、データは取得の仕方によって集まるデータの形がまったく違います。データを使ってどういう分析を行うかに応じて、データを集めるための設問を適宜「デザインする」という発想が重要です。

ユーザーの入力負担も考慮しないといけない

「一つ一つ設問を考えて設定するのは面倒だから、いっそ、何でも入力項目は細かく設定すればいい」と思うかもしれません。

しかし、それだと購入者の入力量が格段に増え、後半になると疲れて回答率が低くなる、辛抱強く入力してくれたとしても回答が適当になるなどの影響が生じます。やたらと細かい入力項目は、データ取得にとっては悪影響ともなってしまうのです。

データ収集のためのフォーマットが、チャンスロスにつながってしまっては本末転倒もいいところです。

やはりデータの使い道に応じて、一番欲しいデータを、適切な細かさでためられるようにデザインすることが重要です。

写真=iStock.com/PeopleImages
※写真はイメージです