厚生労働省の国民生活基礎調査によると、日本人の平均所得金額は552.3万円(2018年)である。この数字、「みんな本当にそんなに稼いでいるの?」と思う人が多いのではないか。データサイエンティストの松本健太郎さんは「それは当然だ。平均所得に使われている『平均値』は、『データの偏り』に影響を受けるので、所得の実態を表しているとは言えない」という――。
※本稿は、松本健太郎『データ分析力を育てる教室』(マイナビ出版)の一部を再編集したものです。
「おかしな結論」は間違ったデータが原因の可能性大
数字を用いた論証をするなら、数字自体が正しいかチェックするべきです。
なぜなら、数字自体が間違っていたら誤った結論を導くからです。
数字自体は間違っていなくても、計測の過程で間違うことはよくあります。
わたしは以前、人間の表情から感情を推測する機械を活用したデータ分析に携わりました。1人の表情に対して喜び70%、悲しみ15%、怒り5%……など様々な感情が割合で表示されるのですが、数字をチェックしてみると、1人で1000%を超えるデータが混ざっていました。
これでは正確なデータ分析はできません。
こんな経験もありました。
自動で重さを測る機械を活用したデータ分析に携わった際、どうしても納得のできる結論を導けなくて、仮説が間違っているのではなく、数字が間違っているのではないかと考え直しました。
そこで数字の間違いを証明するために、わざわざその機械の計測現場に足を運んだのです。
すると、30秒に1回、その機械は誤作動を起こしてデタラメな数字を記録していたことがわかりました。