「データの偏り」があると「平均」がずれる

数字の傾向を知るための方法を「要約」と言います。

「要約」で知っておくべきは、「平均」、「中央値」、「標準偏差」の3種類で十分です。

「平均」とは数字の集まりの中間、真ん中の値という意味があります。

数学的には、集合の要素の総和を集合の要素数で割った値を意味します。

例えば体重が50kg、60kg、70kgの3人がいたとして、体重の「平均」は

(50kg+60kg+70kg)÷3人=60kg

となります。

「平均」を求めると「真ん中はだいたいこれぐらいなんだなぁ」とわかります。

ちなみに、「平均」には大きな欠陥があります。

それは数字の集まりに偏りがあると、真ん中を意味しなくなるのです。

例えば、厚生労働省が発表している国民生活基礎調査によると、2018年の全世帯を対象にした平均所得金額は552.3万円だとわかりました。

多くのサラリーマンが「みんな本当にそんなに稼いでいるの?」と声を荒げたのではないでしょうか(図表1)。

グラフを見ると、平均所得金額が「100万円未満」は6.4%、「100~200万円」は12.6%とわかります。

「1000~1100万円」は3.1%、「2000万円以上」は1.2%もいます。

「2000万円以上」の中には3000万円の人や、1億円の人もいるでしょう。

集合の中に、たった1つでも、頭抜けて高い値があると、それが平均を高く押し上げる要素になります。

現象を単純化します。

9人の所得金額のうち、8人が300万円でも、残り1人が3億円なら、平均所得金額は3600万円になります。

集合の要素の総和を集合の要素数で割った値という数学的な求め方として間違ってはいないのですが、3600万円が「真ん中」とは感じません(図表2)。