仕事に統計を生かすにはどうすればいい?

3つの代表値と誤差を正しく理解しておこう

統計リテラシーを高めるには、身近で簡単なものから実践してみるのがいい。そのときに誤った結果を導き出さないよう「3つの代表値」と「誤差」について紹介しておこう。

たとえば、転職先の給与水準を判断する際に平均年収、すなわち平均値を参考にすることがあるだろう。これも代表値の1つだ。ただ、平均値には欠点もある。従業員が9人いる会社で8人の社員の年収が300万円、1人だけが2100万円の年収の場合、平均年収は500万円となるが、この情報をもとに転職すれば後悔するかもしれない。これを回避するには、「中央値」や「最頻値」を併用するといい。この場合はいずれも300万円。よって、転職した場合の年収の目安はおおよそ300万円と判断できる。

ただ、中央値や最頻値よりも平均値のほうが優れている点もある。それは「どの程度得しそうか」を見積もりやすい点だ。たとえば、ある店舗に、毎日300円の買い物をしてくれる8人の顧客と、2100円の買い物をしてくれる1人の顧客がいたとする。この店舗でくじ引きを利用したキャンペーンを実施した。

すると当日、2100円の買い物をしてくれる顧客だけがいつもより多い、3000円の買い物をしてくれた。このケースで、くじ引きの「ある日」と「ない日」を中央値で比較すると、買い物額は300円で変わらない。一方、平均値で比較してみると、「ない日」の平均買い物額は500円で「ある日」は600円となり、平均すると1人当たり100円増えている。平均値は特殊な1人のデータに左右されるが、全体の変化を知りたい場合には向いている。3つの代表値はケースによって使い分けが必要になる。

最後に誤差について。テレビの視聴率を紹介したが、サンプル数が少ないほど誤差は大きくなる。たとえば、「商品を使ってみたいか」を1000人に調査し、250人が「使ってみたい」と回答すればその割合は25%。1人が心変わりして249人になったとしても、24.9%でほぼ変わらない。しかし、図のようにサンプル数が4人なら、1人が心変わりしただけで、使ってみたい人の割合は50%になるかもしれないし、100%になるかもしれない。統計を使う際には、代表値と誤差に注意しよう。

3つの代表値の特徴を知っておこう
誤差の影響を知っておこう

構成=向山 勇

西内 啓(にしうち・ひろむ)
データビークル代表取締役CPO

1981年生まれ。東京大学医学部卒業。東京大学助教、大学病院医療情報ネットワーク研究センター副センター長などを経て現職。著書『統計学が最強の学問である』(ダイヤモンド社)がシリーズ累計50万部のベストセラーに。