課題を解くためのPOINT4:外れ値とは
分析前にまず探し出しておこう

▼突出したデータをチェックしよう

平均値と中央値を比べて顕著な差がある場合、少数の極端な値を持つデータが含まれていて平均を大きく引っ張り、中央値との差をつくっている可能性があります。こうした明らかにほかのデータとは異なる、突出した値を持つデータを「外れ値」と呼びます。一つの外れ値の極端な突出によって、分析結果に大きな影響を与えることがあります。本来求めていた結果が得られなくなる場合もあり、注意が必要です。

図を拡大
遅延日数に極端なデータが含まれている場合……

例題の会社のある地域において、最近退職した配達担当者の引き継ぎミスによって9日間もの配達遅延が2件発生したが、それ以外の10件はまったく配達遅延がなかったとしましょう。平均遅延日数を計算すると1.5日になりますが、この数値には何の意味もありません。外れ値である「9日間」の2件に大きく影響されているからで、平均値の前後にあたる遅延日数1日、2日の値は皆無です。ちなみにこのケースにおける中央値は0、平均値は1.5と、やはり差があります。

ビジネスにおいて外れ値が存在することは珍しくありません。たとえばある日、ある時間帯のドラッグストアに来店した50人分の平均売上額を算出したところ、2640円だったとします。そのなかに1人だけ2万円多く買い物をした人が紛れ込んだら、平均売上額が、このケースでは3040円になったとします。比較すると、1人当たり平均で400円の差が生じます。

その結果だけ聞くと「400円も差があるのか」と思われる可能性がありますが、その差が生じたのはあくまで1人のお客様による影響だけが原因です。この結果をもってそれ以外のお客様の特徴をとらえたとしたら、間違ったメッセージを与えてしまいます。

ただし、注意しなければならないのは「外れ値が入っていることそのもの自体は間違いではない」ということです。分析作業をするうえで重要なのは、外れ値が存在するのではないかと常に探し出す姿勢を持っておくことと、外れ値を見つけたときはそのデータを分析に含める合理的な理由があるかどうかを考え、理由がなければ分析前に外しておくことです。効果的に外れ値を見つけるには、データを縦軸と横軸でプロットした散布図などのグラフで視覚化するとよいでしょう。

先ほどのドラッグストアを例に考えてみましょう。散布図によって2万円分多く購入したお客様の存在に気づき、調べたところその人が購入した商品が数年に1個しか売れない健康器具だったとします。データ分析の目的が「顧客の一般的な平均購入額を算定する」だったら、この外れ値を持つお客様を分析データに含めるのは妥当ではなく、分析前に外すことになります。

柏木吉基
慶應義塾大学理工学部卒業後、日立製作所入社。米ゴイズエタ・ビジネススクールにてMBA取得。2004年日産自動車入社。『「それ、根拠あるの?」と言わせないデータ・統計分析ができる本』など著書多数。
(構成=宮内 健)
【関連記事】
5分で氷解!「難しそうで読めなかった」話題の書【統計】
提案書――「結論3つ、個条書き」パワーポイント術
「数字&情報」×分析の掛け算思考をマスターせよ -「頭の筋トレ術」【30代】
なぜソフトバンクでは棒グラフがすべて右肩上がりなのか
大阪ガスデータサイエンティストが推奨「絞りすぎないデータ探し」