POINT4:ヒストグラムとは
「事業のリスク」を視覚化する

▼どこにデータがあるか一目瞭然に

ここまで事業のリスクを計る方法について標準偏差を使って解説してきました。難しくて挫折しそうになった人もいるかもしれません。人は数値そのものにはイメージを持ちにくいもの。実はリスクを視覚的につかむことのできる、とっておきの手法があります。それが「ヒストグラム」です。

ヒストグラムにおけるデータのバラつきは「どの大きさのデータがいくつあるのか」で示されます。つまり、次の2つの要素に分解できます。

(1)データの値の大きさの範囲
(2)大きさの範囲に入るデータの数

図を拡大
1:データの値の大きさの範囲、2:大きさの範囲に入るデータの数、の2つの要素をそれぞれ横軸、縦軸にして棒グラフにしたもの

この2つの要素をそれぞれ横軸、縦軸にして棒グラフにしたものがヒストグラムです。図のヒストグラム(図参照)を見ると、横軸に配達日数、縦軸に頻度がとられています。この場合、(1)が配達日数、(2)が頻度です。

このようにバラつきを視覚化すると、STEP1(http://president.jp/articles/-/15676)で触れた平均の限界の一つである「平均の周りにもっとも多くのデータが存在するとは限らない」に対する処方箋にもなります。

平均値を聞くとその周辺にもっとも多くのデータがあると錯覚しがちですが、平均はそれを保証するわけではありません。標準偏差でこの点を見抜くことはできませんが、ヒストグラムにすれば、どこにもっとも多くのデータが存在するのか一目瞭然になります。

ヒストグラムはSPTEP1で解説した「外れ値」(明らかに他のデータとは異なる突出した値)を見つけるのにも役立ちます。外れ値を分析に含める合理的な理由があるかどうか判断するために、データ分析を行う前に、まずはヒストグラムを作成して、データの特徴を把握するとよいでしょう。

また、ヒストグラムには棒グラフのすべての面積を足すと100%になるという特徴があり、この特徴を活用することで事業リスクの確率を視覚的に確認できるようにもなります。

地域Aのヒストグラムを見てください。例題の会社では標準配達日数である3日を超えた場合、すなわち4日以上の場合、遅延補償金が発生します。つまり、配達日数4日より右側の棒の部分が遅延補償金の発生するエリアで、全体に占めるその割合が遅延補償金の発生する確率になるわけです。

ぱっと見ただけで、遅延補償金がかなりの割合で発生しているのがわかります。実際に計算してみると、地域Aでは合計200件の配達件数のうち4日以上かかったのは86件ありました。つまり、43%もの確率で補償金が発生するリスクがあるということです。許容できるリスクの大きさは事業によって判断されますが、この例題のケースでの43%という値はかなり大きな経営リスクと判断されるでしょう。

柏木吉基
慶應義塾大学理工学部卒業後、日立製作所入社。米ゴイズエタ・ビジネススクールにてMBA取得。2004年日産自動車入社。『「それ、根拠あるの?」と言わせないデータ・統計分析ができる本』など著書多数。
(構成=宮内 健)
【関連記事】
文系でもわかる、使える「データ分析・図表作成」術[1]平均値と中央値
幸運は6割の確率でやってくる!「成功の統計学入門」
富士通データサイエンティストが推奨「使えるオープンデータ」
【提案書作成】A4で1枚「プレゼン台本」作りからスタート
相手に伝わるグラフの作り方