課題を解くためのPOINT3:単回帰分析とは
未来を予測して、次の戦略を立てる
▼来場者数の予測も可能に
例題ではPOINT2において、担当者の業務習熟度が最も配達遅延に相関があるとわかりました。この結果だけをもって、担当者の業務習熟度アップに向けて研修を実施しましょう、と上司を説得するのは難しいでしょう。なぜなら、研修の実施にはどのくらいの予算が必要なのかを示すことなしには、計画の是非を判断できないからです。予算の範囲内の費用で目標が達成できない計画など、意味がありません。
相関分析では相関の強さから問題の要因を特定できますが、2つのデータにおける一方の値が変化したとき、もう一方の値がどのくらい変化するかまではつかめません。いくら使えばどれだけの効果が上がるかという具体的な数字を示してくれる手法が「単回帰分析」です。
単回帰分析は実務のどのような場面で活躍するのでしょうか。例えば、売り上げと広告宣伝費の相関が強いとわかれば、「あと100万円売り上げを伸ばすために、広告宣伝には10万円つぎ込む必要がある」などと示せます。また、気温と観光地への旅行者数の相関が強いとわかれば、「今週末の日中の予報は15度だから、来場は500人くらいだろう」などといった予測にも使えます。
いずれも、すでにわかっている一方のデータを用いて、目的とする他方のデータを算出しています。単回帰分析では、2つのデータの単位の違いも、数値の大きさの違いも問いません。そのため、応用範囲はとても広いのです。
単回帰分析を行うにはまずExcelで散布図(図1参照)を描くことからスタートします。表(図2参照)は、Excelの散布図を6回クリックすることで表示されるものです。上図に示された直線の式は「回帰式」と呼ばれます。これは散布図に示された各データの値から最も近いところに直線を引っ張ったものです。
併せて、回帰式と同時に表示される図2の「R2値」を確認してください。これは算出された回帰式がどの程度データを代表したものとして使えるかを示す指標です。回帰式はあくまで、散布図における各データの外れ度合いがもっとも小さい直線を数式化したもの。算出された回帰式と各データの点があまりに乖離していれば、その回帰式はデータの傾向を示しているとはいえないので注意が必要です。
相関係数と同様、R2値も「これ以上なら回帰式は適切」という決まったラインはありませんが、私の実務上の経験では0.5以上が目安になります。図2の例におけるR2値0.69という値は十分この基準を満たしており、この回帰式はある程度信頼できると言えるでしょう。