「第三の変数は何か?」と考えるクセをつける
初心者でも簡単にできる手法だからこそ、スーパー初心者に対して「それっぽく」見せるようにできるともいえます。
例えば、「ワインの摂取量と年収に相関関係があります! ワインを飲もう!」という提案をされたとして、「そうなんだ! じゃあ、今日からワインを飲む!」と考えるのは安易すぎます。
そもそも高級なワインを買えるだけの経済力がある人だから、ワインをよく飲んでいるのかもしれません。
同様に、「成功者ほど高級時計をしている」というデータがあったときに、「高級時計を買うと成功者になれる」という解釈は、いかがなものでしょう。
「成功者だから高級時計を買っているのでは?」という「因果関係が逆じゃない?」というパターンも、錯誤相関の例です。
このように、ただの相関関係をまるで因果関係があるかのように見せて、統計に疎い人を騙すことができてしまうのです。
相関係数は、統計分析の中でも初心者が手を出しやすい最も簡単な手法ですが、誤解されやすいものでもあるので取り扱いには注意が必要です。そして、騙されないようにしましょう。
具体的には、「2つの事柄は相関があります」という主張やデータを見たときに、「これは疑似相関ではないか? 第三の変数(本当の原因)は何か?」と考えるクセをつけるといいでしょう。
スポーツ選手に早生まれが少ない理由
それでは、少し練習をしてみましょう。
以下に相関関係の例を示します。なぜ、相関関係になっているのか考えてみてください。
②理系の人は、薬指が人差し指より長い
③スポーツ選手には早生まれの人が少ない
解説していきます。
部屋の明かりと近視には、医学的には直接的な因果関係はないといわれています。近視は遺伝の影響が大きいようです。
近視の親は遅くまで明かりをつけていることが多いので、データを取るとこのような関係になるようです。明かりをつけて眠ることは子どもの視力には影響しないだろう、というのが現時点での見解です。
理系は、男子学生の割合が多いです。そして、男性はテストステロンという男性ホルモンが多いです。
女性にもありますが、男性より少ないです。「テストステロンが遺伝的に多い人は、薬指が人差し指より長い」ということがわかっています。
日本のスポーツ選手5000人のデータを分析したところ、意外な結果となりました。
取得したデータは、スポーツの種類、選手の出身地、生年月日、性別、所属チーム、ポジション、身長、体重といったさまざまな属性データを抽出して分析しました(図表4)。
このデータから、2018年度の日本のプロ野球選手(NPB)、プロサッカー(J1)の1395人の生年月日を収集して結果を見たところ、4~9月生まれが多く、1~3月生まれが少ない傾向がわかりました。
プロバスケットボール選手289人(B1)も加えてみましたが、同じ結果となりました。
「そもそも出生月に偏りがあるのでは?」と思い、過去50年の人口統計と出生月の比率で比較してみましたが、人口統計とプロスポーツ選手のデータに乖離があったので、スポーツ選手特有の傾向があるといえそうです。
データを見ると、「春に生まれた子どものほうがスポーツ選手になりやすいのか?」と思いますが、「春に生まれる→スポーツ選手になりやすい」という直接的な因果関係はないかと思います。
子どもの頃を思い出してください。確かに勉強ができたり運動ができたりする子は、春~夏生まれの子が多かったような気がします。しかしそれは、ほかの子と比べて勉強や運動を経験する時間が長いからだとされています。