似たもの同士を見つける方法

図を拡大

図表2-aをご覧ください。

ある高校の2年1組の9人の生徒の期末試験における数学と国語の点数をプロットしてみました。

タテ軸は数学I、数学IIの得点の合計点です。数値が大きいほど理系力が強いということです。ヨコ軸は現代文と古典と漢文の合計点で文系力を示しています。

この図の意味するところは一目でおわかりかと思いますが、ここはきちんとクラスター分析の手順を踏みながら考えてみましょう。

図を拡大
湯川くんと利根川さんは理系力が強く、その対極にいるのが文系力がもっとも強い夏目さん。斉藤くんと高橋さんは理系力も文系力も弱く、ほかの人たちは中間に位置している。距離が近い同士で分類していき、これ以上分けられないところで分析は終わる。

まず、湯川くんと利根川さんは明らかに理系力が強く、その対極にあるのが理系力ゼロ、文系力満点の夏目さんです。

斉藤くんや高橋さんは数学も国語も得意ではありません。

そのほかの人たちは中間ぐらいに位置しています。

では、彼らの勉強力の違いを距離で考えてみます。

湯川くんと利根川さんは明らかに近い、つまり類似度が高いので、このグループは一つのクラスターと考えて差し支えないでしょう。ここからもっとも遠いところにいるのが夏目さん、次に斉藤くんと高橋さんのグループです。

もっとも遠いということは、類似度がもっとも低いということなので、夏目さん、斉藤くん・高橋さんグループも、それぞれが一つのクラスターを形成しているといえます。

図を拡大

このように個体間とクラスター間の距離を計算しながら、最終的にこれ以上クラスター分けができないというところ、つまり、「2年1組」というクラスター(図表2-e)で分析は終わります。

これを樹形図として表現したのが図表3です(樹形図はタテヨコどちらで表しても結構です)。