2年1組は突出した才能をもった学生が多いクラスですが、一目でわかる最初の3つのクラスター(湯川くん・利根川さん、斉藤くん・高橋さん、夏目さん)はともかく、問題は比較的バランスのとれた鈴木くんや山田さんの解釈です(前出、図表2-a)。

距離の測り方やクラスター間の結合を計算する方法は複数ありますが、どの方法を採用するかによって分析の結果が変わってきます。

たとえば、図表2-bでは佐藤くんは山田さんと同じクラスターと分析されましたが、別の方法では鈴木くんと同じクラスターに分類される可能性もありますし(図表2-c)、夏目さんたちと同じクラスターと認識されるかもしれません(図表2-d)。

つまり、正解というものはなく、どの方式を採用するかという問題は、どう解釈したいかという問題でもあるということです。

もう一歩踏み込んで、より正確に2年1組の生徒を分類したいのであれば、体育や保健、あるいは歴史や地理などの成績に関する情報も必要でしょう。

一方、さまざまな情報が入るほど、湯川くんと利根川さんの距離が遠くなっていく可能性があるし、高橋さんと斉藤くんはまったく違うグループに分類されるかもしれません。

どういう条件で分類を考えるか、どんな方式を採用するかによって、分析の結果が異なります。したがって、クラスター分析では、まずは分類の目的を明確にすることが何よりも大切です。

【関連記事】
5分で氷解!「難しそうで読めなかった」話題の書【統計】
なぜ、セブンはビッグデータ分析する他社より日販が高いのか【1】
PB商品「金の食パン」が高くても売れる理由
データサイエンティスト -今後10年「食える仕事」ナンバーワン
ビッグデータで見る瀬戸内国際芸術祭