脳は人の顔を似顔絵のように簡略化して処理している
コンピュータによる「顔認証」と、人間による顔の認証の方法に本質的な共通点はあるのでしょうか。また、コンピュータにしかできないことは何なのでしょうか。
脳の表面には大脳皮質と呼ばれる薄い層があります。「脳」と言われて多くの人が思い浮かべるような多くのしわや溝がある部分です。その厚さは部位によって違いますが、2.3~2.8mmなので、思ったよりも薄いかもしれません。大脳皮質には100億以上の神経細胞があり、高次の認知機能が営まれています。部位ごとに特定の機能がピンポイントで配置されていると言われています。そのような機能のひとつに視覚をつかさどる視覚野があります。
網膜から視覚情報を受け取った一次視覚野(V1)の役割は、局所領域ごとに線分を検出することです。
顔の場合、たとえば目、鼻、口、頬など、それぞれの領域で線分があるかどうかを検出したり、その線分の傾きを検出します。もう少し簡単に言うと、顔を似顔絵のような線画に変換して、局所ごとの線分やその傾きで、検出しているということです。
人が絵画を見たときに、微妙な線の傾きの違いを認識できるのは、一次視覚野のおかげかもしれません。
脳の視覚処理でこうした線分検出が行われているもう一つの理由として、脳で処理すべきデータ量を大幅に削減することで脳の活動を省力化したり、より重要なタスクにリソースを割り当てたりするためではないかと考えられています。すなわち、線分が抽出できない領域は何も情報がない領域と見なして、処理を休むようにしていると考えられています。
ちなみに、一昔前の顔認証でも、この局所的な線分検出が利用されていました。線分の処理は、たくさんの情報の中から、相対的にあまり重要でない情報を捨て去り、本質的な属性だけを情報として保持でき、後に続く処理をなるべく単純化できるというメリットがあります。
サルの脳とも共通する情報処理プロセス
実はサルの脳にもこれに相当する領域があり、詳しい情報処理プロセスの研究が進められています。この領域を「顔パッチ」と呼びます。
顔パッチには、さらに6つの領域があり、以下の順番で情報が処理されます。
1つめは、「目」に反応する領域です。目を手がかりとして顔情報の処理を行います。輪状のフィルタを用いて目を検知すると言われています。
2つめから5つめの領域は、顔の向きに反応する領域です。顔が正面から何度ずれているのか、正面から見て左右どちらに傾いているかを判断します。
6つめの領域には、誰の顔かを最終的に識別する機能があります。
コンピュータによる顔認証でも、似たようなアプローチをとる場合があります。たとえば、輪状のフィルタを使って、目を探してから、顔を検出する方法があります。
また、本人認証する場合も、顔向きを検出してから、顔向きごとに処理を実行し、最後にその結果を統合する方法があります。実は、コンピュータと人の処理の仕方は似ているのかもしれません。