AIを特徴づける4つのポイント

ここ数年の間に、AIの研究は大きな発展を遂げています。ここで「今のAIの言葉」について簡単にポイントを紹介すると、次のようになります(ここでは説明は省きますが、詳しくは拙著『ヒトの言葉 機械の言葉』をお読みください)。

① コンピュータおよびAIの内部では、言葉や画像や音声などのデータをすべて数(の並び)として扱われる。
② 今のAIは、数(の並び)を入力したら数(の並び)を出力するものである。
③ 機械学習とは、限られた数のデータの中からパターンを発見し、新しいデータに対して分類や予測をする関数を求める技術である。
④ (機械学習の一種である)深層学習で用いられるニューラルネットワークは、膨大なパラメータ(媒介変数)を持つ関数と見なすことができる。

以上を踏まえた上で、以下では「今の機械の言葉」にまつわる問題をいくつか見ていきたいと思います。

データを頼りにする機械学習

機械学習は、データを手がかりにして「こういう数(の並び)が入力されたら、こういう数(の並び)を出力する関数」を求める技術です。つまり機械学習で開発されるAIにとっては、データがお手本であり、正しい動作の基準になります。機械学習のこういった側面には、人間がわざわざ「こういう入力が来たら、これこれこういう過程を経てこういう出力を出しなさい」と機械に命じる必要がないというメリットがあります。

つまり、私たちがデータの中に潜んでいる法則性や規則性を自分で見つけたり、言葉で表したりする手間が省けるわけです。しかしその反面、お手本となるデータの数や質によってAIの動作が左右される、という問題があります。

たとえば、人と対話をするAIについて考えてみましょう。対話をするAIに対する入力は「人間からの問いかけ」です。それに対して、AIが出力するのは、入力に対する「自然な応答」です。自然な応答を出力できるAIを機械学習で開発する場合には、人間による対話のデータが必要です。対話のデータとは、たとえば次のようなものです。

問いかけ:調子どう?
返答:まあまあだよ。
問いかけ:見た目は元気そうだね。
返答:最近、ジムに通い始めたからね。
問いかけ:どこのジム?
返答:家から近いとこ。

このようなデータを機械学習に利用して、自然な応答ができるAIを作るわけです。この場合、AIが出してくる返答は、開発のときに与えられたデータに影響されます。もし、与えられた対話データの中に倫理的に問題のある内容が大量に含まれていれば、それを利用して開発されるAIも倫理的に問題のある応答をする可能性が高くなります。この記事の冒頭で紹介した「人類を滅ぼす」と発言したAIも、おそらく開発時に使われた対話データの中に、そのような物騒な発言が相当数含まれていたのでしょう。