なぜAIは女性の人事評価を低く見積もってしまうのか｢悪意あるデータ｣は避けられない (3ページ目)

AIを特徴づける4つのポイント

ここ数年の間に、AIの研究は大きな発展を遂げています。ここで「今のAIの言葉」について簡単にポイントを紹介すると、次のようになります（ここでは説明は省きますが、詳しくは拙著『ヒトの言葉　機械の言葉』をお読みください）。

① コンピュータおよびAIの内部では、言葉や画像や音声などのデータをすべて数（の並び）として扱われる。
② 今のAIは、数（の並び）を入力したら数（の並び）を出力するものである。
③ 機械学習とは、限られた数のデータの中からパターンを発見し、新しいデータに対して分類や予測をする関数を求める技術である。
④ （機械学習の一種である）深層学習で用いられるニューラルネットワークは、膨大なパラメータ（媒介変数）を持つ関数と見なすことができる。

以上を踏まえた上で、以下では「今の機械の言葉」にまつわる問題をいくつか見ていきたいと思います。

データを頼りにする機械学習

機械学習は、データを手がかりにして「こういう数（の並び）が入力されたら、こういう数（の並び）を出力する関数」を求める技術です。つまり機械学習で開発されるAIにとっては、データがお手本であり、正しい動作の基準になります。機械学習のこういった側面には、人間がわざわざ「こういう入力が来たら、これこれこういう過程を経てこういう出力を出しなさい」と機械に命じる必要がないというメリットがあります。

つまり、私たちがデータの中に潜んでいる法則性や規則性を自分で見つけたり、言葉で表したりする手間が省けるわけです。しかしその反面、お手本となるデータの数や質によってAIの動作が左右される、という問題があります。

たとえば、人と対話をするAIについて考えてみましょう。対話をするAIに対する入力は「人間からの問いかけ」です。それに対して、AIが出力するのは、入力に対する「自然な応答」です。自然な応答を出力できるAIを機械学習で開発する場合には、人間による対話のデータが必要です。対話のデータとは、たとえば次のようなものです。

問いかけ：調子どう？
返答：まあまあだよ。
問いかけ：見た目は元気そうだね。
返答：最近、ジムに通い始めたからね。
問いかけ：どこのジム？
返答：家から近いとこ。

このようなデータを機械学習に利用して、自然な応答ができるAIを作るわけです。この場合、AIが出してくる返答は、開発のときに与えられたデータに影響されます。もし、与えられた対話データの中に倫理的に問題のある内容が大量に含まれていれば、それを利用して開発されるAIも倫理的に問題のある応答をする可能性が高くなります。この記事の冒頭で紹介した「人類を滅ぼす」と発言したAIも、おそらく開発時に使われた対話データの中に、そのような物騒な発言が相当数含まれていたのでしょう。

なぜAIは女性の人事評価を低く見積もってしまうのか ｢悪意あるデータ｣は避けられない

AIを特徴づける4つのポイント

データを頼りにする機械学習

あわせて読みたい

この記事の読者に人気の記事

なぜAIは女性の人事評価を低く見積もってしまうのか｢悪意あるデータ｣は避けられない