データを増やしても“偏り”は解消しづらい

私たち人間は翻訳をするときに辞書や文法書を参考にしますが、ニューラルネットワークを用いた機械翻訳システムは、そういったものを参照しながら翻訳をするわけではありません。

今の機械翻訳システムは、人が与える「原文と訳文のデータ」を手がかりにし、原文に対して正しい訳文を出せるようにパラメータを調整した「巨大な関数」です。そこには、語彙の知識や文法の知識に基づく「正しい翻訳の基準」はなく、データが頼りなのです。したがって、もし誰かが故意に間違ったデータを大量に与えれば、機械翻訳をするAIはそれに影響され、間違った訳文を出すようになってしまいます。

川添愛『ヒトの言葉 機械の言葉』(角川新書)

こういった問題に対して、「より多くのデータを与えれば、きっとAIのバイアスは解消されるし、動作も正しくなるはずだ」と言う人もいます。しかし、単純にデータの数が増えたからといって、その中にあるバイアスや間違いが解消されるとは限りません。

現在、「まるで人間が書いたかのような文章を生成できる」として話題になっている「超巨大言語モデル」GPT-3についても、「女性は男性に比べて外見を表す言葉(beautifulやgorgeousなど)を使って形容されやすい」「イスラム教は他の宗教に比べて暴力やテロを表す言葉と一緒に現れやすい」などといったバイアスを含んでいることが報告されています。

以上のような、「現時点での問題点」や、「今の機械がどのように言葉を扱っているか」という知識を持ったうえで、私たちは機械が言葉を扱う能力を正しく評価する必要があるのです。

関連記事
「円周率とは何か」と聞かれて「3.14です」は大間違いである
テレビで異常なほど「携帯大手3社のCM」が流されている本当の理由
精神科医が解説「ネットが不登校の子の救いにならないこれだけの理由」
「ハンコ廃止はハンコのためだけに非ず」日本の押印文化が抱える本当の問題点
「毎日通院するお爺さんが今日は病院にいないワケ」英国人が驚いた日本のジョーク