データを増やしても“偏り”は解消しづらい
私たち人間は翻訳をするときに辞書や文法書を参考にしますが、ニューラルネットワークを用いた機械翻訳システムは、そういったものを参照しながら翻訳をするわけではありません。
今の機械翻訳システムは、人が与える「原文と訳文のデータ」を手がかりにし、原文に対して正しい訳文を出せるようにパラメータを調整した「巨大な関数」です。そこには、語彙の知識や文法の知識に基づく「正しい翻訳の基準」はなく、データが頼りなのです。したがって、もし誰かが故意に間違ったデータを大量に与えれば、機械翻訳をするAIはそれに影響され、間違った訳文を出すようになってしまいます。
こういった問題に対して、「より多くのデータを与えれば、きっとAIのバイアスは解消されるし、動作も正しくなるはずだ」と言う人もいます。しかし、単純にデータの数が増えたからといって、その中にあるバイアスや間違いが解消されるとは限りません。
現在、「まるで人間が書いたかのような文章を生成できる」として話題になっている「超巨大言語モデル」GPT-3についても、「女性は男性に比べて外見を表す言葉(beautifulやgorgeousなど)を使って形容されやすい」「イスラム教は他の宗教に比べて暴力やテロを表す言葉と一緒に現れやすい」などといったバイアスを含んでいることが報告されています。
以上のような、「現時点での問題点」や、「今の機械がどのように言葉を扱っているか」という知識を持ったうえで、私たちは機械が言葉を扱う能力を正しく評価する必要があるのです。