人間と違い、「盗用」とはいえないが…
複雑なのは、AIは実際に盗用しているわけではないということだ。誰かが画像やテキストをコピーし、それを自分が作ったものと称して発表したら、それは盗用である。
AIは事前学習で重みだけを蓄積しているに過ぎず、学習に使ったテキスト自体を蓄積しているわけではないため、似た特徴を有する作品を再現するものの、学習に使ったオリジナル作品を直接コピーしているわけではない。オリジナルへのオマージュ作品であったとしても、事実上新しいものを生み出していることになる。
ただし、学習データに同一の作品が現れる頻度が高くなるほど、基礎となる重みによってAIはその作品をより似通った形で再現するようになる。『不思議の国のアリス』など、学習データの中で高頻度で繰り返し現れる書籍について、AIはほとんど一言一句再現することができる。
同様に、アートを生成するAIは、インターネット上で最も一般的な画像を使って学習されることが多いので、その結果、結婚式の写真やセレブのイラストを上手に生成する。
AIが「偏見」を持ってしまうリスク
事前学習に使用される素材が、人類全体のデータの偏った断片(大抵、AI開発者が見つけて、勝手に使用していいと思ったもの)のみで構成されているという事実は、別の一連のリスクを誘発する。すなわち、偏見である。
AIが仕事仲間として非常に人間らしく見える理由のひとつは、AIが私たちの会話や文章に基づいて学習しているからだ。だから、人間の偏見も学習データに滲み出てくる。
そもそも、学習データの多くは、無害で有効的な学びの場とは誰も思わないオープンサイトからとってきている。しかしこれらの偏見は、データ自体がアメリカ人や英語話者で主に構成されているAI開発企業が収集しようと決めたものに限られているという事実によって増幅されている。
それらの企業は男性のコンピュータ・サイエンティストに支配されている傾向があり、彼らがどのデータを重点的に収集するべきかについての決定に自身の偏見を持ち込んでいる。
その結果、地球はおろかインターネット人口の多様性を表すにはほど遠い学習データを与えられたAIは、歪んだ世界観を持つようになる。