ひた隠しにされている「学習データ」

これらの潜在的な問題は、膨大な量の情報を必要とするAIの事前学習の資料からすでに始まっている。事前学習でデータを使用するコンテンツの作成者に許諾を求めるAI企業はほとんどなく、その多くは学習データを秘密にしている。

私たちがよく知る情報源によれば、ほとんどのAIのコーパスは主に、ウィキペディアや政府のサイトなど許可の必要がないところから採集されているが、中にはオープンサイトや、さらには海賊版のコンテンツからコピーされることもある。

そのような素材を使ってAIの学習を行うことが合法なのかどうかははっきりしていない。国によって対応は異なる。EU加盟国などの一部の国はデータ保護とプライバシーについて厳格な規制を設けていて、許可を得ていないデータを使ったAIの学習を制限することに関心を示している。

デジタル依存のイメージ
写真=iStock.com/mikkelwilliam
※写真はイメージです

「勝手に学習された」問題は未解決

一方で、米国のように、より自由放任主義的な態度で、企業や個人によるデータの収集や使用をほとんど制限せずに認めるが、悪用には訴訟が起こされ得る国もある。

日本は全面的に解禁し、AIの学習は著作権を侵害しないと宣言することを決定した。これは、データがどこから来たのか、誰が作ったのか、そしてどうやって入手したのかに関係なく、AIの学習を目的とする場合は誰もがあらゆるデータを使うことができることを意味する。

たとえ事前学習が合法であったとしても、倫理的ではない可能性はある。ほとんどのAI開発企業は、学習に使うデータの所有者に許諾を求めていない。このことは、自分の作品がAIのエサにされる人々にとって実際に影響を及ぼす恐れがある。

たとえば、人間のアーティストの作品を事前学習に使用すると、そのAIはそれらの作品のスタイルや着眼点などを圧倒的な精度で複製する能力が与えられる。そのため、事前学習の基となった人間のアーティストがAIに立場を奪われる可能性が生じる。

AIが似たものを無料で、一瞬のうちに作れるのに、なぜアーティストの時間と才能に対価を支払う必要がある?