※本稿は、清水亮『検索から生成へ 生成AIによるパラダイムシフトの行方』(MdN)の一部を再編集したものです。
なぜ「時計」というだけで「時計の画像」ができるのか
生成AIとは、そもそもなんなのでしょうか。
きわめて簡単に言えば、「画像や文章、会話やプログラムや音楽や映像を生成するAI」のことです。生成AIが最初に話題になったのは2022年の夏ごろ、「Midjourney(ミッドジャーニー)」や「Stable Diffusion(ステーブルディフュージョン)」が登場したころです。さらに2022年末には会話を生成する「ChatGPT(チャットジーピーティー)」が登場し、多くの人の目に触れるようになりました。
・画像生成AI=Midjourney、Stable Diffusionなど
・文章生成AI=ChatGPT、BingAIチャットなど
生成AIに人々が驚いたポイントはいくつかあります。
たとえば、画像を生成するAIは、言葉で簡単な指示を与えるだけで、驚くほど精緻な画像を作り出します。
ChatGPTも、わずかな指示を与えるだけで見事なプログラムを書いたり、辻褄の合った物語を生成したりすることができます。
それにしても、機械が画像なり文章なり、なにがしかの「意味ありげなもの」「創作物のように見えるもの」を「生成する」というのは不思議なことに思えます。
一体全体なぜ、そんなことができるのでしょうか。
本稿ではその原理を紐解いてみようと思います。
コンピュータとAIは真逆の存在
まず大前提として知っておかなければならないのは、コンピュータとAIは直接なんの関係もないということです。
たとえば、三目並べを解く方法を学習する機械は、コンピュータのような複雑な機構を用いなくても、マッチ箱とビーズだけで再現できることがよく知られています。
現代のデジタルコンピュータの起源は、ジャカード織機という、機織り機です。18世紀のイギリスでは、氏族を表す柄のタータンチェックの服を着るという決まりがあり、この複雑な模様を自動的に織るための機械が開発されました。
あるパターンを繰り返しながら、どの色の糸がどの順番でどの色の糸の上に来るのかを決めるための穴のあいたカードを繋げたもので表現していました。