(第1回から続く)
もしAIが「目」と「耳」を手に入れたら……
「次のスマホ」の正体は「24時間あなたに寄り添うAIアシスタント」だと述べました。では、そのAIが本当にあなたの隣で役立つパートナーになるためには、何が必要なのでしょうか。その答えは、AIがあなたと同じ「視界」と「音」を共有することです。
これまでのChatGPTのようなAIは、主にチャット画面で文字を打ち込んで使うものでした。つまり、私たちが言語化して入力した情報しか受け取れなかったのです。いわば、AIは目隠しをされ、耳をふさがれた状態で、私たちのタイピングだけを頼りに思考していました。
しかし、小説の中のSACHIは違います。スマートグラスに搭載されたカメラとマイク、つまり「目」と「耳」を通じて、主人公が見ている景色、聞いている音をリアルタイムで共有しています。だからこそ、「あそこにいる人は誰?」「このワインの値段は?」と問いかければ、AIは瞬時に映像を解析して、耳元で答えを囁くことができるのです。
この技術を、専門用語で「マルチモーダルAI」と呼びます。「マルチ(複数の)」「モーダル(様式・感覚)」、つまりAIが視覚や聴覚といった複数の情報を同時に処理できるようになることを意味します。マルチモーダル化によって、AIは私たちが置かれている「状況」をリアルタイムで理解できるようになります。カメラやマイクという「感覚器」を手に入れたAIは、もはや私たちの指示待ちではなく、状況をみずから把握して先回りした提案ができる存在へと進化するのです。
「心ここに在らず」でも大丈夫
このAIが24時間ずっとあなたの隣にいることで、ユーザーは「常時接続」がもたらす絶対的な安心感を得ることができます。人間の脳のリソースには物理的な限界があります。どれだけ集中しようとしても、長時間の講義や会議で、すべての情報を完璧に記憶し続けることは不可能です。しかしAIには、そうした限界がありません。あなたが見聞きしたすべてを、疲れることなく記録し続けてくれます。

