言語AIとフィジカルAIの「決定的な違い」

第2章:World Foundation Model(WFM)という中枢
――フィジカルAIは、なぜ「プラットフォーム産業」になるのか

フィジカルAIの核心は「ロボット」ではない。ここまでの議論で明らかになったのは、フィジカルAIの本質がロボットの高性能化・自動運転の高度化・工場の自動化といった個別成果にあるのではない、という点である。真に問うべきなのは、次の一点だ。AIは、物理世界そのものをどのように理解し、どのように扱っているのか。この問いに正面から答えようとしたとき、従来の「タスク特化AI」や「ロボット用AI」という枠組みは、明らかに不十分になる。

言語AIとフィジカルAIの最大の違いは、扱う対象の性質にある。言語の世界は、記号的で可逆的で間違えてもやり直せる。一方、物理世界は、連続的で不確実で不可逆である。物を落とす。人に触れる。機械を止める。その一度の判断が、取り返しのつかない結果を生む。この世界を扱うためには、「認識してから反応する」だけでは足りない。行動する前に、その結果を“想像できる知能”が必要になる。

ここで登場するのが、WFMである。WFMとは、物理世界の構造・因果関係・時間変化を内部に世界として保持し、その世界の中で行動を仮想的に試し、結果を予測した上で現実の行動を生成する基盤AIである。重要なのは、WFMは「タスクを解くモデル」ではないという点だ。WFMは、世界そのものを扱うモデルである。

CES2026において筆者撮影
CES2026において筆者撮影

WFMは「タスク」ではなく「世界」を解く

WFMは、内部に少なくとも次の4層を持つ。

1.世界表現
空間、物体、人、意味、行動可能性を含む表現

2.世界ダイナミクス
力・摩擦・慣性・人の動きといった時間変化の理解

3.計画・意思決定
未来を仮想的に試行し、最適な行動系列を選ぶ能力

4.実行接続
高レベル判断を低レベル制御へ安全に落とす仕組み

これによりAIは、「いま何が起きているか」だけでなく、「次に何が起きうるか」を理解したうえで行動できる。

ここで決定的に重要な点を確認しよう。WFMは、ロボットのため、自動運転のため、工場のために個別に作られるものではない。なぜなら、これらはすべて同じ世界を生きているからである。ロボットも、自動運転車も、工場も、倉庫も、同一の物理世界を共有している。違うのは、どんな身体(実行体)を持っているか、どの行為を担当しているかだけだ。つまり、WFMとは、同一の世界理解に、異なる実行体を接続するための中枢である。