アプリに阻まれデータ収集に後れを取っている

ChatGPTのトレーニングに使われているデータには書籍、雑誌、ネット掲示板「Reddit」、そしてオープンデータ「コモン・クロール」、グーグルが公開するデータセット「C4」などが活用されている。これらのデータの多くは英語であり、中国語を含む非英語圏のデータはきわめて少ない。中国の大手IT企業は独自に対話型AIの基礎となる大規模言語モデルの開発に取り組んできたが、共有の中国語データセット整備の動きが乏しかった。

また、中国は世界一のスマホ大国であり、多くのデータはインターネットでは公開されず、スマートフォンアプリからしかアクセスできず、収集が難しい。匿名を条件に筆者の取材に応じた、中国人のエンジニアによると、「ChatGPTが出てから、オープンなデータが全然足りていないという現実にようやく気がついたところだ」と話している。

そのため、中国の対話型AIも英語のデータを使って開発されていることが多く、質問文を英訳してからAIが処理していることも多い。バイドゥのアーニーボットに「王冰さんの絵を描いてくれ」とリクエストしたところ、「氷の王様」の絵が出力されたという笑い話もある。王冰(ワン・ビン)という人名を翻訳した時に、「アイス・キング」と翻訳したがゆえの失敗だ。

Baiduの本社ビル
写真=iStock.com/V2images
※写真はイメージです

劣化版のGPUを購入するしかない

データに加えて、中国のAI開発のネックとなっているのが米国の半導体規制だ。昨年に導入された規制によって、中国企業はAI開発には欠かせない最先端のGPU(グラフィック・プロセッシング・ユニット)の購入が禁じられた。

米Nvidiaは規制に抵触しないよう性能を低下させたA800、H800を中国向けに販売している。対話型AIの開発は1万基ものGPUが必要となるほど、コンピューティングパワーが重要な要素を占める。“劣化版”しか入手できないとあっては、フルスペックの製品を購入した他国企業との開発競争で劣位に立たされることは否めない。