グーグル検索の｢AIによる概要｣は驚くほど不正確だった? 検証結果に｢重大な欠陥｣とグーグルが反論する理由

写真＝iStock.com／Erikona

※写真はイメージです

グーグル検索結果に表示される「AIによる概要」を検証したところ、驚くほど不正確だったことが分かった――。そんなレポートが発表された。

「AIによる概要」はグーグルの大規模言語モデル「Gemini」を使って生成されている。AIスタートアップのOumiがニューヨーク・タイムズ紙の委託を受けてその内容を検証した結果、91％は正しいと判明した。

しかし、グーグルが処理している検索の件数は年間5兆回以上。つまり、間違った答えは数千万回に上り、1分につき数十万回表示されていることになる。

ニュースサイトのFuturismが指摘する通り、これほど多くの不正確な情報が一度に拡散することは、偽情報危機といえるかもしれない。

これに対してグーグル広報のネッド・エイドリアンスは、「この調査には重大な欠陥がある」と本誌に語った。

ニューヨーク・タイムズ紙の調査はAIを使って別のAIを評価しているとエイドリアンスは指摘し、この手法を「古くて誤りが多いことで知られる評価手法」と形容する。

その上で、この手法は「人々が実際にグーグルで何を検索しているかを反映していない」と強調した。

今回の調査で使われたのは、オープンAIが開発した「SimpleQA」という評価手法で、事実を求める短い質問に対して大規模言語モデル（LLM）がどれだけ的確に答えられるかを判定する。