グーグル検索結果に表示される「AIによる概要」を検証したところ、驚くほど不正確だったことが分かった――。そんなレポートが発表された。
「AIによる概要」はグーグルの大規模言語モデル「Gemini」を使って生成されている。AIスタートアップのOumiがニューヨーク・タイムズ紙の委託を受けてその内容を検証した結果、91%は正しいと判明した。
しかし、グーグルが処理している検索の件数は年間5兆回以上。つまり、間違った答えは数千万回に上り、1分につき数十万回表示されていることになる。
ニュースサイトのFuturismが指摘する通り、これほど多くの不正確な情報が一度に拡散することは、偽情報危機といえるかもしれない。
これに対してグーグル広報のネッド・エイドリアンスは、「この調査には重大な欠陥がある」と本誌に語った。
ニューヨーク・タイムズ紙の調査はAIを使って別のAIを評価しているとエイドリアンスは指摘し、この手法を「古くて誤りが多いことで知られる評価手法」と形容する。
その上で、この手法は「人々が実際にグーグルで何を検索しているかを反映していない」と強調した。
今回の調査で使われたのは、オープンAIが開発した「SimpleQA」という評価手法で、事実を求める短い質問に対して大規模言語モデル(LLM)がどれだけ的確に答えられるかを判定する。

