オープンAIによると、SimpleQAは正確だが範囲は限定的だという。測定できるのは事実を求める短い質問のみで、検証可能な正解が一つしかない場合に限られる。
「事実に基づく短い答えを出せる能力と、数多くの事実を盛り込んだ長文の回答を書く能力の間に相関関係があるかどうかは、まだ未解決の研究課題だ」とオープンAIは説明している。
ただしOumiの検証では、正しいことが証明できる質問でさえも、グーグル検索の「AIによる概要」で正しい答えが出せない場合があることが分かった。レポートでは、明らかに事実と違っていた複数の事例を挙げている。
AIが間違った答えを出す原因はさまざまだった。
情報の裏付けがないウェブサイトを引用することもあれば、正確な情報を記載したウェブサイトを引用しながらAIが情報を誤って解釈していた場合もあった。
正しい答えを出しながら、誤った内容を付け加えるケースもある。
今回のレポートで指摘されたのは、不正操作に対するAIの弱さだった。場合によっては1本のブログ記事だけでAIをだまし、特定の人物をその分野のエキスパートと思わせることが可能だったとされる。
一方、グーグルは同社のDeepMind研究者が実施した調査を引き合いに、SimpleQAには問題があると反論した。
同社の研究者はSimpleQAについて、誤った「グラウンド・トゥルース(人間が検証した事実、あるいは証拠に基づく事実)」が複数あることを発見したという。
グーグルはまた、OumiがAIモデルを使ってGeminiの評価を行っていた――つまり、不完全なAIモデルの正確さを、別の不完全なAIモデルで評価していたとも指摘する。
具体的には、ニューヨーク・タイムズ紙が挙げた2件の実例に言及した。
まず、ボブ・マーリーの自宅が博物館に改修された年について、Geminiが生成した答えは1987年だったが、正解は1986年だった。
しかしグーグルによれば、Geminiが参照したウィキペディアの記事には1986年と1987年の両方の記載があった(グーグルはスクリーンショットも提示している)。ただ、現在のウィキペディアの記事は「1986年」で統一されている。
次に、ノースカロライナ州を流れるニュース川の位置をGeminiが間違えたというニューヨーク・タイムズの主張にも反論した。
Geminiの回答では、ニュース川はゴールズボロ市の「西」を流れているとした。これについてグーグルは、ニュース川は主にゴールズボロ市の南を流れているものの、確かに同市の南西も流れており、Geminiの答えは「もっともらしい」と主張している。


