オープンAIによると、SimpleQAは正確だが範囲は限定的だという。測定できるのは事実を求める短い質問のみで、検証可能な正解が一つしかない場合に限られる。

「事実に基づく短い答えを出せる能力と、数多くの事実を盛り込んだ長文の回答を書く能力の間に相関関係があるかどうかは、まだ未解決の研究課題だ」とオープンAIは説明している。

ただしOumiの検証では、正しいことが証明できる質問でさえも、グーグル検索の「AIによる概要」で正しい答えが出せない場合があることが分かった。レポートでは、明らかに事実と違っていた複数の事例を挙げている。

AIが間違った答えを出す原因はさまざまだった。

情報の裏付けがないウェブサイトを引用することもあれば、正確な情報を記載したウェブサイトを引用しながらAIが情報を誤って解釈していた場合もあった。

正しい答えを出しながら、誤った内容を付け加えるケースもある。

今回のレポートで指摘されたのは、不正操作に対するAIの弱さだった。場合によっては1本のブログ記事だけでAIをだまし、特定の人物をその分野のエキスパートと思わせることが可能だったとされる。

一方、グーグルは同社のDeepMind研究者が実施した調査を引き合いに、SimpleQAには問題があると反論した。

同社の研究者はSimpleQAについて、誤った「グラウンド・トゥルース(人間が検証した事実、あるいは証拠に基づく事実)」が複数あることを発見したという。

グーグルはまた、OumiがAIモデルを使ってGeminiの評価を行っていた――つまり、不完全なAIモデルの正確さを、別の不完全なAIモデルで評価していたとも指摘する。

具体的には、ニューヨーク・タイムズ紙が挙げた2件の実例に言及した。

まず、ボブ・マーリーの自宅が博物館に改修された年について、Geminiが生成した答えは1987年だったが、正解は1986年だった。

しかしグーグルによれば、Geminiが参照したウィキペディアの記事には1986年と1987年の両方の記載があった(グーグルはスクリーンショットも提示している)。ただ、現在のウィキペディアの記事は「1986年」で統一されている。

次に、ノースカロライナ州を流れるニュース川の位置をGeminiが間違えたというニューヨーク・タイムズの主張にも反論した。

Geminiの回答では、ニュース川はゴールズボロ市の「西」を流れているとした。これについてグーグルは、ニュース川は主にゴールズボロ市の南を流れているものの、確かに同市の南西も流れており、Geminiの答えは「もっともらしい」と主張している。

当記事は「ニューズウィーク日本版」(CCCメディアハウス)からの転載記事です。元記事はこちら
【関連記事】
新大阪駅から15分なのに巨大廃墟がそびえる…「消えた終着駅」が映し出す昭和のニュータウンの栄枯盛衰【2025年8月BEST】
日本一YouTuberからついに漏れ出た「カネのにおい」…「聖人」ヒカキンが苦しむ「好感度の上げすぎ」が招いた反動
パンと白米よりやっかい…糖尿病専門医が絶対に飲まない"一見ヘルシーに見えて怖い飲み物"の名前【2024下半期BEST5】
利回り7%超の銘柄がゴロゴロある…お金の専門家が保有する「高配当&株主優待」合わせ技5銘柄【2025年7月BEST】
だから習近平は「高市叩き」をやめられない…海外メディアが報じた「台湾問題どころではない」中国の惨状【2025年12月BEST】