長い文章の要約はGeminiが優れている

どのAIが一番適した答えを返してくれるかがわからなくても、4つ同時に共通の質問を投げかけて、4つの回答を比較しながら、自分が求める最適な答えを探すことができます。同時に入力すると、どのモデルの回答速度が一番速いか、どのモデルが最も精度の高い回答を提供するかも見えてきます。

たとえば、「あなたは大学の薬学部の教授です。このテーマで薬理学の期末テストの問題を作ってください」と入力すると、それぞれがテスト問題を作成してくれます。

個人的には、問題文の作成はClaudeが最も得意だと感じています。一方、長い文章の要約はGeminiが最も優れていると感じます。また、論理的な思考や、数学的な思考は、o-1が圧倒的に優れているようです。

小学生レベルの算数が正しく解けないことも

たとえば、次の質問を読んでみてください。

「マラソンで4位の人を追い抜いた。今何位になったか?」

池谷裕二『生成AIと脳 この二つのコラボで人生が変わる』(扶桑社)

皆さんの答えはどうでしたか? 以前、この質問を投げかけた際、Gemini、Claude、Llamaは「3位になりました」と回答したが、唯一「4位になりました」と回答したのがChatGPTです。正解は、ChatGPTが回答した「4位」です。

人間でも「3位」と答えそうになるかもしれませんが、前に4位の人が走っているということは、あなたは現在5位にいるわけで、目の前にいる人を抜いたということは、現在は4位に上がったことになります。

一般的に、この問題では文系の人ほど「3位」と答える傾向があることが知られています。生成AIは文系的な性質を持っているといわれ、このような小学生レベルの算数を正しく解くことも、ときに難しいのです。

ただし、生成AIの精度は日々向上していて、2024年9月の時点では、Gemini、Claudeでも、この問題を解決できるようになっていることを確認しています。