AIが書いたレポートを見分けられるか?

さらに筆者は、提出されたレポートの一つひとつに評点とコメントを記入し、翌週には学生に返却して、全体講評を教室で行うようにしている。約70名の学生が受講しているため、毎週の評点とコメントのフィードバックは大変な作業だが、このフィードバックによって学生たちは自分のレポートやディスカッションのスキルを向上させ、授業全体のレベルも上昇していくことがわかっている。指導する私にとっても、こうした手応えがあることが授業を進めるモチベーションになる。

この手応えは、新型コロナが感染拡大するなかでのオンライン授業においても変わることはなかった。これは私の主観的な感覚だけではなく、授業評価アンケートの数値からも確認できる。

ノートパソコンを使用している人の手元
写真=iStock.com/golubovy
※写真はイメージです

この春から私たちは、失われていた日常をさらに取り戻しつつある。「やれやれ」と思っていたところに、ChatGPTという黒船が到来した。どこかの放送局のドラマのようだが、「どうする!」に大学教員も次々に襲われているのだ。

私のMBAの授業についていえば、例えば以下のような懸念が浮かび上がる。学生たちのレポートにChatGPTが作成したものが混じっていたとして、それを公平に成績評価できるのか。まじめにレポートに取り組もうとする学生の意欲が失われてしまうのではないか。レポートへのフィードバックで思考の方法や理論の活用の仕方を学ぶ効果も、低下してしまうかもしれない。

実際にレポート課題をやらせてみると

しかし、これらの懸念は、今のところは杞憂きゆうだったと思われる。試しに、ChatGPTに私の授業のレポート課題を与えてみた。すると、きれいな日本語でスラスラと文章が書かれていく。「これはすごい」と驚いた。

だが、少し冷静に評価者の立場で検討してみると、出来上がったレポートは、私の授業で合格点を与えるには不足する部分が多い。

例えば、「レストイルのマーケティングの成功要因を分析しなさい」という課題を打ち込むと、ChatGPTはあっという間にレポートを書き上げた。しかし、その内容は自動車のレストア(restore、再生)の成功要因を報告したもので、指定したケースドキュメントのテーマであるレストイル(Lestoil)はアメリカの合成洗剤の商品名である。こんなレポートを学生が提出した場合、不合格となることは間違いない。

そこで、「合成洗剤のレストイルについてはどうですか」と追加の質問を投げかけると、ChatGPTはすばやく同商品に関するレポートを返してくる。しかし詳細に見ると、ケースドキュメントの内容とは異なる事実誤認と思われる記述など、不備な部分が各所にある。加えて、あいまいで抽象度の高い表現が目立つことも気になる。

無料で使えるChatGTP-3.5に加え、より優れているとされるChatGTP-4でも同じ実験を行ってみた。だが、レストレイルを自動車のレストアと間違えたり、実際には行われていない(もちろんケースドキュメントにも書かれていない)パッケージングの改善などを要因として挙げてきたりと、3.5と同様の不備が目立った。