｢AIは悪用できない｣は幻想にすぎない…人間が｢AI犯罪｣にさらされる"暗黒時代"を回避する方法聞き方次第で｢ナパーム弾の作り方｣を教えてくれる

AIを暴走させないために、われわれ人間はどうすべきか。AI研究の第一人者であるイーサン・モリック氏は「悪用防止のために設置された『ガードレール』は突破される可能性が高い。そのため人間と同じ道徳観を持たせなければいけないが、AI開発企業や政府だけでは対応できない」という――。（後編／全2回）

※本稿は、イーサン・モリック著／久保田敦子訳『これからのAI、正しい付き合い方と使い方』（KADOKAWA）の一部を再編集したものです。

写真＝iStock.com／mikkelwilliam

※写真はイメージです

（前編から続く）

AI開発企業の切迫感はそれぞれ違うが、様々な方法でAIが持つ偏見に対処しようとしている。画像生成ツールのDALL-Eのように、「人」の画像を生成させる指示にランダムに「女性」という単語をこっそり忍び込ませ、学習データにはなかった性別の多様性を無理やり作り出すような「ズル」をするところもある。

別のアプローチとして、より広い範囲の人間社会を網羅するように学習に用いられるデータを変更することが考えられるが、学習データの収集には独自の課題がある。

偏見を減らす最も一般的なアプローチは、人間のフィードバックによる強化学習（RLHF）のプロセスで行われるように、人間が直接AIを修正することだ。これは大規模言語モデル（LLM）の微調整の一部である。

このプロセスにより、人間の評価者は（人種差別的だったり支離滅裂だったりする）有害なコンテンツを作成したAIにペナルティを与え、良いコンテンツを作成したAIに報酬を与えることができる。RLHFの過程でコンテンツは様々な点で徐々に改善され、偏見が少なくなり、より正確になり、より役立つようになる。

しかし偏見が必ずしも消え去るわけではない。それに、この段階では人間の評価者と組織的に取り組んでいる企業自身の偏見もまた、AIに影響を及ぼし始め、新たなタイプの偏見が生み出される。

たとえば、政治的な意見を聞くと、ChatGPTは通常、妊娠中絶にアクセスする女性の権利を支持すると言うが、そのような立場は微調整を反映したものである。

多くのAIが概ねリベラルで、西洋的な親資本主義的な世界観を持っているように見えるのは、RLHFのプロセスによるものである。そこでAIは自身の開発者（概ねリベラルな西洋的な資本主義を支持する）から反論されそうな発言を回避することを学ぶからだ。

しかし、RLHFは偏見に対処するだけではない。AIが悪意のある行動をすることを予防するガードレールの設置も行う。思い出してほしい。AIにはもともと道徳観は備わっていないのだ。

RLHFは開発者が不道徳と考える行動をする能力を制限する。このタイプのアライメントを行うと、AIはより人間らしく振る舞うようになり、異星人らしさが減ってくる。ある研究によると、単純なシナリオにおいて93％の確率で人間と同じ道徳的判断を行うことがわかっている。

｢AIは悪用できない｣は幻想にすぎない…人間が｢AI犯罪｣にさらされる"暗黒時代"を回避する方法 聞き方次第で｢ナパーム弾の作り方｣を教えてくれる