人間でも難しいスピードで環境変化に対応
また、囲碁や将棋、チェスなどでもAIはさまざまな手(定石など)を学習することによって、ゲームの展開に応じた最適な選択肢を絞り出してきた。すでにチェスや囲碁でAIは人間に勝利した。AIがよりよい判断を下すために、研究者らは意思決定の結果に利得またはペナルティを与える。AIは学習を重ねてより大きな利得が期待できる意思決定を自律的に下すようになる。それを強化学習という。パターンの認識やボードゲームの共通点は、環境変化のスピードが比較的緩やかであることだ。
それに対して、GTソフィーが参加するグランツーリスモの環境の変化スピードは非常に速い。それはリアルなレーシング環境に匹敵する。グランツーリスモのトッププレイヤーはプロのレーシングドライバーになるチャンスが与えられてきた。
複雑かつ急速に変化する環境に対応し、より良い成果を実現できるAIを生み出すためにソニーは、クラウド上に1000台以上のプレイステーション4(PS4)にアクセスできる環境を整備した。それを用いてソニーはGTソフィーに車両コントロール技術、カーブ走行時のステアリング操作などのレーシング・スキルなどを習得するための強化学習(トレーニング)を重ねたのだ。
「AIと対戦していることを完全に忘れていた」
GTソフィーはレースに勝つためのスキルに加えて、人との協調性やエチケットも学んだ。GTソフィーのWebサイトによると、初期のGTソフィーは速かったものの、まっすぐに走ることができなかった。GTソフィーは強化学習を重ね、急カーブで相手車両を追い抜くために最も合理的なハンドリングなどを学んだ。その結果、タイムトライアルでGTソフィーは世界トップのグランツーリスモレーサーを上回るタイムをたたき出した。
課題となったのが、対戦時のスポーツマンシップの尊重だ。Webに公開されている動画を見ると、コーナリング時にGTソフィーが駆るマシンが対戦相手の車両に後ろから衝突するシーンがある。ルールを守って安全に、人と協調してより効率的に成果を上げるために、ソニーのAI専門家は報酬の与え方を微調整し、GTソフィーにルールの遵守を学習させた。
その結果、GTソフィーはトップのレーサーと対戦して勝利したのである。GTソフィーと対戦したレーサーは、「AIと対戦していることを完全に忘れていた」、「GTソフィーのレース運びは理にかなっていて学ぶことが多い」といった感想を述べている。