M2の湯浅です。ホームページをご覧いただきありがとうございます。現在取り組んでいる研究である「深層強化学習ベースの自律走行システムにおける走行環境に応じた行動モデル選択の有効性の検証」について、お話します。これは走行環境に合った行動モデルに切り替えて走行する必要があるのかについて検証したものです。イメージ的には、以下の図のような感じです。
まず、行動モデルについて説明します。行動モデルとは、強化学習を行うことで作成される知能のことであり、その知能を使うことでロボットが走行可能になります。
今回は、シミュレータ環境で作成した都市、公園のそれぞれの環境において、ロボットが障害物にぶつからずに目的地に到達できるような行動モデルを作成しました。
次に、走行環境に合った行動モデルに切り替えて走行する必要があるのかの検証結果についてです。主に2つの実験を行いました。
1つ目は、走行環境と同じ環境で作成した行動モデルで走行したときと、異なる環境で作成した行動モデルで走行したときの走行結果の比較です。走行結果は以下の図のようになりました。走行環境と同じ環境で作成した行動モデルで走行したときは目的地まで到達することができました。しかし、異なる環境で作成した行動モデルで走行したときは、目的地まで走行することができませんでした。この結果から、走行環境に適した行動モデルで走行する必要性があることが示せました。
2つ目は、多様な環境が存在する環境にて、走行環境に適した行動モデルに切り替えて走行実験を行いました。実験結果は以下の図のような感じです。走行環境に合った行動モデルに切り替えて走行することによって、走行経路に複数の環境が存在していても目的地まで到達することができました。
以上から、走行環境に合った行動モデルに切り替えて走行させた方が良いことがわかりました。ありがとうございました。