こんにちは。B4の落合です。 私は人間を追従しながら目的地へ到達する移動ロボットについて研究しています。 この移動ロボットを実現するためには、人間追従の動作と障害物回避の動作を同時に実現する必要があります。 そのために、深層強化学習により障害物を回避しながら1人の人間を追従して目的地に向かうことのできる行動モデルを獲得し、これを移動ロボットに適用して実機走行を行います。 今回は、深層強化学習による行動モデルの獲得について紹介したいと思います。
強化学習を行うために、SS2Dと呼ばれるシミュレータ環境を使用しました。
初めに、このような簡単な直線の環境で学習を行いました。 このシミュレータ環境上でロボットのスタート位置、ゴール位置、人間の位置を任意に設定して強化学習を行います。 水色の丸がロボットのスタート位置、赤丸がロボットのゴール位置、青丸がロボット、紫丸が人間の位置を表しています。 水色の線はロボットに搭載している深度センサから読み取れる前方90度を9等分した深度情報です。 また、赤線は線の先に人間がいることを表しています。
学習により獲得した行動モデルが直線の環境において走行可能であるかをシミュレータ環境上での走行実験により確認しました。 学習の時と同じ条件でスタート位置、ゴール位置、人間の位置など変えずに100回走行させました。 結果は100回とも人間を追従しながら目的地へ到達することが出来ていました。 下図は、100回走行させたうちのあるエピソードでのロボットと人間の距離の推移を表しています。
ロボットが人間との距離を1.5~2.5mに保つように走行できていることが確認できました。