ここからはひたすら学習結果の確認とフィードバック。
実際は報酬の与え方や割合が悪いと、学習が進みませんが、今回はうまくいきました。
最初はなかなか平均点が上がっていきませんし、上がったり下がったりの繰り返し。
Mean Rewardが「獲得報酬の平均」。
この頃は、まだゴールにたどり着くまでに時間がかかるために、ほぼマイナス値です。
実際に、ウロウロしていますね。
学習を大量に行うために、設定ファイルでステップ数を増やしておいた方が効率がいいので、こちらも編集。
mlagents-learn コマンドを実行した配下のconfigフォルダの下に「trainer_config.yaml」ファイルがありますので、これを開きます。
デフォルトでは、「max_steps: 5.0e4」となっています。(5.0e4 = 50000ステップ)
一気に上げるために、5.0e5に変更。(500000ステップ)
学習を繰り返しているうちに、どうすれば報酬をもらえるかがわかり、徐々にプラスになってきました。
このあたりから安定してプラスへ。
プラスはプラスでも、徐々に上がっています。
かなり安定してきましたね。
ある程度まで学習すると、Goal2(報酬大)のある右にしか行かなくなりました。ベストを見つけたということですね。
Std of Reward (標準偏差) も ほぼゼロになってます。
これ以上はそれほど成果はないと思いましたので終了。(Ctrl+C)
これでこの機械学習としては、想定通りの形になったと思います。
まずは最低限の目標を達成できてよかったです。
ぜひ何か面白い学習プロジェクトを作ってみたいですね。