Unityで遊ぼう [機械学習編] その６ (機械学習の成果)

ここからはひたすら学習結果の確認とフィードバック。

f:id:coublood:20200505002304p:plain

実際は報酬の与え方や割合が悪いと、学習が進みませんが、今回はうまくいきました。

最初はなかなか平均点が上がっていきませんし、上がったり下がったりの繰り返し。

f:id:coublood:20200505122024p:plain

Mean Rewardが「獲得報酬の平均」。

この頃は、まだゴールにたどり着くまでに時間がかかるために、ほぼマイナス値です。

実際に、ウロウロしていますね。

学習を大量に行うために、設定ファイルでステップ数を増やしておいた方が効率がいいので、こちらも編集。

mlagents-learn コマンドを実行した配下のconfigフォルダの下に「trainer_config.yaml」ファイルがありますので、これを開きます。

f:id:coublood:20200505122729p:plain

デフォルトでは、「max_steps: 5.0e4」となっています。(5.0e4 = 50000ステップ)

一気に上げるために、5.0e5に変更。(500000ステップ)

学習を繰り返しているうちに、どうすれば報酬をもらえるかがわかり、徐々にプラスになってきました。

f:id:coublood:20200505123156p:plain

このあたりから安定してプラスへ。

f:id:coublood:20200505123248p:plain

プラスはプラスでも、徐々に上がっています。

f:id:coublood:20200505123313p:plain

かなり安定してきましたね。

f:id:coublood:20200505123325p:plain

ある程度まで学習すると、Goal2（報酬大）のある右にしか行かなくなりました。ベストを見つけたということですね。

Std of Reward (標準偏差) もほぼゼロになってます。

f:id:coublood:20200505123338p:plain

これ以上はそれほど成果はないと思いましたので終了。（Ctrl+C）

これでこの機械学習としては、想定通りの形になったと思います。

まずは最低限の目標を達成できてよかったです。

ぜひ何か面白い学習プロジェクトを作ってみたいですね。

Cou氏の徒然日記