ホテル蜃気楼

れみどりのTwitter

2023/10/17

2023/10/17



Training AI to Play Pokemon with Reinforcement Learning

 強化学習を利用して、まっさらな状態のAIに初代ポケモンをプレイさせる実験。

 歩みを先に進めさせるため「前の画面と比較して変化があったなら、新しい場所を発見できたとしてAIに報酬を与える」といった実装をしたとき、
マサラタウンの左下にある海辺周辺に留まるようになってしまった、というトラブル。
自分がやみくもに歩き回るよりも、動き回るNPCや水面の表現のために繰り返しのアニメーションが施されている海がひとつの画面に収まる当該スポットに留まっていたほうが、より効率よく報酬を得られるとAIに判断されてしまったのが原因。
そこから得られた知見に味わいがあった。
好奇心に疲弊し変わりばえなく繰り返す海やひとを眺めて、安易に得られる報酬で満足してしまう。
極端なわたしたちのよう。


(ここまで16:44更新)