強化学習、大学で研究してたけど、かなり面白い。
パラメータ調整が難しいけど、うまくいったときは、人間にはその挙動を説明出来なくなる。

善悪の状態判断(報酬)だけが評価入力で、それが時空間全体で大きくなるように試行させるんだけど、
試行過程=学習の仕方自体も学習させるから
勝手に賢くなっていく。
しかも、入出力ともただの数値ベクトルだから、特に用途を限定しない。