0282名無しさん@1周年垢版 | 大砲2017/12/05(火) 14:33:07.08ID:RXWzBEM80 強化学習、大学で研究してたけど、かなり面白い。 パラメータ調整が難しいけど、うまくいったときは、人間にはその挙動を説明出来なくなる。 善悪の状態判断(報酬)だけが評価入力で、それが時空間全体で大きくなるように試行させるんだけど、 試行過程=学習の仕方自体も学習させるから 勝手に賢くなっていく。 しかも、入出力ともただの数値ベクトルだから、特に用途を限定しない。