0001アルカリ性寝屋川市民 ★
2018/12/10(月) 07:42:57.54ID:CAP_USER9強化学習(reinforcement learning)は大まかに言うと、学習用のデータを使わずに、AIが選択した行動が正しければ報酬を与えることで、AIの状況判断能力を上げていく機械学習方式。AlphaZeroはまた、行動の選択に「モンテカルロ木探索(MCTS)」と呼ばれる検索アルゴリズムを使う。
AlphaZeroはこの方法で、チェスを9時間学習した後チェスの世界チャンピオンAI「Stockfish」を、将棋を12時間学習した後世界コンピュータ将棋選手権の2017年の勝者「elmo」に、囲碁を13日間学習した後AlphaGo Zeroに勝利した。
AlphaZeroはMCTSを使うことで、例えばチェスではチャンピオンのStockfishが1秒当たり約6000万のポジションを検索するのに対し、わずか6万しか検索せずに済むという。
また、AlphaZeroは、系列である米Googleのオリジナルプロセッサ「TPU」を5000基使っている。ちなみに、TPUは1基だけで1日当たり1億点のGoogleフォトを処理する能力がある。
DeepMindは、AlphaZeroの目的はチェスや将棋、囲碁に勝つことの先にあり、様々な実世界の問題を解決するシステムを構築することにあると語った。AlphaZeroは、単一のアルゴリズムが一連の設定で新しい知識を発見する方法を学べることを示しており、まだ初期段階ではあるが「複雑な問題に対する斬新な解決策を見いだす汎用的な学習システムを構築するというわれわれのミッションに自信を与えてくれた」という。
http://image.itmedia.co.jp/news/articles/1812/09/yu_alphazero1.jpg
3種目のチャンピオンを打ち負かした
http://image.itmedia.co.jp/news/articles/1812/09/yu_alphazero2.jpg
人間のチェスチャンピオン、AlphaZero、Stockfishの1決定当たりの検索量
https://youtu.be/7L2sUGcOgh0
動画
ITmedia 2018年12月09日 08時18分
http://www.itmedia.co.jp/news/articles/1812/09/news018.html