【AlphaZero登上《科學》封麵:宣稱可自學任何一種完美博弈遊戲 完整論文首次發布】
不僅會下圍棋,還自學成才橫掃國際象棋和日本將棋的DeepMind AlphaZero,登上了最新一期《科學》雜誌封麵。DeepMind說,現在AlphaZero已經學會了三種不同的複雜棋類遊戲,並且可能學會任何一種完美信息博弈的遊戲,這“讓我們對創建通用學習係統的使命充滿信心”。
AlphaZero到底有多厲害?再總結一下。
在國際象棋中,AlphaZero訓練4小時就超越了世界冠軍程序Stockfish;
在日本將棋中,AlphaZero訓練2小時就超越了世界冠軍程序Elmo。
在圍棋中,AlphaZero訓練30小時就超越了與李世石對戰的AlphaGo。
AlphaZero的算法和其他算法完全不同,它依靠的是深度神經網絡、通用強化學習算法和通用樹搜索算法。除了基本規則之外,它對這些棋類遊戲一無所知。AlphaZero深度神經網絡的參數,通過自我博弈的強化學習來訓練,從隨機初始化的參數開始。
隨著時間推移,係統漸漸從輸、贏以及平局裏麵,學會調整參數,讓自己更懂得選擇那些有利於贏下比賽的走法。
https://mp.weixin.qq.com/s/bwILNzKqE9b2Yn3-FZCKKQ?
無論你服不服,也隻有發抖的份兒