白色非色

胡言亂語,想啥說啥
個人資料
正文

Alpha Go橫掃人類之後,AI就自己跟自己玩了,而今,Alpha Zero橫空出世

(2018-12-06 21:34:11) 下一個

【AlphaZero登上《科學》封麵:宣稱可自學任何一種完美博弈遊戲 完整論文首次發布】

不僅會下圍棋,還自學成才橫掃國際象棋和日本將棋的DeepMind AlphaZero,登上了最新一期《科學》雜誌封麵。DeepMind說,現在AlphaZero已經學會了三種不同的複雜棋類遊戲,並且可能學會任何一種完美信息博弈的遊戲,這“讓我們對創建通用學習係統的使命充滿信心”。

AlphaZero到底有多厲害?再總結一下。

在國際象棋中,AlphaZero訓練4小時就超越了世界冠軍程序Stockfish;

在日本將棋中,AlphaZero訓練2小時就超越了世界冠軍程序Elmo。

在圍棋中,AlphaZero訓練30小時就超越了與李世石對戰的AlphaGo。

AlphaZero的算法和其他算法完全不同,它依靠的是深度神經網絡、通用強化學習算法和通用樹搜索算法。除了基本規則之外,它對這些棋類遊戲一無所知。AlphaZero深度神經網絡的參數,通過自我博弈的強化學習來訓練,從隨機初始化的參數開始。

隨著時間推移,係統漸漸從輸、贏以及平局裏麵,學會調整參數,讓自己更懂得選擇那些有利於贏下比賽的走法。

https://mp.weixin.qq.com/s/bwILNzKqE9b2Yn3-FZCKKQ?

無論你服不服,也隻有發抖的份兒閉嘴

 

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.