個人資料
tiantianlu02 (熱門博主)
  • 博客訪問:
正文

阿爾法圍棋的玩法---機器人會夢到電子羊嗎?

(2016-03-08 22:00:47) 下一個

兩千多年前,中國的先哲莊周在夢中發現自己變成了蝴蝶,醒來之後在現實與夢境之間慨歎:“不知周之夢為蝴蝶與,蝴蝶之夢為周與?”這千古之歎在上世紀60年代也回響在美國科幻作家菲利普-迪克的小說《機器人會夢到電子羊嗎?》之中---- 到底是冷血的人更像機器人還是富於情感的機器人更像人?誰來界定真實與夢幻?人類認知的邊界到底 在哪裏? 2015年10月, 穀歌的深腦公司(Deepmind)開發的“機器腦” 阿爾法圍棋(Alphago)以5比0戰勝了歐洲冠軍,職業圍棋二段樊麾,引起了舉世關注, 一下子把近十年來人工智能在深度學習領域的突破展現在世人麵前。

阿爾法圍棋背後運作的是一套叫做“深度神經係統 ”(Deep Neural Network)的機器學習模型 。 這個模型受神經科學和認知科學的啟發,用新的算法和架構來模擬人腦對信息的處理過程和決策過程。阿爾法圍棋的模型是一個兩層的互動神經係統,第一層神經係統負責策略,第二層神經係統負責估值,當機器腦在決定落子前,它的估值係統對棋盤的大勢進行估價,它的策略係統繼而決定走法。估值係統的核心是蒙地卡羅樹狀搜索法(Monte Carlo tree search)。這是一個通常用於遊戲中的決策算法, 這種算法用隨機取樣的方式分析出最有效的玩法。這個算法中的關鍵步驟是選擇(下一步去哪裏),擴展(決定下一步),虛擬(從下一步一直玩到結果出現),反向衍生 (用結果來修改從尾到頭的過程)。阿爾法圍棋采用了兩種認知科學的方法---專家學習和強化學習來訓練它的模型。 通過專家學習,機器腦用了160,000個專業比賽的棋譜,產生出了3千9百萬步的走法,歸結出 棋盤上的每個位置有48種特征,在19 x 19的棋盤上每一步棋有19 x 19 x 48的可能走法。通過強化學習,機器腦自己左右手互搏,用自身當前的策略係統與舊的策略係統自相廝殺,進而產生出策略的梯度遞減。 估值係統再把信息傳遞回策略係統,對策略係統進行修改,從而提高策略係統的精確度。

深腦公司(Deepmind) 由英國人迪米斯-哈薩比斯(Demis Hassabis )創立。 Demis Hassabis本人的故事非常傳奇, 1976年他出生於倫敦,父親是希臘-塞浦路斯人,母親是新加坡華裔。他是一位神童,13歲成為國際象棋大師 (積分2300),自學了編程,  16歲高中畢業以後開始在一家遊戲公司設計遊戲,17歲時和人一起設計了以人工智能為核心的虛擬遊戲“遊樂場”(Theme  Park),引領了一代虛擬遊戲潮流.。  (還記得SimCity嗎?誰能相信這些遊戲都是效仿一個17歲高中畢業生的brain child?) 就在自己設計的遊戲拿了遊戲界的奧斯卡獎後,Demis決定去上大學, 1997年他在劍橋拿了電腦學位。畢業後他重回遊戲本行開發電動遊戲,做了“黑與白”的首席人工智能程序員,然後就開始創業自己開遊戲公司。出了幾個受歡迎的虛擬遊戲後,他為了尋找人工智能算法的靈感重返校園,2009年獲得倫敦大學學院的認知神經科學的博士學位。他的研究方向是想象與記憶。 2010年他創立了深腦公司,把神經科學和認知科學與人工智能結合起來,從新的角度把人工智能作為一種“通用的學習機器”(AI as general purpose learning machines)來開發,2014年深腦公司為穀歌以4億美元收購。

深腦公司的阿爾法圍棋,按Demis自己的話來說是人工智能的“登月工程”,它 和人們熟悉的傳統的人工智能運用---蘋果手機上的Siri,或是IBM擊敗國際象棋大師的深藍(Deep Blue)不同。Demis把神經科學動物實驗關於想象力的發現用在他們的開發當中。 在動物實驗中, 老鼠在迷宮中找到吃的,有一天,迷宮的路被堵住了,但是尋得食物的路徑已經深深地印在了老鼠的腦子裏(Place Cells),即使在睡夢中老鼠也會重演尋食的過程,並夢到自己吃到了食物。這種根據想象的行為,頗有“機器人夢到電子羊”的意味,到底夢是真,還是真是夢?Demis的另一個天才之處還在於他把遊戲作為一個平台來測試人工智能的算法。阿爾法圍棋沒有預設的程序,它的學習過程始於海量的原始數據,在機器和環境不斷互動的過程中, 對環境的觀察與知覺和機器的行為不斷相互更新,甚至出現了係統自己教會了機器它的設計者都不知道的遊戲策略,Demis的雄心是 讓深腦的“通用的學習機器”處理大數據帶來的信息爆炸和複雜係統,使人工智能和人工智能輔助的科學成為一個新的學科,為氣象,疾病,能源,宏觀經濟,娛樂和基因科學等等提供“大決策”。

明天阿爾法圍棋就要對決韓國九段李世石了,無論結果如何,我們都已經進入了人工智能的一個新紀元,我們正在曾經曆一個改變世界的時刻。

References

  1. http://sports.sina.com.cn/go/2016-01-28/doc-ifxnzanh0214388.shtml
  2. https://www.quora.com/How-does-AlphaGo-use-reinforcement-learning-to-train-its-policy-network-from-a-single-reward-punishment-signal-at-the-end-of-the-game
  3. https://en.wikipedia.org/wiki/Monte_Carlo_tree_search
  4. http://chris.ill-logic.com/systems-neuroscience/#slide22
  5. https://en.wikipedia.org/wiki/Demis_Hassabis
  6. https://www.youtube.com/watch?v=0X-NdPtFKq0

(原創版權,轉發請知會)

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.