朱頭山

無意邀眾賞,一心追殘陽
個人資料
朱頭山 (熱門博主)
  • 博客訪問:
正文

轉發:AlphaGo是怎麽學會下圍棋的

(2016-03-17 18:41:31) 下一個

由Google的子公司DeepMind創建的人工智能係統AlphaGo,剛剛在一場圍棋比賽中以四比一的成績戰勝了人類冠軍李世石(Lee Se-dol)。此事有何重大意義?畢竟在1997年IBM深藍(Deep Blue)擊敗加裏·卡斯帕羅夫(Garry Kasparov)後,電腦已經在國際象棋上超越了人類。為什麽要對AlphaGo的勝利大驚小怪呢?

和國際象棋一樣,圍棋也是一種高度複雜的策略性遊戲,不可能靠巧合和運氣取勝。兩名棋手輪番將黑色或白色的棋子落在縱橫19道線的網格棋盤上;一旦棋子的四麵被另一色棋子包圍,就要從棋盤上提走,最終在棋盤上留下棋子多的那一方獲勝。

然而和國際象棋不一樣的是,沒有人能解釋頂尖水平的圍棋是怎麽下的。我們發現,頂級棋手本人也無法解釋他們為什麽下得那麽好。人類的許多能力中存在這樣的不自知,從在車流中駕駛汽車,到辨識一張麵孔。對於這一怪象,哲學家、科學家邁克爾·波蘭尼(Michael Polanyi)有精彩的概括,他說,“我們知道的,比我們可言說的多。”這種現象後來就被稱為“波蘭尼悖論”。

波蘭尼悖論並沒有阻止我們用電腦完成一些複雜的工作,比如處理工資單、優化航班安排、轉送電話信號和計算稅單。然而,任何一個寫過傳統電腦程序的人都會告訴你,要想將這些事務自動化,必須極度縝密地向電腦解釋要它做什麽。

這樣的電腦編程方式是有很大局限的;在很多領域無法應用,比如我們知道但不可言說的圍棋,或者對照片中尋常物品的識別、人類語言間的轉譯和疾病的診斷等——多年來,基於規則的編程方法在這些事務上幾無建樹。

“深藍”幾乎全憑強大的計算力實現了超人表現:它吸收了數百萬份棋局實例,在可能選項中搜索最佳的走法。問題是圍棋的可能走法比宇宙間的原子數還多,即使最快的電腦也隻能模擬微不足道的一小部分。更糟的是,我們甚至說不清該從哪一步入手進行探索。

這次有什麽不同?AlphaGo的勝利清晰地呈現了一種新方法的威力,這種方法並不是將聰明的策略編入電腦中,而是建造了一個能學習製勝策略的係統,係統在幾乎完全自主的情況下,通過觀看勝負實例來學習。

由於這些係統並不依賴人類對這項工作的已有知識,即使我們知道的比可言說的更多,也不會對它構成限製。

AlphaGo的確會在某幾步棋中使用模擬和傳統搜索算法來輔助決策,但它真正的突破在於它有能力克服“波蘭尼悖論”。它能通過實例和經驗自行得出製勝策略。這些實例來自2500年圍棋曆史積累下來的高人對局。為了理解這些棋局的製勝策略,係統采用了一種叫做“深度學習”的方法,經證明這種方法可以對規律進行有效梳理,在大量信息中認清哪些是重要的東西。

在我們的大腦中,學習是神經元間形成和鞏固關係的過程。深度學習係統采用的方法與此類似,以至於這種係統一度被稱為“神經網絡”。係統在軟件中設置了數十億個節點和連結,使用對弈實例組成的“訓練集合”來強化刺激(一盤正在進行的圍棋)和反應(下一步棋)的連結,然後讓係統接收一次新的刺激,看看它的反應是什麽。通過另一種叫做“強化學習”的技術,AlphaGo還和自己下了幾百萬盤棋,從而記住哪些走法和策略是有效的。

深度學習和強化學習都是早已提出的技術,但我們直到近年才意識到它們的威力,以及它們能走多遠。事實上我們還是不清楚,但對這些技術的應用正取得飛速的進步,而且看不到終點在哪裏。它們的應用很廣泛,包括語音識別、信用卡欺詐偵測、放射學和病理學。機器現在已經可以識別麵孔、駕駛汽車,它們都曾被波蘭尼本人歸為知道但不可言說的領域。

我們還有很長的路要走,但潛能是十分可觀的。就像240年前詹姆斯·瓦特(James Watt)首次推出蒸汽機,技術推動的變革在未來幾年裏將會波及我們的整個經濟,但不能保證每個人都能從中得到同等的好處。快速的技術進步帶來的社會挑戰,依然是需要我們去理解和應對的,這方麵不能指望機器。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.