朱頭山

無意邀眾賞，一心追殘陽

首頁文章列表博文目錄

個人資料

朱頭山 (熱門博主)

給我悄悄話

博客訪問：

轉發：AlphaGo是怎麽學會下圍棋的

(2016-03-17 18:41:31) 下一個

由Google的子公司DeepMind創建的人工智能係統AlphaGo，剛剛在一場圍棋比賽中以四比一的成績戰勝了人類冠軍李世石(Lee Se-dol)。此事有何重大意義？畢竟在1997年IBM深藍(Deep Blue)擊敗加裏·卡斯帕羅夫(Garry Kasparov)後，電腦已經在國際象棋上超越了人類。為什麽要對AlphaGo的勝利大驚小怪呢？

和國際象棋一樣，圍棋也是一種高度複雜的策略性遊戲，不可能靠巧合和運氣取勝。兩名棋手輪番將黑色或白色的棋子落在縱橫19道線的網格棋盤上；一旦棋子的四麵被另一色棋子包圍，就要從棋盤上提走，最終在棋盤上留下棋子多的那一方獲勝。

然而和國際象棋不一樣的是，沒有人能解釋頂尖水平的圍棋是怎麽下的。我們發現，頂級棋手本人也無法解釋他們為什麽下得那麽好。人類的許多能力中存在這樣的不自知，從在車流中駕駛汽車，到辨識一張麵孔。對於這一怪象，哲學家、科學家邁克爾·波蘭尼(Michael Polanyi)有精彩的概括，他說，“我們知道的，比我們可言說的多。”這種現象後來就被稱為“波蘭尼悖論”。

波蘭尼悖論並沒有阻止我們用電腦完成一些複雜的工作，比如處理工資單、優化航班安排、轉送電話信號和計算稅單。然而，任何一個寫過傳統電腦程序的人都會告訴你，要想將這些事務自動化，必須極度縝密地向電腦解釋要它做什麽。

這樣的電腦編程方式是有很大局限的；在很多領域無法應用，比如我們知道但不可言說的圍棋，或者對照片中尋常物品的識別、人類語言間的轉譯和疾病的診斷等——多年來，基於規則的編程方法在這些事務上幾無建樹。

“深藍”幾乎全憑強大的計算力實現了超人表現：它吸收了數百萬份棋局實例，在可能選項中搜索最佳的走法。問題是圍棋的可能走法比宇宙間的原子數還多，即使最快的電腦也隻能模擬微不足道的一小部分。更糟的是，我們甚至說不清該從哪一步入手進行探索。

這次有什麽不同？AlphaGo的勝利清晰地呈現了一種新方法的威力，這種方法並不是將聰明的策略編入電腦中，而是建造了一個能學習製勝策略的係統，係統在幾乎完全自主的情況下，通過觀看勝負實例來學習。

由於這些係統並不依賴人類對這項工作的已有知識，即使我們知道的比可言說的更多，也不會對它構成限製。

AlphaGo的確會在某幾步棋中使用模擬和傳統搜索算法來輔助決策，但它真正的突破在於它有能力克服“波蘭尼悖論”。它能通過實例和經驗自行得出製勝策略。這些實例來自2500年圍棋曆史積累下來的高人對局。為了理解這些棋局的製勝策略，係統采用了一種叫做“深度學習”的方法，經證明這種方法可以對規律進行有效梳理，在大量信息中認清哪些是重要的東西。

在我們的大腦中，學習是神經元間形成和鞏固關係的過程。深度學習係統采用的方法與此類似，以至於這種係統一度被稱為“神經網絡”。係統在軟件中設置了數十億個節點和連結，使用對弈實例組成的“訓練集合”來強化刺激（一盤正在進行的圍棋）和反應（下一步棋）的連結，然後讓係統接收一次新的刺激，看看它的反應是什麽。通過另一種叫做“強化學習”的技術，AlphaGo還和自己下了幾百萬盤棋，從而記住哪些走法和策略是有效的。

深度學習和強化學習都是早已提出的技術，但我們直到近年才意識到它們的威力，以及它們能走多遠。事實上我們還是不清楚，但對這些技術的應用正取得飛速的進步，而且看不到終點在哪裏。它們的應用很廣泛，包括語音識別、信用卡欺詐偵測、放射學和病理學。機器現在已經可以識別麵孔、駕駛汽車，它們都曾被波蘭尼本人歸為知道但不可言說的領域。

我們還有很長的路要走，但潛能是十分可觀的。就像240年前詹姆斯·瓦特(James Watt)首次推出蒸汽機，技術推動的變革在未來幾年裏將會波及我們的整個經濟，但不能保證每個人都能從中得到同等的好處。快速的技術進步帶來的社會挑戰，依然是需要我們去理解和應對的，這方麵不能指望機器。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.