麵對穀歌圍棋AI 人類最後的智力驕傲即將崩塌

來源: chirolike 於 2016-01-27 12:11:35 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (11376 bytes)

果殼網28日淩晨消息 1997年，國際象棋AI第一次打敗頂尖的人類；2006年，人類最後一次打敗頂尖的國際象棋AI。歐美傳統裏的頂級人類智力試金石，在電腦麵前終於一敗塗地，應了四十多年前計算機科學家的預言。

至少還有東方，人們自我安慰道。圍棋AI長期以來舉步維艱，頂級AI甚至不能打敗稍強的業餘選手。這似乎也合情合理：國際象棋中，平均每回合有35種可能，一盤棋可以有80回合；相比之下，圍棋每回合有250種可能，一盤棋可以長達150回合。這一巨大的數目，足以令任何蠻力窮舉者望而卻步——而人類，我們相信，可以憑借某種難以複製的算法跳過蠻力，一眼看到棋盤的本質。

但是，無論人怎麽想，這樣的局麵當然不可能永遠延續下去。就在今天，國際頂尖期刊《自然》報道了穀歌研究者開發的新圍棋AI。這款名為“阿爾法圍棋”（AlphaGo）的人工智能，在沒有任何讓子的情況下以5:0完勝歐洲冠軍，職業圍棋二段樊麾。

AlphaGo與歐洲圍棋冠軍樊麾的5局較量。圖片來源：參考文獻[1]

這是人類曆史上，圍棋AI第一次在公平比賽中戰勝職業選手。

AlphaGo的戰績如何？

此次比賽和以往不同。之前的比賽中，由於AI棋力比人類弱，人類選手都會讓子，而且AI主要和業餘段位的棋手比賽。而AlphaGo對戰樊麾是完全公平的比賽，沒有讓子。職業二段樊麾出生於中國，目前是法國國家圍棋隊總教練，已經連續三年贏得歐洲圍棋冠軍的稱號。

研究者也讓AlphaGo和其他的圍棋AI進行了較量，在總計495局中隻輸了一局，勝率是99.8%。它甚至嚐試了讓4子對陣Crazy Stone，Zen和Pachi三個先進的AI，勝率分別是77%，86%和99%。可見AlphaGo有多強大。

在接下來3月份，AlphaGo將和韓國九段棋手李世乭在首爾一戰，獎金是由Google提供的100萬美金。李世乭是最近10年中獲得世界第一頭銜最多的棋手。圍棋是最後一個人類頂尖高手能戰勝AI的棋類遊戲。之前有人預測說，AI需要再花十幾年才能戰勝人類。所以這場比賽或許會見證曆史，我們將拭目以待。

李世乭表示很榮幸自己將與電腦公平對弈。“無論結果如何，這都會是圍棋史上極具意義的事件。”他說，“我聽說穀歌Deep Mind的AI出人意料地強，而且正在變得更強。但我有自信至少這次能贏。”圖片來源：tygem.com

AI下圍棋到底有多難？

計算圍棋是個極其複雜的問題，比國際象棋要困難得多。圍棋最大有3361 種局麵，大致的體量是10170，而已經觀測到的宇宙中，原子的數量才1080。國際象棋最大隻有2155種局麵，稱為香農數，大致是1047。

麵對任何棋類，一種直觀又偷懶的思路是暴力列舉所有能贏的方案，這些方案會形成一個樹形地圖。AI隻要根據這個地圖下棋就能永遠勝利。然而，圍棋一盤大約要下150步，每一步有250種可選的下法，所以粗略來說，要是AI用暴力列舉所有情況的方式，圍棋需要計算250150種情況，大致是10360。相對的，國際象棋每盤大約80步，每一步有35種可選下法，所以隻要算3580種情況，大概是10124。無論如何，枚舉所有情況的方法不可行，所以研究者們需要用巧妙的方法來解決問題，他們選擇了模仿人類大師的下棋方式。

機器學習

研究者們祭出了終極殺器——“深度學習”（Deep Learning）。深度學習是目前人工智能領域中最熱門的科目，它能完成筆跡識別，麵部識別，駕駛自動汽車，自然語言處理，識別聲音，分析生物信息數據等非常複雜的任務。

描述AlphaGo研究成果的論文成為了1月28日的《自然》雜誌的封麵文章。圖片來源：Nature/Google DeepMind

AlphaGo 的核心是兩種不同的深度神經網絡。“策略網絡”（policy network）和 “值網絡”（value network）。它們的任務在於合作“挑選”出那些比較有前途的棋步，拋棄明顯的差棋，從而將計算量控製在計算機可以完成的範圍裏，本質上和人類棋手所做的一樣。

其中，“值網絡”負責減少搜索的深度——AI會一邊推算一邊判斷局麵，局麵明顯劣勢的時候，就直接拋棄某些路線，不用一條道算到黑；而“策略網絡”負責減少搜索的寬度——麵對眼前的一盤棋，有些棋步是明顯不該走的，比如不該隨便送子給別人吃。將這些信息放入一個概率函數，AI就不用給每一步以同樣的重視程度，而可以重點分析那些有戲的棋著。

AlphaGo所使用的神經網絡結構示意圖。圖片來源：參考文獻[1]

AlphaGo利用這兩個工具來分析局麵，判斷每種下子策略的優劣，就像人類棋手會判斷當前局麵以及推斷未來的局麵一樣。這樣AlphaGo在分析了比如未來20步的情況下，就能判斷在哪裏下子贏的概率會高。

研究者們用許多專業棋局訓練AI，這種方法稱為監督學習（supervised learning），然後讓AI和自己對弈，這種方法稱為強化學習（reinforcement learning），每次對弈都能讓AI棋力精進。然後他就能戰勝冠軍啦！

人類在下棋時有一個劣勢，在長時間比賽後，他們會犯錯，但機器不會。而且人類或許一年能玩1000局，但機器一天就能玩100萬局。所以AlphaGo隻要經過了足夠的訓練，就能擊敗所有的人類選手。

Google DeepMind

Google DeepMind是這個程序的創造者，我們來看一下他們萌萌的程序員。

傑米斯·哈薩比斯（Demis Hassabis）是Google DeepMind 的CEO。圖片來源：Nature Video

文章的第一作者大衛·西爾弗（David Silver）。圖片來源：Nature Video

Google DeepMind 去年在《自然》雜誌上發表過一篇論文[2]，他們用增強學習的方法訓練AI玩經典的Atari遊戲。其實在幾年前就有人研究如何讓AI玩《星際爭霸》，目前人類大師還是能擊敗AI的。電腦遊戲中大量使用人工智能技術，你有沒有覺得遊戲變得越來越聰明了？

那麽……未來呢？

人工智能研究者麵對這樣的成就當然欣喜。深度學習和強化學習等技術完全可以用於更廣泛的領域。比如最近很火的精準治療，我們可以訓練它們判斷哪些治療方案對某個特定的人有效。

但是，圍棋畢竟不僅僅是一項智力成就。就像十多年前的國際象棋一樣，圍棋必定也會引發超出本領域之外的討論。等到計算機能在圍棋上秒殺人類的時候，圍棋是不是就變成了一種無聊的遊戲？人類的智力成就是不是就貶值了？AI還將在其他層麵上繼續碾壓人類嗎？傳統認為AI不可能完成的任務是否也都將被逐一打破？人類最後是會進入AI烏托邦還是被AI淘汰呢？

沒人知道答案。但有一點毫無疑問：AI一定會進入我們的生活，我們不可能躲開。這一接觸雖然很可能悄無聲息，但意義或許不亞於我們第一次接觸外星生命。

（編輯：Ent，Calo）