AlphaGo之父傑米斯·哈薩比斯(Demis Hassabis),2017年的時候曾在母校英國劍橋大學做了一場題為“超越人類認知的極限”的演講,解答了世人對於人工智能、對於阿爾法狗的諸多疑問。在這場演講中,你還能了解到當年李世石、柯潔與阿法狗對弈的一些細節。
傑米斯·哈薩比斯,Deep Mind創始人, AlphaGo之父。
以下為演講正文:
非常感謝大家今天能夠到場,今天,我將談談人工智能,以及DeepMind近期在做些什麽,我把這場報告命名為“超越人類認知的極限”,我希望到了報告結束的時候,大家都清晰了解我想傳達的思想。
1. 你真的知道什麽是人工智能嗎?
對於不知道DeepMind公司的朋友,我做個簡單介紹,我們是在2010年於倫敦成立了這家公司,在2014年我們被穀歌收購,希望借此加快我們人工智能技術的腳步。
我們的使命是什麽呢?我們的首要使命便是解決人工智能問題。一旦這個問題解決了,理論上任何問題都可以被解決。這就是我們的兩大使命了,聽起來可能有點狡猾,但是我們真的相信,如果人工智能最基本的問題都解決了的話,沒有什麽問題是困難的。
那麽我們準備怎樣實現這個目標呢?DeepMind現在在努力製造世界上第一台通用學習機,大體上學習可以分為兩類:一種就是直接從輸入和經驗中學習,沒有既定的程序或者規則可循,係統需要從原始數據自己進行學習;第二種學習係統就是通用學習係統,指的是一種算法可以用於不同的任務和領域,甚至是一些從未見過的全新領域。
大家肯定會問,係統是怎麽做到這一點的?
其實,人腦就是一個非常明顯的例子,這是可能的,關鍵在於如何通過大量的數據資源,尋找到最合適的解決方式和算法。我們把這種係統叫做通用人工智能,來區別於如今我們當前大部分人在用的僅在某一領域發揮特長的狹義人工智能,這種狹義人工智能在過去的40年~50年非常流行。
IBM 發明的深藍係統(Deep Blue)就是一個很好的狹義人工智能的例子,他在上世紀90年代末期曾打敗了國際象棋冠軍加裏·卡斯帕羅夫(Gary Kasporov) 。如今,我們到了人工智能的新的轉折點,我們有著更加先進、更加匹配的技術。
1997年5月,IBM與世界國際象棋冠軍加裏·卡斯帕羅夫對決
2. 如何讓機器聽從人類的命令?
大家可能想問機器是如何聽從人類的命令的,其實並不是機器或者算法本身,而是一群聰明的編程者智慧的結晶。他們與每一位國際象棋大師對話,汲取他們的經驗,把其轉化成代碼和規則,組建了人類最強的象棋大師團隊。但是這樣的係統僅限於象棋,不能用於其他遊戲。
對於新的遊戲,你需要重新開始編程。在某種程度上,這些技術仍然不夠完美,並不是傳統意義上的完全人工智能,其中所缺失的就是普適性和學習性。我們想通過“增強學習”來解決這一難題。在這裏我解釋一下增強學習,我相信很多人都了解這個算法。
首先,想像一下有一個主體,在AI領域我們稱我們的人工智能係統為主體,它需要了解自己所處的環境,並盡力找出自己要達到的目的。這裏的環境可以指真實事件,可以是機器人,也可以是虛擬世界,比如遊戲環境;主體通過兩種方式與周圍環境接觸;它先通過觀察熟悉環境,我們起初通過視覺,也可以通過聽覺、觸覺等,我們也在發展多感覺的係統;
第二個任務,就是在此基礎上,建模並找出最佳選擇。這可能涉及到對未來的預期,想像,以及假設檢驗。這個主體經常處在真實環境中,當時間節點到了的時候,係統需要輸出當前找到的最佳方案。這個方案可能或多或少會改變所處環境,從而進一步驅動觀察的結果,並反饋給主體。
簡單來說,這就是增強學習的原則,示意圖雖然簡單,但是其中卻涉及了極其複雜的算法和原理。如果我們能夠解決大部分問題,我們就能夠搭建普適人工智能。這是因為兩個主要原因:首先,從數學角度來講,我的合夥人,一名博士,他搭建了一個係統叫‘AI-XI’,用這個模型,他證明了在計算機硬件條件和時間無限的情況下,搭建一個普適人工智能,需要的信息。
另外,從生物角度來講,動物和人類等,人類的大腦是多巴胺控製的,它在執行增強學習的行為。因此,不論是從數學的角度,還是生物的角度,增強學習是一個有效的解決人工智能問題的工具。
3. 為什麽圍棋是人工智能難解之謎?
接下來,我要主要講講我們最近的技術,那就是去年誕生的阿爾法狗;希望在座的大家了解這個遊戲,並嚐試玩玩,這是個非常棒的遊戲。圍棋使用方形格狀棋盤及黑白二色圓形棋子進行對弈,棋盤上有縱橫各19條直線將棋盤分成361個交叉點,棋子走在交叉點上,雙方交替行棋,以圍地多者為勝。
圍棋規則沒有很複雜,我可以在五分鍾之內教給大家。這張圖展示的就是一局已結束,整個棋盤基本布滿棋子,然後數一下你的棋子圈出的空間以及對方棋子圈出的空間,誰的空間大,誰就獲勝。在圖示的這場勢均力敵的比賽中,白棋以一格之差險勝。
白棋以一格之差險勝
其實,了解這個遊戲的最終目的非常難,因為它並不像象棋那樣,有著直接明確的目標,在圍棋裏,完全是憑直覺的,甚至連如何決定遊戲結束對於初學者來說,都很難。圍棋是個曆史悠久的遊戲,有著3000多年的曆史,起源於中國,在亞洲,圍棋有著很深的文化意義。孔子還曾指出,圍棋是每一個真正的學者都應該掌握的四大技能之一(琴棋書畫),所以在亞洲圍棋是種藝術,專家們都會玩。
如今,這個遊戲更加流行,有4000萬人在玩圍棋,超過2000多個頂級專家,如果你在4歲~5歲的時候就展示了圍棋的天賦,這些小孩將會被選中,並進入特殊的專業圍棋學校,在那裏,學生從6歲起,每天花12個小時學習圍棋,一周七天,天天如此。直到你成為這個領域的專家,才可以離開學校畢業。這些專家基本是投入人生全部的精力,去揣摩學習掌握這門技巧,我認為圍棋也許是最優雅的一種遊戲了。
像我說的那樣,這個遊戲隻有兩個非常簡單的規則,而其複雜性卻是難以想象的,一共有10170 (10的170次方) 種可能性,這個數字比整個宇宙中的原子數1080(10的80次方)都多的去了,是沒有辦法窮舉出圍棋所有的可能結果的。我們需要一種更加聰明的方法。你也許會問為什麽計算機進行圍棋的遊戲會如此困難,1997年,IBM的人工智能DeepBlue(深藍)打敗了當時的象棋世界冠軍GarryKasparov,圍棋一直是人工智能領域的難解之謎。我們能否做出一個算法來與世界圍棋冠軍競爭呢?要做到這一點,有兩個大的挑戰:
一、搜索空間龐大(分支因數就有200),一個很好的例子,就是在圍棋中,平均每一個棋子有兩百個可能的位置,而象棋僅僅是20. 圍棋的分支因數遠大於象棋。
二、比這個更難的是,幾乎沒有一個合適的評價函數來定義誰是贏家,贏了多少,這個評價函數對於該係統是至關重要的。而對於象棋來說,寫一個評價函數是非常簡單的,因為象棋不僅是個相對簡單的遊戲,而且是實體的,隻用數一下雙方的棋子,就能輕而易舉得出結論了。你也可以通過其他指標來評價象棋,比如棋子移動性等。
所有的這些在圍棋裏都是不可能的,並不是所有的部分都一樣,甚至一個小小部分的變動,會完全變化格局,所以每一個小的棋子都對棋局有著至關重要的影響。最難的部分是,我稱象棋為毀滅性的遊戲,遊戲開始的時候,所有的棋子都在棋盤上了,隨著遊戲的進行,棋子被對方吃掉,棋子數目不斷減少,遊戲也變得越來越簡單。相反,圍棋是個建設性的遊戲,開始的時候,棋盤是空的,慢慢的下棋雙方把棋盤填滿。
因此,如果你準備在中場判斷一下當前形勢,在象棋裏,你隻需看現在的棋盤,就能告訴你大致情況;在圍棋裏,你必須評估未來可能會發生什麽,才能評估當前局勢,所以相比較而言,圍棋難得多。也有很多人試著將DeepBlue的技術應用在圍棋上,但是結果並不理想,這些技術連一個專業的圍棋手都打不贏,更別說世界冠軍了。
所以大家就要問了,連電腦操作起來都這麽難,人類是怎樣解決這個問題的?其實,人類是靠直覺的,而圍棋一開始就是一個靠直覺而非計算的遊戲。所以,如果你問一個象棋選手,為什麽這步這樣走,他會告訴你,這樣走完之後,下一步和下下一步會怎樣走,就可以達到什麽樣的目的。這樣的計劃,有時候也許不盡如人意,但是起碼選手是有原因的。
然而圍棋就不同了,如果你去問世界級的大師,為什麽走這一步,他們經常回答你直覺告訴他這麽走,這是真的,他們是沒法描述其中的原因的。我們通過用加強學習的方式來提高人工神經網絡算法,希望能夠解決這一問題。
我們試圖通過深度神經網絡模仿人類的這種直覺行為,在這裏,需要訓練兩個神經網絡,一種是決策網絡,我們從網上下載了成百萬的業餘圍棋遊戲,通過監督學習,我們讓阿爾法狗模擬人類下圍棋的行為;我們從棋盤上任意選擇一個落子點,訓練係統去預測下一步人類將作出的決定。係統的輸入是在那個特殊位置最有可能發生的前五或者前十的位置移動。這樣,你隻需看那5種~10種可能性,而不用分析所有的200種可能性了。
一旦我們有了這個,我們對係統進行幾百萬次的訓練,通過誤差加強學習,對於贏了的情況,讓係統意識到,下次出現類似的情形時,更有可能做相似的決定。相反,如果係統輸了,那麽下次再出現類似的情況,就不會選擇這種走法。我們建立了自己的遊戲數據庫,通過百萬次的遊戲,對係統進行訓練,得到第二種神經網絡。選擇不同的落子點,經過置信區間進行學習,選出能夠贏的情況,這個幾率介於0-1之間,0是根本不可能贏,1是百分之百贏。
通過把這兩個神經網絡結合起來(決策網絡和數值網絡),我們可以大致預估出當前的情況。這兩個神經網絡樹,通過蒙特卡洛算法,把這種本來不能解決的問題,變得可以解決。我們網羅了大部分的圍棋下法,然後和歐洲的圍棋冠軍比賽,結果是阿爾法狗贏了,那是我們的第一次突破,而且相關算法還被發表在《自然》科學雜誌。
接下來,我們在韓國設立了100萬美元的獎金,並在2016年3月,與世界圍棋冠軍李世石進行了對決。李世石先生是圍棋界的傳奇,在過去的10年裏都被認為是最頂級的圍棋專家。我們與他進行對決,發現他有非常多創新的玩法,有的時候阿爾法狗很難掌控。
比賽開始之前,世界上每個人(包括他本人在內)都認為他一定會很輕鬆就打贏這五場比賽,但實際結果是我們的阿爾法狗以4:1獲勝。圍棋專家和人工智能領域的專家都稱這具有劃時代的意義。對於業界人員來說,之前根本沒想到。
4. 棋局哪個關鍵區域被人類忽視了?
這對於我們來說也是一生僅有一次的偶然事件。
這場比賽,全世界28億人在關注,35000多篇關於此的報道。整個韓國那一周都在圍繞這個話題。真是一件非常美妙的事情。對於我們而言,重要的不是阿爾法狗贏了這個比賽,而是了解分析他是如何贏的,這個係統有多強的創新能力。
阿爾法狗不僅僅隻是模仿其他人類選手的下法,他在不斷創新。在這裏舉個例子 ,這是第二局裏的一個情況,第37步,這一步是我整個比賽中最喜歡的一步。在這裏,黑棋代表阿爾法狗,他將棋子落在了圖中三角標出的位置。為什麽這步這麽關鍵呢?為什麽大家都被震驚到了。
圖左:第二局裏,第37步,黑棋的落子位置 圖右:之前貌似陷入困境的兩個棋子
其實在圍棋中有兩條至關重要的分界線,從右數第三根線。如果在第三根線上移動棋子,意味著你將占領這個線右邊的領域。而如果是在第四根線上落子,意味著你想向棋盤中部進軍,潛在的,未來你會占棋盤上其他部分的領域,可能和你在第三根線上得到的領域相當。
所以在過去的3000多年裏,人們認為在第三根線上落子和第四根線上落子有著相同的重要性。但是在這場遊戲中,大家看到在這第37步中,阿爾法狗落子在了第五條線,進軍棋局的中部區域。與第四根線相比,這根線離中部區域更近。這可能意味著,在幾千年裏,人們低估了棋局中部區域的重要性。
有趣的是,圍棋就是一門藝術,是一種客觀的藝術。我們坐在這裏的每一個人,都可能因為心情好壞產生成千上百種的新想法,但並不意味著每一種想法都是好的。而阿爾法狗卻是客觀的,他的目標就是贏得遊戲。
5. 阿爾法狗拿下李世石靠哪幾個絕招?
大家看到在當前的棋局下,左下角那兩個用三角標出的棋子看起來好像陷入了困難,而15步之後,這兩個棋子的力量擴散到了棋局中心,一直延續到棋盤的右邊,使得這第37步恰恰落在這裏,成為一個獲勝的決定性因素。在這一步上阿爾法狗非常具有創新性。我本人是一個很業餘的棋手,讓我們看看一位世界級專家Michael Redmond對這一步的評價。
Michael是一位9段選手(圍棋最高段),就像是功夫中的黑段一樣,他說:“這是非常令人震驚的一步,就像是一個錯誤的決定。”在實際模擬中,Michael其實一開始把棋子放在了另外一個地方,根本沒想到阿爾法狗會走這一步。像這樣的創新,在這個比賽中,阿爾法狗還有許多。在這裏,我特別感謝李世石先生,其實在我們贏了前三局的時候,他下去了。
2016年3月阿爾法狗大戰世界圍棋冠軍李世石,以4:1的總分戰勝了人類
那是三場非常艱難的比賽,尤其是第一場。因為我們需要不斷訓練我們的算法,阿爾法狗之前打贏了歐洲冠軍,經過這場比賽,我們知道了歐洲冠軍和世界冠軍的差別。理論上來講,我們的係統也進步了。但是當你訓練這個係統的時候,我們不知道有多少是過度擬合的,因此,在第一局比賽結束之前,係統是不知道自己的統計結果的。所以,其實第一局,我們非常緊張,因為如果第一局輸了,很有可能我們的算法存在巨大漏洞,有可能會連輸五局。但是如果我們第一局贏了,證明我們的加權係統是對的。
不過,李世石先生在第四場的時候,回來了,也許壓力緩解了許多,他做出了一步非常創新性的舉動,我認為這是曆史上的創新之舉。這一步迷惑了阿爾法狗,使他的決策樹進行了錯誤估計,一些中國的專家甚至稱之為“黃金之舉”。通過這個例子,我們可以看到多少的哲理蘊含於圍棋中。這些頂級專家,用盡必生的精力,去找出這種黃金之舉。
其實,在這步裏,阿爾法狗知道這是非常不尋常的一步,他當時估計李世石通過這步贏的可能性是0.007%,阿爾法狗之前沒有見過這樣的落子方式,在那2分鍾裏,他需要重新搜索決策計算。我剛剛已經提到過這個遊戲的影響:28億人觀看,35000相關文章的媒體報道,在西方網售的圍棋被一搶而空,我聽說MIT(美國麻省理工學院)還有很多高校,許多人加入了圍棋社。
我剛才談到了直覺和創新,直覺是一種含蓄的表達,它是基於人類的經曆和本能的一種思維形式,不需要精確計算。這一決策的準確性可以通過行為進行評判。在圍棋裏很簡單,我們給係統輸入棋子的位置,來評估其重要性。阿爾法狗就是在模擬人類這種直覺行為。創新,我認為就是在已有知識和經驗的基礎上,產生一種原始的,創新的觀點。阿爾法狗很明顯的示範了這兩種能力。
6.神秘棋手Master究竟是不是阿爾法狗?