DeepMind和阿爾法狗 - 我在人工智能圍棋戰勝人類中的經曆

來源: 火耳 2020-11-07 22:32:58 [] [博客] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (27722 bytes)
一. 我愛下圍棋
 
我上高中時開始學圍棋,是在中日圍棋擂台賽影響下接觸圍棋的那一代人。學會之後就一直保持著這個愛好,在圍棋上花了不少時間,也因為圍棋交了一些朋友。
 
棋藝的高低和棋才有關,不過對大多數業餘棋迷來說,這並不是最重要的。不管你處於什麽水平,無論棋盤內的技藝,還是棋盤外的趣聞軼事,總能讓人找到興趣點,棋樂融融,也其樂融融。圍棋就是有這樣吸引人的魅力,無怪乎古人給了它一個形象的名稱:“木狐狸”。
 
圍棋是一項小眾的遊戲或運動,原因就在於它有一定的難度。這種難度,也給這項屬於東方文化的運動增添了神秘和高深的色彩:占據這項運動頂尖的都是中日韓棋手。西方人,即便是麥克·雷蒙在日本升到了九段,在競技場上的成績,也和頂尖棋手差得很遠。在和科技的較量上,圍棋也很驕傲:IBM的電腦“深藍”在20年多前就擊敗了國際象棋大師卡斯帕羅夫。但對圍棋,電腦一直是一籌莫展。
 
就在阿爾法狗擊敗李世石前兩年,我還和一位朋友聊過,為什麽電腦圍棋水平不行的原因。當時我的看法是,圍棋變化太多。特別是從布局到序盤階段,有很多對“虛”和“實”的判斷。而這種判斷,在頂尖高手間由於棋風不同都會各說各話,無法給出一個唯一的答案。另外,圍棋中的很多概念,如“筋”、“形”、“厚實”、“薄味”、“入界宜緩”等等,都有隻可意會、不可言傳的味道在裏麵,在電腦程序中要如何體現?似乎很難。所以多年以來,電腦的圍棋水平都不高。
 
當然這隻是我一個技術外行的認知。人工智能技術的頂尖代表,起源於英國的DeepMind公司,在創始人哈薩比斯(Demis Hassabis)的帶領下,正在總結過去的理論,結合最新的技術手段,悄悄地積蓄著突破的力量。圍棋作為一項複雜的智能遊戲,也成了他們用來挑戰的最佳目標。
 
二. 阿爾法狗橫空出世
 
“Go"是日語中“棋”的發音,近代以來很長時間裏日本水平最高,推廣圍棋國際化也出力最多,所以在英語中,就用日語的發音來翻譯圍棋。Alpha Go是穀歌/DeepMind開發的人工智能圍棋項目,中文形象地翻譯成“阿爾法狗”。
 
 
DeepMind是一家創始於英國科技公司,後來被穀歌收購。我在上一篇文章中提過,英國成就突出的科技公司,被美國的大企業收購是雙贏的結果。DeepMind有著在人工智能研究上領先的水平,最終做出了阿爾法狗這個轟動世界的項目,離不開穀歌提供的巨大資源,就是一個好的例子。
 
除了DeepMind本身的硬核實力之外,阿爾法狗這個項目還調動了很多資源,包括對事件進程的策劃和掌控,很有章法。
 
阿爾法狗首先邀請的對手是曾獲得歐洲圍棋冠軍的樊麾,時間是2015年10月。樊麾是原中國職業棋手,2000年後赴法國發展,代表法國參加比賽。中日韓的職業棋手去到海外,工作的重心是圍棋的教育和普及工作,而不在競技一線,樊麾也不例外。
 
阿爾法狗和樊麾對戰的結果是5:0,不過這個結果當時沒有廣泛報道。過去電腦圍棋的最好水平是職業高手讓4-5子,樊麾曾是職業棋手,雖不在頂尖行列,但阿爾法狗的這個成績比過去的程序是進了一大步。用樊麾本人的話來說,是感覺到要出大事了
 
2016年1月,DeepMind的科學家們在自然雜誌上發表文章,拉開了人工智能和人類競技的大幕。
 
 
2016年3月阿爾法狗和李世石比賽前,更多關於阿爾法狗的細節被披露,包括和樊麾的對局。
 
職業棋手們認真地研究了這5局棋的內容,做了不少分析棋局的節目,人工智能的圍棋水平果然大有長進。大家對第一局官子中,電腦下出的這一巧手讚賞有加。
 
樊麾對戰阿爾法狗第一局
 
官子是圍棋終局前的最後收束階段,是棋局的關鍵之處。聶衛平老師棋高眼光也高,輕易不會表揚人。在李昌鎬出道的早期,有一次在官子階段走出一步隻便宜了一點點的巧手。聶老看到了,便斷言此子前途無量。阿爾法狗在這個細小處的處理,確實代表了其不凡的水平。
 
不過樊麾和李世石還是有很大的差距。比賽開始前,棋界的多數人,也都認為李世石會獲勝。
 
李世石是當事人,說要以5:0結束比賽。棋手賽前誇大給自己打氣是常事,何況李世石也是個性鮮明、愛發狂言的棋手。
 
 
中國棋界的9位世界冠軍,也認為電腦還不是對手。
 
 
日本棋界水平現在落後於中韓,但即使在李世石已經輸了三盤的情況下,他們還是希望中國棋手能打敗電腦,保住人類的尊嚴。
 
 
這挺有趣,恩怨情仇交織的中日韓三國,這大概是一件少有的目標一致的事情。
 
棋界之外,很多人的看法也類似。愛說話的李開複老師,常常以“前電腦工程師”的身份對技術問題發言,也認為李世石會贏。
 
 
阿爾法狗一方,DeepMind的創始人哈薩比斯和項目負責人席爾瓦,倒是態度謙和,發言謹慎。很像另一類謙遜但倔強的棋手:多說無益,我們實戰解決
 
 
2016年3月9日開始的5番棋,的確在實戰中讓我們跌破了眼鏡。前三盤李世石輸得沒有機會,第四盤在戰鬥中發揮出色,拿下一盤,第五盤又是脆敗。
 
在穀歌公司的策劃下,這場人機大戰也成為媒體關注的大事件。有消息稱,阿爾法狗和李世石的第一場比賽,全球有一億人觀看直播,其中6000萬來自中國。這大概是有史以來,圍棋吸引到的最多關注。
 
我就是這一億分之一。那幾天裏,每天一開賽,我就掛在直播間裏,一邊看棋局進程,一邊看棋手的講解,一邊還在各種懂棋和不懂棋的群裏熱烈討論,精神高度興奮。情緒也隨著棋局的進程,夾雜進各種對人工智能技術的震驚、讚歎、迷惑和恐懼,起伏不止,似乎自己也成了一個局中人。
 
妻子看到我亢奮得不行,給我潑了點冷水。
 
我妻子不懂圍棋,在我的影響下也了解了一下這場人機大戰的來龍去脈。她是技術背景出身,從她的專業出發,說了一堆聽不懂的技術名詞,給我講了一下她的看法:這隻是一個技術突破,解決了一個簡單的遊戲問題,沒那麽偉大,不至於那麽激動。
 
什麽?你一個不會下棋的人,說圍棋簡單?這話像是冒犯了我一個多年的老朋友,我有些火了:
 
你知道高川格"流水不爭先"的灑脫雋永嗎?你看過吳清源新布局革命的震憾嗎?你了解日本六超時代的輝煌嗎?你體會過老聶擂台連勝帶給國人的激昂嗎?你知道曹薰鉉的靈動、李昌鎬的不動、馬曉春的飄逸、劉昌赫的華麗、李世石的銳利、常昊的厚重、古力的鬥力,還有新生代百花齊放、群星燦爛得兩個巴掌數都數不過來柯潔、樸廷桓、申真諝、井山裕太、辜梓豪、謝爾豪、羋昱廷、唐韋星、範廷鈺、檀嘯、時越們的精彩嗎?以上每一點還隻是標題,每個話題我還可以延伸說下去……
 
當然,這隻是我在腦子裏的翻江倒海,沒有噴發出來。多年的經驗告訴我,家不是用來辯論的地方。何況在家裏,即便是辯贏了,也還是我要認輸。
 
三. 我長達一年的反射弧
 
李世石和阿爾法狗的人機大戰過後,餘波蕩漾。
 
2016年底,阿爾法狗的升級版化名Master,一周內在網絡上與多位頂尖棋手交戰60局,無一敗績。
 
2017年5月,等級分排名世界第一的中國棋手柯潔和阿爾法狗激戰三盤,全部敗陣,輸得毫無機會。
 
人類這下才服了,沒有人再敢對機器說大話了,當然也包括還是很愛說話的李開複老師。
 
這一年裏,社會也在消化這個事件,DeepMind引領的人工智能技術在社會生活的各個方麵被討論。科普作家們在普及相關的知識,技術投資人也在介紹這項技術的應用場景和前途。從不同的角度和渠道,我學習了更多的背景知識。阿爾法狗戰勝人類這一讓我和很多人震驚的事件,輪廓漸漸清晰了起來:
 
  1. 圍棋“簡單”指的是規則明確,包括行棋的規則和勝負的判斷,都是可以準確定義的。用數學語言說,就是變量明確,結果唯一,這樣目標函數就容易確定。對於科學研究,這種有邊界的問題,突破就有了方向,容易解決。
  2. DeepMind攻克這一難題在理論上沒有突破。具體說,深度學習、神經網絡理論和蒙特卡洛搜索樹這些理論和方法,都是幾十年前就提出來了的,不是新東西。
  3. 這次突破的關鍵是計算力。DeepMind的科學家們將深度學習、強化學習、傳統樹搜索和大規模計算結合起來,開發出了新算法,一舉攻克了圍棋這個難題。
  4. 神經網絡理論模仿人腦的決策機製,先是通過已有的棋譜,讓機器學習後,模擬出一個可以用獲勝概率來衡量的下一手,這一過程也減少了計算量,使得在操作上可行。至於機器是怎樣確定函數關係得出結果的,目前人類並不知道。基於此,有人認為這種未知性是個潛在的風險,很可怕,比如特斯拉老板伊隆·馬斯克就持這樣的觀點。
 
簡單講,阿爾法狗戰勝人類高手可以總結為:圍棋規則明確,在理論和方法上整合有效,同時得益於計算機算力的大幅提升
 
我撇開對圍棋的深厚感情,把上麵的認識和妻子講了一遍。聽我講完後,她一樂:去年這時候我講的,不就是這意思嗎
 
你去年講的是這意思?我怎麽隻記得你說圍棋簡單來著了?
 
對呀,我家領導可是科班出身,從本科到博士,讀的都是計算機科學。包括機器學習、深度學習、決策樹這些屬於算法的內容是她的日常工作,怎麽就敵不過我對圍棋的感情呢?神經網絡理論也是她多年前就學習過的內容,我家書架上,也有好幾本關於神經網絡的書籍。她未必像我一樣,會以讀科普作品和科學史的為興趣點,記得這一理論的提出者Hinton教授,但她熟知這一理論的內容和相關的應用方法。
 
何況,她就有同學在DeepMind工作。科研工作的日常,其實和她也差不多:讀論文,想算法,處理數據,寫程序編碼,解決跑程序中出現的問題,哪有新聞報道裏的渲染的那麽高大上。我花了一年的發現,是她多年裏已經存在的認知,隻是沒能用我最熟悉的語言來表達。
 
最後我倆各退一步,各自檢討。
 
我檢討的是,文青思維貽誤人。對於一件需要用理智來觀察判斷的事,過於豐富的情感會阻礙認知能力,讓我白白損失了一年認識這個問題的時間。
 
她檢討的是,理工思維需要改進表達的方式。對於自己了解掌握的知識,她沒能像科普作家或是技術投資人一樣,用簡明易懂的語言表述出來說服我。從而讓我白白損失了一年認識這個問題的時間。
 
關於圍棋是個“簡單”的研究對象,我家領導又給我舉了兩個例子。
 
例如說,如果機器來處理做菜,就不簡單。比如說用料,特別中國菜,油鹽醬醋各種調料的用量,常會說“少許”,這就是變量無法精準定義。而做出來菜好不好吃,不同的人有不同的判斷標準,這是結果無法精確衡量。這樣的問題,找目標函數的難度就很大,處理起來會比圍棋更棘手。
 
這個類比我就能很好地接受了,圍棋規則明確,對所有人都一樣。棋迷中也有類似的說法,比如說,李昌鎬的棋,也要兩個真眼才能活。說的就是這個道理,下棋的人都明白。
 
領導給我舉的另一個例子是在醫學研究中,比如尋找某種病症的原因。在摸索中陸續找到一些致病原因,但是在找到之前就是變量不明。或者說,發現的某個原因相關,比如情緒能影響病症,但如何用量化手段把情緒作為一個變量去建模,又是一個不能精準定義的例子。又或者,開個更大的腦洞,目前對於該病症的所有基礎理論都是錯的,在這樣的框架下得出的結果就是在碰運氣,這也許是某些病症治愈率很低的真正原因。這樣的問題就是開放性的,和圍棋相比也是難了幾個數量級。
 
有了這些知識,我基本理解了圍棋是個簡單問題的說法。甚至於聽到有人說阿爾法狗解決的不過是個初級人工智能問題這樣紮心的說法,也能一笑置之。
 
可是,在對阿爾法狗認識這件事上,最初我是聽了圍棋高手們的判斷。特別是柯潔,他是等級分排名第一的頂尖棋手。圍棋上的事,你說我是相信第一高手柯潔,還是不懂棋、但懂深度學習和神經網絡的我家領導?
 
下麵是柯潔對阿爾法狗的認識過程。
 
樊麾對戰阿爾法狗之後,柯潔是這麽評論的:
 
 
李世石第一盤輸了以後,柯潔是這麽表態的:
 
 
直到2017年5月,柯潔對戰阿爾法狗,三戰皆敗後,才服了:
 
 
我的這個反射弧,長達一年,算是把這個問題搞清楚了。過程想起來,還是挺有意思的。
 
四. 阿爾法狗帶來的樂趣和恐懼
 
對於棋迷來說,阿爾法狗帶來的除了震憾,還有棋藝上的收獲和樂趣。
 
複雜的大雪崩定式,從吳清源大師走出的內拐招法,到近年周睿羊苦心研究的能便宜兩目棋的次序,內裏有無數的玄機。但是在阿老師的棋局中,這個定式不見蹤影,被淘汰了;
 
隱藏著無數把飛刀的妖刀定式,過去被看成俗手的簡單亂衝取地的走法,阿老師給出的勝率高企。原來的定式,也淘汰了;
 
高者在腹,五路肩衝的下法,或造勢或圍地,也是可以走的,過去這麽下一定會被批評;
 
人機大戰第二局,阿爾法狗五路肩衝
 
對手下星位,開局就點三三,撈地為先,在當下的高手對局中,流行得讓人生厭。我的一位哥兒們,棋高也很自信的業餘強手,對此更是感觸頗深:有一段時間下棋,碰到對手上來就這麽走。開始以為是亂下,但走著走著就發現實地不夠了,到很後麵才明白過來這是AI在練手呢。
 
Master在2016年底橫掃棋界的60盤棋裏,也有很多精彩的瞬間。比如這盤對唐韋星,在四路上對兩子的一靠,被孟泰齡評為60局中最具視覺衝擊力的一手。這手棋實在太帥,而作為對手,後麵的許多種變化,都是被虐的結果。
 
 
我有一段時間喜歡看一位台灣的職業棋手陳峰講棋。他談到與AI對局的感受,說覺得沒走什麽壞棋,但是4、50手之後一看勝率隻剩個位數,心情陷入絕望。
 
不過,李世石和和機器對局贏了兩盤,也是人類贏的兩盤棋,靠的是他強大的計算力
 
在與阿爾法狗的第四局棋中,在戰鬥中下出第78手挖,被古力稱為神之一手,奠定勝局。
 
阿爾法狗對李世石第四局
 
2019年底,與阿爾法狗對戰之後棋力逐漸下坡的李世石,決定在36歲時退出現役。告別賽他選擇了和韓國的人工智能軟件“韓豆”對弈,在第二盤被讓兩子的棋局中,以他出色的計算,枷住棋筋獲勝。
 
 
計算力是棋手最重要的能力,近年來中韓棋壇上唱主角的青少年群雄,無一不是算力超群的大神。
 
棋迷對職業棋手算力的崇拜之情,我深有體會。
 
我上大學時,同宿舍的一哥們兒學會下棋後,有點懷疑職業棋手被吹得神乎其神的算路,是不是有言過其實的成分?
 
我正好看到圍棋天地上的一盤棋,就和他說,我們來擺一擺吧。
 
那是一盤聶衛平對武宮正樹的對局,當時兩位大師的巔峰期已過,是一個不太重要的比賽。老聶親自寫的講解。有一個局部的變化,他說這麽走不行,後麵附了好幾個參考圖。
 
我們的棋力都還沒到看參考圖可以明白的程度,就隨著說明一步步在棋盤上擺下去,好幾十手棋。一直到把參考圖上都沒有的,一口口緊完氣,看清了對殺一方差一口氣。這就是老聶在開始說的結論,這麽走不行。
 
我那哥們兒把棋子拍在棋盤上,緊上了最後一口氣,然後重重地說出了表示服氣的兩個字:我(wo第四聲)cao(同樣為第四聲)!
 
職業棋手的算路都很深,老聶和武宮的棋風都還不是以計算見長的類型。精於算路的棋手,如趙治勳,在日本兩日製的比賽上,關鍵時一手棋常常會長考好幾個小時。從不行的變化開始,算清盡可能多的變化。
 
隻是這樣的計算,現在電腦一秒鍾就能算幾個來回。是不是細思極恐,讓人後背發涼?
 
過去對職業棋手的崇拜原因是棋藝高超,現在都輸給了機器。棋藝上沒了神秘感,那麽棋外的軼聞趣事還會有吸引力嗎?
 
不過,阿爾法狗和棋手的對戰中,穀歌一方也安排了一些暖心的細節。
 
在Master和聶衛平老師的對局中,一直代替機器執子的項目成員、來自台灣的黃士傑博士,考慮到尊重年齡長的聶老師,把每步的限時調長了。對局獲勝後,在電腦上打出“謝謝聶老師”,向聶老致意。
 
 
這是符合棋盤禮儀和東方文化的舉動,尤其是在棋盤上碾壓了對手之後。這短短五個字讓人覺得麵對的不止是冰冷的機器,不光老聶感動,我看了也很感動。
 
五. 阿爾法狗之後的圍棋
 
2017年5月27日,在柯潔和阿爾法狗比賽之後,DeepMind宣布阿爾法狗將不再參加圍棋比賽。2017年底,黃士傑博士宣布他已經轉到了其它項目上。DeepMind對圍棋的探索,暫告一段落。
 
 
事了拂衣去,不留身,但留下了名。DeepMind下次再出現在媒體上時,沒準又是一條驚爆眼球的大新聞。
 
阿爾法狗不玩了之後,其它人工智能程序繼續著它的工作。中國的絕藝,日本的Zen和韓國的韓豆,同樣扮演著碾壓頂尖棋手的角色。不甚完善的韓豆,都把李世石打到了讓兩子的境地。
 
這裏又顯出科研中原創的重要性了。DeepMind突破了之後,理論和方法的框架確定了,其它跟隨者需要做的就是優化工作,做出結果隻是時間問題,也就不再神秘了。
 
科研中有時候在項目上成功了,就能夠傳達一個有效信息。美國先研製成功了氫彈,那時候冷戰已經開始,技術對蘇聯是嚴密封鎖的。蘇聯看到美國成功了,得到的信息是“這事能成”,很快也搞出了氫彈。
 
現在我也還在看棋、下棋。現在比賽中的講解,對某位職業高手的誇讚,已經變成了“在多少手內這招法和機器跑出來的一模一樣”。我一則以喜,敬佩這些棋手勤奮用功(如韓國的樸廷桓);一則以憂,有人把人工智能戰勝人腦類比成機器力戰勝了人的體力。就如今天,還有多少人無聊到去比較人和機器,誰能能舉起更重的物品?一百年後,還會有圍棋這項運動嗎?或者說,舉重比賽,會有圍棋對弈那麽多樂趣嗎?
 
我也想到,幾年前我不相信人工智能會戰勝李世石的態度,不就和一百多年前,一個愚民不相信火車會拉得比馬多一樣嗎?
 
阿爾法狗戰勝李世石到現在,已經四年多了。當中我經曆了從激動到平靜的過程,著手寫這篇文章時,又經曆了一次從平靜到激動的過程。心情再次平靜下來之後,盡管我已經明白了阿爾法狗的基本原理,接受了圍棋是個“簡單”的遊戲的說法。我還是隱隱覺得,我們經曆的,或許真的是一個改變時代的大事件
 

如果喜歡我的文字,請按下麵的二維碼關注我的微信公眾號,“火耳的古城”。

 




更多我的博客文章>>>

加跟帖:

  • 標題:
  • 內容(可選項): [所見即所得|預覽模式] [HTML源代碼] [如何上傳圖片] [怎樣發視頻] [如何貼音樂]