個人資料
正文

Alpha Go 計算1小時,13億人工作需百年

(2018-01-14 23:30:28) 下一個

 

我們為什麽需要超級計算機
 
孟祥飛  新華日報  2017年11月24日06:10
 

 

 

1946年世界上第一台計算機叫ENIAC,它誕生的時候占地170平方米,相當於兩個教室那麽大,它的功耗有150千瓦,而它的計算速度是每秒5000次。而我們的智能手機,功耗不到1瓦,每秒計算速度可達到幾十億次。而超級計算機的計算能力呈指數增長,超級計算機就像超級大腦,幾十萬、上百萬的計算單元組合在一起,形成了超強的計算能力。

超級計算是人類發展的“超級利器”

我們為什麽需要超級計算機?可以簡單地拿步槍和大炮做一個比喻,普通的計算機就像步槍靈活實用,但是要去攻城拔寨就需要大炮,超級計算機的作用就是來攻城拔寨。2016年AlphaGo橫空出世,在圍棋大戰中以四比一擊敗了李世石,今年又擊敗了柯潔。AlphaGo的超強能力一方麵是因為新的人工智能算法的推動,另一方麵它的後台具備千萬億次的計算能力,也就是說它工作1小時,相當於中國13億人上百年的工作量。

超級計算實際上在更重要、更廣闊的領域有它的重要價值,把它簡單概括成叫“算天”“算地”“算人”。“算天”是算什麽?我們的天氣預報,同時研究宇宙起源和演化的重要能力;“算地”是算什麽呢?實際上就是算地質的演化,還有我們的油藏,地下能源的勘探,我們簡單地把它比喻成“給地球做CT”;“算人”是什麽呢?基因數據是一個龐大的數據群,我們需要用超級計算機來進行基因大數據的分析,來揭示人類基因的密碼。所以說,超級計算是解決人類重大問題和社會發展重大問題的一個“超級利器”。

30年拚搏贏得世界第一

在我們這個領域,非常有代表性的一個故事叫“玻璃房子”。當時我們的中石油、國家氣象局需要超級計算機,花高價從國外的一些機構購買了超級計算機,但買回來以後,要建獨立的機房,把數據交給他們,由他們的工程師進入機房進行數據處理,我們自己的人員隻能隔著窗戶看一下這台超級計算機。

2007年我在開展理論物理的博士研究工作時需要用到超大規模的計算,但是在我們國內很少有這種平台能夠提供超級計算能力,所以就跟美國聯合培養。我到了美國以後發現這種差距更大,美國一個普通的高校就可以有一台相當規模的超級計算機。

非常幸運,回國以後不久,在國家重大專項的支持下,天津濱海新區開始啟動我國第一家國家級超算中心的建設。我毅然加入到這個籌建團隊,2010年我們開始正式安裝調試“天河一號”係統,全麵安裝的時候已經進入到七、八月份,外麵30多度,因為沒有空調,實際上機房裏麵40多度。大家累了就躺在我們設備的大紙箱子上休息一下,醒了再接著幹。用了七個月左右的時間完成了別人要一年多才能完成的工作。

2010年11月17日,“天河一號”取得了世界第一的突破。實際上在“天河一號”取得世界排名第一之前,基本上是美國一家壟斷這個世界排名第一的位置,日本是在2002年左右取得過世界第一。當時有美國的媒體就問:中國的超級計算機為什麽能跨越式發展?我們說一個國家、一個團隊持續30多年在這個領域裏不斷地堅持、不斷創新,我們拿到世界第一有問題嗎?

中國創新在質疑聲中成長發展

“天河一號”取得世界第一不久,質疑的聲音接踵而來。很多國內外專家和媒體質疑中國的“天河一號”是為排世界第一而造,中看不中用,甚至調侃它就是一台大遊戲機。聽到這個信息,我怒了!我立了個軍令狀:幹不好“天河一號”的應用,我卷鋪蓋走人!當時我把我們團隊打造成了一個叫“天河”應用拓展的售前、售後、研發的“三體”。“天河一號”剛運行時,我們部署一套國際上藥物研發領域的通用軟件,遇到了非常嚴重的不兼容問題。我們通過20多個日夜上千次調試、編譯,最終把不兼容的問題解決了。現在再看我們的“天河一號”,它每天在線的運行任務1400項,每天完成近萬項的任務,這種應用規模實際上是很多歐美超算中心都很難達到的。現在的“天河二號”“神威·太湖之光”等等這些超級計算機都在國家的科技創新和產業領域發揮著越來越強大的作用。

創新並不都是艱苦卓絕的或者高大上的,有的時候創新也來自於我們日常的生活。2012年我們遇到數據出現嚴重擁堵的問題。這是個什麽概念呢?比如一個超級大工廠,每一個車間生產能力都很強,但這些產品在運到倉庫存放的時候都堵在了倉庫門口。如何解決這個問題?我出差時發現在車站人流密集的地方,會把一個大進出口用安全柵欄隔離開,分成很多小的通道,提升了通行的效率。這個設計啟發了我,我回去把我們整個數據的輸出分成很多通道,把我們數據的存儲效率提升了大概一倍。

現在我們又啟動新一代“天河”百億億次超級計算機的研製,我們把它簡稱為“E級計算”,這是現在全世界超級計算機領域共同麵臨的一個挑戰。而現在美國和日本也在向這個E級計算挑戰。實際上超級計算機的研製是一個國家電子信息技術發展的核心驅動,更快的超級計算機也是我們國家應急、防災、能源保障等等這些重點領域的重要支撐。未來,我們的超級計算機是具有更廣泛應用前景的新一代的“超級利器”。

(孟祥飛,國家超級計算天津中心應用研發部部長,本文編輯整理自孟祥飛2017年11月11日在央視《開講啦》的演講)

穀歌阿爾法狗再進化 人工智能概念受關注

https://androidinvest.com/Stock/Comment/21679/?

據外媒報道,穀歌旗下人工智能研究部門DeepMind團隊公布了最強版AlphaGo,它完全可以從零基礎學習,在短短3天內,成為頂級圍棋高手。
這款名為AlphaGo Zero的水平已超過之前所有版本的AlphaGo。
DeepMind團隊將關於AlphaGo Zero的相關研究以論文的形式,刊發在了10月18日的《自然》雜誌上

100:0!Deepmind Nature 論文揭示最強 AlphaGo Zero,無需人類知識

本文作者:岑大師 2017-10-19 03:57

AlphaGo“退役”了,但Deepmind在圍棋上的探索並沒有停止。

今年5月的烏鎮大會的“人機對局”中,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨後Deepmind創始人Hassabis宣布,AlphaGo將永久退出競技舞台,不再進行比賽。同時Hassbis表示:“我們計劃在今年稍晚時候發布最後一篇學術論文,詳細介紹我們在算法效率上所取得的一係列進展,以及應用在其他更全麵領域中的可能性。就像第一篇 AlphaGo 論文一樣,我們希望更多的開發者能夠接過接力棒,利用這些全新的進展開發出屬於自己的強大圍棋程序。”

今天,Deepmind在如約在Nature發布了這篇論文——在這篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文中,Deepmind展示了他們更強大的新版本圍棋程序“AlphaGo Zero”,驗證了即使在像圍棋這樣最具挑戰性的領域,也可以通過純強化學習的方法自我完善達到目的。

100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

 

摘要

人工智能的一個長期目標是通過後天的自主學習(雷鋒網注:tabula rasa,意為“白板”,指所有的知識都是逐漸從他們的感官和經驗而來),在一個具有挑戰性的領域創造出超越人類的精通程度學習的算法。此前,AlphaGo成為首個戰勝人類圍棋世界冠軍的程序,當時的AlphaGo通過深層神經網絡進行決策,並使用人類專家下棋的數據進行監督學習,同時也通過自我對弈進行強化學習。在這篇論文中,我們將介紹一種僅基於強化學習的算法,而不使用人類的數據、指導或規則以外的領域知識。AlphaGo成為自己的老師,這一神經網絡被訓練用於預測AlphaGo自己的落子選擇,提高了樹搜索的強度,使得落子質量更高,具有更強的自我對弈迭代能力。從一塊白板開始,我們的新程序AlphaGo Zero表現驚人,並以100:0擊敗了此前版本的AlphaGo。

 

全新強化學習算法:無需任何人類指導

雷鋒網發現,這篇論文的最大亮點,在於無需任何人類指導,通過全新的強化學習方式自己成為自己的老師,在圍棋這一最具挑戰性的領域達到超過人類的精通程度。相比起之前使用人類對弈的數據,這一算法訓練時間更短,僅用3天時間就達到了擊敗李世石的AlphaGo Lee的水平,21天達到了之前擊敗柯潔的AlphaGo Master的水平。

在3天內——也就是AlphaGo Zero在擊敗AlphaGo Lee之前,曾進行過490萬次自我對弈練習。 相比之下,AlphaGo Lee的訓練時間長達數月之久。AlphaGo Zero不僅發現了人類數千年來已有的許多圍棋策略,還設計了人類玩家以前未知的的策略。

100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

據Deepmind博客介紹,AlphaGo Zero采用了新的強化學習方法,從一個不知道圍棋遊戲規則的神經網絡開始,然後通過將這個神經網絡與強大的搜索算法結合,然後就可以實現自我對弈了。在這樣的訓練過程中,神經網絡被更新和調整,並用於預測下一步落子和最終的輸贏。

這一更新後的神經網絡將再度與搜索算法組合,這一過程將不斷重複,創建出一個新的、更強大版本的AlphaGo Zero。在每次迭代中,係統的性能和自我對弈的質量均能夠有部分提高。“日拱一卒,功不唐捐”,最終的神經網絡越來越精確,AlphaGo Zero也變得更強。

Alpha Zero與之前版本有如下不同:

  • AlphaGo Zero 隻使用棋盤上的黑子和白子作為輸入,而之前版本AlphaGo的輸入均包含部分人工特征;

  • AlphaGo Zero使用一個神經網絡而不是之前的兩個。以前版本的 AlphaGo 使用一個“策略網絡”來選擇落子的位置,並使用另一個“價值網絡”來預測遊戲的輸贏結果。而在AlphaGo Zero中下一步落子的位置和輸贏評估在同一個神經網絡中進行,從而使其可以更好地進行訓練和評估。

  • AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋程序中廣泛使用於勝負的快速隨機策略,從而通過比較確定每一手之後輸贏的概率選擇最佳落子位置,相反,它依賴於高質量的神經網絡來評估落子位置。

上述差異均有主於提高係統的性能和通用性,但使最關鍵的仍是算法上的改進,不僅使得AlphaGo Zero更加強大,在功耗上也更為高效。

100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

AlphaGo不同版本所需的GPU/TPU資源,雷鋒網(公眾號:雷鋒網)整理

技術細節

新方法使用了一個具有參數θ的深層神經網絡fθ。這個神經網絡將棋子的位置和曆史狀態s作為輸入,並輸出下一步落子位置的概率,用, (p, v) = fθ(s)表示。落子位置概率向量p代表每一步棋(包括不應手)的概率,數值v是一個標量估值,代表棋手下在當前位置s的獲勝概率。

AlphaGo Zero的神經網絡通過新的自我對弈數據進行訓練,在每個位置s,神經網絡fθ都會進行蒙特卡洛樹(MCTS)搜索,得出每一步落子的概率π。這一落子概率通常優於原始的落子概率向量p,在自我博弈過程中,程序通過基於蒙特卡洛樹的策略來選擇下一步,並使用獲勝者z作為價值樣本,這一過程可被視為一個強有力的評估策略操作。在這一過程中,神經網絡參數不斷更新,落子概率和價值 (p,v)= fθ(s)也越來越接近改善後的搜索概率和自我對弈勝者 (π, z),這些新的參數也會被用於下一次的自我對弈迭代以增強搜索的結果,下圖即為自我訓練的流程圖。

100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識

AlphaGo Zero 自我對弈訓練的流程示意圖

完整論文可點此下載

雖然這一技術還處於早期階段,但AlphaGo Zero的突破使得我們在未來麵對人類麵對的一些重大挑戰(如蛋白質折疊、減少能源消耗、尋找革命性的新材料等)充滿信心。眾所周知,深度學習需要大量的數據,而在很多情況下,獲得大量人類數據的成本過於高昂,甚至根本難以獲得。如果將該技術應用到其他問題上,將會有可能對我們的生活產生根本性的影響。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.