個人資料
tiantianlu02 (熱門博主)
  • 博客訪問:
正文

偉大的A.I.覺醒 (二)

(2017-01-13 15:17:55) 下一個

第一部分:學習機器

  1. 穀歌大腦的誕生

Jeff Dean(傑夫·迪恩),雖然他的頭銜是高級研究員,他事實上是穀歌大腦的頭。 Dean是一個精瘦,高效能的男人,擁有一個長而窄的臉,深深的眼睛和一種肥皂盒賽車迷的熱忱。作為醫學人類學家和公共衛生流行病學家的兒子,Dean在世界各地 -- 明尼蘇達州,夏威夷,波士頓,阿肯色州,日內瓦,烏幹達,索馬裏,亞特蘭大等地長大。在高中和大學期間,他寫的軟件就為世界衛生組織所用。他自1999年以來就一直在Google工作,是第25名員工,從那時開始的所有重要項目的核心軟件係統都經過他的手。公司文化的一個受人尊敬的神器就叫Jeff Dean Facts (傑夫·迪恩趣事),以Chuck Norris Facts(譯注:查克·諾裏斯-西部片打星)查克·諾裏斯趣事的風格寫成:“Jeff Dean的PIN(密碼)是pi(圓周率)的最後四位數字。” “當Alexander Graham Bell(亞曆山大·格林·貝爾)發明電話時,他看到了一個來自Jeff Dean的未接來電。” “Jeff Dean在一個最高級別為10的係統中晉升到11級。”(最後這個是真的。)

2011年初的一天,Dean走進了穀歌園區的一個“微型廚房” –“ Googley” 一詞指的是在山景城大部分大樓各個樓層都有的共享休息空間,碰到一個年輕的斯坦福計算機科學教授Andrew Ng(吳恩達),他是公司聘請的顧問。 Ng告訴Dean他最近幫助啟動了一個公司內部的項目Marvin(以著名的A.I.先鋒馬文·明斯基命名),實驗用靈活的數字“神經網絡”來鬆散地模仿大腦的架構。 Dean自己1990年在明尼蘇達大學讀本科的時候,正是這個方法被主流接受的一個短暫窗口,他曾做過一個這個技術的原始版本。在過去的五年中,在神經網絡上工作的學者數量已經開始再次增長,從少數幾個人到目前的幾十人。 Ng告訴Dean,由穀歌的秘密X實驗室資助的Marvin項目已經取得了一些有希望的結果。

Dean很感興趣,他把自己 “20%” 的時間放在這個項目上,(Google要求每個員工把部分工作時間貢獻在他/她的核心工作以外的項目上)。他很快推薦給Ng另一位有神經科學背景的同事Greg Corrado(Corrado在研究生院時簡單地學過這個技術,但嚴格地說更多是出於一種曆史好奇心,“還好那天上課時我沒開小差,”他開玩笑地說。)晚春的時候,他們找來了Ng最好的 研究生,Quoc Le,作為項目的第一個實習生。 那時一些Google工程師開始用另一個名字提到Marvin項目: Google Brain(穀歌大腦)。

1956年夏天在達特茅斯一個類似大腦的憲法大會上 “人工智能”一詞誕生,大多數研究人員一直認為創造A.I的最佳方案將是編寫一個非常宏大,全麵的程序,列出邏輯推理的規則和關於世界的充足知識。例如,如果你想從英語翻譯成日語,你將把所有的英語語法規則編入計算機,然後輸入牛津英語詞典中包含的所有定義和所有的日語語法規則,以及日語詞典中的所有單詞,這一切完成後,提供一個原文句子,然後讓它形成相應的目標語言句子。你會給機器一個語言地圖,就像博爾赫斯說的,國土大小的地圖。這種觀點通常被稱為“符號A.I.” -- 因為它的認知定義是基於符號邏輯 --- 或者貶義來說,“老式A.I.”

老式方法有兩個主要問題。 第一,對人類來說非常耗時。 第二,它隻有在規則和定義非常清楚的領域才真正起作用:比如數學或象棋。 然而翻譯是一個這種方法在一個領域中慘敗的例子,因為詞不能隻局限於他們在字典上的定義,語言的例外往往比它的規則更多。這樣的係統最常見的是有可能將“農業部長”翻譯為“農業牧師”。符號A.I對於數學和國際象棋來說工作得極佳,它的支持者因此想當然地認為沒有比數學和國際象棋更能代表“通用智力”的了。

但是這個係統有其局限。 在20世紀80年代,卡內基梅隆的機器人研究員指出,很容易讓電腦做成人的事情,但幾乎不可能讓他們做一個1歲的孩子可以做的事情,如抓一個球或識別一隻貓。 到20世紀90年代,盡管計算機象棋有了長足長進,我們仍然遠離人工智能很遠。

一直以來對A.I.還有另外一個願景 -- 一個不同意見 -- 其中計算機將從底層學起(從數據)而不是從上到下(從規則)學習。 這個概念可追溯到20世紀40年代初,研究人員發現靈活自動智能的最佳模型就是大腦本身。 畢竟一個腦子就是是一堆稱為神經元的元件,他們把電荷傳遞給他們的鄰居,或者不傳遞。 重要的是個體的神經元本身要少於它們之間的多重連接。 這種結構,簡便地為大腦提供了豐富的適應性優勢。 大腦可以在信息不佳或缺失的情況下運作; 它可以承受重大的損害而不會完全失去控製; 它可以以非常有效的方式存儲大量的知識; 它可以隔離不同的模式但扔保留處理歧義所必需的混沌。

沒有理由你不用電子形式來試圖模仿這種結構,在1943年人們發現排組簡單的人工神經元可以執行基本的邏輯功能。至少在理論上,他們也可以學習我們的行為方式。 擁有生活經曆,根據人特定的試錯,人神經元之間的突觸連接會變得更強或更弱。 人工神經網絡可以做類似的事情,根據引導的試錯法,人工神經元之間的數字關係會逐步改變。 它不需要用預先固定的規則編程。 相反,它會改寫自身以反映所吸收數據中的模式。

這種對人工智能的態度是進化論而不是創造論。 如果你想要一個可以適應其環境的靈活機製,一個有適應性的東西,你不想從國際象棋規則的灌輸開始。 你會從非常基本的能力 -- 感官知覺和運動控製開始,希望先進的技能會有機地出現。 人類不是通過記憶字典和語法書來學習理解語言的,所以為什麽我們指望我們的電腦這樣做?

穀歌大腦是第一個致力於發掘以這種A.I.思維方式所包含的可能性的商業機構。 Dean,Corrado和Ng開始的工作是一個兼職,合作的實驗,但他們取得了神速的進展。他們從最新的理論大綱以及自20世紀80年代和90年代以來已經發表的想法中獲取了他們建模的靈感,並利用了公司無與倫比的數據儲備和龐大的計算基礎設施。 他們用大量“標記”數據庫-- 例如具有正確轉錄的語音文件--來教這個網絡,從而讓計算機提升了它們的回應來更好地與現實匹配。

“動物眼睛的進化是其進化過程中的一個巨大的發展,” 有一天Dean以他一貫的低調告訴我。 我們像往常一樣坐在一個有白板的會議室,在上麵他畫了一個擁擠,蜿蜒的穀歌大腦的時間軸以及它與神經網絡當代曆史拐點的關係。 “現在電腦有眼睛。 我們可以在它現有的明白照片的能力上進行開發。 機器人將徹底改變。 他們將能夠在一個未知的環境中運轉,解決許多不同的問題。”他們正在建設中的這些能力看起來可能很原始,但它們的影響是深遠的。

 

  1. 異類實習生

在其存在的第一年,如Dean所說,穀歌大腦開發相當一個1歲孩子智能的機器已經取得了很大的效果。 它的語音識別團隊將其舊係統的一部分換為神經網絡,突然之間獲得了20年間最好的質量改進。 他們係統的對象識別能力提高了一個數量級。 這不是因為穀歌大腦的員工在短短一年內產生了一係列讓人震驚的新想法。 這是因為穀歌終於投入了資源 -- 在計算機數量和越來越多的開發人員數量上 – 為已經存在了很長時間的輪廓填補細節。

這些現存和被忽視的概念的重大意義是由一位叫Geoffrey Hinton的四處遷徙的英國智者提出和定義的。 在穀歌大腦建立的第二年,在Andrew Ng離開後Hinton被招聘到了穀歌大腦。 (Ng現在領導百度的1300人A.I.團隊。)Hinton隻想離開在他在多倫多大學的職位三個月,所以由於神秘的合同原因,他不得不被聘為實習生。 在實習生培訓時,培訓領導會說“輸入您的LDAP” -- 一個用戶登錄 -- 他問培訓助理“什麽是LDAP?” 所有參加培訓的聰明的25歲實習生都知道深度學習是人工智能的根基,他們忍不住譏笑:“那個老家夥是誰? 他怎麽這麽不開竅?”

“在午餐時間,”Hinton說,“排隊的人中有人大叫:”Hinton教授! 我選過你的課! 你在這裏幹什麽?” 此後就一切正常了。

幾個月後,Hinton和他的兩個學生在一個稱為ImageNet的開源集合運行的大型圖像識別競賽中展示了真正驚人的進步,這個競賽不僅要求計算機識別猴子,而且要區分蜘蛛猴和 吼猴,還有天知道多少不同品種的貓。 Google很快就給了Hinton和他的學生工作。 他們接受了。 “我以為他們對我們的I.P.(知識產權)感興趣,”他說。 “結果是他們對我們感興趣。”

Hinton來自一個英國古老的家族,像達爾文家族一樣,他們裝點了知識領域裏奇奇怪怪的維度,不管是從事什麽職業,他們都預期順便為天文學或流體力學中的小問題做點貢獻。他的曾曾祖父是喬治·布爾,他在符號邏輯上的奠基工作是計算機的根基;另一位曾曾祖父是一位著名的外科醫生,他的父親是一個冒險的昆蟲學家,他的父親的表哥是一位洛斯阿拉莫斯(譯注:美國核試驗室)的研究員; 這樣的單子還很長。Hinton在劍橋和愛丁堡上學,然後在卡內基梅隆大學教書,最後他去了多倫多大學,現在他仍然在那裏兼職一半時間。 (他的工作長期以來一直受到加拿大政府的慷慨支持。)我在他的多倫多穀歌辦公室裏訪問了他。他亂糟糟的黃灰頭發向前梳,有一種成熟的諾埃爾·加拉格爾風格,穿著一件老是鬆的寬鬆條紋襯衫,一個橢圓形的眼鏡滑落在他突出的鼻子尖端。他說話的時候有一種堅定而含混的機智,他會說,“計算機會比美國人更早理解諷刺。”

自從1960年代末他在劍橋大學本科學習以來,Hinton一直致力於神經網絡研究,他被認為是這個領域在當代的先驅。在大多數時間,每當他談到機器學習,人們都覺得他在談論托勒密球或是螞蟥吸血。因著一個過度宣傳的項目Perceptron,人們認為神經網絡是一個不現實的的愚蠢主意。Perceptron是一個20世紀50年代後期由康奈爾心理學家Frank Rosenblatt開發出的一個人工神經網絡。 “紐約時報”報道說它的讚助單位美國海軍期望這個機器“能夠走路,說話,看,寫,再現自己,意識到它自己的存在”。結果它什麽都沒有做到。美國人工智能係主任馬文·明斯基(Marvin Minsky)曾在1954年他的普林斯頓論文中研究過神經網絡,但是他越來越厭倦Bronx Science的Rosenblatt對神經範式的誇張宣傳,(他也在爭取國防部的資金。)與其他M.I.T.同事一起,明斯基出版了一本書,證明Perceptron連一些極其簡單的問題都永遠無法解決。

明斯基對Perceptron的批評隻延伸到一個“層麵”的網絡,即在機器輸入和機器生成之間的一層人造神經元 -- 後來在生活中,他闡述了與當代深度學習非常相似的想法。但是當時Hinton已經知道,如果資源許可,複雜的任務可以在多個層麵中進行。對神經網絡最簡單的描述是,它是一個根據其在數據中發現模式的能力從而進行分類或預測的機器。有一個層麵,你隻可以找到簡單的模式; 有多個層麵,你可以尋找模式的模式。以圖像識別為例,它依賴於一個稱為“卷積神經網絡”的功能。(1998年一篇開創性論文對此作出了闡述,他的主要作者是一個名叫Yann LeCun的法國人,他在Hinton的多倫多博士站做研究,現在他在Facebook指導一個龐大的AI項目。)網絡的第一層學習識別一個“邊緣”的非常基本的視覺效果,意味著一個無(off像素)之後有一個有(on像素)而反之亦然。這個網絡接下來的每個層麵都在前一層麵的基礎上尋找模式。一個邊緣的圖案可以是圓形或矩形。圓形或矩形的圖案可能是麵部,等等。這或多或少地類似於人類以越來越抽象的方式把視網膜中的光感受器信息返回並通過大腦的視覺皮層來組合在一起的方式。從理論上說在每個步驟裏不相關的細節都被排除了。如果幾個邊緣和圓圈合在一起成為一個麵孔,你不關心這個臉是在視野中的哪個位置; 你隻關心它是一張臉。

而多層“深度”神經網絡的問題是它的試錯法部分非常複雜。 在單一層麵很容易。 想象一下,你正在和一個孩子玩。 你告訴孩子,“拿起綠色的球,把它放入盒子A”。孩子拿起一個綠色的球,把它放入盒子B。你說,“再試一次把綠色球放在盒子A裏”。 孩子放進了盒A。 棒極了。現在想象一下你告訴孩子,“拿起一個綠色的球,穿過3號門,把綠色的球放入盒子A。”孩子拿一個紅色的球,穿過寫著2的門,把紅色的球放入盒子 B。你如何糾正孩子? 你不能隻是重複你的初始指令,因為孩子不知道他在哪一點錯了。 在現實生活中,你可以從舉起紅色球和綠色球開始,說“紅球,綠球”。然而機器學習的重點就是避免這種明確的指導。 就在20世紀70年代末和80年代這個領域停滯不前的過程中,Hinton和其他幾個人接著發明了一個解決方案(或者說重新發明一個舊的)解決這個分層錯誤的問題,計算機科學家對神經網絡的興趣短暫地重現了。 “人們對此非常興奮,”他說。 “但我們吹過頭了。”計算機科學家很快覺得像Hinton這樣的人都是怪人和神秘主義者。

但是這些想法在哲學家和心理學家之間仍然很受歡迎,他們稱之為“連接主義”或“平行分布式處理”。“對這個想法,”Hinton告訴我說,“還有幾個人保持著它的火炬燃燒,這是一個很好的神話。 這是真正的人工智能。心理學界很多人相信這種方法,但是他們做不出來。” 盡管加拿大政府很慷慨,但Hinton也做不出來。 “我們這派的人一直說我們所缺的就是足夠的計算能力或足夠的數據。‘是啊,如果我有一個大家夥它一定能行’,這不很有說服力。”

 

  1. 深度學習的深層解釋

當Pichai說,Google今後將是“A.I. 第一”, 他不隻是提出公司的經營戰略; 他投入了公司的很多資源來實現這個長期以來不可行的想法。 Pichai的資源分配確保像Dean這樣的人能夠確保像Hinton這樣的人最終能擁有足夠的計算機和足夠的數據來做出有說服力的論證。 一個大腦平均有大約1000億個神經元。 每個神經元連接到多達10,000個其他神經元,這意味著神經突觸的數量在100萬億和1000萬億之間。 如果在20世紀40年代提出一個類似的簡單人工神經網絡,任何試圖複製這種技術的努力都是不可想象的。 我們仍然離建立這樣一個規模的網絡還很遙遠,但是穀歌大腦的投資使創建了一個與小老鼠大腦相當的人工神經網絡成為可能。

然而,為了理解為什麽規模如此重要,你必須從了解機器智能處理數據的技術細節開始。 很多我們對A.I.的疑懼出於這樣的認識,就是A.I.像一個隻是在圖書館裏吸空知識的反社會天才,並且人工智能有一天可以讓回形針把人類當作像螞蟻或萵苣一樣來對待。 這完全不是那麽回事。 他們所做的一切就是把信息重組來尋找首先是共同點 -- 基本模式,然後是更複雜的模式 -- 至少在目前最大的危險是我們喂他們的信息從根本來說是充滿偏見的。

如果這個簡短的解釋似乎足夠令人放心,請非技術讀者跳到關於貓的下一段。 如果你覺得不夠放心,請繼續閱讀。 (幸運的是這部分也是關於貓的)。

想象一下,你想用舊的符號A.I模型來編寫一個貓識別器。你好多天不眠不休往機器上傳關於“貓”的無窮詳盡的定義。你告訴它,一隻貓有四條腿,尖尖的耳朵,貓胡子和尾巴等等。 所有這些信息都存儲在稱為Cat的內存中的特殊位置。 現在你給它看一張圖片。 首先,機器必須分離出圖像中的各種不同元素。然後它必須使用存儲在其內存中的規則來判斷這些元素。 如果(腿 = 4)和如果(耳朵 = 尖)和如果(貓胡子 = yes)和如果(尾巴= yes)和如果(表情 = 高傲),那麽(貓 = yes)。 但是,如果你給這隻貓識別器看一個蘇格蘭折耳貓(一個由於珍貴的遺傳缺陷導致雙耳下垂卷起的令人心痛的貓品種), 我們的符號A.I. 看到(耳朵=尖的),莊嚴地搖搖頭,“不是貓”。它是超級按章取義或“脆弱”。即使最笨的孩童也比符號A.I顯示出更大的引申能力。

現在再想象一下,你嚐試在神經網絡上做同樣的事情,而不是硬把一組分類的規則存儲在計算機內存裏的某個地方。沒有特別的地方來存“貓”的定義,隻有一大灘互聯的開關,就像在一條路上的分叉。在大灘的一側,你給它輸入(圖像); 在另一側,你給它看相應的輸出(標簽)。然後,你隻需告訴它通過對所有這些互連的開關進行單獨調試自己去完成任務,隻要輸入和輸出正確地應對起來,數據應該采取什麽路徑並無所謂。訓練是一個開掘複雜的迷宮隧道通過大灘的過程,隧道把輸入連接到其正確的輸出上,你有越多的訓練數據,你就可以挖更多更複雜的隧道。一旦訓練完成後,大灘的中間就有足夠的通道,它就可以對從未見過的數據進行可靠的預測。這被稱為“監督學習”。

網絡需要這麽多神經元和這麽多數據的原因在於,它的功用在某些地方就像一個巨型的機器民主。 想象一下,你想訓練一台計算機來區分五個不同的東西。 你的網絡是由數百萬和數百萬的神經元“選民”組成,每個人都有五張不同的卡片:一張是貓,一張是狗,一張是蜘蛛猴,一張是勺子,一張是除顫器。 你向你的選民展示一張照片,問“這是貓,狗,蜘蛛猴,勺子還是除顫器?”所有以同樣方式投票的神經元集中在一起,網絡工頭從上麵看下來認出大多數的分類:“一隻狗?”

你說:“不,大師,這是一隻貓。 再試一次。”

現在網絡工頭回去確定哪些選民把他們的注壓在 “貓” 背後,而哪些沒有。那些選對“貓”的人下次計票的時候如果他們又投票為“貓”,他們的票數就算兩票。他們必須獨立證明他們也擅長挑選狗和除顫器,但有一件事使得神經網絡如此靈活是每個單獨的單元可以為不同的預期結果做不同的貢獻。重要的不是個人的投票,而是投票的模式。如果喬,弗蘭克和瑪麗全部投票,這是一隻狗;但是如果喬,凱特和傑西卡一起投票,那就是一隻貓; 如果凱特,傑西卡和弗蘭克在一起投票,這是一個除顫器。神經網絡隻是需要在某處記下足夠多的一個常規可辨別的信號說:“奇怪的是,這種特殊的像素排列代表了這些人類一直稱呼的‘貓’。” 你的選民越多,他們投票的次數越多,網絡可以記錄的信號就越敏銳,即使對非常弱的信號。如果你隻有喬,弗蘭克和瑪麗,你也許隻能使用它們來區分貓,狗和除顫器。如果你有數百萬不同的選民和數十億不同的組合,你可以學習區分數據到令人難以置信的細度。你經過訓練的選民大會能夠查看一個未標記的圖片,或多或少能準確地識別它。

計算機科學係對這些想法有太多的抗拒的部分原因是是因為輸出隻是基於對模式的模式的預測,它不會是完美的,機器永遠不能為你確切地定義一隻貓是什麽。它隻是當它看到它們時知道這就是貓。但是正是這種模糊性讓神經元“選民”會認出一隻在陽光下打盹的幸福貓,一隻從一個不幹淨的廁所的陰影中怒視的憤怒貓的原因,隻要它們看過數百萬種不同的貓的場景。 你隻需要大量的選民 -- 為了確保你的網絡的一部分能夠記錄甚至非常弱的規律性,比如蘇格蘭折耳貓的下垂耳朵 -- 足夠的有標簽數據以確保你的網絡已經看到有最廣泛變數的現象。

值得注意的是,神經網絡在本質上的概率性意味著它們不適合於所有任務。如果他們錯誤地將1%的貓標記為狗,或者偶爾讓你去看錯誤的電影,這不是一個巨大的悲劇,但在像自動駕駛車這樣的事上我們都想要更大的保證。這不是它唯一的缺陷。監督學習是基於對標記數據的試錯過程。機器可能在學習,但在輸入的初始分類中仍然存在強大的人為因素。如果你的數據有一個正式著裝的男人和女人的照片,有人把它標記為“女人與她的老板”,這種關係將被編碼到所有未來的模式識別中。因此,數據標記的失誤就如它的人類標記者有可能失誤一樣。 如果一個機器被要求識別信貸申請人的信用,它可能使用犯罪記錄數據,但如果早先的定罪是不公平的 --- 如果它們是基於例如歧視性的毒品法律 -- 那麽貸款建議也不可避免是有缺陷的。

像我們的貓識別器一樣,圖像識別網絡隻是深度學習許多種類中的一種,但是它們作為教學範例被過分強調,因為人類對它們在每個層麵所做的至少還懂一點 -- 首先選擇邊緣,然後選擇圓圈,然後選擇麵部。 這意味著有一個防止錯誤的保護機製。 例如,早期穀歌圖像識別軟件的一個短處是它總是不能單獨識別一個啞鈴,即使該團隊訓練用了一個包含了很多鍛煉類別的圖像集來訓練它。 一個可視化工具顯示機器沒有學到“啞鈴”的概念,而是“啞鈴+手臂”的概念,因為訓練集中的所有啞鈴都附著在手臂上。 他們把一些單獨的杠鈴照片放入訓練組合。 問題就解決了。 但不是所有事都那麽容易。

 

  1. 貓論文

在頭一年或兩年的時間裏,穀歌大腦培養機器擁有一個1歲大孩子技能的努力是順利的,他的團隊從X實驗室畢業出來並進入了更大的研究組織。 (穀歌X的頭曾經指出,穀歌大腦已經支付了整個X的成本。)他們仍然隻有不到10個人和一個對最終結果會是什麽的模糊感覺。 但即使那時他們已經不光是考慮接下來應該發生的事情,而是在超前思考。人類的思維首先學會識別一個球,短時間內對這個成就很滿意,但遲早它想要那個球。 然後它蹚入了語言。

那個方向的第一步是貓論文,這使得穀歌大腦聞名遐邇。

貓論文展示的是一個具有超過十億“突觸”連接的神經網絡 -- 比任何公開的神經網絡大一百倍,但仍然比我們的大腦小許多個數量級 -- 可以觀察原始的,未標記的數據並自己挑出一個人類的高級概念。穀歌大腦研究人員向網絡展示了來自YouTube的數以百萬計的視頻靜止幀,神經網絡從純傳感器的混沌中,隔離出了一個穩定的模式 -- 就如任何蹣跚學步的小孩或花栗鼠會毫不猶豫地就認出的貓的臉。機器根本沒有任何貓概念; 它直接進入了世界並自己掌握了這個概念。(研究人員用與神經網絡相當的東西如MRI發現了一個像鬼魂似的貓臉導致人工神經元以最大的熱情集體“投票”)。那時大多數機器學習還是局限於大量的標記數據。貓論文表明,機器還可以處理原始的未標記數據,甚至人類沒有建立預先知識的數據。這似乎是一個重大進步,不僅在貓識別研究中,而且在整體人工智能上。

貓論文的第一作者是Quoc Le。 Le很矮,放鬆,說話很輕,帶著一個快速,神秘的微笑,穿著閃亮的黑色便士樂福鞋。 他在越南順化城外長大。 他的父母是稻農,他家裏沒有電。 他的數學能力從小就很突出,他被送到一個科學磁校學習。 在20世紀90年代末,雖然還在學校,他試圖做一個聊天機器人。 他想這能有多難?

“但實際上,”他板著臉小聲告訴我,“非常難。”

他離開了稻田,拿獎學金去了澳大利亞堪培拉的一所大學,並在那裏從事計算機視覺等人工智能研究。那時的主流研究方法是喂給機器物體的定義,類似邊緣等,對他來說感覺像作弊。 Le當時不知道,或者隻略有所知,在世界上至少還有像他這樣的十幾個計算機科學家想象著機器可以從頭開始學習。 2006年,Le在位於中世紀風格的德國大學城Tübingen的馬克斯·普朗克生物控製論研究所任職。 在一個讀書小組裏,他讀到了Geoffrey Hinton的兩篇新文章。 和在這個漫長流亡期間(譯注:指神經網絡被撇棄的70-90年代)進入這個領域的其他人的轉型故事一樣,當Le讀這些文章時,他感到眼界大開。

“那是一個大辯論,”他告訴我。 “一個非常大的辯論。” 我們在一個小型內部會議室,一個狹窄的高天花板空間,隻配備了一個小桌子和兩個白板。 他看著他在身後的白板上畫的曲線,然後輕聲地說:“我從來沒有見過這麽大的辯論。”

他記得在讀書小組裏站起來說,“這是未來”,他說,這是一個“當時不受歡迎的決定。” 一位他一直保持往來的在澳大利亞的前導師完全不能了解Le的決定。 “你為什麽要這樣做?”他在電子郵件中問。

“那時我沒有一個好的答案,”Le說。 “我隻是好奇。那個時候的範式(譯注:符號A.I.)很成功,但老實說,我隻是好奇新的範式。 在2006年時進展還非常少。” 他去了斯坦福大學加入Ng,開始追求Hinton的想法。 “到2010年底,我堅信會有進展。”

那之後不久,Le作為第一個實習生去了穀歌大腦,在那裏繼續他的博士論文工作 – 那個論文的一部分最終成為了貓論文。在一個簡單的層麵上,Le想看看是否可以訓練計算機自己來識別一個圖像絕對必要的信息。他給神經網絡喂了一個他從YouTube找來的靜物,然後他告訴神經網絡丟棄圖像中包含的一些信息,但他沒有指定哪些東西應該或不應該被丟棄。機器最初隨機丟棄了一些信息。然後他說:“開玩笑!現在根據你所保留的信息重新創建初始圖像”。這就像他要求機器找到一種方法來”總結“圖像,然後從摘要展開回到原型。如果摘要是基於不相關的數據 -- 如天空的顏色,而不是貓胡須 -- 機器就沒有能力執行重建。它的反應類似於一個人類遠祖對他和劍齒虎的短暫相遇所記得的是劍齒虎在移動時靜靜的嘶嘶聲。 Le的神經網絡,不像人類遠祖,可以重試一次又一次。每次它在數學上“選擇”優化不同的信息,並變得越來越好。然而神經網絡是一個黑盒子。它發現了模式,但它識別的模式並不總是對人類觀察者有直觀的意義。同樣的網絡在辨別我們貓的概念的同時也變得熱衷於一種看起來像某種家具和動物的複合物的模式,像沙發凳和山羊的混合體。

在識別那些令人毛骨悚然的貓的年間Le覺得自己不是一個語言專家,但他覺得有必要把他所做的和他早年的聊天機器人接軌。 在貓論文後,他意識到如果你可以要求網絡做一張照片的摘要,你也許也可以要求它總結成一句話。在接下來的兩年裏,這個問題占據了Le和他在穀歌大腦的同事Tomas Mikolov的時間。

在那個時候,穀歌大腦團隊除他以外增加了好幾個辦公室。 有一段時間,他們與高管們在同一層樓,有一次他們收到了行政處的一封電子郵件,要求他們停止允許員工在Larry Page和Sergey Brin的套房前麵的沙發上睡覺,因為他們讓那些來訪的貴賓很不舒服。後來他們被分配在街對麵的一個研究樓裏,在那裏他們在微型廚房裏的交流不會被浪費在和當官的禮貌性聊天上。 這一過渡時期穀歌的競爭對手們也在奮力追趕他們。 (Le告訴我他與Tomas Mikolov的密切合作,他以一種奇怪的方式重複Mikolov的名字,聽起來很傷心,Le從來沒有這麽嚴肅過,我終於忍不住問:他是不是...?“Le點點頭。”去了Facebook,”他回答說。)

他們在這段時間試圖推出神經網絡的架構,不僅可以適用於簡單的,靜態的照片分類,而且還可以用於像語言或音樂這樣隨著時間的推移而展開的複雜的結構。 其中許多是在20世紀90年代首次提出的,Le和他的同事回到那些長期被忽視的文獻中看有什麽可以借鑒的。 他們知道一旦你建立了一個具有基本語言預測能力的機製,你就可以繼續完成其他各種智能任務 -- 例如預測一個得體的電子郵件回複,或預測一個有條理的談話過程。 你可以開發出那種至少從外麵看起來很像思維的能力。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.