當美國的“創客”紛紛來到中國深圳,呼吸著華強北渾濁空氣的同時,中國最大的搜索引擎百度前往美國矽穀設立研究院。
根據連線的報道,百度的研究院坐落於蘋果總部的所在地 Cupertino,名為 Institute of Deep Learning,簡稱為 IDL。
實際上,今年 1 月 19 日,李彥宏在百度年會上提出了將於今年專注於 Deep Learning 領域的研究院,他希望這個研究院能夠達到貝爾實驗室、Xerox PARC 的高度。百度的動作很快,從春節放假回來起算,成立研究院隻不過用了兩個月的時間。
如果我們要討論 IDL 成立的意義,就必須討論它的研究課題,以及它與百度之間的關係。所以,必須問這兩個問題:什麽是“Deep Learning”呢?它能幫助百度什麽呢?
Deep Learning 是“機器學習”的新領域,最近一兩年十分流行,它是 20 年前紅火的研究領域“神經網絡”的後續發展,特點在於能夠比較好地處理圖像、語音這種特征不明顯的數據——按照鄧侃所說,”借助於Deep Learning 算法,人類終於找到了如何處理 ‘抽象概念’這個亙古難題的方法。”
比如,讓電腦認識什麽是貓。
去年 6 月,Google X 實驗室的一個項目,通過“機器學習”的方法,在 1000 台電腦的幫助下,創造了一個多達 10 億個連接的“神經網絡”,就為了讓電腦知道,什麽是“貓”。而最終在大量數據的支持下,電腦終於認識到“貓”是一種怎樣的動物,並成功地在 1000 萬張略縮圖中,找到“貓”的照片,識別率為 81.7%。而領導這個項目的人,正是在 Google 內部推動 Deep Learning 算法應用的 Andrew Y. Ng。
但不止 Google 緊盯著大數據,蘋果、IBM 等科技公司同樣強烈渴望早點在這個領域樹立自己豐碑。百度也是搜索引擎,在中文搜索世界裏,積累了大量相關的數據。它也要緊握大數據的果實——讓電腦認識抽象概念,能夠提高機器的智能,讓人們在與機器交互的時候,變得更加自然。從整體來看,在“Deep Learning”上的進步,能夠幫助搜索引擎提高搜索結果的精度,語音識別、圖像識別的精度,為以後更自然的交互做好準備。
兩個星期前,百度上線了“頭像搜索”,未嚐不能視為“Deep Learning ”的實際應用,不過也可以看出,它的搜索結果並不精確。我在百度上搜索百度多媒體部副總監餘凱的頭像,得到的全部都是別人的頭像。當然,按照“機器學習”的特性,當數據量越來越多,那麽得到的結果也將越精確,百度頭像搜索上線不過兩個星期,數據量可能仍然不夠大。
我不知道餘凱未來會不會保留“多媒體部副總監”的頭銜,因為很顯然,這一次 IDL 的創立離不開他的幫助。為何這麽說呢?因為在去年 6 月,餘凱參加了紐約大學的 2012 電腦視覺及圖形辨識會議,並作出演講,內容與“Deep Learning 在視覺上的應用”相關,幻燈片可以在這裏下載。此外,百度的頭像搜索和語音識別,是他帶領團隊所開發的產品。
餘凱對連線說,“我們心懷偉大的夢想,希望通過‘Deep Learning’,能夠模擬人類大腦的能力、能量、理解力。”現在,在矽穀,他已經找到第一名研究人員。