在溫哥華舉行的神經信息處理係統大會(NeurIPS)上,OpenAI 前首席科學家 Ilya Sutskever
發表公開演講。
Ilya 指出,當前 AI 模型預訓練方式將不可避免地走向終結。
他還將 AI
訓練數據比作「化石燃料」,認為互聯網上的人類生成內容是有限的,業界已經達到了數據峰值,「我們隻有一個互聯網,必須適應現有的數據資源」。
根據他的預測,下一代 AI 係統將突破當前局限,具備真正的主動性和類人推理能力,但他也警告,隨著 AI
推理能力的提升,其行為將變得愈發難以預測,就如同即便是頂尖棋手也無法準確預判高級象棋 AI 的走法。
演講中,他將 AI 的發展規模與生物進化過程進行了對照。
通過引用數據,他指出在對數坐標下,雖然絕大多數哺乳動物的腦重與體重比例都遵循著相似的規律,但人類祖先卻展現出一條截然不同的發展曲線。
基於此,他推測正如進化在人類大腦發展過程中找到了新的路徑,AI 可能也會突破當前預訓練模式的局限,發現全新的發展路徑。
演講結束後,Ilya 也接受了與會者的提問,以下為 Ilya 演講和提問環節全文,要點概括如下,Enjoy it~
Ilya
認為,互聯網數據資源就像化石燃料般正在逐漸枯竭,雖然計算能力不斷提升,但數據增長速度已見頂,「我們隻有一個互聯網」這個物理限製無法突破。
預訓練時代(GPT-2/3)帶來重大突破但也暴露局限,而下一個階段可能出現智能體、合成數據等新方向。
Ilya 通過圖表數據發現哺乳動物大腦和體重的關係遵循一定規律,但人科動物展現出不同的發展曲線,這暗示 AI
也可能找到全新的進化路徑。
當前 AI 係統仍主要依賴模仿人類直覺,未來 AI 將具備真正的推理能力,而越具備推理能力的係統行為越難預測(如國際象棋
AI)。
AI 終將具備自我意識,這是理解世界的必要部分,但未來 AI 係統的本質將與現在完全不同,以及 AI
可能會尋求權利和與人類共存。
附上演講視頻原地址:https://www.youtube.com/watch?v=WQQdd6qGxNs
演講全文
我非常榮幸地感謝主辦方選擇這篇論文獲獎。同時,我也要感謝我的傑出同事和合作者,Oriel Vinyls 和 Quoc V.
Le,他們剛才就在大家麵前站著。
在這裏大家可以看到一張圖片,是十年前在新加坡國立大學(NUS)2014年蒙特利爾一場類似演講的截圖。那是一個更加純真的年代。照片中展示了當時的我們。
這是「上次」,順帶一提,這是「這次」。
現在,我們變得更有經驗,也希望更有洞見。
在這裏,我想稍微談談這個工作的本身,或許也可以對過去十年進行一些回顧。因為在這個研究中,有許多地方是正確的,但也有一些不完全正確。
我們可以回顧一下,看看它們是如何發展的,又是如何逐步流向了今天的方向。
那麽,讓我們從討論我們當時所做的事情開始吧。我們會通過展示 10
年前同一場演講中的幻燈片來說明。我們研究工作的總結可以歸納為以下三個要點:
一個基於文本訓練的自回歸模型;
一個大型神經網絡;
一個大型數據集;
就是這樣。現在讓我們更深入地探討一下細節。這是 10 年前的一張幻燈片,效果還算不錯——「深度學習假說」。
我們在這裏提出的是:如果有一個具有 10 層的大型神經網絡,那麽它就可以完成任何人類在短時間內能夠完成的事情。
為什麽我們會特別強調人類能夠在短時間內完成的任務呢?為什麽是這個?
如果你相信深度學習的教條,也就是說,人工神經元和生物神經元相似,或者至少不太不同,並且你認為生物神經元的處理速度比人類能快速完成的任務慢,那你就會認為一個
10 層的神經網絡也能在短時間內完成任何人類能夠做到的任務,對吧?這就是推理的過程。
你隻需將神經元之間的連接關係嵌入到人工神經網絡中。所以,這就是我們的動機。任何人類能在短時間內完成的任務,10
層的大型神經網絡也能做到。
我們當時專注於 10 層神經網絡,因為那時我們知道如何訓練 10
層神經網絡。如果能增加更多層數,就能做得更多。但那時我們隻能訓練 10
層網絡,這就是我們特別強調人類能夠在短時間內完成的任務的原因。
這是演講中的另一張幻燈片,展示了我們的核心思路。你們可能能識別出其中的一些要點,或者至少能識別出自回歸模型在起作用。
關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
那麽,這張幻燈片究竟要傳達什麽呢?
它的意思是,如果你有一個自回歸模型,並且它能夠足夠準確地預測下一個
Token,那麽它實際上會抓住並捕捉到接下來序列的正確分布。
這個想法相對較新,它不是第一個自回歸神經網絡,但我認為它是第一個我們真正相信的自回歸神經網絡。我們認為,如果將其訓練得足夠好,那麽它能達到我們想要的效果——機器翻譯。
在今天看來,這確實顯得保守,但那時卻極其大膽。
現在我要向大家展示一些古老的曆史,許多人可能從未見過,那就是 LSTM。
對於不熟悉的人來說,LSTM 是深度學習研究人員在 Transformer 出現之前的技術。它基本上是一個
ResNet,隻不過旋轉了 90 度。
所以,那就是 LSTM,它比 Resnet 稍微複雜一點。你可以看到 integrator,它現在被稱為 residual
stream。
不過,你會看到一些乘法運算,它稍微複雜一些,但這就是我們當時做的事情——一個旋轉了 90 度的 Resnet。
另一個我想強調的來自舊演講的重點是,我們使用了並行化,但不僅僅是普通的並行化,我們用了流水線並行化,正如這張圖所示,每個 GPU
隻處理一層。
我們被建議使用流水線並行化。雖然現在我們知道流水線並行化並不總是明智的選擇,但當時我們沒有其他選擇,所以我們采用了這種方法,並通過使用
8 個 GPU 獲得了 3.5 倍的速度提升。
從某種意義上說,正是那次演講的結論幻燈片是最重要的,因為它闡明了 Scaling Laws 的開始。
換句話說,如果你擁有一個非常大的數據集,並且訓練一個非常大的神經網絡,那麽成功是可以保證的?如果要慷慨一些看待這個問題,可以說,這的確是發生了的事情。
我想提到另一個觀點,我認為這是經得起時間考驗的真正想法。它是深度學習的核心思想——聯結主義(connectionism)思想。
這是一個觀點:如果你相信人工神經元在某種程度上像生物神經元一樣。
你認為它們在某些方麵是相似的,那麽你就會有信心相信非常大的神經網絡不需要達到人腦的規模。它們可以稍微小一點,但你可以配置它們去完成幾乎所有人類能做的事情。
盡管如此,人類大腦仍然存在差異,或者我忘了補充這一點,確實存在差異,因為人類大腦能夠重新配置自身,而我們隻能使用現有的最佳學習算法,這些算法需要的數據點數量和網絡參數數量相當,正是這一點使得人類在這一方麵仍然更具優勢。
按我所見,這一切可以說是引領了預訓練時代,而預訓練時代正是我們所說的 GPT-2 模型、GPT-3 模型和 Scaling
Law 的時代。
我想特別提到我的前合作者 Alec Radford、Jared Kaplan 和 Dario
Amodei,正是他們讓這一切成為可能。但這也引領了預訓練時代。
而這一切推動了我們今天所見的所有進展,包括超大規模神經網絡,以及在海量數據集上訓練的極其龐大的神經網絡。
但正如我們所知,預訓練時代無疑會結束。
那麽,為什麽預訓練會結束呢?因為雖然計算機通過更好的硬件、更好的算法和更大的集群持續發展,所有這些因素都在提升計算能力,但數據並沒有同步增長,因為我們隻有一個互聯網。
實際上,我們隻有一個互聯網,你甚至可以說,數據是人工智能的化石燃料。它某種程度上被創造出來,現在我們用它,達到了數據的巔峰,之後將不會再有更多數據。
我們隻能處理現有的數據。我依然認為,盡管如此,這已經可以走得很遠,但我們隻有一個互聯網係統。
所以在這裏,我稍微放開一些,來猜測一下接下來會發生什麽。實際上,我並不需要完全猜測,因為很多人也在猜測,我會提到他們的猜測。
你可能聽過「智能體」這個詞,這個詞現在很常見,我相信最終會有一些東西發生,但人們覺得智能體是未來的方向。
更具體地說,雖然也有點模糊,就是合成數據。那麽,合成數據究竟是什麽意思呢?弄明白這一點是一個巨大的挑戰,我相信不同的人在這方麵都有各種各樣有趣的進展。
還有推理時間計算,或者最近最生動的例子之一——o1 模型,這些都是人們在嚐試弄明白預訓練之後該做什麽的例子。
這些都是非常值得做的事。
我想提到另一個來自生物學的例子,我覺得它真的很酷,這個例子是這樣的:很多年以前,在這個會議上我也看到過一個演講,演講者展示了一張圖表,這張圖表顯示了哺乳動物體型與大腦體積之間的關係。
這裏麵是體重的關係。在那次演講中,我記得很清楚,他們說,在生物學中,很多事情都非常混亂,但在這裏你可以看到一個非常特殊的例子,動物體型與大腦體積之間有著非常緊密的關係。完全是偶然的,我對這張圖表產生了興趣。
這是早期的一個例子,我去 Google 搜索圖表時,找到了這個圖片。
所有不同的哺乳動物,然後你會看到非靈長類的靈長類動物,基本上是一樣的,但接下來是人科動物。
據我所知,人科動物是與人類進化關係最為接近的物種,比如尼安德特人。這裏有很多種類,比如 Homo
habilis(能人),還有一大堆物種,它們都在這裏。
有趣的是,它們的大腦與身體的比例增長呈現不同的斜率。這個點非常酷。
這意味著在生物學中,存在先例表明不同的比例尺度是可能存在的。顯然有所不同。我認為這很酷。
順便提一下,我要強調的是,X 軸是對數尺度。你看到這個是 100,這個是
1000,10000,100000,同樣在克的單位下,1 克,10 克,100 克,1000 克。所以事物是可能有所不同的。
我們所做的、到目前為止我們所擴展的東西,實際上是我們首先學會如何擴展的東西。毫無疑問,這個領域中的每一個工作者都會弄清楚該做什麽。但我想在這裏花幾分鍾,來猜測一下更長遠的未來,我們到底要去哪裏?
我們正在取得巨大的進展,這真是令人震驚的進展。
事實上,我的意思是,那些十年前就在這個領域的人,如果你記得那時一切是多麽無能為力的話,真的,雖然你可能會說,當然,深度學習仍然很有潛力,但現在的情況簡直難以置信。
如果你在過去兩年才加入這個領域,當然,你和計算機對話,它們會回應你並表達不同意見。那就是計算機的樣子,但事情一直不是這樣的。
但我想稍微談一下超級智能,因為顯然這是這個領域的發展方向。
顯然,這就是我們在構建的東西,而關於超級智能的事情是,它將從根本上與我們現在擁有的不同。接下來的一分鍾裏,我的目標是盡量為你提供一些具體的直覺,來幫助你理解它將如何不同,以便你自己能夠推理出它的差異。
現在我們擁有強大的語言模型和令人難以置信的聊天機器人,它們甚至能夠完成一些任務,但它們也奇怪地不可靠,它們會感到困惑,但在評估中卻表現出極具超人的能力。
所以,如何調和這一點仍然不清楚。但最終,遲早,以下的情形將會實現。
這些係統實際上將以一種真正的方式變成智能體,而現在的係統在任何有意義的層麵上都還不是智能體,或許說它們是非常、非常微弱的智能體,僅僅是剛剛開始。它們將真正開始推理。
順便說一句,我想提一下關於推理的事情:一個進行推理的係統,它進行推理的次數越多,結果就越難以預測。
所有我們習慣的深度學習,都是非常可預測的,因為如果你一直在努力複製人類的直覺,實際上這就像是直覺反應。回到 0.1
秒的反應時間,我們的大腦處理這些信息時是什麽?
那就是我們的直覺。因此,我們賦予了我們的人工智能一些直覺。然而,推理,你現在看到的一些早期跡象表明,推理是不可預測的。
一個可以看到的原因是,因為國際象棋的人工智能,最強的那些對於頂級的人類棋手來說是不可預測的。
因此,我們將不得不應對那些極其不可預測的人工智能係統。它們將能夠從有限的數據中理解事物,它們不會感到困惑,這些正是目前人工智能麵臨的巨大限製。
我並不是在說具體怎麽做,也不是在說什麽時候會發生,我隻是說,這一定會發生,並且當這些事情,和自我意識一起發生時,又會發生什麽呢?因為為什麽不呢?
自我意識是有用的,它是我們自己世界模型的一部分。
當這一切聚集在一起時,我們將擁有今天完全不同性質的係統,當然它們會有令人難以置信和驚人的能力,但與這些係統相關的問題,我隻能留給大家自己想象。
畢竟,它們將與我們所熟悉的係統非常不同。
我想說的是,預測未來肯定是不可行的。未來可能會發生各種各樣的事情。但在這樣一個激勵人心的話題上,我將結束我的發言,非常感謝大家。
提問環節
提問:謝謝你,現在在 2024
年,是否有其他生物結構是人類認知的一部分,你認為值得以類似方式探索的,或者你有興趣去探索的?
Ilya:我回答這個問題的方式是,如果你是一個擁有特定洞察力的人,認為「嘿,我們都在做極其愚蠢的事情,因為顯然大腦在做一些事情,而我們卻沒有」,那麽這個可以做的事情,他們應該去追求。
我個人並不這樣看,嗯,這取決於你所關注的阻礙層次。也許我會這樣回答。
就像曾經有很多人渴望創造生物學啟發的人工智能。你可以從某種角度說,生物學啟發的人工智能是非常成功的,畢竟深度學習本身就是生物學啟發的人工智能。
但另一方麵,生物學的啟發是非常、非常、非常有限的。就是說,我們用神經元,這就是生物學啟發的全部。
更詳細的生物學啟發一直很難獲得,但我並不排除這種可能性。我認為如果有人有特殊的洞察力,他們可能會看到某些東西,而這些東西會很有用。
提問:我想提問一個關於自動糾正的問題。問題是這樣的。
你提到推理可能是未來模型的核心方麵之一,甚至可能是一個區分因素。我們在一些海報展示環節看到的現象是,今天的模型中的幻覺,分析幻覺的方式是,我們現在知道模型不能推理的危險,我們正在使用統計分析,比如偏離均值多少個標準差,或者其他的方式。
未來,你認為如果模型具備推理能力,它能自己糾正錯誤嗎?
換句話說,自動糾正將會成為未來模型的核心特性之一,這樣模型就不會出現那麽多幻覺,因為它能意識到什麽時候發生了幻覺?
Ilya:是的,答案是肯定的。
我認為你所描述的這個觀點極其有可能發生。我的意思是,你應該去查證一下。是的,我不排除它可能已經發生在一些現有的早期推理模型中,我不知道,但從長遠來看,為什麽不呢?
提問:這就像微軟 Word 中的自動更正功能一樣,你知道的,它是一個核心功能。
Ilya:是的,我覺得把它稱為「自動更正」真的是低估了它的意義。說到自動更正,你會聯想到它隻是一個簡單的功能,但除此之外,答案是肯定的,謝謝。
提問:Ilya,我喜歡最後神秘留白的結尾,
人工智能會取代我們,還是它們優於我們?它們需要權利嗎?這是一個新物種的智人,可能它們也需要,我的意思是,我覺得強化學習(RL)的人認為它們需要權利。
我有一個與此無關的問題,那就是如何創造合適的激勵機製,讓人類實際上以賦予它們我們作為智人的自由的方式去創造它們?
Ilya:我覺得從某種意義上講,這些是人們應該更多反思的問題。對於你提到的關於應該創造什麽樣的激勵結構的問題,我感覺我沒有信心回答這些問題。就像你在談論創建某種自上而下的結構或政府機製。
我不知道,這也有可能是加密貨幣。你知道的,有些事情我感覺自己並不是合適的人選來評論加密貨幣,但,嗯……順便說一下,你描述的情況是有可能發生的。
確實,我們會有。你知道,從某種意義上說,這並不壞。如果我們有人工智能,而它們所想要的隻是與我們共存,並且隻是想要權利,也許這就可以了。
提問:你好,謝謝你的精彩講座。我是來自多倫多大學的 Shelepov
Chitz。感謝你所做的一切。我想問一下,你認為 LLMs 是否能夠在分布外進行多跳推理的泛化?
Ilya:好吧,這個問題假設了答案是「是」或「不是」。這個問題不應當用「是」或「不是」來回答,因為我們需要弄清楚:什麽是分布外的泛化,什麽是分布內的,什麽又是分布外的?
因為這是一次關於 「時間檢驗」 的演講。
我想說,很久很久以前,當人們還沒有使用深度學習時,他們使用的東西包括字符串匹配和 n-gram
用於機器翻譯,人們使用的是統計短語表。
你能想象他們當時有數萬個複雜的編碼,這真的是難以想象的。而在那個時候,泛化意味著,它和數據集中的表述字麵上不同。
現在,我們可能會說,模型在數學競賽達到了這個高分。但也許這些數學題在互聯網上某個論壇上早被討論過了,因此它記住了。
好吧,你可以說也許它在分布內,也許是記憶化,但我也認為我們的標準,對於什麽算作泛化,已經大大提高了。如果你一直有留意這類發展的話,甚至可以說顯著地,不可想象地提高了。
所以,我認為答案是,在某種程度上,模型的泛化能力可能沒有人類做得那麽好。我認為人類的泛化能力要好得多,但與此同時,他們確實會在某種程度上進行分布外的泛化。我希望這個答案是有用的,盡管它有點重複。
不幸的是,我們的時間到了。我有種感覺,我們可以再聊六個小時,但最後還是非常感謝這次講座。