這兩年,AI的研究和開發如火如荼,每天都有新進展,相關報道也層出不窮,各類販賣AI焦慮的消息更是讓人避無可避。如今,即使是IT圈外的人,不懂點AI也不好意思跟人打招呼了。但圈內的人忙著幹大事,沒時間科普。我本人不才,也算是圈外人一枚。考慮到外行最懂外行的困惑,知道外行最想了解什麽,我早一步學了點AI的皮毛,今天就鬥膽和大家聊聊這個炙手可熱的話題,希望能增加大家對AI的現狀和未來發展的了解。
這一波的AI狂歡是由OpenAI於2022年11月30日推出的ChatGPT 3.5激發的。ChatGPT的Chat就是聊天或者對話,後麵的GPT就是Generative Pre-trained Transformer,直譯成中文就是“生成型預訓練變換器”。這個對話模型能夠生成自然流暢的文本內容,回答用戶提出的問題,是由OpenAI公司基於神經網絡的transformer架構,把大模型、大算力和大數據結合起來,訓練出來的。
我們稱這個模型為大模型,意思是神經網絡的構架層數、神經元數以及連接這些神經元的參數都非常大,早期版本的ChatGPT 3就有96層Transformer結構,總神經元數量可能在3584萬左右,共有1750億個參數,後麵的模型總神經元數量和參數會更多。訓練這樣超大規模的模型需要極其龐大的計算資源,包括動輒10萬數量級的GPU集群或TPU陣列,這個需求直接把黃仁勳的輝達(NVIDIA)的市值推上了3萬億美元的高台。預訓練階段使用數十億乃至數百億字節級別的大規模語料庫,數據來源包括網頁抓取數據、書籍、百科全書、論壇討論等各類文本數據。這三個要素相互配合,共同支撐了LLM的強大能力。
大模型訓練可以被視為一種壓縮知識的過程。通過學習海量數據,大模型能夠提取和概括出廣泛的知識,並將其壓縮到模型參數中。Transformer等架構通過參數共享,用相對有限的參數表示複雜的語言模式和知識。另一方麵,大模型訓練本質上也是從海量數據中蒸餾知識的過程,學習數據中的本質模式,而非簡單記憶。大模型通過更緊湊和高效的方式表示複雜概念和關係,這種信息壓縮不僅減小了存儲需求,還提高了知識的可用性和泛化能力。總的來說,大模型訓練將分散在海量數據中的知識壓縮到有限的參數空間中,實現了對知識的高效表示和利用。
大模型的訓練過程生動地證明了“大力出奇跡”的道理。在大模型訓練中,有一個神秘而有趣的現象叫“湧現”。“湧現”現象指的是,當模型規模和訓練參數達到某個閾值時,模型的性能和泛化能力會突然顯著提升,例如能夠理解上下文深層次的含義,生成連貫的文本等。
大模型訓練過程中存在一個叫Scaling Law的規律,翻成中文是“規模定律”。簡單來說,它的意思是計算量、模型參數量和訓練數據量越大,訓練得到的大模型性能越強。最早意識到這一規律的是前OpenAI首席科學家Ilya Sutskever。自ChatGPT推出以來,這兩年中越來越大的模型規模、GPU集群和語料庫被用來訓練越來越強大的語言大模型。財大氣粗的馬斯克甚至表示,要為他的xAI構建一個由100萬張GPU組成的計算中心來訓練大模型。
關於"湧現"現象背後的原因,研究者提出了幾種可能的解釋,但尚未有明確定論。訓練過程中大模型內部究竟發生了什麽,也還無人知曉。人們可以讀出上千億神經元節組成的大模型中每個點上的參數,但對這些參數的意義一無所知。大模型內部工作原理和決策過程的這種不透明性帶來了多個挑戰和問題,大模型成為一個黑箱,一個人造的未知物。現如今解開黑箱之謎已成為一個熱門的研究領域, 叫"黑箱白盒化",研究者們試圖揭示這些模型的內部工作原理,提高大模型的可解釋性和透明度,增強對AI決策過程的理解和信任。
有時,人們為了更形象地描述類似ChatGPT這樣的生成式語言模型生成文本的過程,常用“文字接龍”這一通俗易懂的比喻。這種比喻確有其道理,ChatGPT是基於自回歸語言模型構建的大型語言模型,自回歸算法是其核心工作原理之一。簡單來說,自回歸算法就是根據前麵已有的詞來預測和生成後麵的詞,的確很像文字接龍。但是,它不是簡簡單單地生成一個能接上的詞就行。ChatGPT的核心是基於Transformer架構的語言模型,而多頭注意力機製是Transformer架構的關鍵組成部分。多頭注意力機製的概念可能有些複雜,但可以用一種簡明的方式來描述。通俗地說,ChatGPT在遣詞造句時,不僅要關注剛剛生成的那個詞,還會考慮輸入的整個文本以及之前所有的詞。而且,這些詞對當前生成的詞影響的權重是不同的,這種差異化的關注使得模型能夠生成更自然、更連貫和有意義的文本。
ChatGPT在取得巨大成功的同時,也存在一些不足之處。它有時會生成看似合理但實際上不準確的信息,被稱為幻覺,或者更通俗地說是一本正經地胡說八道。它的知識截止到訓練完成時,缺乏最新的信息,並且在深層理解和常識推理方麵仍有局限。此外,它可能會反映出訓練數據中的偏見,僅限於文本交互,缺乏可靠的引用,影響了回答的可信度。為了解決這些問題,OpenAI希望通過更大的模型、更強的算力和更多的數據來改善,充分利用Scaling Law的力量。
當OpenAI成功趟出這條路後,其他公司紛紛跟進,投入了大量資本和優秀人才,訓練出數百種大大小小的大模型,包括語言模型、圖像模型、音頻模型、視頻模型以及多模態模型等。其他模型所用的架構和語言大模型的Transformer架構有所不同。例如,在圖像生成領域,大模型通常使用的是擴散模型(Diffusion Model),而不是Transformer架構。擴散模型通過逐步將噪聲圖像轉化為清晰圖像,展現出高質量的生成能力。不過這篇文章中我們還是主要以ChatGPT為例簡單介紹Transformer架構和語言大模型(LLM)及其用到的一些算法和應用。
上麵粗略介紹了ChatGPT這樣的AI大模型的架構、算法和訓練方式,接下來看看這些大模型的實際應用和未來發展。
ChatGPT一經問世便引起了巨大轟動,人們紛紛嚐試其令人驚豔的功能,如自然語言對話、代碼生成、自動文本撰寫等。當時,“Prompt”(提示詞)成為了最熱門的詞匯。李彥宏甚至預言,十年後,全世界有50%的工作將涉及提示詞工程,不會寫提示詞的人將麵臨淘汰。於是,學習編寫提示詞的熱潮席卷全球,網上充斥著各種提示詞工程的課程廣告。
2023年3月1日,OpenAI正式發布了ChatGPT API,這是一套簡單易用的接口。通過調用ChatGPT API,開發者可以輕鬆創建智能客服、自動問答係統、語言翻譯等應用,提高用戶體驗並節省人力成本。ChatGPT API對AI行業產生了重大影響,使開發者和企業更容易將ChatGPT的能力集成到應用中,極大地加速了AI應用的開發和落地。初創公司紛紛利用這項技術,快速開發各種基於ChatGPT的應用,掀起了AI創業潮。
同時,API的發布擴大了AI的影響力,使ChatGPT的能力能夠應用到客戶服務、內容創作等多個領域。然而,隨著API的廣泛使用,對安全和隱私問題的擔憂也隨之增加。這可以看作大模型應用的第一階段。
大模型應用的第二階段大致始於2023年11月6日,OpenAI在其首屆開發者大會(OpenAI DevDay)上正式推出了GPTs。此次發布標誌著一個重要的裏程碑,OpenAI允許用戶將自己的知識庫與ChatGPT大模型結合起來,創建定製版本的ChatGPT,即GPTs。這一創新使用戶能夠根據特定領域的需求,開發出具有專門知識的聊天機器人。例如,將中醫知識融入模型中,就可以創建一個能夠回答中醫相關問題的中醫GPTs。這種靈活性不僅大大擴展了ChatGPT的應用範圍,還讓用戶能夠更精準地滿足個性化需求和行業特定的應用場景。
這一舉措不僅促進了AI在專業領域的深度應用,也推動了AI技術在更廣泛的場景中的落地和推廣。通過這種方式,OpenAI為更多用戶打開了創新和發展的新大門,讓AI技術更貼近實際生活和工作需求。GPTs的推出為AI大模型的應用帶來了前所未有的可能性和機遇。
2024年,大模型的應用進入了一個新的階段——AI Agent,即智能體的時代。智能體從程序員的角度來看,就像一個靈活的程序,可以在需要時調用大模型,這個過程類似於調用一個函數。給它一些輸入,它處理後生成輸出,返回給調用者。輸入和輸出可以是文本、圖像、音頻、視頻等多種形式。這種方式比單純使用ChatGPT或專用GPTs功能更加強大。
想象一下,當你在處理複雜任務時,智能體可以隨時調用特定大模型來應對各種需求。這不僅提高了效率,還擴展了應用範圍,讓各行各業都能享受到人工智能帶來的便利與創新。例如,在醫療領域,智能體可以根據不同的病人情況調用醫療大模型,為醫生提供診斷和治療建議;在金融領域,智能體可以分析市場數據,提供投資策略和風險評估。AI Agent的開發和應用場景十分豐富,吸引了大量的投資和人才。各大科技公司、初創企業以及個人開發者都在這個領域中競相角逐,努力推出更智能、更實用的產品。
這個賽道不僅充滿了競爭,也蘊含著巨大的商機,是一個非常有“錢”途的領域。總的來說,智能體的發展正在迅速改變著我們工作的方式和生活的麵貌。
為了進一步了解智能體,這裏介紹一些背景知識。人工智能的領域有三大門派,分別是符號主義、連接主義和行為主義。符號主義認為智能是通過符號操作實現的,智能係統應依賴明確的規則和邏輯推理。這種觀點認為人類思維可以通過符號和邏輯來建模。代表性的應用包括各類專家係統以及車間裏的專用工業機器人。
連接主義認為智能是通過神經網絡的連接實現的,模擬人腦的工作方式。神經網絡由大量的節點(或“神經元”)組成,通過調整節點之間的連接權重來進行學習和推理,ChatGPT和特斯拉的自動駕駛係統都是其代表。
行為主義認為智能體通過與環境的互動進行學習和適應。強化學習是行為主義的重要實現方式,通過試錯和獎勵機製來優化行為策略。這一流派的硬件構成也可以是神經網絡,它強調持續學習和不斷進步,擊敗人類圍棋冠軍李世石的AlphaGo就是行為主義的典型例子。
話再說回來,現在烈火烹油、鮮花著錦般發展的AI Agent,其實就是在連接主義大突破之後,回到了將三個流派的武功融合起來應用的更高境界。需要用明確的規則和邏輯推理進行控製時,智能體(程序)就用明確的規則來控製;需要用ChatGPT之類的大模型時,就調用大模型,想調用哪個大模型就調用哪個,想什麽時候調用就什麽時候調用,想調用多少次就調用多少次。還可以調用不同的大模型讓它們互博,交叉驗證。智能體也得不斷學習,不斷進步,比如上網查找最新的消息。現在流行的RAG(Retrieval-Augmented Generation,即檢索增強生成)技術,旨在通過引入信息檢索係統來增強大型語言模型(LLM)的能力。這種技術允許模型在生成回應時引用外部的權威知識庫,從而提高生成信息的準確性和相關性。總而言之,就是不拘一格地把我們會的功夫都用起來,以實現我們的目標。
需要提及的是,雖然訓練大模型需要花費巨額資金和巨大的算力資源,但一旦訓練完成,結果就是包含其神經網絡架構和參數的文件。這些文件可以部署在比訓練時所用的巨大機群小得多的硬件設備上,使用大模型的過程在業內稱為推理。雖然推理階段的硬件需求確實小於訓練階段,但仍需相當可觀的計算資源。據說,ChatGPT每日需要30,382個A100 GPU和3,798個服務器來進行推理,每天的電費就高達30萬美元。
從應用的角度來看,最重要的是,通過模型壓縮、量化和蒸餾等方法,可以將大模型轉化為更精簡高效的小模型。這些小模型可以部署在計算能力較低的硬件上,如家用電腦和手機。這一轉化過程不僅使AI技術能夠走進小公司和尋常百姓家,還極大地拓寬了AI Agent的應用領域。正是由於這些高效的小模型,AI技術變得更加普及,為創新提供了無限可能。這是AI Agent能夠廣泛應用於各行各業的關鍵原因之一,讓我們能夠享受技術進步帶來的便利和變革。
當前,AI Agent的研究、開發和應用如一場巨浪席卷全球,各地紛紛投入了前所未有的資本和頂尖人才,形成了令人瞠目的激烈競爭局麵。各大科技公司、研究機構以及無數初創企業,猶如江湖中的豪傑,爭先恐後地推出新模型和新應用,市場上的創新產品層出不窮,仿佛雨後春筍般湧現。這場競爭不僅是資本和技術的較量,更是智慧和創意的比拚。各類新技術和應用迅速覆蓋了從醫療健康到金融服務,從智能製造到個性化教育等廣泛領域。無論是無人駕駛的自動化道路,還是智能助理的貼心服務,都讓人們對未來充滿了無限的期待。當然,這一切的狂熱和喧囂,大家早已耳熟能詳,此處不必贅述。
總之,AI Agent的發展以驚人的速度改變著我們的生活和工作方式,其迅猛的發展速度超出了許多人的想象,潛力巨大,不容小覷。即使基礎大模型不再進步,僅憑現有的這些大模型基礎上開發的AI Agent,也足以在三、五年內將世界攪個天翻地覆。智能體將在各個領域發揮重要作用,從日常生活中的智能助理到複雜任務中的決策支持,都會帶來深遠的變革。這種技術的廣泛應用不僅顯著提高了生產力,還徹底改變了我們與技術的互動方式,使我們進入一個更加智能化的時代。從家用設備到工業自動化,AI Agent的應用無處不在,深刻影響著各行各業。
然而,AI帶來的好處是否會被科技巨頭、大公司和富人占有,使財富和資源更加集中於少數人手中,引發了廣泛的討論。有人擔心,AI技術可能加劇社會的不平等現象,即便實施全民基本收入(UBI),恐怕也難以完全解決這一問題。傑弗裏·辛頓(Geoffrey Hinton)警告說,AI可能導致數百萬人失業,並呼籲實施UBI。穆斯塔法·蘇萊曼(Mustafa Suleyman)預測未來5到10年內白領工作將發生重大變化,並建議政府提供援助。薩姆·奧爾特曼(Sam Altman)指出,AI可能導致權力從勞動力轉移到資本,需要新的稅收體係以共享利益。埃隆·馬斯克(Elon Musk)則呼籲暫停高級AI研發,擔心其發展過快會帶來係統性風險。
智能體的發展可能會推動我們的價值觀、財富分配製度發生改變,甚至引發社會製度的重大變革。我們需要重新審視人與科技之間的關係,確保技術進步能夠造福全人類。這不僅是一個技術問題,更是一個倫理和社會問題,要求我們全社會共同努力,找到一個平衡點。總的來說,AI Agent的發展前景令人振奮,但同時也充滿挑戰和不確定性。我們必須在擁抱創新的同時,保持警惕,以確保這一過程能夠造福全人類,而不僅僅是少數人的特權。說實話,對於這一問題,我個人比較悲觀,但仍然希望通過我們的共同努力,實現技術與社會的和諧共進。
讓我們回頭再聊聊基礎大模型。在以AI Agent為代表的各類大模型應用高速發展並日益普及的同時,基礎大模型也在以令人眼花繚亂的速度演進。現在的AI大模型主要基於Transformer架構,結合了大算力和大數據進行訓練,這些技術已經取得了顯著的進步。在過去的兩年裏,大算力的發展有目共睹,人人皆知。然而,許多人可能沒有注意到,訓練方法和大數據也在不斷改進和發展。Scaling Law一直引領著人工智能的研究,推動著這一領域向前發展。
最近,科技圈內關於Scaling Law是否已達到極限並失效的討論異常熱烈。支持這一觀點的人常常引用Ilya Sutskever的言論作為依據。Sutskever在NeurIPS 2024會議上表示,預訓練的時代即將結束(Pre-training as we know it will end),因為人類現有的知識資源已經被用盡。這一言論引發了廣泛的爭議和討論,甚至觸發了NVIDIA的股票下跌。人們開始思考AI發展的下一步究竟會如何。許多人對基礎AI的研究和發展感到悲觀,認為通用人工智能(AGI)還遙遙無期。我必須承認,不久前,我也持有相同的觀點。但最近,我的看法發生了變化。我現在認為,Scaling Law並未到達盡頭,AGI的曙光已經出現。接下來,我將分享一下我對這個問題的觀察和思考。
前麵提到,ChatGPT中的GPT代表Generative Pre-trained Transformer,即生成式預訓練變換器。雖然OpenAI給產品起名時常被詬病,但“預訓練”這一術語卻準確地揭示了大模型的本質特征。預訓練的過程是將海量的知識輸入神經網絡進行學習,訓練完成後,模型就可以部署到推理係統中進行推理操作。這種預訓練方法賦予了大模型強大的理解能力。訓練後的模型不僅能夠準確理解用戶的輸入,還能生成流暢的文本,進行多種語言之間的翻譯,總結長篇文章,甚至編寫程序。但是,人們還是對大模型的推理能力抱有懷疑,因為大模型有時候會出現一本正經胡說八道式的幻覺。
OpenAI最近發布的o3模型展現了驚人的推理能力,尤其在複雜數學和科學問題上表現尤為突出。那麽,OpenAI是如何做到的呢?答案是在預訓練得到的大模型基礎上,進一步利用思維鏈(Chain of Thought,CoT)和將強化學習與人類反饋相結合的人工智能訓練方法(Reinforcement Learning from Human Feedback,RLHF)進行後訓練(Post-Training)。通過這些方法,模型得以優化,推理能力得以顯著提升。
人們給大模型在預訓練時提供的知識庫中,大都是省略很多思考和推理步驟的語料。比如說四選一的問題,我們隻給一個正確的答案,並不提供得到這個答案的思維過程。上課時,老師會用口頭語言解釋解答這種題目的思維過程,最後留在黑板上的就是一個最終答案。如果沒有解釋,隻給答案,再好的學生也學不會。大模型早期預訓練中使用的就是這樣的語料,這就是為什麽得到的大模型雖然可以理解問題,也可以遣詞造句,但推理能力差的主要原因,因為它根本就沒有學到隱藏的解題思路。我們來看一個關於數學題目的思維鏈(Chain of Thought, CoT)例子。
題目: 一個火車從A城出發,經過30分鍾後到達B城。如果火車的平均速度為60公裏/小時,那麽A城到B城的距離是多少公裏?
思維鏈:
理解問題: 題目問的是A城到B城的距離,給出的條件是火車的行駛時間和速度。
列出已知條件:
行駛時間:30分鍾
平均速度:60公裏/小時
將時間轉換為小時:
30分鍾 = 0.5小時
使用距離公式: 距離 = 速度 × 時間
代入已知條件:
距離 = 60公裏/小時 × 0.5小時
計算結果:
距離 = 30公裏
得出結論: A城到B城的距離是30公裏。
這個例子展示了如何一步步地思考和解決問題,通過分解問題、列出已知條件、應用相關公式,最終得出正確的答案。
在大模型的預訓練過程中,通過處理和分析海量數據,大模型學習語言的結構、語義和上下文關係,而非簡單記憶。訓練後的模型具有泛化能力,能夠理解和生成未見過的內容。隨著模型規模的增大,一些新的能力會自然湧現,這種現象難以用簡單記憶來解釋。經過訓練的模型能夠適應各種任務和場景,這種靈活性表明它學到了更深層次的知識表示。
類似地,在對大模型的後訓練過程中,通過提供大量包含(類似上述例子中的)思維鏈的語料庫對大模型進行訓練,模型可以湧現出推理能力,更好地理解和解決複雜問題。這種推理能力能夠泛化,解決訓練中未涉及的知識領域的問題。“湧現”現象並不止發生一次,而是隨著大算力和大數據的持續訓練中不斷出現的。
事實上,一些公司確實在雇傭人編寫帶有詳細思維鏈的知識庫,但這種方法不僅緩慢且價格昂貴。另外,一些公司也在嚐試利用現有的大模型生成類似的帶有思維鏈的知識庫來訓練未來的大模型。然而,這種近親繁殖式的方法有可能導致幻覺累積,最終生成奇怪且無用的知識庫。算法方麵,強化學習與人類反饋相結合(RLHF)的訓練方法展示了巨大潛力, 但還需更多研究和實踐來優化這些算法,仍需探索新算法。總體來說,雖然還有很多問題需要解決,但在技術上,通往AGI的道路應該已經被打通。
所以,我認為有些人是誤解了Ilya。他說預訓練時代即將結束,真正想表達的並不是Scaling Law到頭了,而是它換個馬甲又要回來了,又要回到後訓練(Post-Training)中,繼續引領和推動AI的發展。有數據表明,後訓練過程中所需要的計算量甚至要超過預訓練的計算量。
接下來,我們再聊聊通用人工智能(AGI,Artificial General Intelligence)。AGI是指具有與人類相當的通用智能能力的人工智能係統,能夠完成所有人類能夠完成的智力任務。關於其定義,普遍共識是AGI具備廣泛的認知能力,能夠適應各種不同的任務和環境,進行推理、規劃和問題解決,使用常識知識,學習新技能,並能以自然語言進行交流。然而,AGI的定義和本質仍存在許多爭議,例如它是否具有意識,能否自我反省和自我進化等問題,這些涉及到認知科學、心理學、語言學和哲學等領域,不是我們能回答的。
再進一步,關於AGI是否會失控,是否會反客為主出現科幻小說中機器統治人類,甚至奴役或消滅人類的前景,這些問題引發了廣泛的擔憂和爭論。作為AGI的對立麵,我們是否需要反省:如果AGI能夠替我們思考,人類是否還有存在的必要性?這些問題不僅涉及技術和倫理,還觸及了更深層次的哲學和存在意義的討論。這些更大且更具爭議性的話題,超出了我們目前聊天的範圍。盡管它們引人深思,涉及的領域廣泛,我們在此不作深入討論。
最後,了解了人工智能大模型訓練方法的曆史和現狀,並看到了OpenAI最新推出的o3大模型的驚人推理能力,我們可以說,通往AGI的道路上已經沒有難以突破的技術瓶頸了。隻要繼續在人力、物力和財力這三大關鍵要素上加大投入,AGI的實現就不再遙遠了。