然而,圍繞DeepSeek-R1的訓練過程也產生了不少質疑聲。最大的問題在於,DeekSeek公司借助2048塊英偉達H800 GPU組成的集群,僅用約兩個月時間就完成了擁有6710億參數的混合專家(MoE)語言模型訓練,效率比Meta等人工智能行業領軍企業高出10倍,DeepSeek-R1的訓練成本僅為OpenAI o1的3%-5%。
人們懷疑DeepSeek是否真的能在如此短的時間內,用相對較差和數量有限的GPU資源訓練出如此強大的模型。一些評論者認為,DeepSeek或許在技術報告中誇大了其訓練過程的效率和資源利用。而另一部分則認為,這可能是DeepSeek在技術上取得了巨大的進步,從而實現了這一看似不可能的任務。
本文是一篇科普性文章,旨在通過公開的信息和材料,尤其是DeepSeek的技術報告,深入淺出地探討DeepSeek-V3和DeepSeek-R1的訓練過程。我們將深入剖析其訓練方法,評估其所宣稱的技術和資源利用效率,並盡量用通俗易懂的語言表達我們的觀察。希望通過這篇文章,為非AI科技圈的讀者提供一個客觀、公正的分析視角。
DeepSeek是一家專注於人工智能和大型語言模型的公司,成立於2023年5月,由中國對衝基金幻方量化創立,創始人為梁文鋒。公司的團隊主要由中國頂尖大學的應屆博士畢業生組成,是一個精幹而全麵的團隊,涵蓋基礎硬件、計算中心係統架構、AI算法、大型軟件架構和數據科學等領域的專家。這支團隊年輕、高效,緊密合作,能夠快速學習並利用最新技術在他們的大模型研發中。
2024年12月底,DeepSeek發布並開源了DeepSeek-V3模型,其性能可比肩當前的頂級閉源模型。最令人印象深刻的是,DeepSeek-V3的訓練成本僅為GPT-4的二十分之一,且僅用了兩個月時間和不到600萬美元的投入。 2025年1月,公司又推出了推理模型DeepSeek-R1,在多項測試中達到或超越了OpenAI o1模型。DeepSeek的成就和創新方法在全球AI圈引起了廣泛關注,展示了中國AI企業的強大創新能力。
在DeepSeek-V3推出之前,訓練AI大模型一直被認為是一項極其昂貴的任務。首先,需要數以萬計價格昂貴的高性能GPU。其次,訓練這些模型所需的數據中心構建也非常複雜昂貴,需要最先進的硬件和網絡設施。此外,數據中心的電力消耗也是一個重大成本因素,高功耗和冷卻係統的維護費用都十分驚人。
2025年1月21日,新任美國總統特朗普在白宮親自宣布了一項名為“星際之門”(Stargate)的AI基礎設施投資計劃,預算高達5000億美元。該計劃由OpenAI、日本軟銀集團和美國甲骨文公司共同參與,旨在大規模提升美國的AI基礎設施。特朗普總統在講話中強調,這項計劃將推動美國在全球AI競賽中的領先地位,確保美國在未來的科技領域占據主導地位。
所有這一切,勾勒出人們心目中AI統治未來世界的圖景。在許多人看來,未來大概率隻有一個AI巨頭。在特朗普看來,這個公司必須在美國;在山姆·奧特曼的視野中,這個唯一的公司非OpenAI莫屬。這個AI巨無霸掌握著AGI甚至ASI級別的大模型,是一個銀河帝國般的存在,屹立在雲端星際,俯瞰整個世界。從全球的工業製造、農業生產,到交通運輸和生活娛樂,無不在他們的掌控之中。
然而, 好像DeepSeek的出現擊碎了他們的幻想。
關於DeepSeek-V3和DeepSeek-R1的功能, 雖然不泛爭議, 但大多數人都同意, 均達到了現在頂尖閉源大模型的水平, 分別與ChatGPT 4o, ChatGPT o1相當。 關於DeepSeek公司極其大模型的主要爭議是, DeekSeek訓練時是不是真的隻用了2048張閹割版的H800 GPU和短短的兩月時間? 另一個爭議是,DeekSeek會對全球特別是美國的AI產業造成什麽樣的影響, 將如何重塑未來的AI產業大格局。
那麽,DeepSeek是如何在有限的計算資源和較低的訓練成本下,訓練出能夠與OpenAI o1比肩的大模型呢?概括來說,盡管DeepSeek依然采用了Transformer架構,但他們在架構和算法的各個方麵都進行了極致的優化,並融入了令人讚歎的創新,應用了最新的技術。接下來,我們將根據公開的資料,特別是DeepSeek-V3和DeepSeek-R1的技術報告,探討DeepSeek在訓練大模型的過程中,如何將最新技術應用於模型架構、算法和軟硬件係統,以及如何對每一個細節進行極致的改進和優化。
2024年12月發布的DeepSeek-V3雖然不如2025年1月發布的DeepSeek-R1那麽轟動, 但DeepSeek-V3是通用型大語言模型,它在某些方麵也非常表現出色, DeepSeek-R1是在DeepSeek-V3基礎上訓練出來專為複雜推理任務而設計的模型,中間還有一個過度性的推理大模型DeepSeek-R1-Zero。
為了全麵透徹地了解為什麽DeepSeek-R1如此強大,並導致高科技七巨頭紛紛感到巨大壓力,我們將從DeepSeek-V3開始,逐步分析DeepSeek-R1-Zero直至DeepSeek-R1的每個階段。
DeepSeek-V3:高效構架與創新技術的結合之道
1. 高效的模型架構: 混合專家模型(Mixture of Experts, MoE)
DeepSeek-V3采用了混合專家模型(Mixture of Experts, MoE),然而這種技術並不是他們的新創。MoE的概念最早由Geoffrey Hinton和Michael I. Jordan等人在1991年提出。事實上,目前大多數AI大模型都使用了MoE技術,盡管也有一些不依賴MoE的大模型,例如Anthropic的Claude和Meta的LLaMA係列。至於OpenAI,因為他們的信息不夠公開透明,所以我們無法確定他們的ChatGPT 3.5和ChatGPT 4.0是否采用了MoE架構。
對比MoE構架, 傳統的Transformer構架也稱為密集Transformer構架,MoE通過組合多個“專家”模型來處理複雜任務。每個專家模型專注於輸入數據的不同部分,而門控網絡(Gating Network)決定如何加權這些專家的輸出。MoE 的核心思想是將任務分解為多個子任務,由不同的專家處理,從而提高模型的靈活性和性能。MoE 在自然語言處理、計算機視覺等領域表現出色,尤其適合處理大規模數據和複雜任務。通過動態分配計算資源,MoE 能夠高效利用硬件,同時保持高精度和泛化能力。
俗話說:“三個臭皮匠頂個諸葛亮。” 如果把密集Transformer架構比作費了很大勁兒培養出來的一個諸葛亮,那麽混合專家模型(MoE)就像是用較小成本培養了一群‘臭皮匠’。從遠處看,密集Transformer架構和MoE架構的大模型都像一個大腦袋。走近一看,你會發現MoE的大腦袋裏其實裝了幾個各自負責不同任務的小腦袋。
DeepSeek的混合專家模型叫DeepSeekMoE架構, DeepSeekMoE框架的獨特之處在於它的細粒度設計和共享專家策略是。其它的 MoE 模型每層可能有幾個到幾十個專家,例如,馬斯克的 xAI 公司的 Grok-1 采用了 8 個專家的 MoE 架構,每處理一個 token 會從中激活 2 個專家。DeepSeekMoE框架的每個 MoE 層由 1 個共享專家和 256 個路由專家組成,每個專家的中間隱藏維度為 2048。在這些路由專家中,每個 token 將激活 8 個專家。
DeepSeekMoE架構中的共享專家策略是一項重要創新,包括專家分類、特點、目的和優勢。專家被分為共享專家和獨立路由專家。共享專家數量固定且較少,每個MoE層通常包含一個,始終處於激活狀態,負責捕獲和整合不同上下文中的共同知識,減少知識冗餘,提高參數效率,並允許獨立路由專家專注於更專業化的知識。共享專家策略提高了模型的泛化能力和整體效率,減輕了其他路由專家之間的參數冗餘,與細粒度專家分割相結合,實現了更高效的模型架構
這種精細的 MoE 設計在工程上非常複雜且極具有挑戰性。由於缺乏足夠的高性能 GPU,DeepSeek 團隊不得不麵對這個艱巨的任務。通過精心設計和努力,他們克服了這些困難,功實現了如此細粒度的架構,使模型在效率和性能方麵達到了新的高度。這種創新無疑為 AI 領域樹立了新的標杆。
在訓練過程中,每個token在每個MoE層中僅激活8個路由專家,最多可路由至4個節點。這種方法被稱為稀疏激活。稀疏激活機製可以在不顯著增加計算成本的情況下,大幅擴展模型容量。
細粒度專家係統和稀疏激活具有明顯的優點。首先,通過減少連接和激活的數量,大大減少了網絡的參數量,從而降低了模型的存儲需求和計算開銷。此外,稀疏的連接和激活模式使模型更加可解釋,有助於理解模型的決策過程。限製連接和激活還可以減輕數據噪聲和冗餘信息的影響,提高模型對幹擾和變化的魯棒性。通過提取最相關和最重要的特征,增強了模型的泛化能力,有效減少了過擬合的風險。此外,通過隻保留最重要的激活值,大大減少了計算量和內存使用,同時幾乎不影響模型性能。
同時,這些技術的缺點也是顯而易見的。首先,實現複雜度較高,需要複雜的路由機製和專門的硬件支持,增加了實現的難度。其次,在訓練階段可能需要更多的計算資源來優化專家分配和激活模式,這對於資源有限的團隊來說是一個挑戰。此外,精心平衡專家數量、激活策略和模型性能,需要大量的實驗和調優,也是一個複雜的過程。
這些技術尚未被其他公司廣泛采用的原因包括:首先,技術成熟度相對較低,許多公司可能還在觀望或研究階段。其次,這些技術在某些特定任務上表現出色,但在其他任務上的效果可能不如傳統密集模型。此外,稀疏模型的維護和更新可能比密集模型更複雜,增加了長期維護的成本。某些稀疏激活方法可能會增加訓練時間,使整體計算複雜度上升。
其它大模型不使用MoE結構的原因還包括:管理多個專家網絡和門控網絡增加了模型的複雜性,從而提高開發和運營成本。傳統的稠密模型通常更穩定,而MoE模型的穩定性可能受到門控網絡和專家之間相互作用的影響。盡管MoE模型在某些方麵更高效,但對GPU顯存的高需求可能超出一些研究團隊或公司的資源能力。最後,一些研究團隊更傾向於使用結構更簡單、更容易理解和調試的傳統模型架構,以簡化開發過程和減少潛在問題。
盡管存在這些挑戰,隨著DeepSeek的成功, 技術的不斷發展和成熟,預計會有更多公司開始采用這些先進的模型架構,以提高AI係統的效率和性能。
2. 創新的注意力機製 :多頭潛在注意力(MLA)機製
注意力機製(Attention Mechanism),這一波AI領域的革命性進展主要基於著名的Transformer架構,其核心思想源自論文《Attention is All You Need》,文章標題本身就凸顯了注意力機製(Attention)的重要性。那麽,什麽是注意力機製呢?
當ChatGPT生成文本時,它不僅關注剛剛生成的詞,還會綜合考慮輸入的整個上下文以及之前生成的所有詞。更重要的是,模型會為這些詞分配不同的權重,從而差異化地關注它們對當前生成詞的影響。這種動態的、差異化的關注機製,使得模型能夠捕捉上下文中的關鍵信息,生成更加自然、連貫且語義豐富的文本,這就是注意力機製的直觀體現。
可以用一個通俗的比喻來理解:想象你在一個嘈雜的咖啡館裏和朋友聊天。盡管周圍充滿了噪音和他人的談話聲,但你依然能集中注意力聽清朋友的聲音。這是因為你的大腦能夠自動“調低”無關聲音的“音量”,同時“調高”朋友聲音的“音量”。注意力機製正是模擬了這一過程,使模型能夠從大量信息中篩選出關鍵部分,忽略無關內容,從而更高效地處理複雜任務。
為了在訓練程序中實現注意力機製,Transformer引入了一套數學方法,即用查詢(query)Q、鍵(key)K和值(value)V來計算注意力(attention)。Q、K和V都是高維矩陣。在實際的語句生成過程中,大體上是用Q和K相乘,算出前麵句子中的不同部分與下一個即將生成的詞的關聯度,然後再乘以表示前麵句子內容的值V,這樣算出所謂的注意力,從而決定下一個詞是什麽。
多頭注意力機製(Multi-Head Attention, MHA)是對自注意力的擴展,多頭注意力機製是對傳統注意力機製的改進,可以比喻為多角度觀察者。想象你在閱讀一本複雜的小說,單一注意力就像隻有一雙眼睛,隻能關注一個方麵,比如故事情節。而多頭注意力就像擁有多雙眼睛,每雙眼睛專注於不同的方麵:一雙眼睛關注情節發展,另一雙眼睛觀
人物性格,第三雙眼睛分析文字風格,第四雙眼睛捕捉隱喻和象征。最終,你的大腦(相當於多頭注意力的輸出層)綜合所有這些觀察,形成對小說的全麵理解。
多頭注意力機製通過這種多角度的觀察,能夠同時捕捉不同的特征,從多個視角觀察輸入數據,捕捉不同的相關性關係。這樣一來,模型的表示空間得到了擴展,提升了學習複雜特征的能力。多個注意力頭還可以並行計算,提高了處理速度,同時減少了過擬合的風險,從而增強了模型的泛化能力。不同的注意力頭關注輸入的不同方麵,使模型能夠獲得更全麵的語義理解。
通過這種多角度並行處理,多頭注意力使模型能夠更全麵地理解複雜的語言結構和語義關係,從而在各種自然語言處理任務中表現出色。
多頭潛在注意力機製(Multi-Head Latent Attention, MLA) 是由DeepSeek公司提出,並在其DeepSeek-V2模型中引入的。MLA改進了傳統多頭注意力機製(Multi-Head Attention, MHA),主要解決了大型語言模型在訓練和推理過程中的瓶頸問題,特別是KV緩存占用大量內存的問題。相比MHA,MLA顯著降低了內存使用,僅需要5%-13%的顯存,並通過減少KV緩存,加快了推理過程,尤其是在處理長序列時。同時,MLA在大幅減少資源占用的情況下,仍能實現與MHA相當甚至更強的性能。這使得DeepSeek-V2在保持高性能的同時,顯著降低了訓練和推理成本。這項創新讓DeepSeek在大語言模型領域獲得了顯著優勢,吸引了包括矽穀在內的全球AI社區的關注。
多頭潛在注意力機製(MLA)相比傳統多頭注意力機製(MHA)具有的這些優勢在實際計算中如何實現這些優勢呢?要完整理解這個問題需要具備矩陣計算的知識,不太容易在這樣的科普文章中說清楚。讓我們換個角度,從基於Transformer架構的大模型的生成策略,即自回歸方法說起。
生成式語言大模型是基於自回歸方法的,自回歸算法就是根據前麵已有的詞來預測和生成後麵的詞。它在生成每一個新詞的過程中,都要把前麵已經生成的部分根據注意力(關聯性)重算一遍,就像我們玩文字接龍時需要從頭開始念一遍,然後再添加上一個詞。如果生成的文章比較長,就會有很多重複計算,這樣的計算浪費大量計算資源。為了節省這個過程中的計算資源,人們有時會把前麵計算過的部分存儲在緩衝區(cache)裏,但這會帶來一個新問題,即占用大量存儲空間,也就是GPU的內存。因此,這裏出現了兩難問題:要省內存的話,就得多計算;要想節省計算的話,就得多占用內存。在DeepSeek提出MLA之前,其他AI公司不得不在這個兩難處境中進行選擇。
DeepSeek的研究團隊通過深入探索,提出了一種創新的低秩鍵值聯合壓縮技術。他們發現,可以將傳統多頭注意力機製中需要緩存的鍵(Key)和值(Value)矩陣壓縮為一個低維潛在向量。這種方法不僅顯著減少了內存占用,還保留了關鍵信息,實現了高效的注意力計算。據說,被雷軍以千萬年薪挖到小米的那位天才少女正是這個MLA研究的主要貢獻者。通過這種設計,MLA在保持或提升模型性能的同時,顯著降低了計算資源需求,特別是在處理長序列時效果更為明顯。這種創新使MLA能夠在大規模語言模型應用中實現更高效的訓練和推理,可以說是DeepSeek成功完成訓練DeepSeek-V3大模型的關鍵因素之一。
3. 多Token預測 (MTP) 的應用
DeepSeek-V3采用了多Token預測(Multi-token Prediction, MTP)技術,這使其在語言模型領域獨樹一幟。與逐詞預測不同,MTP一次性預測多個詞匯。
MTP的概念並不是全新,它由Meta在2024年ICML會議上提出。核心思路是在訓練時一次性預測多個未來的Token,而不僅僅是下一個Token。這種方法迫使模型學習Token之間的依賴關係,更好地理解上下文信息。
MTP的工作原理是通過使用多個輸出頭並行預測多個Token來工作。然後主輸出頭(next-token prediction head)驗證預測結果並選擇最有可能的結果。這個過程相對容易實現。模型使用n個獨立的輸出頭來預測n個未來的Token,共享同一個主幹網絡生成上下文的潛在表征,然後將該表征送入到n個獨立的頭網絡。這種設計相對簡單,不需要複雜的架構改變。
Meta的研究表明,MTP通過預測多個Token,為模型提供更豐富的監督信號,使其能更快地學習語言結構和規律。使用4-token預測訓練的模型在推理時速度可提高至3倍。MTP還幫助模型學習Token之間的長距離依賴關係,從而更好地理解上下文信息,並且在編程任務上表現突出,增強了分布外泛化能力。
然而,MTP可能需要更多的計算資源,尤其是在模型規模較大時。簡單實現MTP可能導致內存使用量迅速增加,需要特殊的優化技術來解決。此外,在某些特定的NLP任務上,MTP並不總是優於傳統的單Token預測,例如在某些標準選擇題任務中表現不佳。
DeepSeek率先將多Token預測(MTP)技術應用於DeepSeek-V3和R1的訓練中,充分發揮了MTP的高效優勢。通過極致的內存和通訊管理,部分克服了MTP的缺點,從整體上提高了大模型的訓練效率。這些改進包括提高數據效率、增強預測能力、減少訓練時間和提升模型的泛化能力。實現了顯著的效率和性能提升。這種創新方法使DeepSeek站在了AI技術的前沿。
4. 混合精度訓練
DeepSeek-V3引入了FP8混合精度訓練框架,這是一項重大創新。FP8混合精度訓練的主要特點包括使用8位浮點數(FP8)表示數據,相較於傳統的32位(FP32)和16位(FP16)格式,精度有所降低,但占用空間更小,計算速度更快。其混合精度策略采用FP8實現大部分核心計算內核,具體包括前向傳播、激活反向傳播和權重反向傳播。輸出結果則采用BF16或FP32格式,向量激活值以FP8格式存儲用於反向傳播。
這種方法帶來了顯著的性能提升,理論上計算速度提升了一倍,同時大大降低了內存消耗。DeepSeek通過創新的誤差累積解決方案,FP8混合精度訓練將精度損失控製在0.25%以內,幾乎不影響模型性能。首次在超大規模模型上驗證了FP8混合精度訓練的有效性,使DeepSeek-V3能夠在降低GPU內存占用和計算開銷的同時,保持高水平的性能,進一步提高了單位GPU小時的計算利用率,降低了整體訓練成本。
混合精度訓練,雖說概念上容易理解,但在實際操作中卻是相當困難。這需要設計團隊對大模型訓練過程中的每一個環節和細節的計算精度有全麵且精準的把握。正因為如此,許多大模型並未采用混合精度訓練,尤其是那些財大氣粗、手握數以十萬計GPU的AI巨頭們。DeepSeek選擇使用混合精度訓練方法,實屬逼不得已。而他們成功地實現了這一點,可以說是絕處逢生,未來更加輝煌。 這兩天, 坊間的一些傳言已被證實,為了極致利用H800算力,DeepSeek的年輕團隊甚至用GPU的底層語言PTX去優化他們的算法,他們的成功完美詮釋了那句老話:“那些殺不死你的,終將使你更強大。“
5. 數據並行和模型並行:
DeepSeek-V3 的並行策略非常複雜和精細。它采用了三層並行策略,包括16路流水線並行、跨8個節點的64路專家並行以及ZeRO-1數據並行。此外,DeepSeek-V3 引入了創新的DualPipe流水線並行算法,這大大減少了流水線停滯現象,並實現了計算與通信階段的重疊。這種設計顯著提高了 GPU 利用率,同時減少了通信開銷。
在專家並行方麵,DeepSeek-V3 的模型由256個路由專家和1個共享專家組成,每個 token 會激活8個專家,並確保最多被發送到4個節點。這種多層次的並行策略不僅充分利用了硬件資源,還通過創新的算法設計顯著提高了訓練效率,使 DeepSeek-V3 能在較短時間內完成大規模模型的訓練。通過這些改進,DeepSeek-V3 能夠高效處理複雜計算任務,大大提高整體性能。
他們還在綜合考慮硬件和軟件的相互關係軟硬件架構聯合設計,內存和計算能力的合理調配以及負載均衡策略上也達到了極致。通過這些技術的綜合應用,DeepSeek能夠在有限的GPU資源和較短的訓練時間內,成功訓練出通用語言大模型DeepSeek-V3。
從DeepSeek-V3 到 DeepSeek-R1:高效訓練之路
創新性新算法GPRO的應用:從DeepSeek-V3 到DeepSeek-R1-Zero
現在大模型的訓練可以分為兩個階段, 第一階段叫預訓練, 預訓練是非常昂貴的, 首先需要準備海量的訓練數據集, 其次需要足夠大的計算機群, 再次還要經過相當長的訓練時間。 預訓練會把海量得訓練數據材料中的知識壓縮到大模型得上億參數中, 得到一個通用語言大模型, 如ChatGPT 4o 和這裏討論的DeepSee-V3, 這種通用語言大模型擁有幾乎無所不知的知識, 但它在推理(reasoning)方麵的能力相當有限。
為了讓這樣的大模型具有更好的推理能力, 人們開發了多種訓練方法, 其中最重要的是有監督微調(SFT)和強化學習(RL)。
監督微調(Supervised Fine-Tuning, SFT)是一種在預訓練模型基礎上,使用標注數據進行進一步訓練的方法,旨在提升模型在特定任務或領域上的表現。其主要目的是使模型適應特定任務和數據,提高模型的魯棒性和穩定性。然而,SFT的昂貴性主要體現在數據收集和處理成本高、人力資源投入大和計算資源需求高三個方麵。
SFT需要收集大量高質量、標注好的特定任務數據,這個過程既耗時又昂貴。此外,還需要雇傭專業人員進行數據標注和處理,進一步增加人力成本。SFT過程需要大量計算資源,特別是對於大型語言模型,這會顯著增加成本。多階段的訓練流程,包括預訓練、微調和評估等,都需要大量計算資源和時間。為了達到理想效果,SFT可能需要多次迭代和優化,進一步增加成本。 所以業界有句話說, 天下苦SFT久矣。
強化學習(Reinforcement Learning, RL)是一種機器學習方法,大模型通過與環境交互,根據環境反饋的獎勵信號,學習最優策略以最大化累積獎勵。 它已經發展出了多種變體。 在大模型後訓練中,將強化學習與人類反饋相結合的(RLHF)更為常用。
人類反饋的強化學習(RLHF)和傳統強化學習在使用框架、優化策略和迭代式學習上相似,但在獎勵來源、學習目標和訓練過程上有所不同。傳統強化學習依賴預定義規則或環境,而RLHF則通過人類反饋轉化為獎勵,訓練獎勵模型以預測人類偏好。RLHF旨在使模型輸出更符合人類價值觀,而傳統強化學習專注於優化特定任務性能。訓練過程中,RLHF包含預訓練、獎勵模型訓練和強化學習微調等多個階段,適用於難以用算法定義質量但人類易判斷的任務,如生成引人入勝的故事。
RLHF的成本通常比傳統強化學習更高,主要因數據收集成本、人力資源投入、多階段訓練和計算資源需求。RLHF需要大量高質量的人類反饋數據,這個過程耗時且昂貴。專業人員的雇傭增加了人力成本,而RLHF還需多次模型訓練和部署階段,增加整體計算成本。此外,RLHF需更多計算資源處理人類反饋數據和優化模型。相比之下,傳統強化學習不需要昂貴的人類反饋數據。總體來看,RLHF的高成本源於人類反饋數據的收集和處理,甚至比SFT更貴,對資源有限的公司來說更是一個挑戰。
在這種情況下,DeepSeek團隊於2024年2月提出的一種創新強化學習算法, GRPO群體相對策略優化(GRPO)。該算法旨在提升大語言模型的推理能力,尤其在數學和編程等複雜任務中表現突出。GRPO的主要特點是其不依賴於獨立的價值函數模型,而是通過多個輸出的平均獎勵進行優化,這一方法簡化了訓練過程,減少了內存消耗和計算開銷,同時在某些任務上取得了顯著的性能提升。
DeepSeek R1-Zero采用了群體相對策略優化(GRPO),完全跳過了費時費計算的人類反饋的強化學習(RLHF)和傳統的監督微調(SFT)過程,使得訓練過程高效低耗效果好。在AIME 2024測試集上,模型得分從15.6%提升至71.0%,展現了出色的性能和資源節省能力。
DeepSeek-R1-Zero雖然在推理能力上取得重大進展,但也存在一些顯著缺點。首先,模型輸出的格式和清晰度較差,用戶難以理解。其次,模型傾向於混合使用多種語言,尤其是英語和中文,影響響應的理解。此外,由於完全依賴強化學習而沒有進行初始監督微調,模型在人類可理解的輸出方麵存在局限性,有時會出現重複行為,降低溝通效果。盡管在推理任務中表現出色,但在編碼挑戰方麵表現不佳,顯示出功能不均衡。模型對提示非常敏感,少樣本提示會降低性能。同時,模型在軟件工程基準測試中的表現未有顯著提升,通用能力在某些任務上不如DeepSeek-V3。研究團隊通過引入冷啟動數據和多階段訓練流程解決這些問題,最終開發了改進版本DeepSeek-R1。
監督微調 + 強化學習:從DeepSeek-R1-Zero到DeepSeek-R1
對比OpenAI o1和從DeepSeek-R1-Zero到DeepSeek-R1的訓練過程, 都涉及了強化學習技術,但DeepSeek的方法有一些獨特的創新。首先,DeepSeek-R1-Zero完全放棄了傳統的監督微調(SFT),僅使用強化學習進行訓練。這證明了僅通過RL,大模型也可以獲得強大的推理能力。DeepSeek開發了群體相對策略優化(GRPO)算法,這是一種創新的強化學習方法,降低了內存使用和計算開銷。
其次,DeepSeek-R1采用了“微調 → RL → 微調 → RL”的迭代訓練模式,這種方法結合了監督學習和強化學習的優勢。為解決多語言混合問題,DeepSeek引入了語言一致性獎勵機製。此外,DeepSeek使用數千條高質量的長思維鏈(CoT)數據進行初始微調,提高了模型的可讀性和初始推理能力,並利用模型判斷和篩選高質量數據,生成約800k樣本用於進一步訓練。
相比之下,OpenAI o1的訓練過程主要強調大規模強化學習。o1采用純強化學習方法,不依賴傳統的監督微調,並能產生很長的內部思維鏈,模擬人類的深度思考過程。此外,OpenAI還基於o1開發了專門的編程模型o1-ioi。總體來說,OpenAI o1更側重於純強化學習和思維鏈生成的深度優化。
總的來說,DeepSeek的創新主要體現在訓練流程的設計和新算法(如GRPO)的應用上。這些方法在保持高性能的同時,顯著降低了訓練成本,成為DeepSeek能夠以較低價格提供服務的重要原因之一。通過這一係列優化,DeepSeek在強化學習領域取得了顯著的進展和成績。
總之,DeepSeek在其大模型訓練過程中采用了多項創新技術和優化策略,使訓練更加高效、節省資源和成本。首先,DeepSeek引入了細粒度專家劃分和將專家分為共享專家和獨立路由專家兩類的DeepSeekMoE構架,以及創新性多層注意力(MLA)架構,用於壓縮向量數據。此外,群體相對策略優化(GRPO)用於強化學習,不依賴獨立的價值函數模型,降低了內存消耗和計算開銷。多Token預測(MTP)技術也提高了訓練效率,使模型能夠同時預測多個連續位置的Token。
其次,DeepSeek在內存和計算優化方麵也進行了極致優化。例如,FP8混合精度訓練減少了權重大小並提高了計算吞吐量。動態序列長度調整機製優化了不同長度輸入的處理。此外,還有DualPipe算法,通過重疊計算和通信減少流水線氣泡,自定義跨節點全對全通信內核,充分利用NVLink和InfiniBand帶寬,進一步提高通信效率。
在硬件利用優化方麵,DeepSeek通過極致工程化和並行優化,削減了通用算力的無效消耗,集中資源於核心模塊。訓練策略優化方麵,DeepSeek采用了多階段訓練流程,包括預訓練、長上下文擴展、後訓練(SFT和RL)。同時,數據混合采樣策略和課程學習方法優化了訓練過程中的數據使用效率,使得模型訓練更加高效。
這些創新和優化使DeepSeek-R1的訓練更加節省資源、高效和便宜。具體來說,GRPO算法和FP8混合精度訓練顯著減少了內存需求;MTP技術和並行優化提升了計算資源利用率;DualPipe算法和自定義通信內核優化了多GPU訓練的通信效率;數據蒸餾技術和混合采樣策略提高了訓練數據的質量,減少了無效訓練。極致工程化和並行優化則充分發揮了現有硬件的潛力。通過這些技術和優化,DeepSeek能夠以較低的成本實現高效訓練,展示了“極致工程化+後訓練蒸餾+專業數據整合+重點強化訓練”新範式如何在有限的GPU資源下接近或超越業界主流大模型性能。
因此,DeepSeek在有限的、相對低效的GPU資源下,在較短的時間內成功訓練出世界一流的閉源推理大模型,無疑是可信的。DeepSeek為全球的AI研發開創了新的道路,展示了在有限資源條件下實現高效訓練的可能性。這一突破不僅證明了DeepSeek的技術實力,也預示著未來AI格局的徹底改變,開啟了一扇通往無限可能的大門。