新智元報道
編輯:定慧 桃子如果想成功應聘加入OpenAI需要什麽條件?
科班出身?頂會論文?師從像Hinton、LeCun這樣的AI大師?還是社交媒體上的技術紅人?
或者,
也許隻需要
寫一篇博客
就行。
Keller Jordan是一名機器學習領域的研究學者,2024年底他設計了一種神經網絡隱藏層的優化器Muon,並公開記錄了自己的研究進展。
很快,社區成員也開始並行實驗,報告結果,事情變得越來越有趣——OpenAI和xAI同時注意到了他,最終他選擇加入了OpenAI!
Muon第二作者Yuchen Jin直言,發表論文≠影響力。或許Muon已經被用於GPT-5的訓練中。
別再盲目追頂會
Keller Jordan的故事和DeepSeek
開源引發的轟動有些相似,雖然兩者的影響力遠不可比擬,但事情背後的底層邏輯似乎都指向同一個——
在快速迭代的AI世界裏,傳統的論文模式似乎已經落伍,
開放&社區共建&快速響應
也許才能讓人類跟上AI進化的速度。
微軟研究院的研究工程師Shital Shah在知曉Keller Jordan的經曆後感到非常興奮,因為他一直認為研究就該
「以這種方式進行」
。
即使在「開放」的研究實驗室中,你也會看到太多研究人員對「早期想法」
敝帚自珍、
斤斤計較。
研究分享通常隻在親密的朋友之間進行,很長一段時間,人們對此過於執著……
任何一個想法都需要花費數月時間才能通過發表的論文麵世。
而當它最終發表時,又常常淹沒於大量其他論文之中。
如果有人確實注意到了它,對其做出改進又需要經曆同樣漫長而艱難的另一個周期。
Keller則采取了不同的方法。
他將初步想法作為公開的GitHub倉庫發布,而不是以論文形式發表。
人們可以立即嚐試並改進這些內容。
所有人都可以在任何時間驗證所有內容。由於一切都是開放的,因此不存在作弊或誇大主張的空間。
這確實可以稱得上是
「分布式實時人工智能研究」
!短短幾天內,Keller和其他人就改進了想法。看到潛力的人們紛紛加入並協助進行並行化。
在傳統的人工智能研究領域,這個反饋周期本需要6個多月的時間,而不是僅僅6天。
關於在發論文和「速通技術」之間,Keller Jordan的看法依然和半年前一樣,今日他轉發了一則2月份的自己的推文,表示雖然Muon火了,也幫他進入了OpenAI,
但是他不會給Muon寫一篇論文。
Keller Jordan的意思很明顯,相比於arXiv上的一篇大概率被「淹沒」的論文,還不如老老實實的繼續研究自己的「優化器」。
甚至在今天還「特地」表達了自己關於目前AI優化其論文的看法——
「都是虛假的,都是水文」
。
影響力>聲望
說來,僅憑一個博客被OpenAI招入麾下,Keller Jordan本人有著怎樣的背景?
他於2020年獲得了加州大學聖地亞哥分校數學和計算機科學雙學士學位,也曾就讀於加州大學聖克魯斯分校和UC伯克利。
畢業後,他曾入職專注於生成式AI公司Hive任機器學習工程師。隨後,又在維也納複雜性科學中心擔任訪問研究員。
直到2024年12月,Keller正式加入OpenAI。
他所有GitHub項目中,最具影響力的便是——Modded-NanoGPT,星標超2.4k。
Keller和團隊僅用8塊H100在3分鍾內複現GPT模型,僅需處理0.73B token。
他本人還有一個個人博客,自入職OpenAI以來,一直沒有更新,
最後一篇文章正是Muon優化器。
Muon這篇文章究竟講的是什麽?
一個優化器,破訓練速度新紀錄
在深度學習領域,優化器是推動模型訓練效率和性能的核心工具。
直到2024年12月,一個名為Muon優化器橫空出世,憑借卓越性能刷新NanoGPT和CIFAR-10訓練速度世界紀錄。
Muon,是一種為神經網絡2D參數隱藏層設計的優化器。
其核心思想是,SGD-動量法(SGD-momentum)生成的更新矩陣,通過Newton-Schulz迭代進行正交化處理,生成接近於半正交矩陣的更新,從而提升訓練效率。
它的實現簡單高效,支持在bf16精度下穩定運行,顯著降低了計算開銷。
比起AdamW優化器,Muon在多個任務中,表現非常驚豔。
在CIFAR-10中,它將達到94%準確率的訓練時間從3.3縮短至2.6 A100 秒,提升約21%。
針對NanoGPT訓練,Muon在FineWeb數據集上,將驗證損失達到3.28訓練速度提升了1.35倍。
此外,在774M和1.5B參數規模的模型上,Muon依舊保持訓練速度優勢。
訓練一個1.5B參數的Transformer模型達到GPT-2 XL水平,Muon僅需10個8xH100小時,而AdamW需要13.3小時,效率提升約25%。
那麽,在AI圈,Muon的影響力有多大?
微軟團隊1月份論文中,便使用了Muon優化器。
一些機器學習大佬專為此著分析,還有更多研究中擁抱Muon優化器。
Muon的潛力
人工智能發展速度飛快,模型訓練始終是其核心環節,而優化器則扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。
過去幾年裏,
AdamW一直
是訓練大語言模型的主力。
AdamW能讓GPT、LLaMA、Qwen這類龐然大物學得又穩又快。
然而,隨著模型參數從幾億增加到幾千億,訓練時間從幾天變成幾周甚至幾個月,AdamW的局限性開始顯現——它在超大規模場景下的效率開始受到挑戰。
進一步提升AI能力,需要更大的模型和更多的訓練資源。
但計算資源的成本高昂,訓練時間過長也會拖慢研究和應用的進度。
因此,開發更高效的優化器,不僅是技術上的追求,更是經濟和實踐上的迫切需求。
然後Muon「悄然出現」,盡管它還未成為業界焦點,但其獨特的設計和卓越的性能表明,它可能是AI模型訓練領域的一次重大基礎創新。
而這個事關重大的創新,並不是來自於著名論文或者知名團隊,而僅僅是Keller Jordan的一次「練手」。
AI研究員就業市場的「混亂現狀」
許多AI研究員博士似乎都陷入了一個誤區,認為在頂級會議上發表論文就是最終目標。
曾經有一段時間,發表論文就等於產生影響!
ResNet、Seq2Seq、Adam、Attention、Transformers、MoE,都是以論文的形式出現的。
真正的錯誤在於未能察覺這一情況早已不再適用。
發表文章≠影響力。
Muon隻是一篇博客文章。它讓Keller成功進入了OpenAI,他現在可能正用它來訓練GPT-5。
Keller並不是孤例!
即便是沒有獲得博士學位,也可以入職OpenAI。昨天,James Campbell官宣放棄博士學位,要為ChatGPT和AGI
引入記憶與人格。
傳統的同行評審周期根本無法跟上現代人工智能研究和開發的步伐。
當然基於人工智能的同行評審可能還是很有必要的。
開源
就像新的同行評審。現實世界的采用和可複現性更為重要。
但不幸的是,在學術界,激勵機製有些錯位。學者需要展示「證據」來推動自己的職業生涯(升職、資金支持、同行認可)。
而最有價值的證明形式就是在頂級會議上發表論文。
頂級AI企業的人才選拔是否已從單純看學術論文,轉向綜合考察論文、工程和社區等多維度表現還不能就此下定論。
但正如OpenAI官方所言,他們「並不唯學曆論,更看重實際潛力與技能」。
無論通過哪條路徑,關鍵在於
拿出過硬的成果
(無論是論文、代碼還是項目)並產生
實質影響力
。